Big Data Platform инженер

3 июня

Требования

Инженер по данным, Старший (Senior) • SQL • Python • CI/CD • Kubernetes • Docker • Apache Hadoop • Oracle • Scala • Базы данных

Местоположение и тип занятости

Санкт-Петербург • Полный рабочий день

Компания

Банк России

Центральный банк Российской Федерации

Описание вакансии

О компании и команде

О нашем продукте

1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.

Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.

2. Мы делаем приложения на базе Единого хранилища данных.

Задачи:

консультирование заказчика с целью выбора инструментария Big Data экосистемы;
администрирование инструментария Big Data экосистемы;
оптимизация ETL-процедур обработки информационных массивов;
доработка/написание CI/CD-пайплайнов;
участие в развитие Big Data экосистемы;

Ожидания от кандидата

высшее техническое образование;
релевантный опыт не менее 3 лет;
знания по проектированию Хранилища данных;
знания современных тенденций и технологий Big Data (Hadoop, Spark, ClickHouse)
знания и практические навыки написания SQL-запросов, опыт оптимизации сложных запросов
опыт работы с одной из аналитических или реляционных СУБД: Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет
опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных
навык работы со средствами версионного контроля
знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
опыт оценки реализации требований
отличное знание Python, PyTorch, Transformers (Hugging Faces);
умение работать с документацией и ее разработка;
навыки коммуникации с заказчиками, подрядчиками, разработчиками;
кластеризация: Apache Hadoop (HDP, CDP);
контейнеризация: Docker Swarm, Kubernetes;
CI/CD: Ansible, Jenkins, Gitlab;
технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala;
IDE: JupyterLab., IntelliJ IDEA, VSCode;
ETL: Airflow;
языки программирования: Python, Scala.

Условия работы

гибридный режим работы (50% - удаленный формат);
релокационный пакет.

Смотреть ещё вакансии

Системный аналитик

255

Scala разработчик

Data Scientist

Системный аналитик в Санкт-Петербурге

Data Scientist в Санкт-Петербурге

Системный аналитик в Санкт-Петербурге на полный рабочий день

Системный аналитик на полный рабочий день

201

Scala разработчик на полный рабочий день

Data Scientist на полный рабочий день