🎂 Экосистеме Хабра — 19 лет!

Исследуйте все эпохи IT в игре-музее ко дню рождения. Соберите 19 артефактов, получите звание Архивариуса Хабра 19000 и участвуйте в розыгрыше мерча от компаний, которые делают будущее вместе с вами.

Поздравить нас → 19.habr.com

Big Data Platform инженер

Местоположение и тип занятости

Санкт-ПетербургПолный рабочий день

Компания

Центральный банк Российской Федерации

Описание вакансии

О компании и команде

О нашем продукте

1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.

Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.

2. Мы делаем приложения на базе Единого хранилища данных.

Задачи:

  • консультирование заказчика с целью выбора инструментария Big Data экосистемы;
  • администрирование инструментария Big Data экосистемы;
  • оптимизация ETL-процедур обработки информационных массивов;
  • доработка/написание CI/CD-пайплайнов;
  • участие в развитие Big Data экосистемы;

Ожидания от кандидата

  • высшее техническое образование;
  • релевантный опыт не менее 3 лет;
  • знания по проектированию Хранилища данных;
  • знания современных тенденций и технологий Big Data (Hadoop, Spark, ClickHouse)
  • знания и практические навыки написания SQL-запросов, опыт оптимизации сложных запросов
  • опыт работы с одной из аналитических или реляционных СУБД: Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет
  • опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных
  • навык работы со средствами версионного контроля
  • знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
  • опыт оценки реализации требований
  • отличное знание Python, PyTorch, Transformers (Hugging Faces);
  • умение работать с документацией и ее разработка;
  • навыки коммуникации с заказчиками, подрядчиками, разработчиками;
  • кластеризация: Apache Hadoop (HDP, CDP);
  • контейнеризация: Docker Swarm, Kubernetes;
  • CI/CD: Ansible, Jenkins, Gitlab;
  • технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala;
  • IDE: JupyterLab., IntelliJ IDEA, VSCode;
  • ETL: Airflow;
  • языки программирования: Python, Scala.

Условия работы

  • гибридный режим работы (50% - удаленный формат);
  • релокационный пакет.