📚 Пора стать профи в аналитике

Выбирайте курсы со скидками до 60% и получите мощный набор навыков и инструментов

раздел Курсы и обучение

Инженер данных DWH в Вертикали

Зарплата

≈ 229 364 ₽

Местоположение и тип занятости

Москва, Санкт-Петербург

Компания

Компания, которая развивает самую популярную в России поисковую систему и десятки других сервисов

Описание вакансии

Яндекс Вертикали — это пять крупных продуктов: сервисы Путешествия, Авто.ру, Авто.ру Бизнес, Недвижимость и Аренда.

Наша команда разработки аналитической инфраструктуры занимается полным циклом обработки данных в компании. Цикл включает сбор, хранение, валидацию и комбинирование всех знаний о бизнесе. Ключевое направление нашей деятельности — аналитическое хранилище данных (DWH), которое мы строим для нужд бизнес-подразделений. Наши пользователи — это и продуктовые команды, которым нужна регулярная отчётность для принятия решений, и эксперты в области глубокого анализа данных.

Технологически ядро хранилища построено на системах хранения данных Yandex Tables (кластер MapReduce собственной разработки), СlickHouse и PostgreSQL. Для разработки, оркестрации и мониторинга ETL-процессов используется собственный фреймворк, который разработан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются различные методологии проектирования хранилищ данных: Lambda-архитектура, Data Lake, Data Vault.

Какие задачи вас ждут

  • Разрабатывать и сопровождать ETL-процессы поставки данных
  • Проектировать структуру хранения данных в разных слоях хранилища
  • Выявлять и оптимизировать неэффективные участки в процессах поставки данных
  • Погружаться в данные одной или нескольких прикладных бизнес-областей и становиться в них экспертом

Мы ждем, что вы

  • Разбираетесь в SQL на уровне эксперта
  • Занимались промышленной разработкой на одном из языков высокого уровня: Python, Go, Java и т. д.
  • Понимаете устройство и архитектуру реляционных баз данных
  • Проектировали DWH: слои, модели хранения данных, ETL-процессы
  • Разрабатывали ETL-процессы на Apache Airflow
  • Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
  • Настраивали поставки данных по API

Будет плюсом, если вы

  • Понимаете принципы работы технологий распределённой обработки данных: Hadoop, MapReduce и MPP
  • Пользовались хотя бы одной MPP-СУБД: Greenplum, ClickHouse, Vertica, Teradata и т. д.
  • Работали с брокерами сообщений: Kafka, RabbitMQ и т. д.
  • Умеете работать в командной строке *nix-систем: Linux и macOS

Что мы предлагаем

  • возможность выбрать место работы: в офисе в Москве (БЦ «Аврора», ст. м. «Павелецкая»), Санкт-Петербурге (БЦ «Бенуа», Калининский район) на гибридный формат работы (2-3 дня в неделю в офисе);
  • оклад и премии по итогам работы;
  • профессиональная команда, у которой можно многому научиться и перенять опыт;
  • понятный путь карьерного роста и тренинги;
  • расширенная программа ДМС: стоматология, обследования, вызов врача на дом;
  • корпоративная мобильная связь, мощный рабочий ноутбук;
  • компенсация оплаты питания на территории офиса и в его окрестностях;
  • современный офис, где есть всё необходимое для комфортной работы и отдыха;
  • культура открытости и взаимопомощи;
  • высокая скорость работы и возможность быстро увидеть свой вклад и результаты.