🎂 Экосистеме Хабра — 19 лет!

Исследуйте все эпохи IT в игре-музее ко дню рождения. Соберите 19 артефактов, получите звание Архивариуса Хабра 19000 и участвуйте в розыгрыше мерча от компаний, которые делают будущее вместе с вами.

Поздравить нас → 19.habr.com

NLP engineer (GigaChat Pretrain Data)

Требования

NLP-инженерPythonNLPLLMReinforcement learning

Местоположение и тип занятости

МоскваПолный рабочий день

Компания

Крупнейшая цифровая платформа. Технобренд, объединяющий лучшие мировые практики и самый современный стек

Описание вакансии

О компании и команде

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Данных много. Очень много (40+ Пб сырого хаоса). Если хочется не просто тренировать модели, а работать с реально большими данными, то вот твой шанс

Ожидания от кандидата

  • выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
  • имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет.

Обязанности

  • чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback;
  • генерить синтетические данные;
  • разбираться с токенизацией;
  • кластеризовать данные;
  • писать дедупликацию на Rust;
  • оптимизировать MapReduce → Spark, тысячи ядер;
  • экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики.

Условия работы

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат работы (2 дня в офисе, 3 дня на удалёнке)
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • система обучения для профессионального и карьерного развития
  • расширенный полис ДМС с первого дня работы и страхование для семьи
  • льготная программа ипотеки для сотрудников
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.