Data Scientist/ML-инженер (OCR)

2 октября

Требования

Ученый по данным, Средний (Middle) • Машинное обучение • Компьютерное зрение • Обработка естественного языка

Местоположение и тип занятости

• Полный рабочий день • Можно удаленно

Компания

ИНГОССТРАХ

Ведущая российская страховая компания

Описание вакансии

Мы - Центр развития искусственного интеллекта Ингосстраха. Развиваем продукты в области рисков, customer-relations, компьютерного зрения и обработки естественного языка.

В данный мы делаем сервис, который умеет понимать документы так, как это делает человек: видеть, читать, извлекать смысл, замечать аномалии.
Работаем на реальных кейсах — не модель ради модели, а под конкретные задачи: юридические документы, формы, медицинские заключения, распознавание подделок. Используем всё, что даёт результат — от U-Net и TrOCR до Qwen-VL и мультимодальных LoRA.
У нас нет разделения на "data scientist vs backend" — тот, кто обучает модель, внедряет её сам.

Мы ищем Data Scientist/ML-инженера, который будет разрабатывать и внедрять собственные модели для OCR и интеллектуальной обработки документов. Работа на стыке CV и NLP: классификация, image detection, DocQA, Visual DocQA, извлечение информации из сканов/фотографий или текстовых документов.

Задачи:

Разработка моделей для обработки документов: OCR, NER, DocQA, парсинг структуры документа (layout detection);
R&D новых подходов, проверка гипотез;
Создание моделей распознавания подделок и фотоманипуляций (Image Forgery/Tampering Detection);
Создание синтетических данных;
Использование и адаптация современных CV и NLP SOTA-моделей;
Обработка разнородных документов (сканы, фото, PDF, таблицы, формы), включая структурированные и неструктурированные;
Построение end-to-end пайплайна: raw документ → JSON;
Внедрение моделей в сервис: пайплайны, API, batch-инференс, ускорение и поддержка.

Требования:

Опыт работы от 2х лет по направлению разработки моделей CV и NLP;
Знание ООП, работа с классами;
Знание PyTorch, transformers;
Опыт работы с YOLO;
Опыт работы с VLM/LLM;
Опыт применения prompt tuning / LoRA / PEFT к VLM/LLM.
Умение дообучения моделей.

Будет плюсом:

Опыт разработки OCR-решений;
Опыт работы с multiprocessing, multithreading;
Опыт работы с: asyncio (FastAPI, FastStream), Pydantic, Gradio/Streamlit, Vault, Redis, kafka, Grafana/Kibana, Docker/Podman + compose.

Стек:

Фреймворки: PyTorch, Transformers, peft, vllm;
Модели: U-Net, YOLO, Donut, TrOCR, Qwen, Qwen-VL, Mistral;
Сервис: asyncio (FastAPI/FastStream), Pydantic, Gradio/Streamlit.

Мы предлагаем:

Оформление по ТК РФ, полностью белую заработную плату (оклад + премии);
График 5/2, гибкое начало дня (в промежутке с 08:00 до 10:00);
Гибридный (г. Москва) или полностью удаленный формат работы (на территории РФ);
ДМС после испытательного срока;
Подписку Добросервис (неограниченное количество консультаций у высококвалифицированных психологов);
Платформу дистанционного обучения IngoStudy (возможность проходить курсы для прокачки soft и hard скиллов) + внешние обучения по согласованию с руководителем;
Корпоративную сотовую связь;
Льготные страховые продукты (страхование имущества физ.лиц, автотранспорта (Каско), страхование выезжающих за рубеж, страхование ипотеки, страхование от несчастных случаев и болезней);
Скидки на обслуживание и ремонт автомобилей;
Корпоративные предложения от сети фитнес-клубов: World Class, World Class Lite и UFC GYM;
Активную корпоративную жизнь со спортивными секциями: бег, волейбол, йога и др.;
Участие в разных благотворительных и экологических акциях, форумах, марафонах;
Зарплатный проект от АО Инго Банка: повышенный кешбэк бонусами, льготы по кредитам, ипотеке, рефинансированию, выгодные ставки по вкладам, накопительным счетам.

Смотреть ещё вакансии

Специалист по внедрению ПО

320

Data Scientist

Data Scientist удаленно

Data Scientist на полный рабочий день удаленно

Специалист по внедрению ПО на полный рабочий день

255

Data Scientist на полный рабочий день