Data Scientist/ML-инженер (OCR)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Мы - Центр развития искусственного интеллекта Ингосстраха. Развиваем продукты в области рисков, customer-relations, компьютерного зрения и обработки естественного языка.
В данный мы делаем сервис, который умеет понимать документы так, как это делает человек: видеть, читать, извлекать смысл, замечать аномалии.
Работаем на реальных кейсах — не модель ради модели, а под конкретные задачи: юридические документы, формы, медицинские заключения, распознавание подделок. Используем всё, что даёт результат — от U-Net и TrOCR до Qwen-VL и мультимодальных LoRA.
У нас нет разделения на "data scientist vs backend" — тот, кто обучает модель, внедряет её сам.
Мы ищем Data Scientist/ML-инженера, который будет разрабатывать и внедрять собственные модели для OCR и интеллектуальной обработки документов. Работа на стыке CV и NLP: классификация, image detection, DocQA, Visual DocQA, извлечение информации из сканов/фотографий или текстовых документов.
Задачи:
- Разработка моделей для обработки документов: OCR, NER, DocQA, парсинг структуры документа (layout detection);
- R&D новых подходов, проверка гипотез;
- Создание моделей распознавания подделок и фотоманипуляций (Image Forgery/Tampering Detection);
- Создание синтетических данных;
- Использование и адаптация современных CV и NLP SOTA-моделей;
- Обработка разнородных документов (сканы, фото, PDF, таблицы, формы), включая структурированные и неструктурированные;
- Построение end-to-end пайплайна: raw документ → JSON;
- Внедрение моделей в сервис: пайплайны, API, batch-инференс, ускорение и поддержка.
Требования:
- Опыт работы от 2х лет по направлению разработки моделей CV и NLP;
- Знание ООП, работа с классами;
- Знание PyTorch, transformers;
- Опыт работы с YOLO;
- Опыт работы с VLM/LLM;
- Опыт применения prompt tuning / LoRA / PEFT к VLM/LLM.
- Умение дообучения моделей.
Будет плюсом:
- Опыт разработки OCR-решений;
- Опыт работы с multiprocessing, multithreading;
- Опыт работы с: asyncio (FastAPI, FastStream), Pydantic, Gradio/Streamlit, Vault, Redis, kafka, Grafana/Kibana, Docker/Podman + compose.
Стек:
- Фреймворки: PyTorch, Transformers, peft, vllm;
- Модели: U-Net, YOLO, Donut, TrOCR, Qwen, Qwen-VL, Mistral;
- Сервис: asyncio (FastAPI/FastStream), Pydantic, Gradio/Streamlit.
Мы предлагаем:
- Оформление по ТК РФ, полностью белую заработную плату (оклад + премии);
- График 5/2, гибкое начало дня (в промежутке с 08:00 до 10:00);
- Гибридный (г. Москва) или полностью удаленный формат работы (на территории РФ);
- ДМС после испытательного срока;
- Подписку Добросервис (неограниченное количество консультаций у высококвалифицированных психологов);
- Платформу дистанционного обучения IngoStudy (возможность проходить курсы для прокачки soft и hard скиллов) + внешние обучения по согласованию с руководителем;
- Корпоративную сотовую связь;
- Льготные страховые продукты (страхование имущества физ.лиц, автотранспорта (Каско), страхование выезжающих за рубеж, страхование ипотеки, страхование от несчастных случаев и болезней);
- Скидки на обслуживание и ремонт автомобилей;
- Корпоративные предложения от сети фитнес-клубов: World Class, World Class Lite и UFC GYM;
- Активную корпоративную жизнь со спортивными секциями: бег, волейбол, йога и др.;
- Участие в разных благотворительных и экологических акциях, форумах, марафонах;
- Зарплатный проект от АО Инго Банка: повышенный кешбэк бонусами, льготы по кредитам, ипотеке, рефинансированию, выгодные ставки по вкладам, накопительным счетам.