Site Reliability Engineer (SRE)/ DevOps
Зарплата
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Команда развивает единую MLOps - экосистему банка.
Среда разработки моделей / пайплайны train и inference
Среда исполнения моделей и пайплайны доставки
Среда немодельных сервисов
Feature Store
AutoML
A/B тестирование
RAG и AI - агенты
Ожидания от кандидата
Опыт DevOps\SRE уровня BC/HA+ от 3х лет
Опыт администрирования Kubernetes и смежных кластерных систем
Опыт работы Hadoop, Spark, Kafka, ELK
Опыт управления командой от 1 года
Опыт выстраивания процесса сопровождения BC/HA+ систем
Понимание ML/MLOps-стека будет преимуществом
Чем предстоит заниматься:
Выстраивать и контролировать SRE процессы. Мониториг, алертинг, грамотное проведение регламентных работ, выстраивание целевого отношения к промышленной инфраструктуре уровня BC
Управлять командой системного сопровождения (3 линия инфры - 3 человека) и функционального сопровождения (2я линия - 2 человека)
Улучшать время реакции\решения задач на ФС и СС
Проактивное решение потенциальных инфраструктурных проблем
Самому погружаться в инфраструктуру, тем более в критичные задачи\инциденты
Условия работы
- Возможность профессионального и карьерного роста в компании, возможность поучаствовать в разных проектах;
- Опыт работы в распределенной команде профессионалов;
- Уровень заработной платы обсуждается индивидуально;
- Возможность работать удаленно по РФ.