Go Platform Engineer / SRE Platform Engineer

17 октября

Требования

Бэкенд разработчик, Старший (Senior) • Golang • Linux • CI/CD • SRE

Местоположение и тип занятости

• Полный рабочий день • Можно удаленно

Компания

Место встречи лучших

Описание вакансии

DevPlatform — это внутренняя платформа, которая помогает десяткам команд разрабатывать, тестировать, деплоить и сопровождать сервисы быстрее, надёжнее и безопаснее.

SRE Platform — ключевой слой платформы, предоставляющий инженерным командам готовые решения для observability, alerting, SLO, отказоустойчивости, incident-response и postmortem-практик.

Мы ищем инженера, который поможет построить платформу надёжности как сервис: с готовыми интеграциями, безопасными стандартами и минимальными точками входа для разработчиков.

Что предлагаем:

Участие в создании ключевого компонента платформы, влияющего на всю инженерную культуру
Возможность влиять на стандарты качества и тулинг всей компании
Доступ к современным инструментам DevEx, возможность R&D и внедрения лучших практик из BigTech
Работа в команде опытных Platform Engineers
Конкурентная компенсация, гибкий график, конференции и обучение за счёт компании

Как работаем:

В конце каждого квартала планируем работы на следующие три месяца
Двухнедельные спринты с планированием
Много автоматизации и мало бюрократии. Все вопросы можем решить внутри департамента

Задачи

Проектировать и развивать SRE-платформу: инструменты и сервисы, повышающие надёжность систем
Встраивать в IDP best practices: observability by default, alerting as code, runbooks, SLO/SLA/SLI
Разрабатывать библиотеки, CLI-инструменты и UI-интеграции
Создавать шаблоны, конфигураторы и SDK для быстрого подключения observability к сервису
Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets
Создавать инфраструктуру для инцидентов: alert routing, on-call tooling, статус-платформы

Требования

Уверенный опыт в SRE/Platform/DevOps роли
Знание принципов SRE: SLO/SLI, error budgets, incident management
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK, Datadog)
Умение писать автоматизацию и tooling на Go
Глубокое понимание CI/CD, observability pipelines, alert routing и remediation