Go Platform Engineer / SRE Platform Engineer
Требования
Местоположение и тип занятости
Компания
Место встречи лучших
Описание вакансии
DevPlatform — это внутренняя платформа, которая помогает десяткам команд разрабатывать, тестировать, деплоить и сопровождать сервисы быстрее, надёжнее и безопаснее.
SRE Platform — ключевой слой платформы, предоставляющий инженерным командам готовые решения для observability, alerting, SLO, отказоустойчивости, incident-response и postmortem-практик.
Мы ищем инженера, который поможет построить платформу надёжности как сервис: с готовыми интеграциями, безопасными стандартами и минимальными точками входа для разработчиков.
Что предлагаем:
- Участие в создании ключевого компонента платформы, влияющего на всю инженерную культуру
- Возможность влиять на стандарты качества и тулинг всей компании
- Доступ к современным инструментам DevEx, возможность R&D и внедрения лучших практик из BigTech
- Работа в команде опытных Platform Engineers
- Конкурентная компенсация, гибкий график, конференции и обучение за счёт компании
Как работаем:
- В конце каждого квартала планируем работы на следующие три месяца
- Двухнедельные спринты с планированием
- Много автоматизации и мало бюрократии. Все вопросы можем решить внутри департамента
Задачи
- Проектировать и развивать SRE-платформу: инструменты и сервисы, повышающие надёжность систем
- Встраивать в IDP best practices: observability by default, alerting as code, runbooks, SLO/SLA/SLI
- Разрабатывать библиотеки, CLI-инструменты и UI-интеграции
- Создавать шаблоны, конфигураторы и SDK для быстрого подключения observability к сервису
- Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
- Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets
- Создавать инфраструктуру для инцидентов: alert routing, on-call tooling, статус-платформы
Требования
- Уверенный опыт в SRE/Platform/DevOps роли
- Знание принципов SRE: SLO/SLI, error budgets, incident management
- Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK, Datadog)
- Умение писать автоматизацию и tooling на Go
- Глубокое понимание CI/CD, observability pipelines, alert routing и remediation
Будет плюсом
- Опыт внедрения observability-as-code и alerting-as-code
- Умение строить внутренние платформы или developer tooling