Go Platform Engineer / SRE Platform Engineer

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Место встречи лучших

Описание вакансии

DevPlatform — это внутренняя платформа, которая помогает десяткам команд разрабатывать, тестировать, деплоить и сопровождать сервисы быстрее, надёжнее и безопаснее.

SRE Platform — ключевой слой платформы, предоставляющий инженерным командам готовые решения для observability, alerting, SLO, отказоустойчивости, incident-response и postmortem-практик.

Мы ищем инженера, который поможет построить платформу надёжности как сервис: с готовыми интеграциями, безопасными стандартами и минимальными точками входа для разработчиков.

Что предлагаем:

  • Участие в создании ключевого компонента платформы, влияющего на всю инженерную культуру
  • Возможность влиять на стандарты качества и тулинг всей компании
  • Доступ к современным инструментам DevEx, возможность R&D и внедрения лучших практик из BigTech
  • Работа в команде опытных Platform Engineers
  • Конкурентная компенсация, гибкий график, конференции и обучение за счёт компании

Как работаем:

  • В конце каждого квартала планируем работы на следующие три месяца
  • Двухнедельные спринты с планированием
  • Много автоматизации и мало бюрократии. Все вопросы можем решить внутри департамента

Задачи

  • Проектировать и развивать SRE-платформу: инструменты и сервисы, повышающие надёжность систем
  • Встраивать в IDP best practices: observability by default, alerting as code, runbooks, SLO/SLA/SLI
  • Разрабатывать библиотеки, CLI-инструменты и UI-интеграции
  • Создавать шаблоны, конфигураторы и SDK для быстрого подключения observability к сервису
  • Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
  • Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets
  • Создавать инфраструктуру для инцидентов: alert routing, on-call tooling, статус-платформы

Требования

  • Уверенный опыт в SRE/Platform/DevOps роли
  • Знание принципов SRE: SLO/SLI, error budgets, incident management
  • Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK, Datadog)
  • Умение писать автоматизацию и tooling на Go
  • Глубокое понимание CI/CD, observability pipelines, alert routing и remediation

Будет плюсом

  • Опыт внедрения observability-as-code и alerting-as-code
  • Умение строить внутренние платформы или developer tooling