Приглашаем вас присоединиться к нашей команде. Руководитель MLOpsОбязанности:Превратить разработку DS в надежные услуги с предсказуемой производительностью, прозрачным мониторингом и безопасными выпусками (центральный и периферийный уровни).Области ответственность: ML-платформа: реестр артефактов/моделей, политики версий/доступа, шаблоны сервисов; CI/CD для моделей: тесты данных/моделей, канареечные/сине-зеленые/теневые, откат, флаги функций; Наблюдаемость: качество/дрейф/стабильность, задержка
Приглашаем вас присоединиться к нашей команде. Руководитель MLOps
Обязанности:
Превратить разработку DS в надежные услуги с предсказуемой производительностью, прозрачным мониторингом и безопасными выпусками (центральный и периферийный уровни).
Области ответственность:
- ML-платформа: реестр артефактов/моделей, политики версий/доступа, шаблоны сервисов;
- CI/CD для моделей: тесты данных/моделей, канареечные/сине-зеленые/теневые, откат, флаги функций;
- Наблюдаемость: качество/дрейф/стабильность, задержка p95/ресурсы, инциденты, петли обратной связи в обучении;
- Безопасность: секреты/IAM/RBAC, аудит вывода, управление конфигурациями, сетевые политики/вход;
- Edge-сценарии: синхронизация моделей/кэшей, устойчивость к сбоям/отключениям, телеметрия;
- Планирование мощности ЦП/ГП, бюджеты ошибок для пиковых окон (вечер/пятница);
- Автоматическое воспроизведение журналов вывода для аудита/переобучения; обновления без простоев;
Примеры OKR:
- Аптайм ML-сервисов 99,5%; задержка p95 <150 мс на критических путях;
- Модель TtM от утверждения до производства <30 мин; 95% релизов — без простоев;
- Автоматическое обнаружение отклонения данных/модели с периодичностью 24 часа;
Требования (обязательные):
- 5+ лет работы в MLOps/SRE/DevOps; промышленная эксплуатация ML-сервисов on-prem;
- Глубокое понимание жизненного цикла моделей, рисков и наблюдаемости;
- Уверенное знание Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
- Опыт работы с реестром/обслуживанием MLflow, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe или Seldon Core;
- Мониторинг/ведение журнала: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
- Безопасность/конфигурации: Vault/Sealed Secrets, Keycloak (IAM), политики CNI, вход (Traefik/Kong/Nginx);
- Автоматизация тестов данных/моделей, управление инцидентами, Runbook.
Будет плюсом:
- Edge Inference в розничной торговле (POS/SCO/видео/планограммы); GPU-профилирование, TensorRT/quantization/batch-policy;
- Многоверсионные модели с быстрым откатом вперед/назад; планирование с учетом затрат/энергии;
- Практика планирования ресурсов и энергоэффективности с учетом затрат;
Прометей, Графана, Локи, Alertmanager, OpenTelemetry; Качество машинного обучения — очевидно/whylogs.
Безопасность: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), политики CNI, контроллеры входящего трафика.Компания предлагает:
- удаленная или гибридная формат работы;
- трудоустройство на условиях подработки или в штате (возможно бронирование);
- оплачиваемый ежегодный отпуск продолжительностью 24 календарных дня, оплачиваемый больничный;
- регулярная выплата заработной платы без задержек и в объемах, регулярный пересмотр заработной платы;
- возможность профессионального и карьерного роста;
- курсы повышения квалификации.
Контактное лицо: Екатерина, тел. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)