Zapraszamy do dołączenia do naszego zespołu Lead MLOpsZadania:Przekształcanie rozwoju DS w niezawodne usługi o przewidywalnej wydajności, przejrzystym monitorowaniu i bezpiecznych wersjach (na poziomie centralnym i brzegowym).Obszary obszarów działania odpowiedzialność: Platforma ML: rejestr artefaktów/modeli, zasady wersji/dostępu, szablony usług; CI/CD dla modeli: testy danych/modeli, kanarek/niebiesko-zielony/cień, wycofywanie, flagi funkcji; Obserwowalność: jakość/dryft/stabilność, opóźnieni
Zapraszamy do dołączenia do naszego zespołu Lead MLOps
Zadania:
Przekształcanie rozwoju DS w niezawodne usługi o przewidywalnej wydajności, przejrzystym monitorowaniu i bezpiecznych wersjach (na poziomie centralnym i brzegowym).
Obszary obszarów działania odpowiedzialność:
- Platforma ML: rejestr artefaktów/modeli, zasady wersji/dostępu, szablony usług;
- CI/CD dla modeli: testy danych/modeli, kanarek/niebiesko-zielony/cień, wycofywanie, flagi funkcji;
- Obserwowalność: jakość/dryft/stabilność, opóźnienie p95/zasoby, incydenty, pętle informacji zwrotnej w szkoleniu;
- Bezpieczeństwo: sekrety/IAM/RBAC, audyt wnioskowania, zarządzanie konfiguracją, zasady sieciowe/wejście;
- Scenariusze brzegowe: synchronizacja modeli/cache, odporność na awarie/przestoje, telemetria;
- Planowanie wydajności CPU/GPU, budżety błędów w okresach szczytu (wieczory/piątki);
- Automatyczne odtwarzanie dzienników wniosków na potrzeby audytu/ponownego szkolenia; aktualizacje bez przestojów;
Przykłady OKR:
- Czas działania usług ML 99,5%; opóźnienie p95 <150 ms na ścieżkach krytycznych;
- Model TtM od zatwierdzenia do produkcji <30 min; 95% wydań – bez przestojów;
- Automatyczne wykrywanie dryfu danych/modelu z częstotliwością 24 godzin;
Wymagania (niezbędne):
- ponad 5 lat w MLOps/SRE/DevOps; przemysłowe wykorzystanie lokalnych usług uczenia maszynowego;
- Dogłębne zrozumienie cyklu życia modeli, ryzyka i obserwowalności;
- Pewna znajomość Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
- Doświadczenie produkcyjne z MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe lub Seldon Core;
- Monitorowanie/logowanie: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
- Bezpieczeństwo/konfiguracje: Vault/Sealed Secrets, Keycloak (IAM), zasady CNI, ingres (Traefik/Kong/Nginx);
- Automatyzacja testów danych/modeli, zarządzanie incydentami, runbooks.
Będzie plusem:
- Wnioskowanie o krawędzi w handlu detalicznym (POS/SCO/wideo/planogramy); Profilowanie GPU, TensorRT/kwantyzacja/polityka wsadowa;
- Modele wielowersyjne z szybkim przewijaniem do przodu/do tyłu; planowanie uwzględniające koszty/energię;
- Praktyka świadomego planowania zasobów i efektywności energetycznej;
Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; Jakość ML - Ewidentnie/dlaczego.
Bezpieczeństwo: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), zasady CNI, kontrolerzy ruchu przychodzącego.Firma oferuje:
- forma zdalna lub hybrydowat pracy;
- zatrudnienie na umowę zlecenie lub w państwie (możliwa rezerwacja);
- płatny urlop wypoczynkowy w wymiarze 24 dni kalendarzowych, płatne zwolnienie lekarskie;
- regularna wypłata wynagrodzeń bez opóźnień i w kwotach, regularna kontrola wynagrodzeń;
- możliwość rozwoju zawodowego i kariery;
- szkolenia.
Osoba kontaktowa: Kateryna, tel. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)