Wir laden Sie ein, unserem Team Lead MLOps beizutretenAufgaben:Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).Bereiche von Verantwortung: ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen; CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags; Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Re
Wir laden Sie ein, unserem Team Lead MLOps beizutreten
Aufgaben:
Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).
Bereiche von Verantwortung:
- ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen;
- CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags;
- Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Ressourcen, Vorfälle, Feedbackschleifen im Training;
- Sicherheit: Geheimnisse/IAM/RBAC, Inferenzprüfung, Konfigurationsverwaltung, Netzwerkrichtlinien/Eingang;
- Edge-Szenarien: Synchronisierung von Modellen/Caches, Widerstandsfähigkeit gegen Ausfälle/Ausfälle, Telemetrie;
- CPU/GPU-Kapazitätsplanung, Fehlerbudgets für Spitzenfenster (abends/freitags);
- Automatisierte Wiedergabe von Inferenzprotokollen für Audit/Neuschulung; Updates ohne Ausfallzeiten;
OKR-Beispiele:
- Verfügbarkeit von ML-Diensten 99,5 %; p95-Latenz <150 ms auf kritischen Pfaden;
- TtM-Modell von der Genehmigung bis zur Produktion <30 Min.; 95 % der Releases – ohne Ausfallzeiten;
- Automatische Erkennung von Daten-/Modelldrift mit einer Häufigkeit von 24 Stunden;
Anforderungen (Muss):
- 5+ Jahre in MLOps/SRE/DevOps; Industrielle Nutzung von ML-Diensten vor Ort;
- Tiefes Verständnis des Lebenszyklus von Modellen, Risiken und Beobachtbarkeit;
- Sichere Kenntnisse von Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
- Produktionserfahrung mit MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe oder Seldon Core;
- Überwachung/Protokollierung: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
- Sicherheit/Konfigurationen: Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress (Traefik/Kong/Nginx);
- Automatisierung von Daten-/Modelltests, Vorfallmanagement, Runbooks.
Wird ein Plus sein:
- Edge-Inferenz im Einzelhandel (POS/SCO/Video/Planogramme); GPU-Profiling, TensorRT/Quantization/Batch-Policy;
- Multiversionsmodelle mit schnellem Roll-Forward/Back; kosten-/energiebewusste Planung;
- Praxis der kostenbewussten Planung von Ressourcen und Energieeffizienz;
Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-Qualität – Evidently/whylogs.
Sicherheit: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress-Controller.Das Unternehmen bietet:
- Remote- oder Hybridformt Arbeit;
- Anstellung im Rahmen eines Gig-Vertrags oder im Staat (Reservierung möglich);
- bezahlter Jahresurlaub von 24 Kalendertagen, bezahlter Krankenurlaub;
- regelmäßige Lohnauszahlung ohne Verzögerungen und in Mengen, regelmäßige Gehaltsüberprüfung;
- Möglichkeit zur beruflichen und beruflichen Weiterentwicklung;
- Schulungskurse.
Kontaktperson: Kateryna, Tel. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)