Leitender MLOps-Spezialist in ATB-market

Gepostet vor über 30 Tagen

71 Ansichten

ATB-market

0 Bewertungen

keine Erfahrung

Charkiw

Vollzeitarbeit

übersetzt von Google

Wir laden Sie ein, unserem Team Lead MLOps beizutretenAufgaben:Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).Bereiche von Verantwortung: ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen; CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags; Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Re

Wir laden Sie ein, unserem Team Lead MLOps beizutreten

Aufgaben:

Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).

Bereiche von Verantwortung:

ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen;
CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags;
Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Ressourcen, Vorfälle, Feedbackschleifen im Training;
Sicherheit: Geheimnisse/IAM/RBAC, Inferenzprüfung, Konfigurationsverwaltung, Netzwerkrichtlinien/Eingang;
Edge-Szenarien: Synchronisierung von Modellen/Caches, Widerstandsfähigkeit gegen Ausfälle/Ausfälle, Telemetrie;
CPU/GPU-Kapazitätsplanung, Fehlerbudgets für Spitzenfenster (abends/freitags);
Automatisierte Wiedergabe von Inferenzprotokollen für Audit/Neuschulung; Updates ohne Ausfallzeiten;

OKR-Beispiele:

Verfügbarkeit von ML-Diensten 99,5 %; p95-Latenz <150 ms auf kritischen Pfaden;
TtM-Modell von der Genehmigung bis zur Produktion <30 Min.; 95 % der Releases – ohne Ausfallzeiten;
Automatische Erkennung von Daten-/Modelldrift mit einer Häufigkeit von 24 Stunden;

Anforderungen (Muss):

5+ Jahre in MLOps/SRE/DevOps; Industrielle Nutzung von ML-Diensten vor Ort;
Tiefes Verständnis des Lebenszyklus von Modellen, Risiken und Beobachtbarkeit;
Sichere Kenntnisse von Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI;
Produktionserfahrung mit MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe oder Seldon Core;
Überwachung/Protokollierung: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry;
Sicherheit/Konfigurationen: Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress (Traefik/Kong/Nginx);
Automatisierung von Daten-/Modelltests, Vorfallmanagement, Runbooks.

Wird ein Plus sein:

Edge-Inferenz im Einzelhandel (POS/SCO/Video/Planogramme); GPU-Profiling, TensorRT/Quantization/Batch-Policy;
Multiversionsmodelle mit schnellem Roll-Forward/Back; kosten-/energiebewusste Planung;
Praxis der kostenbewussten Planung von Ressourcen und Energieeffizienz;

Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-Qualität – Evidently/whylogs.

Sicherheit: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress-Controller.

Das Unternehmen bietet:

Remote- oder Hybridformt Arbeit;
Anstellung im Rahmen eines Gig-Vertrags oder im Staat (Reservierung möglich);
bezahlter Jahresurlaub von 24 Kalendertagen, bezahlter Krankenurlaub;
regelmäßige Lohnauszahlung ohne Verzögerungen und in Mengen, regelmäßige Gehaltsüberprüfung;
Möglichkeit zur beruflichen und beruflichen Weiterentwicklung;
Schulungskurse.

Kontaktperson: Kateryna, Tel. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)

übersetzt von Google

keine Erfahrung

Charkiw

Vollzeitarbeit

Wollen Sie den richtigen Job finden?

Neue Jobs in deinem Telegram
Abonnieren

Anteil:

Einführung des "Keine Einstellungsgebühr"-Pakets!

Leitender MLOps-Spezialist in ATB-market