Nächste Arbeit

Leitender MLOps-Spezialist in ATB-market

Gepostet vor über 30 Tagen

71 Ansichten

ATB-market

ATB-market

0
0 Bewertungen
keine Erfahrung
Charkiw
Vollzeitarbeit

übersetzt von Google

Wir laden Sie ein, unserem Team Lead MLOps beizutretenAufgaben:Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).Bereiche von Verantwortung: ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen; CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags; Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Re

Wir laden Sie ein, unserem Team Lead MLOps beizutreten

Aufgaben:

Verwandeln Sie die DS-Entwicklung in zuverlässige Dienste mit vorhersehbarer Leistung, transparenter Überwachung und sicheren Releases (zentrale und Edge-Ebene).

Bereiche von Verantwortung: 

  • ML-Plattform: Registrierung von Artefakten/Modellen, Versions-/Zugriffsrichtlinien, Servicevorlagen; 
  • CI/CD für Modelle: Daten-/Modelltests, Canary/Blue-Green/Shadow, Rollback, Feature-Flags; 
  • Beobachtbarkeit: Qualität/Drift/Stabilität, p95-Latenz/Ressourcen, Vorfälle, Feedbackschleifen im Training; 
  • Sicherheit: Geheimnisse/IAM/RBAC, Inferenzprüfung, Konfigurationsverwaltung, Netzwerkrichtlinien/Eingang; 
  • Edge-Szenarien: Synchronisierung von Modellen/Caches, Widerstandsfähigkeit gegen Ausfälle/Ausfälle, Telemetrie; 
  • CPU/GPU-Kapazitätsplanung, Fehlerbudgets für Spitzenfenster (abends/freitags); 
  • Automatisierte Wiedergabe von Inferenzprotokollen für Audit/Neuschulung; Updates ohne Ausfallzeiten; 

OKR-Beispiele:

  1. Verfügbarkeit von ML-Diensten 99,5 %; p95-Latenz <150 ms auf kritischen Pfaden; 
  2. TtM-Modell von der Genehmigung bis zur Produktion <30 Min.; 95 % der Releases – ohne Ausfallzeiten; 
  3. Automatische Erkennung von Daten-/Modelldrift mit einer Häufigkeit von 24 Stunden; 

Anforderungen (Muss): 

  • 5+ Jahre in MLOps/SRE/DevOps; Industrielle Nutzung von ML-Diensten vor Ort;
  • Tiefes Verständnis des Lebenszyklus von Modellen, Risiken und Beobachtbarkeit; 
  • Sichere Kenntnisse von Kubernetes/OpenShift, Helm, Argo CD/Workflows, Terraform/Ansible, GitLab CI; 
  • Produktionserfahrung mit MLflow Registry/Serving, NVIDIA Triton, ONNX Runtime, FastAPI/gRPC, KServe oder Seldon Core; 
  • Überwachung/Protokollierung: Prometheus/Grafana/Loki, Alertmanager, Evidently/whylogs, OpenTelemetry; 
  • Sicherheit/Konfigurationen: Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress (Traefik/Kong/Nginx);
  • Automatisierung von Daten-/Modelltests, Vorfallmanagement, Runbooks.

Wird ein Plus sein:

  • Edge-Inferenz im Einzelhandel (POS/SCO/Video/Planogramme); GPU-Profiling, TensorRT/Quantization/Batch-Policy;
  • Multiversionsmodelle mit schnellem Roll-Forward/Back; kosten-/energiebewusste Planung;
  • Praxis der kostenbewussten Planung von Ressourcen und Energieeffizienz; 
Prometheus, Grafana, Loki, Alertmanager, OpenTelemetry; ML-Qualität – Evidently/whylogs.
  • Sicherheit: HashiCorp Vault/Sealed Secrets, Keycloak (IAM), CNI-Richtlinien, Ingress-Controller.
  • Das Unternehmen bietet:

    • Remote- oder Hybridformt Arbeit;
    • Anstellung im Rahmen eines Gig-Vertrags oder im Staat (Reservierung möglich);
    • bezahlter Jahresurlaub von 24 Kalendertagen, bezahlter Krankenurlaub;
    • regelmäßige Lohnauszahlung ohne Verzögerungen und in Mengen, regelmäßige Gehaltsüberprüfung;
    • Möglichkeit zur beruflichen und beruflichen Weiterentwicklung;
    • Schulungskurse.


    Kontaktperson: Kateryna, Tel. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)

    übersetzt von Google

    keine Erfahrung
    Charkiw
    Vollzeitarbeit
    Wollen Sie den richtigen Job finden?
    Neue Jobs in deinem Telegram
    Abonnieren
    wir verwenden cookies
    Akzeptieren