Wir suchen ein Data Platform/Data Infrastructure Engineer-Team, das für den Aufbau und die Entwicklung einer modernen Datenplattform verantwortlich ist. Die Rolle umfasst die Arbeit mit AWS-Infrastruktur, S3-basiertem Data Lake, CDC, Streaming und Kubernetes in einer Produktionsumgebung. Sie haben direkten Einfluss auf die Qualität, Zuverlässigkeit und Skalierbarkeit der Daten, mit denen Analysen, Produkte und Unternehmen arbeiten.Technologie-Stack:Containerisierung und Orchestrierung
Docker, Co
Wir suchen ein
Data Platform/Data Infrastructure Engineer-Team, das für den Aufbau und die Entwicklung einer modernen Datenplattform verantwortlich ist. Die Rolle umfasst die Arbeit mit AWS-Infrastruktur, S3-basiertem Data Lake, CDC, Streaming und Kubernetes in einer Produktionsumgebung.
Sie haben direkten Einfluss auf die Qualität, Zuverlässigkeit und Skalierbarkeit der Daten, mit denen Analysen, Produkte und Unternehmen arbeiten.
Technologie-Stack:Containerisierung und Orchestrierung
- Docker, Containerd
- Kubernetes (AWS EKS).
AWS und Dateninfrastruktur
- S3 (Data Lake/DWH-Speicher)
- EC2, VPC, ASG, ALB
- RDS (PostgreSQL, MySQL)
- Amazon Redshift
- Amazonas Athena
- AWS-Kleber.
Data Lake- und Tabellenformate
- Apache Iceberg (S3-basierte Tabellen)
- Partitionierung, Schemaentwicklung, Lebenszyklusrichtlinien.
Datenaufnahme, CDC und ETL
- ETL-/ELT-Pipelines
- Airbyte (Batch-Aufnahme)
- CDC und inkrementelle Downloads
- Debezium (CDC mit PostgreSQL / MySQL)
- Kafka (AWS MSK)
- S3 als Landing-/Rohspeicher/kuratierter Speicher.
Infrastruktur als Code und GitOps
- Terraform
- AWS CloudFormation (Unterstützung)
- GitHub-Aktionen
- ArgoCD, Helm.
Überwachung, Protokollierung und Sicherheit
- Prometheus, Grafana
- ELK / Loki
- AWS CloudWatch
- IAM, AWS Secrets Manager
- AWS GuardDuty, AWS Inspector.
Aufgaben und Verantwortungsbereich:
- Aufbau und Entwicklung eines S3-basierten Data Lake/DWH
- Arbeiten mit Athena, Glue und Redshift
- Apache Iceberg-Implementierung und Support
- Sicherstellung der Skalierbarkeit, Zuverlässigkeit und Fehlertoleranz der Datenplattform
- Datenqualitätskontrolle, Schemaentwicklung, Partitionierung.
ETL / ELT und Einnahme
- Entwicklung und Support von ETL/ELT-Pipelines
- Einbindung von Datenquellen über Airbyte
- Arbeiten mit CDC und inkrementellen Downloads
- Orchestrierung von Datenjobs in Kubernetes.
CDC und Streaming
- Aufbau von CDC-Pipelines auf Basis von Debezium
- Kafka-Unterstützung (AWS MSK)
- Integration von Streaming-Daten aus S3 / Iceberg / DWH
- Kontrolle von Verzögerung, Wiederholungsversuchen und Datenkonsistenz.
Infrastruktur und Kubernetes
- Unterstützung für Kubernetes-Cluster (AWS EKS)
- Bereitstellung von ETL-, CDC- und Streaming-Diensten
- Infrastrukturautomatisierung durch Terraform und Helm
- GitOps-Ansatz für Veröffentlichungen (ArgoCD).
CI/CD und Automatisierung
- Erstellung und Pflege von CI/CD für Daten- und Infrastrukturkomponenten
- Automatisierung von Bereitstellungen, Migrationen und Upgrades
- Standardisierung von Pipelines und Vorlagen.
Datenbanken
- PostgreSQL- und MySQL-RDS-Verwaltung
- Replikation, Leistungsoptimierung, Benutzerverwaltung
- Datenbankvorbereitung für CDC (logische Replikation, Berechtigungen)
- Backups tund Wiederherstellung (Snapshots, PITR).
Beobachtbarkeit und Stabilität
- Überwachung von ETL-/CDC-/Streaming-Prozessen
- Erstellen von Warnungen für Datenpipelines
- Analyse von Vorfällen und Leistungsproblemen.
FinOps
- Kostenoptimierung für S3, Athena, Glue, Redshift
- Speicherwachstumskontrolle und Lebenszyklusrichtlinie
- Abfrageoptimierung, Dateilayout und Partitionierung
- Verwendung von Spot-Instances und Sparplänen.
Ihr Hintergrund:
- 3+ Jahre Erfahrung in DevOps-/Datenplattform-/SRE-Rollen
- Solide Kenntnisse von AWS
- Erfahrung im Aufbau oder der Wartung eines Data Lake/Data Warehouse
- Praxiserfahrung mit Terraform
- Kubernetes (AWS EKS) in der Produktion
- ETL-/ELT-Prozesse verstehen
- Erfahrung mit Athena / Glue / Redshift
- Praktische Erfahrung oder tiefes Verständnis von CDC und Debezium
- Apache Iceberg oder moderne Tabellenformate verstehen
- Erfahrung in der PostgreSQL- und MySQL-Administration
- Erfahrung mit Kafka (AWS MSK)
- Erfahrung mit Überwachung und Protokollierung.
Wird ein Plus sein:
- Umfangreiche Erfahrung mit Apache Iceberg
- Athena-Optimierung (Partitionierung, Dateigröße, Kosten)
- Aufbau von End-to-End-CDC (DB > Debezium > Kafka > S3 / Iceberg)
- Data Governance und Datenqualität verstehen
- Arbeiten mit großen Datenmengen (TB+)
- Praktische FinOps-Erfahrung für Datenplattformen.
Was wir bieten:
- Arbeiten mit einer großen Datenplattform und einer echten Produktionslast
- Auswirkungen auf architektonische Lösungen und die Entwicklung des Datenökosystems
- Beteiligung an der BI- und Daten-Infrastruktur-Transformation
- Starkes technisches Team und offene Kommunikation
- Offizielle Beschäftigung, Urlaub und Krankheitstage
- Regelmäßiges Feedback und beruflicher Entwicklungsplan.