Poszukujemy zespołu Data Platform/Data Infrastructure Engineer odpowiedzialnego za budowę i rozwój nowoczesnej platformy danych. Rola ta obejmuje pracę z infrastrukturą AWS, Data Lake opartą na S3, CDC, streamingiem i Kubernetesem w środowisku produkcyjnym. Będziesz miał bezpośredni wpływ na jakość, niezawodność i skalowalność danych, z którymi współpracuje analityka, produkt i firma.Stos technologii:Konteneryzacja i orkiestracja
Doker, kontener
Kubernetes (AWS EKS).
AWS i infrastruktura danych
Poszukujemy zespołu
Data Platform/Data Infrastructure Engineer odpowiedzialnego za budowę i rozwój nowoczesnej platformy danych. Rola ta obejmuje pracę z infrastrukturą AWS, Data Lake opartą na S3, CDC, streamingiem i Kubernetesem w środowisku produkcyjnym.
Będziesz miał bezpośredni wpływ na jakość, niezawodność i skalowalność danych, z którymi współpracuje analityka, produkt i firma.
Stos technologii:Konteneryzacja i orkiestracja
- Doker, kontener
- Kubernetes (AWS EKS).
AWS i infrastruktura danych
- S3 (Data Lake / pamięć masowa DWH)
- EC2, VPC, ASG, ALB
- RDS (PostgreSQL, MySQL)
- Przesunięcie ku czerwieni Amazona
- Amazonka
- Klej AWS.
Formaty Data Lake i tabel
- Apache Iceberg (tabele oparte na S3)
- Podział, ewolucja schematu, zasady cyklu życia.
Pozyskiwanie danych, CDC i ETL
- Ropociągi ETL/ELT
- Airbyte (przetwarzanie zbiorcze)
- CDC i pobieranie przyrostowe
- Debezium (CDC z PostgreSQL/MySQL)
- Kafka (AWS MSK)
- S3 jako miejsce docelowe / surowe / wyselekcjonowane.
Infrastruktura jako kod i GitOps
- Terraforma
- AWS CloudFormation (wsparcie)
- Działania na GitHubie
- ArgoCD, Helm.
Monitorowanie, rejestrowanie i bezpieczeństwo
- Prometeusz, Grafana
- ELK / Loki
- AWS CloudWatch
- IAM, menedżer sekretów AWS
- AWS GuardDuty, inspektor AWS.
Zadania i obszar odpowiedzialności:
- Budowanie i rozwijanie Data Lake/DWH opartego na S3
- Praca z Atheną, Glue i Redshift
- Wdrożenie i wsparcie Apache Iceberg
- Zapewnienie skalowalności, niezawodności i odporności na awarie platformy danych
- Kontrola jakości danych, ewolucja schematu, partycjonowanie.
ETL/ELT i przetwarzanie
- Rozwój i wsparcie rurociągów ETL / ELT
- Integracja źródeł danych poprzez Airbyte
- Praca z CDC i pobieraniem przyrostowym
- Orkiestracja zadań związanych z danymi w Kubernetes.
CDC i streaming
- Budowanie potoków CDC w oparciu o Debezium
- Obsługa Kafki (AWS MSK)
- Integracja danych strumieniowych z S3 / Iceberg / DWH
- Kontrola opóźnień, ponownych prób i spójności danych.
Infrastruktura i Kubernetes
- Obsługa klastrów Kubernetes (AWS EKS)
- Wdrażanie usług ETL, CDC i przesyłania strumieniowego
- Automatyzacja infrastruktury poprzez Terraform i Helm
- Podejście GitOps do wydań (ArgoCD).
CI/CD i automatyzacja
- Tworzenie i utrzymywanie CI/CD dla komponentów danych i infrastruktury
- Automatyzacja wdrożeń, migracji i aktualizacji
- Standaryzacja potoków i szablonów.
Bazy danych
- Administracja PostgreSQL i MySQL RDS
- Replikacja, optymalizacja wydajności, zarządzanie użytkownikami
- Przygotowanie bazy danych dla CDC (replikacja logiczna, uprawnienia)
- Kopie zapasowe ti odzyskiwanie (migawki, PITR).
Obserwowalność i stabilność
- Monitorowanie procesów ETL/CDC/streamingu
- Tworzenie alertów dla potoków danych
- Analiza incydentów i problemów z wydajnością.
FinOps
- Optymalizacja wydatków na S3, Athena, Glue, Redshift
- Kontrola rozwoju pamięci masowej i zasady cyklu życia
- Optymalizacja zapytań, układ plików i partycjonowanie
- Korzystanie z instancji Spot i planów oszczędnościowych.
Twoje pochodzenie:
- Ponad 3 lata doświadczenia na stanowiskach DevOps / Data Platform / SRE
- Solidna znajomość AWS
- Doświadczenie w tworzeniu lub utrzymywaniu jeziora danych/hurtowni danych
- Praktyczne doświadczenie z Terraform
- Kubernetes (AWS EKS) w wersji produkcyjnej
- Zrozumienie procesów ETL/ELT
- Doświadczenie z Atheną / Klejem / Redshiftem
- Praktyczne doświadczenie lub głębokie zrozumienie CDC i Debezium
- Zrozumienie Apache Iceberg i nowoczesnych formatów tabel
- Doświadczenie w administracji PostgreSQL i MySQL
- Doświadczenie z Kafką (AWS MSK)
- Doświadczenie w monitorowaniu i logowaniu.
Będzie plusem:
- Dogłębne doświadczenie z Apache Iceberg
- Optymalizacja Atheny (partycjonowanie, rozmiar pliku, koszt)
- Budowanie od końca do końca CDC (DB > Debezium > Kafka > S3 / Iceberg)
- Zrozumienie zarządzania danymi i jakości danych
- Praca z dużymi ilościami danych (TB+)
- Praktyczne doświadczenie w zakresie FinOps w zakresie platform danych.
Co oferujemy:
- Praca z wielkoskalową platformą danych i prawdziwym obciążeniem produkcyjnym
- Wpływ na rozwiązania architektoniczne i rozwój ekosystemu danych
- Udział w transformacji BI i infrastruktury danych
- Silny zespół techniczny i otwarta komunikacja
- Praca służbowa, urlopy i dni chorobowe
- Regularne informacje zwrotne i plan rozwoju zawodowego.