13 sierpnia 2024
Inżynier danych Київ, Вроцлав (Польща) Stos technologii projektu: AWS, Python, Scala, Apache Spark, Spark Streaming, Kafka, Elastic MapReduce, Redshift, Spectrum, Athena, MySQL. Informacje o stanowisku: Poszukujemy wysoko wykwalifikowanego inżyniera danych, który dołączy do naszego innowacyjnego zespołu. Idealny kandydat będzie miał duże doświadczenie w pracy na wielkoskalowych systemach produkcyjnych i będzie odpowiedzialny za kierowanie projektowaniem, rozwojem i
13 sierpnia 2024
Inżynier danych
Київ, Вроцлав (Польща)
Stos technologii projektu: AWS, Python, Scala, Apache Spark, Spark Streaming, Kafka, Elastic MapReduce, Redshift, Spectrum, Athena, MySQL.
Informacje o stanowisku:
Poszukujemy wysoko wykwalifikowanego inżyniera danych, który dołączy do naszego innowacyjnego zespołu. Idealny kandydat będzie miał duże doświadczenie w pracy na wielkoskalowych systemach produkcyjnych i będzie odpowiedzialny za kierowanie projektowaniem, rozwojem i optymalizacją platformy danych i infrastruktury naszego klienta.
O projekcie:
Naszym klientem jest internetowa baza danych i wyszukiwarka, która pozwala użytkownikom wyszukiwać i udostępniać krótkie, zapętlone filmy bez dźwięku, przypominające animacje Pliki GIF. To najlepsze i najbardziej wszechstronne miejsce na świecie do wyszukiwania, odkrywania, udostępniania i tworzenia animowanej grafiki. Platforma obsługuje wiele integracji API z większością komunikatorów, takich jak iMessage, Facebook, Instagram, Snapchat, Twitter, Tinder, Slack, WhatsApp i wiele innych, umożliwiając potężną ekspresję na globalnej platformie komunikacyjnej.
Kwalifikacje i umiejętności:
- ponad 5 lat doświadczenia zawodowego na stanowisku inżyniera danych, wykazujące duże doświadczenie w zapewnianiu wysokiej jakości rozwiązania dotyczące danych;
- Ponad 3 lata doświadczenia zawodowego z GitHubem i najlepszymi praktykami w zakresie kontroli wersji;
- Dobra znajomość zarówno Scala, jak i Pythona, ze sprawdzoną umiejętnością tworzenia i utrzymywania skalowalnych rozwiązań w zakresie danych przy użyciu tych języków;
- Dogłębna znajomość Apache Spark i Elastic MapReduce (EMR), w tym doświadczenie w optymalizacji zadań Spark pod kątem wydajności, niezawodności i skalowalności;
- Doświadczenie w pracy ze Spark Streaming i Kafką;
- Doświadczenie z systemami orkiestracji danych, w szczególności Luigi, w celu zarządzania złożonymi przepływami pracy z danymi;
- Dobra znajomość ekosystemów Redshift, Spectrum, Athena, MySQL i AWS;
- Rozległa wiedza na temat ogólnych najlepszych praktyk w zakresie modelowania, przechowywania i wyszukiwania danych (tj. przechowywania kolumnowego/skompresowanego, zatrzymywania danych, widoków zmaterializowanych itp.);
- Doświadczenie z systemami rozproszonymi na skalę wykraczającą poza proste ETL;
- Znajomość automatycznej synchronizacji danych (w szczególności AWS DMS) z wielu źródeł do hurtowni danych;
- Doświadczenie z narzędziami CI/CD, takimi jak Jenkins lub Spinnaker;
- Doświadczenie z Dockerem i Kubernetesem;
- Znajomość Databricks, w szczególności używanie jej do sprawdzania problemów z rozbieżnościami danych i identyfikowania źródła problemów.
Miło mieć:
- Znajomość Google Analytics/GBQ.
- Znajomość Tableau.
Obowiązki:
- Tworzenie, optymalizacja i utrzymywanie skalowalnych potoków danych przy użyciu technologii takich jak Spark i Python.
- Zarządzaj i optymalizuj hurtownie danych, jeziora danych i infrastrukturę chmurową (AWS).
- Zapewniaj integralność, spójność i jakość danych w całym cyklu życia danych.
- Projektuj wydajne modele danych i wdrażaj strategie optymalnego przechowywania i wyszukiwania.
- Twórz złożone dane i zarządzaj nimi wprzepływy pracy przy użyciu narzędzi do orkiestracji, takich jak Luigi.
- Identyfikuj i rozwiązuj problemy z danymi, optymalizuj wydajność potoków i współtwórz najlepsze praktyki inżynierii danych.