13 сентября 2024 г.
Data Engineer Киев, Вроцлав (Польша) Технический стек проекта: AWS, Python, Scala, Apache Spark, Spark Streaming, Kafka, Elastic MapReduce, Redshift, Spectrum, Athena, MySQL. О вакансии: Мы ищем высококвалифицированного штатного инженера по работе с данными, который присоединится к нашей инновационной команде. Идеальный кандидат будет иметь обширный опыт работы с крупномасштабными производственными системами и будет отвечать за проектирование, разработку и оптими
13 сентября 2024 г.
Data Engineer
Киев, Вроцлав (Польша)
Технический стек проекта: AWS, Python, Scala, Apache Spark, Spark Streaming, Kafka, Elastic MapReduce, Redshift, Spectrum, Athena, MySQL.
О вакансии:
Мы ищем высококвалифицированного штатного инженера по работе с данными, который присоединится к нашей инновационной команде. Идеальный кандидат будет иметь обширный опыт работы с крупномасштабными производственными системами и будет отвечать за проектирование, разработку и оптимизацию платформы и инфраструктуры данных нашего клиента.
О проекте:
Наш клиент — это онлайн-база данных и поисковая система, которая позволяет пользователям искать и делиться короткими зацикленными видеороликами без звука, напоминающими анимированные. GIF-файлы. Это лучшее и наиболее полное в мире место для поиска, открытия, обмена и создания анимированной графики. Платформа поддерживает множество интеграций API с большинством мессенджеров, таких как iMessage, Facebook, Instagram, Snapchat, Twitter, Tinder, Slack, WhatsApp и многими другими, что обеспечивает мощное выражение эмоций на глобальной коммуникационной платформе.
Квалификация и навыки:
- 5+ лет профессионального опыта работы в области инженерии данных, что свидетельствует о большом послужном списке обеспечения высокого качества. решения для обработки данных;
- 3+ года профессионального опыта работы с GitHub и передовыми практиками контроля версий;
- Уверенное владение Scala и Python, а также доказанная способность разрабатывать и поддерживать масштабируемые решения для обработки данных с использованием этих языков;
- Глубокое понимание Apache Spark и Elastic MapReduce (EMR), включая опыт оптимизации заданий Spark для обеспечения производительности, надежности и масштабируемости;
- Опыт работы с Spark Streaming и Kafka;
- Опыт работы с системами оркестрации данных, особенно с Luigi, для управления сложными рабочими процессами с данными;
- Хорошее знание экосистем Redshift, Spectrum, Athena, MySQL и AWS;
- Хорошее знание общих рекомендаций по моделированию, хранению и извлечению данных (т. е. столбчатое/сжатое хранилище, хранение данных, материализованные представления и т. д.);
- Опыт работы с распределенными системами в масштабе, выходящем за рамки простых ETL;
- Знакомство с автоматической синхронизацией данных (в частности, AWS DMS) из нескольких источников в хранилище данных;
- Опыт работы с инструментами CI/CD, такими как Jenkins или Spinnaker;
- Опыт работы с Docker и Kubernetes;
- Знакомство с Databricks, в частности с их использованием для выявления проблем с несоответствием данных и определения источника проблем.
Приятно иметь:
- Знакомство с Google Analytics/GBQ.
- Знакомство с Tableau.
Обязанности:
- Создание, оптимизация и поддержка масштабируемых конвейеров данных с использованием таких технологий, как Spark и Python.
- Управляйте и оптимизируйте хранилища данных, озера данных и облачную инфраструктуру (AWS).
- Обеспечьте целостность, согласованность и качество данных на протяжении всего жизненного цикла данных.
- Разрабатывайте эффективные модели данных и реализуйте стратегии оптимального хранения и извлечения.
- Разрабатывайте сложные данные и управляйте ими.потоки работы с использованием инструментов оркестрации, таких как Luigi.
- Выявляйте и устраняйте проблемы с данными, оптимизируйте производительность конвейера и вносите вклад в передовые методы обработки данных.