Мы ищем команду Инженер по платформе данных/инфраструктуре данных, ответственную за создание и развитие современной платформы данных. Эта роль предполагает работу с инфраструктурой AWS, Data Lake на базе S3, CDC, потоковой передачей и Kubernetes в производственной среде. Вы будете напрямую влиять на качество, надежность и масштабируемость данных, с которыми работают аналитики, продукты и бизнес.Стек технологий:Контейнеризация и оркестрация
Докер, контейнер
Kubernetes (AWS EKS).
AWS и инфраструкт
Мы ищем команду
Инженер по платформе данных/инфраструктуре данных, ответственную за создание и развитие современной платформы данных. Эта роль предполагает работу с инфраструктурой AWS, Data Lake на базе S3, CDC, потоковой передачей и Kubernetes в производственной среде.
Вы будете напрямую влиять на качество, надежность и масштабируемость данных, с которыми работают аналитики, продукты и бизнес.
Стек технологий:Контейнеризация и оркестрация
- Докер, контейнер
- Kubernetes (AWS EKS).
AWS и инфраструктура данных
- S3 (хранилище Data Lake/DWH)
- EC2, VPC, ASG, ALB
- RDS (PostgreSQL, MySQL)
- Amazon Redshift
- Афина Амазонки
- Клей AWS.
Озеро данных и форматы таблиц
- Apache Iceberg (таблицы на основе S3)
- Разделение разделов, эволюция схемы, политики жизненного цикла.
Прием данных, CDC и ETL
- Конвейеры ETL/ELT
- Airbyte (пакетный прием)
- CDC и дополнительные загрузки
- Debezium (CDC с PostgreSQL/MySQL)
- Кафка (AWS MSK)
- S3 как целевое/необработанное/контролируемое хранилище.
Инфраструктура как код и GitOps
- Терраформировать
- AWS CloudFormation (поддержка)
- Действия GitHub
- АргоКД, Хелм.
Мониторинг, ведение журнала и безопасность
- Прометей, Графана
- ЛОСЬ / Локи
- AWS CloudWatch
- IAM, менеджер секретов AWS
- AWS GuardDuty, AWS Inspector.
Задачи и зона ответственности:
- Создание и разработка озера данных/хранилища данных на базе S3
- Работа с Athena, Glue и Redshift
- Внедрение и поддержка Apache Iceberg
- Обеспечение масштабируемости, надежности и отказоустойчивости платформы данных
- Контроль качества данных, эволюция схемы, секционирование.
ETL/ELT и прием данных
- Разработка и поддержка ETL/ELT-конвейеров
- Интеграция источников данных через Airbyte
- Работа с CDC и дополнительные загрузки
- Оркестрация заданий по работе с данными в Kubernetes.
CDC и потоковая передача
- Создание конвейеров CDC на основе Debezium
- Поддержка Kafka (AWS MSK)
- Интеграция потоковых данных из S3/Iceberg/DWH
- Контроль задержки, повторных попыток и согласованности данных.
Инфраструктура и Kubernetes
- Поддержка кластеров Kubernetes (AWS EKS)
- Развертывание ETL, CDC и потоковых сервисов.
- Автоматизация инфраструктуры с помощью Terraform и Helm
- GitOps?подход к релизам (ArgoCD).
CI/CD и автоматизация
- Создание и поддержка CI/CD для данных и инфраструктурных компонентов.
- Автоматизация развертываний, миграции и обновлений.
- Стандартизация конвейеров и шаблонов.
Базы данных
- Администрирование PostgreSQL и MySQL RDS
- Репликация, оптимизация производительности, управление пользователями
- Подготовка базы данных для CDC (логическая репликация, разрешения)
- Резервные копии tи восстановление (снимки, PITR).
Наблюдаемость и стабильность
- Мониторинг процессов ETL/CDC/потоковой передачи
- Создание оповещений для конвейеров данных
- Анализ инцидентов и проблем с производительностью.
ФинОперации
- Оптимизация затрат на S3, Athena, Glue, Redshift.
- Контроль роста хранилища и политика жизненного цикла
- Оптимизация запросов, макет и секционирование файлов.
- Использование спотовых инстансов и планов экономии.
Ваша биография:
- 3+ года опыта работы на должностях DevOps/Data Platform/SRE.
- Хорошее знание AWS.
- Опыт создания или обслуживания озера данных/хранилища данных.
- Практический опыт работы с Terraform
- Kubernetes (AWS EKS) в разработке.
- Понимание процессов ETL/ELT
- Опыт работы с Athena/Glee/Redshift
- Практический опыт или глубокое понимание CDC и Debezium.
- Понимание Apache Iceberg или современных форматов таблиц.
- Опыт администрирования PostgreSQL и MySQL
- Опыт работы с Kafka (AWS MSK)
- Опыт мониторинга и ведения журналов.
Будет плюсом:
- Большой опыт работы с Apache Iceberg
- Оптимизация Athena (разбиение на разделы, размер файла, стоимость)
- Построение CDC от начала до конца (DB > Debezium > Kafka > S3/Iceberg)
- Понимание управления данными и качества данных
- Работа с большими объемами данных (ТБ+)
- Практический опыт FinOps для платформ данных.
Что мы предлагаем:
- Работа с крупномасштабной платформой данных и реальной производственной нагрузкой.
- Влияние на архитектурные решения и развитие экосистемы данных.
- Участие в трансформации BI и инфраструктуры данных.
- Сильная техническая команда и открытое общение.
- Официальное трудоустройство, отпуска и больничные
- Регулярная обратная связь и план профессионального развития.