Приглашаем вас присоединиться к нашей команде. Ведущий специалист по даннымРоль:Построение процессов аналитики таким образом, чтобы данные были стабильными, воспроизводимыми и контролируемыми; начать обучение аналитиков и обеспечить доставку решений ML от постановки задач до производства.Обязанности:Инжиниринг данных и конвейеры: настройка Dagster + dbt; тесты данных, оповещения, контроль утечек.Аналитические витрины: создание согласованных витрин (клиент/чек/продукт/магазин/промо/канал) с прави
Приглашаем вас присоединиться к нашей команде. Ведущий специалист по данным
Роль:
- Построение процессов аналитики таким образом, чтобы данные были стабильными, воспроизводимыми и контролируемыми;
- начать обучение аналитиков и обеспечить доставку решений ML от постановки задач до производства.
Обязанности:
- Инжиниринг данных и конвейеры: настройка Dagster + dbt; тесты данных, оповещения, контроль утечек.
- Аналитические витрины: создание согласованных витрин (клиент/чек/продукт/магазин/промо/канал) с правильной зернистостью и историчностью.
- ML для табличных данных: построение и проверка моделей (LightGBM/XGBoost/CatBoost), регуляризация, CV, работа с дисбалансом классов, интерпретация (SHAP).
- Оценка качества модели: ROC-AUC/PR-AUC, F1, калибровка и др.; подготовка метрик и отчетов для бизнеса.
- Полный цикл ML/DS: постановка задач – подготовка наборов данных – моделирование – интерпретация – производство (пакетная обработка/API), Docker.
- Обучение/наставничество: повышение квалификации системных аналитиков (уровень Excel и выше), регулярные занятия и проверка задач.
- Стандартные команды: Git, проверка кода, шаблоны блокнотов/отчетов, документация; внедрение «Data Platform Playbook».
- Интеллектуальный анализ данных: поиск закономерностей и гипотез на реальных данных, работа вместе с бизнесом.
- Дополнительно — Архитектура и платформа данных: участие во внедрении MinIO + Apache Iceberg + Catalog + Trino; обеспечение качества и управляемости данных.
Требования (технические):
1. Python + SQL (strong): pandas/numpy, scikit-learn; CTE, оконные функции, оптимизация запросов.
2. Математическая база (практическая):
- вероятность и статистика: распределения, математическое ожидание/дисперсия, доверительные интервалы, p-значение;
- проверка гипотез, A/B-тесты, статистическая мощность;
- линейная алгебра: матрицы/векторы, базовое понимание градиентов.
3. Машинное обучение для табличных данных: LightGBM/XGBoost/CatBoost, регуляризация, дисперсия смещения, перекрестная проверка, контроль утечек.
4. Оценка моделей: ROC-AUC/PR-AUC, F1, калибровка; работа с дисбалансом; интерпретация (ШАП).
5. Комплексная DS: от постановки задачи до производства (пакетная обработка/API), Docker.
6.Обучение/наставничество: работа с аналитиками уровня Excel; системные занятия + обзор.
7. Программа повышения квалификации: возможность разработать план на 3–6 месяцев (матрица практики/домашних заданий/навыков).
8.Стандарты команды: Git, проверка кода, шаблоны, документация.
Будет плюсом: опыт работы с Lakehouse, настройкой производительности Trino, решениями производственного машинного обучения в розничной торговле/FMCG, опыт CI/CD для ДС.
Задачидля пилотного проекта (первые 6 месяцев):
- Присоединяйтесь к проекту развертывания "фабрики данных" (MinIO + Iceberg + Каталог + Trino) — обеспечьте стабильность, воспроизводимость, контроль.
- Создайте базовые окна данных для аналитики клиентов (клиент/чек/продукт/магазин/промо/канал) с согласованной зернистостью и историчностью.
- Настройте автоматическую настройку конвейеры (Dagster + dbt), тесты данных и оповещения.
- Построение процессов обработки и анализа данных, интеллектуальный анализ данных.
Внутреннее обучение (обязательно):
5. Провести SQL Bootcamp для пилотной группы (3–4 человека): SELECT/JOIN/GROUP BY, оконные функции, зернистая логика, правила «как не нарушить метрики».
6. Создайте «Пособие по платформе данных»: как подключиться, где какие таблицы, что такое «источник истины», как запрашивать новые поля/таблицы (процесс подачи заявки).
7. Выполнять рабочие часы 2 раза в неделю: анализ реальных задач аналитиков на реальных данных.
Компания предлагает:
- удаленный или гибридный формат работы;
- трудоустройство на условиях сдельного договора или в штате (возможно бронирование);
- ежегодный оплачиваемый отпуск продолжительностью 24 календарных дня, оплачиваемый отпуск по болезни;
- регулярная выплата заработной платы без задержек и в оговоренных размерах, регулярный пересмотр заработной платы;
- возможность профессионального и карьерного роста;
- обучение.
Контактное лицо: Екатерина, тел. style="font-weight: 400">0984567857 (t.me/KaterynaB_HR)