Роль Мы ищем инженера по данным ИИ для создания и поддержания инфраструктуры данных, обеспечивающая наше управляемое ИИ здравоохранение платформа Эта роль фокусируется на реализации надежных конвейеров данных, управлении нашей архитектурой Lakehouse Data и обеспечении высококачественной обработки данных для наших систем ИИ. strong> Разработка и реализация масштабируемых данных данных для различных источников данных здравоохранения li> Создание эффективных процессов ETL для обработки медици
Роль
Мы ищем инженера по данным ИИ для создания и поддержания инфраструктуры данных, обеспечивающая наше управляемое ИИ здравоохранение платформа Эта роль фокусируется на реализации надежных конвейеров данных, управлении нашей архитектурой Lakehouse Data и обеспечении высококачественной обработки данных для наших систем ИИ. strong>
Идеально Кандидат:
- Сильный опыт работы с службами данных AWS (S3, RDS, Glue, EMR -Serverse, Athena, Datazone, Lake Formation, DynamoDB)
- Экспертиза в Инструменты оркестровки данных (Dagster, Apache Airflow, AWS MWAA, Step Functions)
- Уэверность в Python, SQL и Pyspark с опытом в рамках обработки данных
- Опыт с архитектурами Lakehous Разработка трубопроводов и магазин SageMaker
- Сильный фон с AWS Analytics Services (Glue Catalog, Glue ETL/EMR без сервера, Athena)
- Опыт с форматом таблицы Apache Aceberg для организации данных в данных Архитектура Лейкхауса, в том числе работа с путешествиями во времени, кислотных транзакциях и эволюции схемы
- Опыт работы с базами данных PostgreSQL и Vector (PGVector, OpenSearch и т. Д.)
- Опыт реализации структур качества данных (отличные ожидания, качество данных клей, pydeequ) Приложения LLM решительно предпочтительнее (библиотеки NLP, такие как Spacy, инструменты для очистки веб -массовой информации, извлечение текста, семантическое блюдо и т. Д.) Работа в быстро развивающейся среде стартапов
- Степень бакалавра в области компьютерных наук, техники или смежного поля