4 Платформа. Ця роль зосереджена на впровадженні надійних трубопроводів даних, керуванні нашою архітектурою озера Data та забезпеченням високоякісної обробки даних для наших систем AI. Обов'язки: / Сильні> Проектуйте та впроваджуйте масштабовані трубопроводи для даних для різних джерел даних про охорону здоров'я Будуйте та підтримують архітектуру озера на даних на AWS для зберігання структурованих та неструктурованих медичних даних < li> Створіть ефективні процеси ETL для обробки меди
4 Платформа. Ця роль зосереджена на впровадженні надійних трубопроводів даних, керуванні нашою архітектурою озера Data та забезпеченням високоякісної обробки даних для наших систем AI.
Обов'язки: / Сильні>
Ідеальний Кандидат:
- Сильний досвід роботи з службами даних AWS (S3, RDS, клеєм, EMR Serverless, Athena, Datazone, Formation Lake, Dynamodb)
- Досвід у Інструменти оркестрації даних (Dagster, Apache Airflow, AWS MWAA, кроки функцій)
- Володіння в рамках обробки даних Python, SQL та Pyspark
- Досвід роботи з архітектурами Lakehouse Data, ETL Розробка трубопроводів та магазин функцій Sagemaker
- Сильне фон із послугами AWS Analytics (Клей -каталог, клей ETL/EMR Serverless, Athena)
- Архітектура Lakehouse, включаючи роботу з подорожами в часі, транзакціями кислоти та еволюцією схем
- Досвід роботи з базами даних PostGresQL та Vector (PGVector, OpenSearch та ін.) 4 Програми LLM настійно бажані (бібліотеки NLP, такі як SPACY, інструменти веб -вискоблювання, вилучення тексту, семантична чанінг тощо)
- Розуміння безпеки даних та вимог до відповідності HIPAA
- Спільна думка та здатність Робота у швидкоплинному ступеня стартапів
- ступінь бакалавра з інформатики, інженерії або споріднених поля