Rola Szukamy inżyniera danych AI do budowy i utrzymania infrastruktury danych zasilania naszej opieki zdrowotnej kierowanej przez AI-AI. platforma. Ta rola koncentruje się na wdrażaniu solidnych rurociągów danych, zarządzaniu naszą architekturą Data Lakehouse i zapewnianiu wysokiej jakości przetwarzania danych dla naszych systemów AI. Obowiązki: strong>Design and implement scalable data pipelines for diverse healthcare data sourcesBuild and maintain data lakehouse architecture on AWS fo
Rola
Szukamy inżyniera danych AI do budowy i utrzymania infrastruktury danych zasilania naszej opieki zdrowotnej kierowanej przez AI-AI. platforma. Ta rola koncentruje się na wdrażaniu solidnych rurociągów danych, zarządzaniu naszą architekturą Data Lakehouse i zapewnianiu wysokiej jakości przetwarzania danych dla naszych systemów AI.
Obowiązki: strong>
idealny Kandydat:
- Silne doświadczenie z AWS Data Services (S3, RDS, Glue, EMR Serverless, Athena, Datazone, Lake Formation, DynamoDB)
- Specjalisty Narzędzia do orkiestracji danych (Dagster, Apache Airflow, AWS MWAA, Funkcje krokowe)
- Biegłość w Python, SQL i PYSPARK z doświadczeniem w ramach przetwarzania danych
- Doświadczenie w architekturach Data Lakehouse, ETL Rozwój rurociągów i Sagemaker Feature Store
- Silne tło z usługami AWS Analytics (katalog kleju, klej ETL/EMR Serverless, Athena)
- Doświadczenie w formacie tabeli lodowej Apache do organizowania danych w danych w danych Architektura Lakehouse, w tym praca z podróżami w czasie, transakcjami kwasowymi i ewolucją schematu
- Doświadczenie z bazami danych PostgreSQL i wektorami (PGVector, OpenSearch itp.)
- Biegliwość w narzędziach transformacji danych, takich jak DBT
- Doświadczenie wdrażania ram jakości danych (wielkie oczekiwania, jakość danych kleju, pydeequ)
- Znajomość struktur danych opieki zdrowotnej i terminologii medycznej Preferowana
- Doświadczenie z preprocesem danych dla danych Aplikacje LLM zdecydowanie preferowane (biblioteki NLP, takie jak Spacy, narzędzia do skrobania internetowego, ekstrakcja tekstu, fragment semantyczny itp.)
- Zrozumienie bezpieczeństwa danych i wymagań dotyczących zgodności HIPAA
- Współpracujący sposób myślenia i zdolność do zdolności do myślenia i możliwość możliwości do Pracuj w szybkim środowisku startupowym
- Licencjat z informatyki, inżynierii lub powiązanej dziedziny