Die Rolle Wir suchen einen KI-Dateningenieur, um die Dateninfrastruktur zu erstellen und aufrechtzuerhalten, die unsere KI-gesteuerte Gesundheit mit Strom versorgen, Plattform. Diese Rolle konzentriert sich auf die Implementierung robuster Datenpipelines, die Verwaltung unserer Daten-Lakehouse-Architektur und die Gewährleistung einer qualitativ hochwertigen Datenverarbeitung für unsere KI-Systeme. Strong> Entwerfen und Implementieren skalierbarer Datenpipelines für verschiedene Gesundheits
Die Rolle
Wir suchen einen KI-Dateningenieur, um die Dateninfrastruktur zu erstellen und aufrechtzuerhalten, die unsere KI-gesteuerte Gesundheit mit Strom versorgen, Plattform. Diese Rolle konzentriert sich auf die Implementierung robuster Datenpipelines, die Verwaltung unserer Daten-Lakehouse-Architektur und die Gewährleistung einer qualitativ hochwertigen Datenverarbeitung für unsere KI-Systeme. Strong>
Ideal Kandidat:
- Starke Erfahrungen mit AWS -Datendiensten (S3, RDS, Kleber, EMR Serverless, Athena, Datazone, Seebildung, Dynamodb)
- Fachwissen in Data Orchestration Tools (Dagster, Apache Airstrow, AWS MWAA, Step -Funktionen)
- Kenntnisse in Python, SQL und PySpark mit Erfahrung in Datenverarbeitungsrahmen Pipeline -Entwicklung und Sagemaker -Feature -Store
- Starker Hintergrund mit AWS Analytics Services (Kleberkatalog, Glue ETL/EMR Serverless, Athena)
- Erfahrung mit dem Apache -Iceberg -Tabellenformat zum Organisieren von Daten in Daten in Daten Lakehouse -Architektur, einschließlich der Arbeit mit Zeitreisen, Säuretransaktionen und Schema -Entwicklung
- Erfahrung mit Postgresql- und Vektor -Datenbanken (PGVector, OpenSearch usw.)
- Kenntnisse in Datenumwandlungswerkzeugen wie DBT
- Erfahrung in der Implementierung von Datenqualitätsrahmen (große Erwartungen, Kleberdatenqualität, Pydeequ)
- Kenntnis der Gesundheitsdatenstrukturen und der medizinischen Terminologie bevorzugt
- Erfahrung mit der Vorbereitung von Daten für die Datenvorbereitung für LLM -Anwendungen bevorzugt stark (NLP -Bibliotheken wie Spacy, Web -Scraping -Tools, Textextraktion, semantisches Chunking usw.)
- Verständnis der Datensicherheit und der HIPAA -Compliance Arbeit in einer rasanten Start-up-Umgebung
- Bachelor-Abschluss in Informatik, Ingenieurwesen oder verwandtem Feld