Publiée 1 juillet 2026
Alternance Data engineer - Paris (F/H)
ISCOD
Paris, Île-de-France 75012, France
CDI
Au sein de l'équipe Ingénierie des Données, vous aurez pour mission de contribuer à la conception, au développement et à la fiabilisation des pipelines de données alimentant l'Entrepôt de Données de Santé (EDS), afin d'en garantir la qualité et la disponibilité pour les chercheurs et les professionnels de santé.
Dans le cadre de votre apprentissage, vous serez amené• e à travailler sur des projets impliquant :
• Vous êtes étudiant• e en informatique, data engineering ou traitement de données massives et possédez un intérêt marqué pour l'ingénierie des données et les systèmes distribués
• Bonnes connaissances en Python et/ou Scala
• Bonnes connaissances en SQL (requêtage, modélisation, optimisation)
• Connaissances des frameworks de traitement distribué (Spark, ou équivalent)
• Connaissances en orchestration de workflows (Airflow, ou équivalent)
• Notions de conteneurisation et d'orchestration (Docker, Kubernetes)
• Notions de gestion de version et d'intégration continue (Git, CI/CD)
• Connaissances des technologies de stockage et d'interrogation de données (PostgreSQL, Trino, S3, HDFS...)
• Appétence pour les pratiques DevOps et l'infrastructure as code
• Déontologie, respect du secret professionnel et sensibilité à la protection des données de santé
• Maîtrise de l'anglais technique indispensable (documentation, lecture d'articles, échanges écrits)
Vous êtes éligible à une formation Bac+2 à Bac+5 (diplôme validé ou en cours de validation)
Poste basé à Paris
Rémunération fixe selon niveau d'études + âge,
Vous êtes intéressé(e) par cette offre d'emploi en alternance ? Postulez dès maintenant !
Dans le cadre de votre apprentissage, vous serez amené• e à travailler sur des projets impliquant :
- L'intégration de sources de données hétérogènes issues du Système d'Information hospitalier,
- Le traitement et la transformation de volumes massifs de données de santé,
- L'industrialisation et le monitoring de traitements au sein d'une plateforme Big Data.
- Développer et maintenir des jobs Spark (Scala et/ou Python) pour l'intégration, la transformation et la mise en qualité des données
- Contribuer à l'orchestration des pipelines de données avec Apache Airflow (conception de DAGs, gestion des dépendances, monitoring)
- Participer au déploiement et à l'exploitation des traitements sur Kubernetes (configuration Helm, debugging, gestion des ressources)
- Contribuer à l'optimisation des requêtes et des modèles de données
- Mettre en place et maintenir des tests automatisés sur les données et les pipelines
- Participer aux pratiques DevOps de l'équipe : intégration continue sur GitLab, revues de code, déploiement via ArgoCD
- Documenter les traitements, les schémas de données et les procédures d'exploitation
• Vous êtes étudiant• e en informatique, data engineering ou traitement de données massives et possédez un intérêt marqué pour l'ingénierie des données et les systèmes distribués
• Bonnes connaissances en Python et/ou Scala
• Bonnes connaissances en SQL (requêtage, modélisation, optimisation)
• Connaissances des frameworks de traitement distribué (Spark, ou équivalent)
• Connaissances en orchestration de workflows (Airflow, ou équivalent)
• Notions de conteneurisation et d'orchestration (Docker, Kubernetes)
• Notions de gestion de version et d'intégration continue (Git, CI/CD)
• Connaissances des technologies de stockage et d'interrogation de données (PostgreSQL, Trino, S3, HDFS...)
• Appétence pour les pratiques DevOps et l'infrastructure as code
• Déontologie, respect du secret professionnel et sensibilité à la protection des données de santé
• Maîtrise de l'anglais technique indispensable (documentation, lecture d'articles, échanges écrits)
Vous êtes éligible à une formation Bac+2 à Bac+5 (diplôme validé ou en cours de validation)
Poste basé à Paris
Rémunération fixe selon niveau d'études + âge,
Vous êtes intéressé(e) par cette offre d'emploi en alternance ? Postulez dès maintenant !