Publiée 2 juillet 2026
Doctorant F/H Perspective distributionnelle de l'apprentissage auto-supervisé
Inria
Rennes, Hauts-de-France 60420, France
CDI
A propos du centre ou de la direction fonctionnelle
Le centre Inria de l'Université de Rennes est l'un des huit centres d'Inria et compte plus d'une trentaine d'équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d'innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l'enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.
Contexte et atouts du poste
Les progrès conjoints dans la collecte de jeux de données toujours plus vastes et complexes, ainsi que l'essor rapide des grands modèles de fondation ( foundation models ), ont rendu essentiel le développement de méthodes capables de s'adapter à une diversité de tâches et de modalités de données. Cela soulève un défi fondamental : comment apprendre des représentations des données à la fois riches, polyvalentes et réutilisables efficacement dans un large éventail de tâches en aval ( downstream applications ) ?
Pour répondre à cette question, l'apprentissage auto-supervisé ( self-supervised learning , SSL) s'est imposé comme un paradigme majeur [Gui+24]. Le SSL consiste à entraîner des modèles - généralement des réseaux de neurones - sur des données non annotées en leur faisant résoudre des tâches dites de prétexte ( pretext tasks ), telles que le débruitage d'entrées corrompues ou la discrimination entre des échantillons perturbés et leurs versions originales. Ces approches ont atteint des performances remarquables, dépassant même, dans certains cas, celles des méthodes entièrement supervisées [Li+25].
Malgré ces succès, les mécanismes qui les sous-tendent restent encore imparfaitement compris. En particulier, pourquoi les représentations apprises par le SSL généralisent-elles aussi efficacement ? Quels sont les principes fondamentaux qui expliquent ce comportement ?
Une première étape vers une meilleure compréhension des performances du SSL consiste à étudier ses liens avec la réduction de dimension et le transport optimal (Optimal Transport, OT). En effet, le SSL présente de fortes connexions conceptuelles et mathématiques avec les méthodes classiques de réduction de dimension, telles que la PCA [AW10], t-SNE [VH08] et UMAP [MHM18], notamment à travers l'utilisation de fonctions de coøt et de stratégies d'optimisation apparentées [Dam+23]. Par ailleurs, la réduction de dimension entretient elle-même des liens profonds avec la théorie du transport optimal ; elle peut même être interprétée comme un cas particulier de celle-ci.
Des travaux récents des encadrants [Van+25] ont mis en évidence que le SSL et le transport optimal partagent plusieurs principes fondamentaux, laissant entrevoir un cadre théorique unificateur. Le transport optimal occupe aujourd'hui une place centrale dans de nombreuses applications modernes de l'apprentissage automatique, allant de la modélisation générative et de l'adaptation de domaine à l'analyse de dynamiques cellulaires, en passant par les réseaux de neurones et les modèles fondés sur les graphes (voir [PC+19] pour une présentation détaillée). Comprendre le SSL à travers le prisme du transport optimal pourrait ainsi apporter des éclairages théoriques précieux et conduire au développement d'algorithmes d'apprentissage de représentations plus fondés, plus robustes et plus efficaces.
Mission confiée
S'appuyant sur ces connexions récentes, cette thèse poursuivra deux objectifs complémentaires, à la fois théoriques et appliqués.
D'un point de vue théorique, les travaux s'inscriront dans la continuité des recherches récentes menées par les encadrants afin de mieux comprendre les fondements théoriques des méthodes modernes d'apprentissage auto-supervisé (SSL) à travers le prisme du transport optimal (OT), et de développer de nouvelles approches de SSL plus efficaces inspirées de ces résultats. Plusieurs questions guideront ces recherches : peut-on utiliser le transport optimal pour imposer des distributions pertinentes dans l'espace des représentations ( embedding space ) ? Peut-on établir des résultats théoriques montrant que certains cadres de SSL sont mieux adaptés que d'autres selon le régime d'apprentissage ou les propriétés des données ?
Le volet appliqué de la thèse consistera à mettre en œuvre ces nouveaux algorithmes et à les appliquer à l'analyse de données issues de la biologie unicellulaire, en collaboration avec Franck Picard (CNRS, ENS Lyon). Depuis la fin des années 2010, les avancées majeures de la biologie moléculaire et cellulaire ont conduit à l'essor de la biologie unicellulaire ( single-cell biology ), qui permet d'analyser à l'échelle du génome des données moléculaires - ADN, ARN ou protéines - avec une résolution correspondant à la cellule individuelle. Les jeux de données unicellulaires prennent généralement la forme de distributions multivariées de très grande dimension, comprenant de quelques milliers à plusieurs millions de cellules, chacune décrite par plusieurs milliers de caractéristiques moléculaires.
Enfin, la thèse offrira également l'opportunité de contribuer au développement d'une bibliothèque Python POT dédiée à ces méthodes, afin de favoriser leur diffusion et leur utilisation par la communauté scientifique.
Principales activités
Nous recherchons une candidate ou un candidat très motivé, disposant d'une solide formation en mathématiques (optimisation, probabilités et statistiques) et/ou en génie électrique (traitement du signal et de l'image, analyse harmonique). De bonnes compétences en informatique seront particulièrement appréciées, ainsi qu'une expérience de programmation en Python.
La thèse est financée par le projet ANR JCJC CALME (ANR-25-CE23-4419).
Le contrat doctoral débutera en octobre 2026. La thèse se déroulera à Inria Rennes, au sein de l'équipe de recherche COMPACT, et sera encadrée par Titouan Vayer (Inria).
N'hésitez pas à nous contacter pour toute information complémentaire.
Compétences
Une solide formation en mathématiques (optimisation, probabilités et statistiques) et/ou en génie électrique (traitement du signal et de l'image, analyse harmonique) est attendue. De bonnes compétences en informatique, notamment en programmation et en développement scientifique, seront particulièrement appréciées.
Avantages
Rémunération
2300€ brut par mois
Le centre Inria de l'Université de Rennes est l'un des huit centres d'Inria et compte plus d'une trentaine d'équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d'innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l'enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.
Contexte et atouts du poste
Les progrès conjoints dans la collecte de jeux de données toujours plus vastes et complexes, ainsi que l'essor rapide des grands modèles de fondation ( foundation models ), ont rendu essentiel le développement de méthodes capables de s'adapter à une diversité de tâches et de modalités de données. Cela soulève un défi fondamental : comment apprendre des représentations des données à la fois riches, polyvalentes et réutilisables efficacement dans un large éventail de tâches en aval ( downstream applications ) ?
Pour répondre à cette question, l'apprentissage auto-supervisé ( self-supervised learning , SSL) s'est imposé comme un paradigme majeur [Gui+24]. Le SSL consiste à entraîner des modèles - généralement des réseaux de neurones - sur des données non annotées en leur faisant résoudre des tâches dites de prétexte ( pretext tasks ), telles que le débruitage d'entrées corrompues ou la discrimination entre des échantillons perturbés et leurs versions originales. Ces approches ont atteint des performances remarquables, dépassant même, dans certains cas, celles des méthodes entièrement supervisées [Li+25].
Malgré ces succès, les mécanismes qui les sous-tendent restent encore imparfaitement compris. En particulier, pourquoi les représentations apprises par le SSL généralisent-elles aussi efficacement ? Quels sont les principes fondamentaux qui expliquent ce comportement ?
Une première étape vers une meilleure compréhension des performances du SSL consiste à étudier ses liens avec la réduction de dimension et le transport optimal (Optimal Transport, OT). En effet, le SSL présente de fortes connexions conceptuelles et mathématiques avec les méthodes classiques de réduction de dimension, telles que la PCA [AW10], t-SNE [VH08] et UMAP [MHM18], notamment à travers l'utilisation de fonctions de coøt et de stratégies d'optimisation apparentées [Dam+23]. Par ailleurs, la réduction de dimension entretient elle-même des liens profonds avec la théorie du transport optimal ; elle peut même être interprétée comme un cas particulier de celle-ci.
Des travaux récents des encadrants [Van+25] ont mis en évidence que le SSL et le transport optimal partagent plusieurs principes fondamentaux, laissant entrevoir un cadre théorique unificateur. Le transport optimal occupe aujourd'hui une place centrale dans de nombreuses applications modernes de l'apprentissage automatique, allant de la modélisation générative et de l'adaptation de domaine à l'analyse de dynamiques cellulaires, en passant par les réseaux de neurones et les modèles fondés sur les graphes (voir [PC+19] pour une présentation détaillée). Comprendre le SSL à travers le prisme du transport optimal pourrait ainsi apporter des éclairages théoriques précieux et conduire au développement d'algorithmes d'apprentissage de représentations plus fondés, plus robustes et plus efficaces.
Mission confiée
S'appuyant sur ces connexions récentes, cette thèse poursuivra deux objectifs complémentaires, à la fois théoriques et appliqués.
D'un point de vue théorique, les travaux s'inscriront dans la continuité des recherches récentes menées par les encadrants afin de mieux comprendre les fondements théoriques des méthodes modernes d'apprentissage auto-supervisé (SSL) à travers le prisme du transport optimal (OT), et de développer de nouvelles approches de SSL plus efficaces inspirées de ces résultats. Plusieurs questions guideront ces recherches : peut-on utiliser le transport optimal pour imposer des distributions pertinentes dans l'espace des représentations ( embedding space ) ? Peut-on établir des résultats théoriques montrant que certains cadres de SSL sont mieux adaptés que d'autres selon le régime d'apprentissage ou les propriétés des données ?
Le volet appliqué de la thèse consistera à mettre en œuvre ces nouveaux algorithmes et à les appliquer à l'analyse de données issues de la biologie unicellulaire, en collaboration avec Franck Picard (CNRS, ENS Lyon). Depuis la fin des années 2010, les avancées majeures de la biologie moléculaire et cellulaire ont conduit à l'essor de la biologie unicellulaire ( single-cell biology ), qui permet d'analyser à l'échelle du génome des données moléculaires - ADN, ARN ou protéines - avec une résolution correspondant à la cellule individuelle. Les jeux de données unicellulaires prennent généralement la forme de distributions multivariées de très grande dimension, comprenant de quelques milliers à plusieurs millions de cellules, chacune décrite par plusieurs milliers de caractéristiques moléculaires.
Enfin, la thèse offrira également l'opportunité de contribuer au développement d'une bibliothèque Python POT dédiée à ces méthodes, afin de favoriser leur diffusion et leur utilisation par la communauté scientifique.
Principales activités
Nous recherchons une candidate ou un candidat très motivé, disposant d'une solide formation en mathématiques (optimisation, probabilités et statistiques) et/ou en génie électrique (traitement du signal et de l'image, analyse harmonique). De bonnes compétences en informatique seront particulièrement appréciées, ainsi qu'une expérience de programmation en Python.
La thèse est financée par le projet ANR JCJC CALME (ANR-25-CE23-4419).
Le contrat doctoral débutera en octobre 2026. La thèse se déroulera à Inria Rennes, au sein de l'équipe de recherche COMPACT, et sera encadrée par Titouan Vayer (Inria).
N'hésitez pas à nous contacter pour toute information complémentaire.
Compétences
Une solide formation en mathématiques (optimisation, probabilités et statistiques) et/ou en génie électrique (traitement du signal et de l'image, analyse harmonique) est attendue. De bonnes compétences en informatique, notamment en programmation et en développement scientifique, seront particulièrement appréciées.
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
- Accès à la formation professionnelle
- Sécurité sociale
Rémunération
2300€ brut par mois