
Titre: « Apprentissage profond pour la détection des filaments interstellaires Galactiques. »
mercredi 21 Janvier à 9h00 au Laboratoire d’Astrophysique de Marseille dans l’amphithéâtre (Campus de Château Gombert, 38 Rue Frédéric Joliot Curie, 13013 Marseille).
jury:
Stella OFFNER, COSMICAI, Université du Texas à Austin — Rapporteure
Patrick GALLINARI, ISIR, Sorbonne Université — Rapporteur
Cécile CAPPONI, LIS, Aix-Marseille-Université — Présidente
Alexis LECHERVY, GREYC, Université de Caen Normandie — Examinateur
Marc HUERTAS-COMPANY, IAC, Université de La Laguna — Examinateur
Thierry ARTIÈRES, École Centrale Méditerranée/LIS, Aix-Marseille-Université — Directeur de thèse
Annie ZAVAGNO, LAM, Aix-Marseille-Université — Directrice de thèse
François-Xavier DUPÉ, LIS, Aix-Marseille-Université — Co-encadrant de thèse
Doris ARZOUMANIAN, AIS, Kyushu University — Membre invitée
Eugenio SCHISANO, IAPS, Istituto Nazionale di Astrofisica — Membre invité
Résumé:
Dans les galaxies, la formation des étoiles se déroule dans des filaments composés de gaz (principalement d’hydrogène) et de poussières (petites particules solides composées principalement de carbone). Ces filaments se forment dans le milieu interstellaire des galaxies (milieu situé entre les étoiles) et évoluent en fonction des conditions physiques environnantes et de la formation stellaire qu’ils hébergent. Ces structures sont observées avec des instruments (au sol ou spatiaux) ainsi qu’étudiées à travers des simulations numériques. Leur détection dans les données (d’observations et de simulations) est un pré-requis nécessaire à l’étude des toutes premières phases de la formation des étoiles. De nombreux algorithmes ont été développés pour détecter ces filaments. Ces algorithmes reposent sur des paramètres décrivant les propriétés des filaments recherchés, en particulier leur contraste par rapport à l’émission environnante. Les résultats montrent qu’il est difficile de détecter tous les filaments. En particulier les filaments faibles (en contraste par rapport à l’émission du milieu environnant et/ou en densité de matière) sont souvent omis par les algorithmes, conduisant à une détection biaisée vers des filaments brillants ou des filaments plus faibles se trouvant dans des zones à faible émission. De plus, ces méthodes sont sensibles aux réglages de leurs paramètres qui dépendent fortement des données. Face à ce constat,l’exploration du potentiel de l’apprentissage profond a été proposée. C’est dans ce cadre que cette thèse interdisciplinaire est réalisée. La première partie de ce travail présente les contributions centrées sur l’apprentissage et l’application de réseaux de neurones à une très grande image du Plan de notre Galaxie, dans le cadre d’une tâche de segmentation sémantique. Une stratégie de découpage spatial de l’image a été mise en place, combinée à une technique d’apprentissage semi-supervisé afin de traiter les spécificités (taille des données, larges variations d’intensité, de contraste, vérité terrain non complète) des données astrophysiques. Par ailleurs, une nouvelle variante du modèle U-Net a été proposée, appelée PE-UNet. Celle-ci intègre explicitement la position galactique de chaque exemple comme information supplémentaire au cours de l’apprentissage. Les expériences menées montrent que le PE-UNet améliore significativement les performances de segmentation par rapport aux architectures étudiées, conclusions validées par une étude astrophysique approfondie des cartes de segmentations produites par les différents modèles. Parce que les filaments faibles ne sont pas détectés par les algorithmes actuels et que leurs résultats sont utilisés comme base d’apprentissage pour les réseaux neurones, il est impossible d’utiliser pour l’apprentissage comme pour l’évaluation ces filaments, biaisant fortement les résultats obtenus. C’est pourquoi la seconde partie repose sur la modélisation physique des filaments à l’aide du profil radial de Plummer, et sur la génération d’un jeu de données synthétique basé sur ce modèle pour pallier le biais présent dans les données 5d’observation. Un jeu de données synthétique a été construit permettant l’évaluation de diverses méthodes de détection de filaments — allant des algorithmes classiques jusqu’aux modèles de segmentation sémantique et d’instance. Il a également servi à analyser plusieurs biais d’apprentissage typiquement rencontrés lorsque les modèles sont entraînés sur les observations avec leurs biais. Enfin, ce jeu de données a permis de concevoir une chaîne de traitement capable d’estimer la vraisemblance qu’une prédiction donnée corresponde réellement à un filament, en s’appuyant sur des connaissances physiques a priori. Cette chaîne de traitement explore le Physics-Informed Neural Networks qui a pour objectif d’introduire des connaissances physiques au sein des réseaux de neurones.
Mots clés: Apprentissage profond – Segmentation sémantique – Formation stellaire