Soutenance de thèse de Qiufan LIN

Ecole Doctorale
Physique et Sciences de la Matière
Spécialité
PHYSIQUE & SCIENCES DE LA MATIERE - Spécialité : ASTROPHYSIQUE ET COSMOLOGIE
établissement
Aix-Marseille Université
Mots Clés
cosmologie,deep learning,informatique,analyse d'images,apprentissage automatique,
Keywords
cosmology,informatics,image analysis,machine learning,deep learning,
Titre de thèse
Méthodes d'apprentissage par deep learning appliquées aux grands relevés d'imagerie astrophysiques.
Deep learning methods applied to large astrophysical imaging surveys.
Date
Wednesday 1 December 2021 à 10:00
Adresse
163, avenue de Luminy, 13009, Marseille
Amphitheatre
Jury
Directeur de these M. Dominique FOUCHEZ Centre de Physique des Particules de Marseille
Rapporteur Mme Shirley HO Lawrence Berkeley Laboratory / Carnegie Mellon University / Flatiron Institute
Rapporteur M. Marc CHAUMONT LIRMM, Université de Montpellier
Examinateur Mme Hiranya PEIRIS University College London / Oskar Klein Centre for Cosmoparticle Physics
Examinateur M. Thierry ARTIERES Ecole Centrale de Marseille / LIS – AMU – CNRS
Examinateur M. Cristinel DIACONU Centre de Physique des Particules de Marseille

Résumé de la thèse

Les réseaux de neurones avec apprentissage profond sont des outils puissants permettant de capturer des informations à partir de données, et ont été de plus en plus exploités dans les applications astrophysiques de ces dernières années. Cependant, les réseaux de neurones sont enclins à s'adapter à des informations spécifiques (telles que le bruit aléatoire, les effets systématiques, la distribution a priori des données d'entraînement, etc.) qui sont enchevêtrées avec les informations saillantes que vont exploiter certaines tâches, ce qui biaiserait les résultats. Il est donc essentiel de découpler ces informations spécifiques du contenu saillant que nous espérons extraire des données. Dans le but de développer des outils d'apprentissage profond robustes en préparation des futures sondages cosmologiques, cette thèse se concentre sur l'apprentissage d'informations saillantes à partir d'images multicolores avec des réseaux de neurones. Plus précisément, nous tentons d'établir des représentations informatives des données afin de capturer des informations saillantes à différents niveaux d'abstraction dans quelques tâches : À faible niveau d'abstraction, nous effectuons une traduction bidirectionnelle semi-supervisée d'images de galaxies multicolores entre deux sondages. En séparant l'apprentissage des distributions spatiales des flux et des modèles de bruit spécifiques, notre modèle est capable de récupérer des formes de galaxies correctes et des propriétés de bruit réalistes pour chaque sondage. À un niveau élevé d'abstraction, nous proposons une procédure pour corriger les biais d'estimation des méthodes basées sur les données en utilisant une représentation pré-entraînée, qui s'avère efficace dans une étude de l'estimation du redshift photométrique avec des images de galaxies. En plus des études astrophysiques, notre travail interdisciplinaire explore l'analyse d'images optiques sous-marines auxquelles les techniques développées en astrophysique peuvent être appliquées. En particulier, nous construisons un modèle de traduction pour éliminer les particules flottantes d'avant-plan des images sous-marines réelles et préserver le contenu saillant de l'arrière-plan, qui sera utile pour une analyse ultérieure telle que la reconstruction d'objets. Nous suggérons des améliorations pour nos méthodes proposées pour ces tâches afin de les rendre adaptables à l'analyse cosmologique réelle, telle que la simulation de données basée sur un réseau, la détection et la classification automatisées d'objets. En même temps, comme de nouveaux défis ont été rencontrés dans le traitement des données astronomiques, principalement le bruit et la rareté des données (statistiques limitées), notre travail implique la nécessité de faire progresser les techniques d'apprentissage automatique pour s'adapter aux problèmes réels et optimiser l'exploitation des données.

Thesis resume

Deep learning neural networks are powerful data-driven tools to capture information from data, and have been increasingly leveraged in astrophysical applications in recent years. However, neural networks are prone to fitting on specific information (including random noise, systematic effects, the prior distribution of training data, etc.) that is entangled with the salient information concerned for certain tasks, which would bias the output prediction of a model. It is therefore critical to decouple such specific information from the salient content that we hope to extract from data. Aiming at developing robust deep learning tools in preparation for future cosmological surveys, this thesis focuses on learning salient information from multi-color images with neural networks. In specific, we attempt to establish informative representations of data in order to capture salient information at different levels of abstraction in a few tasks: At a low level, we perform semi-supervised two-way translation of multi-color galaxy images between two surveys. By splitting the learning of global spatial flux distributions and specific noise patterns, our model is able to recover correct galaxy shapes and realistic noise properties for each survey. At a high level, we propose a procedure to correct estimation biases for data-driven methods using a pre-trained representation, which proves to be effective in a case study of photometric redshift estimation with galaxy images. In addition to astrophysical studies, our interdisciplinary work explores the analysis of underwater optical images in which the techniques developed in astrophysics can be applied. Particularly, we build a translation model to remove foreground floating particles from real underwater images and preserve salient background content, which will be useful for subsequent analysis such as object reconstruction. We suggest improvements for our methods proposed for these tasks in order to make them adaptable to real cosmological analysis, such as network-based data simulation, automated object detection and classification. At the same time, as new challenges have been encountered in dealing with astronomical data, predominantly noise and sparsity of data (limited statistics), our work implies the needs for advances of machine learning techniques to fit real problems and optimize the exploitation of data.