Apprentissage de fonctions de classification et d'ordonnancement avec des données partiellement étiquetées


Massih-Reza Amini

Habilitation à Diriger des Recherches


Spécialité: Informatique
Université Pierre et Marie Curie - Paris 6

Manuscrit

Version PDF 750 KB.

Résumé

Avec le développement des technologies d'information on assiste depuis quelques années à une nouvelle impulsion pour la conception de nouveaux cadres d'apprentissage automatique. C'est le cas par exemple du paradigme semi-supervisé qui a vu le jour vers la fin des années 90 dans la communauté apprentissage. Les premiers travaux dans ce cadre ont été motivés par le développement du web qui a entraîné une production massive de données textuelles très hétérogènes. Ces masses de données sont généralement livrées sous forme brute, sans étiquetage a priori et pour les exploiter on était alors réduit à utiliser des techniques non-supervisées. Ces approches bien que totalement génériques ne permettent cependant qu'une analyse limitée des informations de contenu et ne répondent pas ainsi aux demandes de nombreuses tâches de Recherche d'Information (RI). L'idée pragmatique développée pour l'apprentissage semi-supervisé était née de la question; "comment réduire l'effort d'étiquetage et utiliser simultanément une petite quantité de données étiquetées avec la masse de données non-étiquetées disponible pour apprendre?" Un autre exemple de l'émergence de nouveaux cadres d'apprentissage concerne le développement de méthodes automatiques pour la recherche et l'ordonnancement d'entités d'information sur des corpus de grandes tailles. Récemment beaucoup de travaux se sont intéressés à la formulation des différentes formes de la tâche d'ordonnancement. Ces travaux ont proposé des algorithmes et développé des cadres théoriques pour la prédiction d'ordres totaux ou partiels sur les exemples. La Recherche d'Information est une fois encore le domaine par excellence où les modèles d'apprentissage de fonctions d'ordonnancement jouent un rôle prépondérant. Dans notre étude nous nous sommes intéressés à deux cadres d'ordonnancement d'instances et d'alternatives. Dans le premier cas il s'agit d'ordonner les exemples (où instances) d'une collection donnée de façon à ce que les exemples jugés pertinents soient ordonnés au--dessus des exemples non--pertinents et dans le second cas nous cherchons à ordonner les alternatives d'une collection donnée par rapport à chaque exemple d'entrée. Ce mémoire présente mes travaux de recherche depuis ma thèse soutenue en 2001 suivant les deux axes d'apprentissage semi-supervisé et d'apprentissage de fonctions d'ordonnancement évoqués plus haut. J'ai commencé à m'intéresser à la problématique d'apprentissage semi-supervisé pour la classification à la fin de ma thèse jusqu'à fin 2003. En 2004 et 2005 j'ai abordé la problématique d'apprentissage supervisé de fonctions d'ordonnancement avec comme application phare le résumé automatique de textes. En 2006 je me suis intéressé à l'apprentissage actif de fonctions d'ordonnancement et nous avons été parmi les premiers à proposer un cadre théorique pour l'apprentissage actif de fonctions d'ordonnancement d'alternatives.

Soutenance

Date: 11 Décembre 2007 à 15h00
Lieu: Laboratoire d'Informatique de Paris 6, Salle 847
Membres du jury:
Stéphane CANU, Professeur INSA de Rouen, Rapporteur
Eric GAUSSIER, Professeur à l'université Joseph Fourier, Rapporteur
Françoise FOGELMAN-SOULIE, Vice Présidente de KXEN, Examinatrice
Patrick GALLINARI, Professeur à l'université Paris 6, Examinateur
Mario MARCHAND, Professeur à l'université Laval, Rapporteur
Jean-Philippe VERT, Directeur du centre bio-Informatique à l'Ecole des Mines de Paris, Examinateur