Apprentissage de fonctions d'ordonnancement semi-supervisé inductives


Truong V., Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
104, avénue du Président Kennedy
75016 Paris


Nous proposons dans ce papier une méthode inductive d'apprentissage de fonctions d'ordonnancement avec des données partiellement étiquetées. Les problèmes d'ordonnancement considérés ici sont des problèmes \textit{bipartites} où il existe une information désirée fixe pour laquelle on cherche à ordonner les instances pertinentes par rapport à cette information au-dessus des instances non-pertinentes. Pour résoudre ce genre de problème les techniques existantes sont basées sur des méthodes transductives. Elles commencent généralement avec un graphe de similarité entre l'ensemble des données d'une base et cherchent ensuite à propager les scores des données étiquetées pertinentes sur le graphe. Notre approche est basée sur l'hypothèse \emph{cluster assumption} proposée en classification semi-supervisé. Elle commence à partitionner l'ensemble des exemples d'une base d'apprentissage et elle apprend ensuite une fonction de score régularisée qui pénalise les fortes variations entre deux exemples appartenant à une même partition. Pour apprendre cette fonction de score, nous utilisons la fonction e-insensitivehinge, qui permet de formaliser le problème d'optimisation comme une forme duale des Séparateurs à Vaste Marge (SVM). Une fois la fonction de score apprise, les exemples d'un nouvel ensemble pourront être ordonnés en fonction de la sortie de cette fonction. Les expériences menées sur des collections de l'état de l'art montrent que les données non--étiquetées permettent d'améliorer les performances en ordonnancement comme l'aire sous la courbe ROC (AUC), la précision moyenne ou la précision sur les $k$ premiers exemples, de la fonction de base apprise qu'avec les données étiquetées.