Ingénierie des Systèmes d'Information Jounal

Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. Les précédentes approches d'apprentissage pour le résumé automatique définissaient un ensemble de caractéristiques permettant d'associer à chaque phrase un vecteur de scores, puis d'entraîner un classifieur afin d'obtenir une combinaison de ces scores. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Cependant, des résultats théoriques récents suggèrent que le critère de classification peut être sous-optimal pour apprendre des fonctions de score. Ainsi, nous proposons d'utiliser le cadre offert par les algorithmes d'ordonnancement, qui permettent d'apprendre des combinaisons des caractéristiques en se concentrant sur les scores relatifs des phrases d'un même document. Les caractéristiques que nous utilisons sont basées sur l'état de l'art, mais aussi sur une nouvelle approche utilisant des groupements de mots qui co-occurrent dans les mêmes documents. Nous montrons empiriquement que les nouvelles caractéristiques, ainsi que la nouvelle approche d'apprentissage, obtiennent des résultats meilleurs que les approches précédentes sur deux corpus distincts.