CORIA'08 5eme Cornférence on Recherche d'Information et Applications

Dans cet article nous décrivons les différentes étapes de construction du système de résumé extractif du LIP6 utilisé lors de la compétition Document Understanding Conferences (DUC2007). Ce système repose sur un module d'extension des mots de la question et du titre de chacun des sujets par des concepts de mots tr ouvés automatiquement avec un algorithme d'apprentissage non-supervisé. Cet algorithme est une version classifiante de l'algorithme EM. Chaque phrase des documents de la collection est ensuite caractérisée par un vecteur représentant les similarités de la phrase avec le titre, la question ainsi que leur version étendue. Le score f inal des phrases est alors trouvé en combinant manuellement ces similarités sur la base DUC 2006. Les résultats obtenus lors de cette compétition place le LIP6 respec tivement 3eme, 2eme et 1ere suivant les trois mesures officielles de la compétition.