Apprentissage Numérique pour le Résumé de Texte


Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
104, avénue du Président Kennedy
75016 Paris


Nous présentons une méthode d?apprentissage semi-supervisé pour réaliser des résumés de textes par extraction de phrases pertinentes. Ce système permet d?entraîner des classifieurs en se basant sur une petite quantité de données étiquetées simultanément à une grande quantité de données non-étiquetées. Des méthodes d?apprentissage proposées jusqu?à présent, pour le résumé de textes, s?appuient sur des techniques supervisées, ce qui pour apprendre nécessite l?étiquetage manuel de toutes les phrases ou les paragraphes d?une collection de documents. Ce procédé devient vite obsolète dans le cas où on disposerait d?une grande collection de documents ou bien lorsqu?on s?intéresse aux résumés on-line de documents issus d?un moteur de recherche. L?algorithme que nous proposons est assez générique dans le sens où il peut être utilisé avec n?importe quel classifieurs estimant les probabilités a posteriori de classes.