Apprentissage non-supervisé pour la segmentation automatique de textes


Jean-François Pessiot, Marc Caillet, Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
8, rue du capitaine scott
75015 Paris


Nous proposons dans cet article une approche basée sur des techniques d'apprentissage pour la segmentation automatique de texte. Nous considérons un paragraphe comme l'entité textuelle de base. Notre système découvre d'abord diffèrents concepts présents dans un texte, chaque concept étant défini par un ensemble représentatif de mots. Le texte est ensuite segmenté suivant des paragraphes en utilisant une technique de partitionnement basée sur la vraisemblance classifiante. Nous évaluons l'efficacité de cette technique sur un ensemble concaténé de paragraphes de la collection 7sectors et nous la comparons à une technique de référence proposée par Salton et al.