Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles


Kim Young Min, Jean-François Pessiot, Nicolas Usunier, Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
104, avénue du Président Kennedy
75016 Paris


Dans cet article nous proposons une technique à base d'apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l'hypothèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d'abord regroupés avec l'algorithme CEM qui est une version classifiante de l'algorithme EM. Les documents sont ensuite représentés dans l'espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validité de not re approche en comparant le résultat de ce clustering avec ceux obtenus dans l'espace sac-de-mots initial et l'espace des groupes de mots induit par l'algorithme PLSA sur deux collections standard de WebKB et de Reuters.