Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles
Kim Young Min, Jean-François Pessiot, Nicolas Usunier, Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
104, avénue du Président Kennedy
75016 Paris
Dans cet article nous proposons une technique à base d'apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est
basée sur l'hypothèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes
sont d'abord regroupés avec l'algorithme CEM qui est une version classifiante de l'algorithme EM. Les documents sont ensuite représentés dans l'espace de ces groupes
de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validité de not
re approche en comparant le résultat de ce clustering avec ceux obtenus dans l'espace sac-de-mots initial et l'espace des groupes de mots induit par l'algorithme PLSA
sur deux collections standard de WebKB et de Reuters.