Utilisation des Réseaux de Neurones pour l'Analyse de Séquences dans les Textes


Massih-Reza Amini, Hugo Zaragoza, Patrick Gallinari
Laboratoire d'Informatique Paris 6
case 169
4, place de Jussieu
75252 Paris cedex 05


RÉSUMÉ. On présente l'application des Réseaux de Neurones à l'extraction d'information dans une collection de données textuelles.
Plus précisément, on considère la modélisation des séquences de termes par des Perceptrons Multi-Couches (PMCs) et on montre comment ce modèle peut être utilisé pour s'acquitter à des tâches d'Extraction d'Information de Surface (tâches qui n'ont pas besoin d'analyse sémantique et syntaxique complexe).
On étudie différentes représentation de textes et on analyse différentes contraintes grammaticales sur les sorties du modèle en utilisant la base MUC-6. En plus, on présente une méthode d'estimation statistique pour la validation du modèle.

ABSTRACT. This paper deals with the application of Artificial Neural Networks for sequence modeling to Information Extraction tasks.
More precisely, we consider the sequence modeling of terms with Mluti-Layer Perceptrons (MLPs) and show how this model can be used to perform specific surface extraction tasks (i.e. tasks which do not need in depth syntactic or semantic analysis).
We consider different text representations using semantic and syntactic knowledge and analyze the influence of different grammatical constraints on the models using the MUC-6 corpus. Furthermore, we present a statistical estimation method for the validation of such a model.