L3
Informatique et aléatoire
Détection automatique de langue d'un texte

1. But du projet

L'objectif de ce projet est de construire une fonction permettant de déterminer automatiquement à quelle langue appartient un mot, comme dans les deux examples suivants :

Det-langue('pommme') $\rightarrow$ français
Det-langue('apple') $\rightarrow$ anglais

Vous devrez rendre votre code et un compte-rendu de quelques pages après le TP4. Le projet peut se faire en binôme. Le code doit être écrit en langage Pyhton. Le rendu du projet doit suivre la démarche suivante :

envoyez un mél à Massih[-]Reza[point]Amini[AT]imag[point]fr avec le sujet : [LI3-InfAleat-projet1] nom-etu1 nom-etu2
le mél doit contenir, en attachement la notebook Jupyter avec votre code Pyhton.

2. Construction d'un modèle de langue

La méthode d'identification est fondée sur l'observation que la fréquence d'apparition d'une lettre dépend de la langue dans laquelle on écrit. Par exemple un texte français comportera beaucoup plus de e qu'un texte écrit en anglais ou en italien. Dans la suite de ce document, nous noterons $\textbf{w}$ un mot composé de n lettres $(w_i)_{i=1}^n$ . Nous supposerons que, pour une langue l donnée, la probabilité d'observer un mot ne dépend que de la probabilité d'apparition de ses lettres : $\mathbf{P}(\textbf{w}\mid\ell)=\prod_{i=1}^n\mathbf{P}(w_i\mid \ell)$
Q1. Sur quelle hypothèse est basé l'égalité précédente? Cette hypothèse est-elle vraisemblable? Si l'on dispose d'un corpus (c.-à-d. un ensemble de documents) écrit dans la langue l, il est possible de déterminer automatiquement les probabilités $\mathbf{P}(w_i\mid \ell)$ en la confondant avec la fréquence d'apparition de la lettre $w_i$ dans le corpus de la langue l:
$\mathbf{P}(w_i\mid \ell)=\frac{\text{nb d'occurences de }w_i + 1}{\text{nb total de caract\`eres apparaissant dans les mots de la langue+26}}$ les comptages se faisant sur l'ensemble des mots des documents rédigés dans la langue l.

Nous allons utiliser les probabilités calculées au paragraphe précédent pour prédire la langue l, d'un mot $\textbf{w}$ . Pour cela, nous allons considérer la fonction de décision suivante : $\ell^*=\mathop{\text{argmax}}_{\ell\in\mathcal{L}}\mathbf{P}(\ell\mid \textbf{w})$
où $\mathcal{L}$ est l'ensemble des langues que notre système connaît, et $\ell^*$ est le résultat de la prédiction. La probabilité $\mathbf{P}(\ell\mid \textbf{w})$ peut être déterminée grâce à la formule de Bayes :

$\mathbf{P}(\ell\mid \textbf{w})=\frac{\mathbf{P}(\textbf{w}\mid \ell)\mathbf{P}(\ell)}{\mathbf{P}(\textbf{w})}$ Q2. À quoi correspondent les différents termes de cette relation ? Peuvent-ils être tous calculés ? En particulier, est-il nécessaire de déterminer la probabilité $\mathbf{P}(\textbf{w})$ ? Quelle est à votre avis le meilleur moyen de déterminer $\mathbf{P}(\ell)$ ?

3. Réalisation

On dispose d'un ensemble de documents écrits dans différentes langues l . Les documents ont été pré-traités de la manière suivante :

toutes les majuscules ont été converties en minuscules ;
toutes les lettres accentuées ont été supprimées ;
tous les signes de ponctuation ont été supprimés.

Les questions suivantes sont indicatives. Vous pouvez organiser vos classes de la manière qui vous convient. Faites attention cependant à la rapidité algorithmique de votre implémentation (en particulier, ne lire qu'une fois chaque corpus !). Ecrivez une classe qui prend en charge la lecture d'un corpus pour une langue donnée et qui calcule son modèle de langage. En particulier, elle doit permettre de :
Q3. de lire un corpus d'une langue donnée.
Q4. Compter le nombre de fois qu'une lettre w est utilisée.
Q5. Calculez la probabilités $\mathbf{P}(\textbf{w}\mid \ell)$ de la langue choisie pour la lettre w à l'aide de l'Equation fréquentielle précédente.
Q6. Calculez la probabilité du mot $\mathbf{P}(\textbf{w}\mid \ell)$ Tester votre fonction et déterminer les deux probabilités suivantes : $\mathbf{P}(\text{statistics}\mid \text{anglais})$ ; $\mathbf{P}(\text{probabilite})$ .
Q7. Ecrivez une classe permettant de déterminer la langue d'un mot.
Q8. Pour évaluer les performances du système, on considère la fonction d'erreur suivante :
$\epsilon=1-\frac{\text{nombre de r\'eponses fausses}}{\text{nombre de r\'eponses}}$
Q9. Programmez cette fonction et testez les performances de votre système en utilisant le fichier test qui contient des mots trouvés alétoirement sur des pages wikipedia en français, allemand, italien et anglais.

Q10. (Bonus) on suppose que les lettres apparaissant dans un mot sont dépendants de la lettre qui les précède. Avec cette hypothèse, la probabilité d'un mot sachant une langue se décompose comme : $\mathbf{P}(\textbf{w}\mid\ell)=\mathbf{P}(w_1\mid \ell)\prod_{i=2}^n\mathbf{P}(w_i\mid w_{i-1},\ell)$
Les estimés des probabilités de lettres au sens du maximum de vraisemblance sont :

$\mathbf{P}(w_i\mid w_{i-1},\ell)=\frac{\text{nb de fois }w_{i-1}\text{ pr\'ec\`ede }w_i + 1}{\text{nb de fois }w_{i-1}\text{ pr\'ec\`ede une autre lettre} + 26}$

Implémenter ce modèle (appelé modèle bi-gramme) et comparer ses performances avec le modèle précédent en utilisant la même base.

L3Informatique et aléatoire Détection automatique de langue d'un texte

1. But du projet

2. Construction d'un modèle de langue

3. Réalisation

L3
Informatique et aléatoire
Détection automatique de langue d'un texte