RICM4
Recherche d'Information Multimédia
TP 5 & 6 - Modèle de recherche vectoriel et mesures d'évaluation

1. But du TP

Développer un modèle vectoriel sur la base de la reprépresentation VSM et érire des fonctions qui estiment la précision moyenne à k, et la courbe Précision & Rappel pour une reqûete donnée.

2. Déroulement

On considère un des fichiers de représentation creuse obtenus suivant le modèle VSM au TP4-5.
  1. Appliquer les mêmes filtrages que ceux appliqués aux documents (filtrage des caractères non-alphanumériques et filtrage par la même stop-list) et utiliser le vocabulaire trouvé aux TPs précédents pour représenter la base des requêtes (fichier query.text) dans le même espace vectoriel que celui où les documents sont représentés.

  2. Écrire une fonction qui prend les représentations vectorielles creuses d'un document et d'une requête et qui calcule la mesure cosine entre ces deux vecteurs


    On remarque que les normes des documents de la base, intervenant dans le calcul de la mesure cosine, peuvent être calculées et stockées à l'avance.

  3. Écrire une fonction qui retourne les k documents les plus similaires par rapport à une requête donnée et la mesure de similarité cosine, où k est un paramètre d'entrée de la fonction.

  4. Pour une requête donnée de la base des requêtes pour lesquelles on dipose des jugements de pertinence (fichier qrels.text), écrire une fonction qui calcule la précision moyenne à k, .

  5. À partir de cette fonction, écrire une autre fonction qui estime la moyenne des précision (AvP) pour une requête donnée et la mesure MAP :

    est le nombre de document pertinent par rapport à q, N est le nombre de documents de la collection, est la fonction indicatrice qui est égale à si le prédicat est vrai et 0 sinon.

    Où Q est l'ensemble des requêtes pour lesquelles on dispose des jugements de pertinence.
  6. Pour une requête donnée de la base des requêtes pour lesquelles on dipose des jugements de pertinence, écrire une fonction qui produit un fichier où chaque ligne k du fichier contient les valeurs de Rappel et de précision à k : .

  7. À partir de ce fichier dessiner la courbe Précision et Rappel pour la reqûete en question.
    À titre d'exemple, pour le problème jouet suivant, on devrait trouver