# Algorithme de la factorisation matricielle pour la recommandation

Question 1. Téléchargez la base MovieLens ml-latest-small.zip décrite dans Movie Lens. Renseignez le tableau suivant en utilisant le fichier ratings.csv qui contient les identifiants des utilisateurs (userId), qui ont vu des films, identifiés par leurs movieId, et leurs donnant une note (rating) à un temps donné (timestamp). à Partir de ce fichier nous allons construire deux bases dites "base d'apprentissage" ($\mathcal{R}_{app}$) et "base de test" ($\mathcal{R}_{tst}$). Pour cela, triez pour chaque utilisateur, les films dans l'ordre croissant des timestamp. :

| Nombre d'utilisateurs | Nombre de films | Nombre de scores ($|\mathcal{R}|$) | Sparsité* (%) |
|-----------------------|-----------------|------------------------------------|----------|
| | | | |

\*Sparsité est le pourcentage d'entrées non-renseignées (non-scorées) de la matrice utilisateurs/films.



Pour tous les utilisateurs, mettez les 80% des quadruplets correspondants à chaque utilisateur et des films les plus anciens qu'il a notés dans $\mathcal{R}_{app}$. Pour l'utilisateur en cours de traitement, mettez le reste de ses quadruplets (correspondants aux 20% des films les plus récents notés par cet utilisateur) dans $\mathcal{R}_{tst}$. Ainsi $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$ tous les utilisateurs de la base.

NB: On pourra utiliser la fonction read_csv de la bibliothèque pandas pour la lecture du fichier ratings.csv

Question 2. Combien y-a-t-il de films qui sont scorés par les utilisateurs dans la base de test et qui ne sont pas présents dans la base d'apprentissage? Combien y-a-t-il de films qui sont scorés par les utilisateurs dans la base d'apprentissage et qui ne sont pas présents dans la base de test? Remplir le tableau:

| \# de films de $\mathcal{R}_{tst}$ non présents dans $\mathcal{R}_{app}$ | \# de films de $\mathcal{R}_{app}$ non présents dans $\mathcal{R}_{tst}$ |
|------------------------------------|----------|
| | |




Filtrez les bases $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$ en ne gardant que les films présents dans les deux. Mettez les quadruplets de $\mathcal{R}_{tst}$ conctenant des films qui ne sont pas présents dans $\mathcal{R}_{app}$; dans une liste appelée coldstart (dans la suite nous allons nous intéresser qu'aux films qui sont présents dans les deux bases $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$).


NB. Vous pouvez stocker les listes sur le disque en utilisant la fonction pickle.dump; pour lire la liste depuis ce fichier vous pouvez utiliser la fonction pickle.load.

* À quoi est dû, à votre avis, cet absence de films dans une base mais présents dans l'autre?
* Quel est le nombre de films présents dans les deux bases $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$?
* Quelle est la taille de la liste coldstart?
* Quelles sont les tailles des bases $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$ après filtrage?

|\# de films présents dans $\mathcal{R}_{app}$ et $\mathcal{R}_{tst}$ | \|coldstart\| | $\left|\mathcal{R}_{app}\right|$ | $\left|\mathcal{R}_{tst}\right|$ |
|---------------------------------------------------------------------|-----------|-------------------------|---------------------------------|
| | | | |

Nous allons dans cette partie nous intéresser à l'implémentation de l'algorithme de recommandation vu en cours. Pour rappel, cet algorithme associe à chaque utilisateur $u$ et chaque film $i$ de la $\mathcal{R}_{app}$ des vecteurs aléatoires respectifs, $\mathbf{U}_u\in\mathbb{R}^d$ et $\mathbf{V}_i\in\mathbb{R}^d$ dans le but de les apprendre de façon à ce que le produit scalaire $\mathbf{U}_u^\top\mathbf{V}_i$ traduise l'appétance de l'utilisateur $u$ pour le film $i$.

Cet apprentissage se fait en minimisant l'erreur quadratique:
$$
\mathcal{L}({R}_{app},\mathbf{U},\mathbf{V})=\sum_{r_{ui}\in {R}_{app}} (r_{ui}-\mathbf{U}_u^\top\mathbf{V}_i)^2+\lambda (\|\mathbf{U}_u\|^2 + \|\mathbf{V}_i\|^2)
$$
Où $\mathbf{U}$ (resp. $\mathbf{V}$) est la matrice constituée par les vecteurs représentatifs des utilisateurs (resp. des produits), $r_{ui}$ le score associé par l'utilisateur $u$ au film $i$, $\mathcal{R}_{app}=\{r_{ui}\in\mathbb{R}|~u \text{ et } i \text{ sont dans la base d'apprentissage}\}$ est l'ensemble des scores donnés par les utilisateurs aux films de la base d'apprentissage; et, $\mathbf{U}_u$ (resp. $\mathbf{V}_i$) est le vecteur représentatif de l'utilisateur $u$ (resp. item $i$) dans l'espace latent. 

Pour une implémentation efficace de l'algorithme du gradient, nous allons considérer sa version stochastique qui consiste à tirer aléatoire un utilisateur $u$ et un film $i$ dans l'ensemble des films qu'il a notés et de faire la mise a jour des vecteurs représentatifs $\mathbf{U}_u$ et $\mathbf{V}_i$ associés en minimisant l'erreur instantanée:
$$
\ell(\mathbf{U}_u,\mathbf{V}_i)=(r_{ui}-\mathbf{U}_u^\top\mathbf{V}_i)^2+\lambda (\|\mathbf{U}_u\|^2 + \|\mathbf{V}_i\|^2)
$$


Dans ce cas les dérivées partielles de cette fonction par rapport aux vecteurs représentatifs de l'utilisateur $u$ et du film $i$ sont:
$$
\frac{\partial \ell(\mathbf{U}_u,\mathbf{V}_i)}{\partial \mathbf{U}_u}=-2\left(e_{ui}\mathbf{V}_i-\lambda \mathbf{U}_u \right)\\
\frac{\partial \ell(\mathbf{U}_u,\mathbf{V}_i)}{\partial \mathbf{V}_i}=-2\left(e_{ui}\mathbf{U}_u-\lambda \mathbf{V}_i \right)
$$
où $e_{ui}=(r_{ui}-\mathbf{U}_u^\top\mathbf{V}_i)$.

Le pseudo-code est le suivant:

`input: R_app, MaxEp, eps
init : U,V aléatoirement
epoque <- 0
Lnew <- 1
Lold <- 0
while epoque<=MaxEp and |Lnew-Lold|>eps
 Lold <- Lnew
 Lnew <- 0
 for i in range(|R_app|)
 choisir un utilisateur u de façon aléatoire
 choisir un film i dans la liste des films notés par u de façon aléatoire 
 U_u <- U_u+eta*(e_ui*V_i - lambda*U_u)
 V_i <- V_i+eta*(e_ui*U_u - lambda*V_i)
 Lnew <- Lnew + l(U_u,V_i)
 Lnew <- Lnew/|R_app|
 epoque <- epoque+1
output: U,V`



Question 3. Codez l'algorithme du gradient stochastique pour apprendre les vecteurs représentatifs des utilisateurs et des films sur la nouvelle filtrée $\mathcal{R}_{app}$, en fixant la taille de l'espace de représentation à $d=5$. On fixera $\eta=0.01$ et $\lambda=0.1$.

NB. On pourra utiliser la bibliothèque numpy qui définit l'ensemble des opérations algébriques sur les vecteurs et les matrices

Question 4. On considère l'erreur moyenne absolue calculée sur les notes prédites par l'algorithme pour les films de la base de test :
$$
MAE(\mathcal{R}_{test},\mathbf{U},\mathbf{V})=\frac{1}{|\mathcal{R}_{test}|}\sum_{r_{ui}\in {R}_{test}} |e_{ui}|=\frac{1}{|\mathcal{R}_{test}|}\sum_{r_{ui}\in {R}_{test}} |r_{ui}-\mathbf{u}^\top\mathbf{v}|
$$
Quel est l'impact de la taille des vecteurs représentatifs des utilisateurs et des films sur les prédictions. Pour cela répéter la question 7 et reporter les erreurs $MAE$ pour différentes valeurs de $d$. 


| $d$=5 | $d$=25 | $d$= 50| $d$=100 |
|----------|--------|---------|---------|
| | | | |