Que signifie $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$ et quelle est sa relation avec le Probability Ranking Principle ?
C’est le logarithme de la probabilité qu’étant donné un document pertinent, il s’agisse du document $D_i$, sur la probabilité qu’étant donné un document non pertinent, il s’agisse de $D_i$.
Le Probability Ranking Principle affirme qu’il faut présenter les documents aux utilisateurs en ordre décroissant de probabilité de pertinence ($P(rel|D_i)$). Cependant, si les documents sont en ordre décroissant selon $\frac{P(D_i|rel)}{P(D_i|nrel)}$ ou $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$, alors il sont aussi en ordre décroissant selon $P(rel|D_i)$.
Question 2
Fixons $P(t|rel)=0.025$ pour tous les termes, et $P(t|nrel)=\frac{df(t)}{\vert V \vert}$ où $df(t)$ est le nombre de documents contenant le terme $t$ et $\vert V \vert$ est le nombre de documents ; alors calculez la valeur de statut de recherche ($\log \frac{P(D_i|rel)}{P(D_i|nrel)}$) pour le corpus suivant :
D1= « La vie est belle »
D2= « Belle est la vie »
(La casse n’est pas significative.)
Étant donné une requête, lequel des deux documents sera offert en premier à l’utilisateur selon le Probability Ranking Principle ?
Il faut calculer $df(t)$ pour chacun des termes. Nous avons $df(\textrm{La})/\vert V \vert=1.0$, $df(\textrm{vie})/\vert V \vert=1.0$, $df(\textrm{est})/\vert V \vert=1.0$, et $df(\textrm{belle})/\vert V \vert=1.0$.
Nous avons, pour les deux documents,
$\log \frac{P(D_i|rel)}{P(D_i|nrel)}= 4 \log 0.025 \approx -21$ (le logarithme est en base 2 ! Rappelez-vous que $\log_2 x= \log_a x/\log_a 2$).
Les deux documents sont strictement équivalents.
Question 3
Même question qu’en 2, mais avec le corpus suivant :
Supposons qu’avec le corpus de la question précédente, l’utilisateur indique que le document D1 est pertinent. Calculez
$P(\textrm{la}|rel) $, $P(\textrm{vie}|rel) $, $P(\textrm{belle}|rel) $, $P(\textrm{est}|rel)$, $P(\textrm{la}|nrel) $, $P(\textrm{vie}|nrel) $, $P(\textrm{belle}|nrel)$, et $P(\textrm{est}|nrel)$.
Quelle sera alors la valeur de $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$ pour le premier document ?
L’utilisateur a jugé pertinent un seul document ($r=1$). Nous avons une nouvelle estimation pour $P(t_j|rel)$ basée sur la fraction des documents jugés pertinents où le terme apparaît :
$P(\textrm{la}|rel) = 1$, $P(\textrm{vie}|rel) = 1$, $P(\textrm{belle}|rel) = 0$, et $P(\textrm{est}|rel) = 0$.
Ensuite, on applique la formule $P(t_j|nrel) = \frac{df_j-r’}{n-r}$. Rappelons que $df(\textrm{La})=2$, $df(\textrm{vie})=2$, et $df(\textrm{belle})=1$. Pour la et vie, $r’=1$, et $r’=0$ pour les autres termes. Donc, $P(\textrm{la}|nrel) = \frac{2-1}{2-1}=1$, $P(\textrm{vie}|nrel) = \frac{2-1}{2-1}=1$, $P(\textrm{belle}|nrel) = \frac{1-0}{2-1}=1$, et $P(\textrm{est}|nrel) = \frac{1-0}{2-1}=1$.
Nous avons
$\log \frac{P(D_1|rel)}{P(D_1|nrel)} = \infty$ parce que $\log 0= \infty$ et que
$\sum_{t_j\in D_j} \log P(t_j|nrel)$ calcule le logarithme de zéro.
Question 6
Quels mots doit-on indexer parmi cette liste et pourquoi ? Le tableau donne
le nombre d’occurrences d’un mot dans chaque document.
Document
Mot 1
Mot 2
Mot 3
D1
0
3
2
D2
1
3
3
D3
50
4
5
D4
0
4
10
D5
0
3
7
Le premier mot ne suit pas du tout
une distribution de Poisson : dans une distribution de Poisson, la plupart
des valeurs s’approchent de la moyenne avec une variance égale à la moyenne.
Le premier mot est donc, potentiellement, plus intéressant que les deux autres en recherche d’informations.
Question 7
Étant donné le texte « La vie est une vie sans vie. », à partir d’un modèle de la langue par unigrammes, quelle est la probabilité de l’expression « sans vie » ? Utilisez la vraisemblance maximale.
On commence par compter les occurrences : La (1), vie (3), est (1), une (1) et sans (1). Nous avons les probabilités correspondantes par vraisemblance maximale : La (1/7), vie (3/7), est (1/7), une (1/7) et sans (1/7). La probabilité du bigramme « sans vie » est donc 1/7 fois 3/7, ou 3/49 ou environ 6 %.
Question 8
Soit le texte « La vie est une vie sans vie. », calculez la probabilité des unigrammes présents dans le texte par vraisemblance maximale, par lissage de Laplace et par lissage de Good-Turing. Supposez qu’il y a 5 000 mots dans la langue française (ce qui est faux !).
Les occurrences sont : La (1), vie (3), est (1), une (1) et sans (1). Nous avons les probabilités correspondantes suivantes par vraisemblance maximale : La (1/7), vie (3/7), est (1/7), une (1/7) et sans (1/7).
Par lissage de Laplace, les probabilités sont : La (2/(7+5000)), vie (4/(7+5000)), est (2/(7+5000)), une (2/(7+5000)) et sans (2/(7+5000)).
Un total de $5000-5$ mots ont une fréquence de zéro (ils ne sont pas observés). Nous avons donc $n_0=5000-5$. Il y 4 mots avec une fréquence unitaire (La, est, une et sans). Nous avons donc $n_1=4$. Finalement, il n’y aucun mot qui apparaît deux fois ($n_2=0$) et un seul mot qui apparaît 3 fois ($n_3=1$). Ainsi, La, est, une et sans auront une probabilité nulle par lissage Good Turing puisque $n_2=0$, et vie aura aussi une probabilité nulle parce $n_4=0$.
Question 9
Quelle sont les valeurs maximales et minimales de $\log \frac{P(rel|D_i)}{P(nrel|D_i)}$ ?
Puisque $P(rel|D_i)+P(nrel|D_i)=1$, on cherche la valeur maximale de $\log x/(1-x)$. Si $x=0$ alors $\log x/(1-x)=-\infty$ alors que si $x=1$, $\log x/(1-x)=\infty$.
Question 10
J’ai douze poissons dans mon aquarium. Aujourd’hui, je ne vois que le poisson rouge. Par lissage Good-Turing, quelle est la probabilité que la prochaine fois que je vais entrer chez moi, le premier poisson que je vois soit autre chose que mon poisson rouge ?
J’ai que $n_0=11$ et $n_1=1$. La probabilité de voir
un poisson donné, outre le poisson rouge, est $n_1/n_0=1/11$ alors que la probabilité de voir le poisson rouge est 0. Donc, je suis certain de voir un autre poisson que le poisson rouge.
Question 11
Vrai ou faux : $P(D_i|rel)+P(D_i|nrel)=1$.
Faux.
Question 12
Si $P(rel)=0.5$, prouvez que $P(D_i|rel)+P(D_i|nrel)=\frac{P(D_i|nrel)}{P(nrel| D_i)}$.
Nous avons $\frac{P(rel|D_i)}{P(nrel| D_i)} = \frac{P(D_i|rel)}{P(D_i|nrel)}
\frac{P(rel)}{P(nrel)}$ et $P(rel)+P(nrel)=1$. Si $P(rel)=0.5$, alors $P(nrel)=0.5$ et $\frac{P(rel)}{P(nrel)}=1$. Donc, nous avons $\frac{P(rel|D_i)}{P(nrel| D_i)} = \frac{P(D_i|rel)}{P(D_i|nrel)} $. Ainsi $P(D_i|rel) + P(D_i|nrel) = (1+ \frac{P(rel|D_i)}{P(nrel| D_i)})P(D_i|nrel)$, mais puisque $ \frac{P(nrel| D_i)+P(rel|D_i)}{P(nrel| D_i)}P(D_i|nrel)=\frac{P(D_i|nrel)}{P(nrel| D_i)}$, le résultat est démontré.
Question 13
En utilisant des mots comme unité de base, quels sont les suffixes de la phrase « Jean aime les pommes » ?
Nous avons les suffixes suivants :
« Jean aime les pommes », « aime les pommes », « les pommmes », et « pommes ».
Question 14
Dans un site Web, je vend 5 produits. Aujourd’hui, j’ai fait 1 vente pour les produts A, B et C, 2 ventes pour le produit D et aucune vente pour le produit E. Quel est la fréquence de Good-Turing de mes ventes ?
J’ai $n_0=1, n_1=3, n_2=1$. Ainsi les fréquences de Good-Turing sont $ n_1/n_0 = 3, 2 n_2 /n_1 = 2/3, 3 n_3/n_2=0$.