Que signifie et quelle est sa relation avec le Probability Ranking Principle ?
C’est le logarithme de la probabilité qu’étant donné un document pertinent, il s’agisse du document , sur la probabilité qu’étant donné un document non pertinent, il s’agisse de .
Le Probability Ranking Principle affirme qu’il faut présenter les documents aux utilisateurs en ordre décroissant de probabilité de pertinence (). Cependant, si les documents sont en ordre décroissant selon ou , alors il sont aussi en ordre décroissant selon .
Question 2
Fixons pour tous les termes, et où est le nombre de documents contenant le terme et est le nombre de documents ; alors calculez la valeur de statut de recherche () pour le corpus suivant :
D1= « La vie est belle »
D2= « Belle est la vie »
(La casse n’est pas significative.)
Étant donné une requête, lequel des deux documents sera offert en premier à l’utilisateur selon le Probability Ranking Principle ?
Il faut calculer pour chacun des termes. Nous avons , , , et .
On se rappelera que
Nous avons, pour les deux documents,
(le logarithme est en base 2 ! Rappelez-vous que ).
Les deux documents sont strictement équivalents.
Question 3
Même question qu’en 2, mais avec le corpus suivant :
D1= « La vie est belle »
D2= « Belle, belle est la vie »
(Encore une fois, la casse doit être ignorée.)
La solution est identique.
Question 4
Même question qu’en 2, mais avec le corpus :
D1= « La vie »
D2= « Belle est la vie »
Nous avons , , , et .
Pour le premier document, nous avons :
.
Pour le second document, nous avons :
.
Le premier document sera offert en premier.
Question 5
Supposons qu’avec le corpus de la question précédente, l’utilisateur indique que le document D1 est pertinent. Calculez
, , , , , , , et .
Quelle sera alors la valeur de pour le premier document ?
L’utilisateur a jugé pertinent un seul document (). Nous avons une nouvelle estimation pour basée sur la fraction des documents jugés pertinents où le terme apparaît :
, , , et .
Ensuite, on applique la formule . Rappelons que , , et . Pour la et vie, , et pour les autres termes. Donc, , , , et .
Nous avons
parce que et que
calcule le logarithme de zéro.
Question 6
Quels mots doit-on indexer parmi cette liste et pourquoi ? Le tableau donne
le nombre d’occurrences d’un mot dans chaque document.
Document
Mot 1
Mot 2
Mot 3
D1
0
3
2
D2
1
3
3
D3
50
4
5
D4
0
4
10
D5
0
3
7
Le premier mot ne suit pas du tout
une distribution de Poisson : dans une distribution de Poisson, la plupart
des valeurs s’approchent de la moyenne avec une variance égale à la moyenne.
Le premier mot est donc, potentiellement, plus intéressant que les deux autres en recherche d’informations.
Question 7
Étant donné le texte « La vie est une vie sans vie. », à partir d’un modèle de la langue par unigrammes, quelle est la probabilité de l’expression « sans vie » ? Utilisez la vraisemblance maximale.
On commence par compter les occurrences : La (1), vie (3), est (1), une (1) et sans (1). Nous avons les probabilités correspondantes par vraisemblance maximale : La (1/7), vie (3/7), est (1/7), une (1/7) et sans (1/7). La probabilité du bigramme « sans vie » est donc 1/7 fois 3/7, ou 3/49 ou environ 6 %.
Question 8
Soit le texte « La vie est une vie sans vie. », calculez la probabilité des unigrammes présents dans le texte par vraisemblance maximale, par lissage de Laplace et par lissage de Good-Turing. Supposez qu’il y a 5 000 mots dans la langue française (ce qui est faux !).
Les occurrences sont : La (1), vie (3), est (1), une (1) et sans (1). Nous avons les probabilités correspondantes suivantes par vraisemblance maximale : La (1/7), vie (3/7), est (1/7), une (1/7) et sans (1/7).
Par lissage de Laplace, les probabilités sont : La (2/(7+5000)), vie (4/(7+5000)), est (2/(7+5000)), une (2/(7+5000)) et sans (2/(7+5000)).
Un total de mots ont une fréquence de zéro (ils ne sont pas observés). Nous avons donc . Il y 4 mots avec une fréquence unitaire (La, est, une et sans). Nous avons donc . Finalement, il n’y aucun mot qui apparaît deux fois () et un seul mot qui apparaît 3 fois (). Ainsi, La, est, une et sans auront une probabilité nulle par lissage Good Turing puisque , et vie aura aussi une probabilité nulle parce .
Question 9
Quelle sont les valeurs maximales et minimales de ?
Puisque , on cherche la valeur maximale de . Si alors alors que si , .
Question 10
J’ai douze poissons dans mon aquarium. Aujourd’hui, je ne vois que le poisson rouge. Par lissage Good-Turing, quelle est la probabilité que la prochaine fois que je vais entrer chez moi, le premier poisson que je vois soit autre chose que mon poisson rouge ?
J’ai que et . La probabilité de voir
un poisson donné, outre le poisson rouge, est alors que la probabilité de voir le poisson rouge est 0. Donc, je suis certain de voir un autre poisson que le poisson rouge.
Question 11
Vrai ou faux : .
Faux.
Question 12
Si , prouvez que .
Nous avons et . Si , alors et . Donc, nous avons . Ainsi , mais puisque , le résultat est démontré.
Question 13
En utilisant des mots comme unité de base, quels sont les suffixes de la phrase « Jean aime les pommes » ?
Nous avons les suffixes suivants :
« Jean aime les pommes », « aime les pommes », « les pommmes », et « pommes ».
Question 14
Dans un site Web, je vend 5 produits. Aujourd’hui, j’ai fait 1 vente pour les produts A, B et C, 2 ventes pour le produit D et aucune vente pour le produit E. Quel est la fréquence de Good-Turing de mes ventes ?