Accueil  / Semaine 7 / Autoévaluation

Autoévaluation

Question 1

Que signifie \log \frac{P(D_i|rel)}{P(D_i|nrel)} et quelle est sa relation avec le Probability Ranking Principle ?

Question 2

Fixons P(t|rel)=0.025 pour tous les termes, et P(t|nrel)=\frac{df(t)}{\vert V \vert}df(t) est le nombre de documents contenant le terme t et \vert V \vert est le nombre de documents ; alors calculez la valeur de statut de recherche (\log \frac{P(D_i|rel)}{P(D_i|nrel)}) pour le corpus suivant :

D1= « La vie est belle »

D2= « Belle est la vie »

(La casse n’est pas significative.)

Étant donné une requête, lequel des deux documents sera offert en premier à l’utilisateur selon le Probability Ranking Principle ?

Question 3

Même question qu’en 2, mais avec le corpus suivant :

D1= « La vie est belle »

D2= « Belle, belle est la vie »

(Encore une fois, la casse doit être ignorée.)

Question 4

Même question qu’en 2, mais avec le corpus :

D1= « La vie »

D2= « Belle est la vie »

Question 5

Supposons qu’avec le corpus de la question précédente, l’utilisateur indique que le document D1 est pertinent. Calculez
P(\textrm{la}|rel) , P(\textrm{vie}|rel) , P(\textrm{belle}|rel) , P(\textrm{est}|rel), P(\textrm{la}|nrel) , P(\textrm{vie}|nrel) , P(\textrm{belle}|nrel), et P(\textrm{est}|nrel).
Quelle sera alors la valeur de \log \frac{P(D_i|rel)}{P(D_i|nrel)} pour le premier document ?

Question 6

Quels mots doit-on indexer parmi cette liste et pourquoi ? Le tableau donne
le nombre d’occurrences d’un mot dans chaque document.

Document Mot 1 Mot 2 Mot 3
D1 0 3 2
D2 1 3 3
D3 50 4 5
D4 0 4 10
D5 0 3 7

Question 7

Étant donné le texte « La vie est une vie sans vie. », à partir d’un modèle de la langue par unigrammes, quelle est la probabilité de l’expression « sans vie » ? Utilisez la vraisemblance maximale.

Question 8

Soit le texte « La vie est une vie sans vie. », calculez la probabilité des unigrammes présents dans le texte par vraisemblance maximale, par lissage de Laplace et par lissage de Good-Turing. Supposez qu’il y a 5 000 mots dans la langue française (ce qui est faux !).

Question 9

Quelle sont les valeurs maximales et minimales de \log \frac{P(rel|D_i)}{P(nrel|D_i)} ?

Question 10

J’ai douze poissons dans mon aquarium. Aujourd’hui, je ne vois que le poisson rouge. Par lissage Good-Turing, quelle est la probabilité que la prochaine fois que je vais entrer chez moi, le premier poisson que je vois soit autre chose que mon poisson rouge ?

Question 11

Vrai ou faux : P(D_i|rel)+P(D_i|nrel)=1.

Question 12

Si P(rel)=0.5, prouvez que P(D_i|rel)+P(D_i|nrel)=\frac{P(D_i|nrel)}{P(nrel| D_i)}.

Question 13

En utilisant des mots comme unité de base, quels sont les suffixes de la phrase « Jean aime les pommes » ?

Question 14

Dans un site Web, je vend 5 produits. Aujourd’hui, j’ai fait 1 vente pour les produts A, B et C, 2 ventes pour le produit D et aucune vente pour le produit E. Quel est la fréquence de Good-Turing de mes ventes ?