Présentation de la semaine |
Une fin de module...
Cette semaine, nous allons terminer le troisième module avec des lectures sur les index inversés, sur l’ergonomie en recherche d’informations (RI) et sur la mesure de l’erreur dans les systèmes de recherche d’informations (présentation de quelques notions sur la précision en RI et bref rappel).
Finalement, pour conclure le module, vous devrez faire un travail noté.
Petit rappel : une comparaison des différents types de modèles
Modèle booléen
– simplicité de la conception du modèle ;
– possibilité de structurer une requête avec des opérateurs logiques.
Inconvénients :
– difficulté d’utilisation du modèle (complexe) ;
– difficulté d’inclure une pondération des termes.
Modèles vectoriels
– utilisation facile des modèles ;
– aptitude des modèles à bien fonctionner.
Inconvénient :
– fondements purement empiriques : peu de fondements théoriques.
Modèles probabilistes
– fondements théoriques plus sophistiqués ;
– utilisation facile des modèles.
Inconvénient :
– tendance à pousser l’utilisateur à évaluer des probabilités inconnues ou à construire des modèles.
Modèles hybrides
Il y a des modèles (extended boolean, booléen flou, etc.) qui cherchent à combiner les avantages de la structure du booléen avec la pondération du vectoriel. De plus, des raffinements ont été apportés à la pondération tf.idf, par exemple, afin de prendre en compte la taille des documents et leur fréquence dans la collection, sur des fondements probabilistes. Finalement, le concept général de rétroaction de pertinence peut être exploité dans d’autres approches que le probabilisme.
Note historique
Il est intéressant d’observer qu’il y a un lien étroit entre le modèle booléen et la théorie de l’information ! En effet, l’une des premières observations importantes dans la carrière de Shannon fut que la théorie de George Boole pouvait s’appliquer aux machines électroniques (d’où le concept de « bit » qui nous est si familier). C’est sur cette base qu’est née la théorie de l’information.