Présentation de la semaine |
Les modèles de recherche d’informations
Avant de chercher de l’information, il est nécessaire, pour l’utilisateur, d’avoir un modèle qui lui indique comment il fera sa recherche et quelles sont les stratégies que le logiciel utilisera pour trouver l’information recherchée (selon la sémantique de la recherche).
Par exemple, si on soumet la requête « Daniel NOT Lemire » au moteur de recherche Altavista, on obtient des pages qui contiennent le mot « Daniel », mais pas le mot « Lemire ». Par contre, la même recherche dans Google ne donne pas du tout ce résultat : Google ne tient pas compte du mot « NOT » comme opérateur logique.
Dans le cours, nous allons étudier tour à tour trois grands types de modèles de recherche d’informations dans le contexte des documents textuels :
– le modèle booléen ;
– les modèles vectoriels ;
– les modèles probabilistes.
Il existe d’autres modèles, comme les modèles « logiques », que nous ne traiterons pas. Cette semaine est dédiée aux modèles booléen et vectoriels ; nous traiterons quelques modèles probabilistes la semaine prochaine.
Tous ces modèles sont essentiellement des modèles textuels dans la mesure où ils n’ont pas été conçus pour le web, mais plutôt pour chercher dans du texte au sein d’un ensemble local de machines. Ils ne tiennent pas compte des hyperliens et de la topologie du web. Nous traiterons la recherche d’informations sur le web plus tard dans le cours.