Présentation de la semaine |
Après avoir étudié l’algorithme PageRank, nous allons maintenant voir l’un de ses concurrents, HITS, qui est utilisé notamment par IBM dans son Web Fountain (un moteur de recherche « révolutionnaire »). Contrairement à PageRank, l’attribution de la valeur de chaque page avec HITS dépend des termes recherchés.
Tout comme ce fut le cas pour PageRank, l’algorithme HITS exige une certaine maîtrise de l’algèbre linéaire.
La semaine se terminera par une activité d’autoévaluation suivie d’une activité notée.
Est-ce que HITS et PageRank en valent la peine ?
Si on représente le web sous la forme d’un graphe, le degré entrant d’une page, c’est-à-dire le nombre de liens vers cette page, semble une indication valable de l’importance relative d’une page.
Dans cet esprit, Upstill et ses collaborateurs ont montré, en 2003, qu’il y a peu de différence entre PageRank et le nombre de liens entrant. En fait, ils ne voient aucun avantage à PageRank !
Référence : Upstill, T. and Craswell, N. and Hawking, D., Predicting fame and fortune : Pagerank or indegree, ADCS2003, 2003.
Question d’en remettre, Najork et ses collaborateurs ont montré en 2007 que l’algorithme HITS que nous allons voir cette semaine serait un algorithme supérieur à PageRank, mais que le simple calcul des liens vers les pages est un algorithme encore plus fiable !
Référence : Marc Najork, Hugo Zaragoza, Michael Taylor, HITS on the Web : How does it Compare ?, juillet 2007.
Ces résultats sont d’autant plus suprenants que le calcul des liens entrant est très facile à faire, alors que le calcul de PageRank ou de HITS est beaucoup plus difficile.
Suggestions de lecture
Est-ce que les moteurs de recherche sophistiqués favorisent les plus gros sites au détriment des sites moins importants ? Selon cette étude, il semblerait que le contraire se produise : les moteurs de recherche sophistiqués permettent à des gens relativement inconnus d’être davantage lus que s’ils ne disposaient pas d’outils sophistiqués de recherche d’informations pour le faire. La recherche d’informations serait-elle donc aussi une affaire de démocratie ?
– Santo Fortunato, et al., The egalitarian effect of search engines.
Peut-être, mais on peut craindre que l’hégémonie de Google lui permette de censurer le web comme il le fait déjà en Chine.
– Google censors itself for China, BBC News.