Accueil  / Semaine 6 / Synonymie et plus

Synonymie et plus

Synonymie, polysémie, métonymie, homonymie, hyperonymie et hyponymie

Le modèle booléen, tout comme les autres modèles de recherche d’informations, fait face aux problèmes causés par la dichotomie entre le sens des mots et les mots eux-mêmes : il n’y a pas une correspondance objective entre les mots et leurs sens. Pour un mot donné, il peut y avoir plus d’un sens (polysémie) ; l’un des sens de ce mot peut être le même qu’un autre mot (synonymie), il peut exister un mot plus générique (un hyperonyme) ou un mot plus spécialisé (un hyponyme). Ce n’est pas seulement un problème théorique : il est très fréquent que deux personnes utilisent des termes différents pour désigner le même concept, surtout lorsqu’elles ont des cultures différentes.

La synonymie désigne les termes dont la signification est identique. Elle pose parfois des problèmes parce que si par exemple un utilisateur soumet la requête « homme » ET « téléviseur » et qu’un texte contient la phrase « L’homme regardait la télévision », il s’attendra certainement à pouvoir trouver le texte en question parce que « téléviseur » a le même sens que « télévision » ici. Mais rien n’est moins certain.

La métonymie est l’utilisation d’un mot pour en désigner un autre. Par exemple, parler de la « couronne britannique » pour désigner la monarchie britannique, parler d’une « voile » pour désigner un voilier, dire qu’on a bu un « verre » ou lu un « Dan Brown » sont des exemples de métonymies. En recherche d’informations, la métonymie est un problème difficile à traiter par une machine.

La métonymie est la cause d’un problème d’identification particulièrement intéressant et pratiquement insoluble lorsqu’on s’intéresse aux titres d’œuvres parues sous différentes formes. Supposons que je demande à quelqu’un s’il a aimé le dernier « Seigneur des anneaux » ou le dernier « Harry Potter ». Est-ce que je m’intéresse aux films ou aux livres ? Imaginons maintenant une application comme BlogPulse avec laquelle on cherche à mesurer la popularité d’un film donné... Comment faire pour distinguer les livres des films ? etc. Il existe bien entendu des stratégies pour y arriver, mais une résolution parfaite du problème exigerait une forme avancée d’intelligence artificielle.

Si on n’avait que la synonymie à traiter, il suffirait de faire des groupes de mots ayant tous la même signification et de répertorier les synonymes. Mais la réalité est plus complexe. Si on peut dire « ramasse l’ustensile » à la place de « ramasse la fourchette », les deux mots ustensile et fourchette ne sont pas vraiment synomymes. Le mot ustensile est l’hyperonyme de « fourchette » : un hyperonyme est un mot plus générique. Le mot fourchette est l’hyponyme du mot ustensile (mot au sens plus restreint). Parfois, deux mots peuvent avoir le même hyperonyme sans être synonymes ; « couteau » et « fourchette » ont tous les deux l’hyperonyme « ustensile » : on dit qu’il s’agit d’hétéronymie et que les termes sont « hétéronymes ».

La polysémie constitue aussi un problème important. Par exemple, le mot homme peut désigner un humain de sexe masculin (cet « homme » qui a tué) ou l’humain (les droits de l’« homme »). Le mot mine peut signifier un engin explosif ou la partie d’un crayon qui touche la feuille. Un cas de polysémie particulier est l’homonymie : lorsque plusieurs mots se prononcent de la même manière, mais ont des signification distinctes, par exemple « mer » et « mère ». Les homonymes ne posent généralement pas de problème en recherche d’informations à moins que l’on traite la voix, auquel cas il faudrait aussi se soucier des paronymes : mots qui se prononcent presque de la même manière, comme conjecture et conjoncture.

Les moteurs de recherche doivent donc utiliser des thésaurus. Un thésaurus est une sorte de dictionnaire qui donne, pour chaque mot, une liste de termes génériques ou hyperonymes, un listes de termes plus spécifiques ou hyponymes, une liste des termes synonymes ou équivalents et, parfois, des termes associés dont le sens n’est pas le même, mais qui peuvent être souvent utilisés dans le même contexte.

L’Université de Montréal rend disponible un thésaurus de l’activité gouvernementale. On y apprend que le mot Comédien a comme hyperonyme Artiste et comme synonyme Acteur.

Il existe aussi des thésaurus plus importants. Le site http://www.online-thesaurus.net/search/ permet de faire des recherches dans quelques thésaurus dont Wordnet. Dans le cas de Wordnet, le thésaurus est disponible en XML et on peut donc facilement l’intégrer à un logiciel ou autre système de recherche d’informations.