|
|
1.
|
Mots-clés et requête de
recherche
|
Bien que la recherche en langage naturel,
c'est-à-dire par des questions formulées comme
si on les posait à un humain, ait fait l'objet de
recherches et de quelques applications, la recherche par
mots-clés demeure la plus efficace. Pour une
recherche à caractère général,
ces mots-clés proviendront de la description de la
situation qui a suscité la recherche, ou d'une
question détaillée à laquelle elle doit
répondre. Pour une recherche plus
spécialisée, les mots-clés seront
repérés dans les titres ou les
résumés des textes consultés sur le
sujet.
Dans une banque de données
bibliographiques, la recherche peut être
effectuée de manière indépendante dans
les divers champs indexés par la banque dont,
principalement : auteur(s), titre, descripteurs /
identifieurs et résumé. Dans Internet, par
contre, la recherche se fera en général dans
le texte intégral des documents. Certains moteurs de
recherche dans Internet, dont notamment les moteurs de
recherche spécialisés comme Google Scholar et
Microsoft Academic Search, permettent d'effectuer la
recherche dans les titres et les noms d'auteurs. Il convient
toutefois de demeurer prudent, car ces informations ne sont
pas aussi fiables que celles que l'on retrouve dans les
banques de données bibliographiques.
Quel que soit le choix effectué
à cet égard (recherche dans le titre, le
résumé, le texte intégral), on soumet
au moteur de recherche une requête comportant
un certain nombre de mots et indiquant que l'on recherche
les documents (ou leurs titres ou résumés) qui
comprennent soit :
|
-
|
au moins un de ces mots;
|
-
|
tous ces mots, dans n'importe quel ordre;
|
-
|
une suite de mots (phrase)
reproduisant exactement le texte de la requête;
|
soit une combinaison de ces
possibilités, par exemple la présence
simultanée d'un mot, d'une phrase et d'au moins un
parmi trois autres mots.
|
Dans ce dernier cas, on parle de recherche
booléenne, du nom de George Boole (1815-1864),
mathématicien anglais, inventeur de la logique
mathématique.
Chaque moteur de recherche possède sa
syntaxe et ses règles permettant de soumettre des
combinaisons de mots. Il convient d'en consulter les
instructions, appelées aide (help) ou conseils
(search tips) avant de l'utiliser.
La construction d'une requête de
recherche par mots-clés tentera de concilier deux
objectifs complémentaires : la
spécificité et
l'exhaustivité. Ces objectifs visent à
minimiser les deux problèmes fondamentaux de la
recherche d'information : le silence,
c'est-à-dire le non-repérage de documents
pertinents, et le bruit, soit le repérage de
documents qui satisfont les critères de la
requête mais qui s'avèrent peu ou non
pertinents.
Notons que si la recherche d'une plus grande
spécificité est toujours souhaitable, car la
présence d'une grande proportion de résultats
non pertinents est toujours nuisible, l'objectif
d'exhaustivité n'est pas toujours important. En
effet, pour une recherche à caractère
général, il n'est pas nécessaire de
repérer tous les bons documents traitant du sujet;
leur lecture risquerait de toute façon de devenir
rapidement répétitive. Il suffit simplement
d'en repérer quelques-uns de grande qualité.
De même, pour la recherche d'une information
précise, l'important est de repérer un
document crédible qui la fournit, et peut-être
un ou deux autres pour contre-vérification, en cas de
doute.
|
2.
|
La spécificité
|
La spécificité, ou minimisation
du bruit, est obtenue en exigeant la présence
simultanée, dans les documents repérés,
de plusieurs termes (ou groupes de termes) désignant
des notions différentes; cela peut également
se faire en excluant certains termes ou, comme on l'a
mentionné, en limitant la recherche à des
éléments plus significatifs du document :
titre, résumé ou mots-clés.
On requiert la présence
simultanée de plusieurs termes en employant le ET (ou
son équivalent, souvent AND) entre ces termes
pour. Le signe + précédant un terme joue
le même rôle : il signifie que le terme
doit être présent.
Lorsque la recherche est effectuée
dans le texte intégral des documents (recherche dans
Internet), ou dans une moindre mesure quand elle est
restreinte aux résumés (recherche dans une
banque de donnée), la présence de tous les
mots peut ne plus vouloir dire grand chose, dans la mesure
où ceux-ci peuvent se retrouver très
éloignés les uns des autres, ou encore se
retrouver dans un passage du texte qui s'écarte du
sujet principal.
Certains moteurs, surtout ceux des banques de
données bibliographiques, permettent d'exiger que des
termes soient adjacents (avec la préposition ADJ) ou
voisins (préposition NEAR). Certains permettent
même de préciser le nombre maximal de mots les
séparant (NEAR*5 pourra signifier
« séparés d'au plus cinq
mots »).
En l'absence de cette possibilité, le
recours à des phrases (appelées
« expressions exactes » dans la
recherche avancée de Google) est une option
intéressante. Les phrases sont également
essentielles pour les expressions consacrées, telles
« réseau local »,
« mode de vibration » ou
« effet de serre ». Dans la plupart des
moteurs de recherche, les phrases peuvent être saisies
dans l'interface de recherche simple en mettant les suites
de mots entre guillemets.
Cependant, cette différence sur le
plan de la spécificité s'estompe en pratique
quand on considère que seuls les premiers
résultats seront effectivement consultés. En
effet, les algorithmes de classement (ranking) des
documents repérés par les moteurs de recherche
dans Internet feront généralement
apparaître en premier les documents où les
termes de la requête sont proches les uns des autres.
Ainsi, lors d'un test avec un même moteur de
recherche, la requête réseau ET local a
repéré plus de 100 000 documents, contre moins
de 9 000 pour la phrase "réseau local",
mais les quelques dizaines de sites classés en
premier étaient à peu près les
mêmes avec les deux requêtes.
On peut dire ainsi que le classement des
résultats aide à réduire le bruit, les
documents non pertinents étant en principe
relégués au bas de la liste. Cependant, ces
algorithmes (dont les détails ne sont pas
révélés par les gestionnaires des
moteurs de recherche) sont loin d'être parfaits, et
l'expérience révèle que s'il semble
effectivement que le taux de documents non pertinents
diminue, le silence, lui, reste un problème. En
effet, des documents plus pertinents que les tout premiers
apparaissent parfois loin dans la liste des premières
centaines de résultats.
En conséquence, lorsque, malgré
une requête de recherche exigeant la présence
de plusieurs mots, le nombre de documents
repérés demeure énorme et que le bruit
demeure important, on peut accroître radicalement la
spécificité (mais, du coup, augmenter le
silence) en limitant la recherche aux titres des documents.
Cette option, autrefois l'apanage des banques de
données bibliographiques, est maintenant disponible
dans les moteurs spécialisés Google Scholar et
Microsoft Academic Search. Malheureusement ces moteurs ne
peuvent chercher dans les résumés, ce qui
pourrait constituer un compromis entre les extrêmes
que sont la recherche dans le texte complet et la recherche
limitée au titre.
Une autre stratégie à envisager
pour réduire le bruit est l'exclusion des documents
contenant un terme donné, ce qui peut empêcher
une recherche de s'étendre à des domaines
connexes partageant des mots-clés communs. Cette
exclusion est indiquée en plaçant SAUF (ou son
équivalent, souvent NOT, ANDNOT ou le signe
« - ») devant les mots à
exclure.
Cette option est cependant à utiliser
avec la plus grande prudence, et devrait être
réservée à la recherche dans les
titres, mots-clés ou résumés. En effet,
avec la recherche dans le texte intégral des
documents, on pourrait ainsi rejeter des documents
pertinents, par exemple des textes contenant une section
traitant directement du sujet qui nous intéresse et
une autre section (ou encore une section de la page qui n'a
rien à voir avec le texte principal) où le mot
que l'on exclut apparaît, portant sur un autre
sujet.
|
3.
|
L'exhaustivité
|
Pour favoriser une plus grande
exhaustivité ou, en d'autres termes, minimiser le
silence, il faut chercher dans l'ensemble - la base - qui
contient le plus grand nombre de documents susceptibles
d'être pertinents.
Les banques de données
bibliographiques tentent généralement de
couvrir l'ensemble des publications pertinentes pour un
domaine; il suffira donc de choisir une des banques
reconnues dans le domaine. Les sites des
bibliothèques offrent souvent des listes
commentées de bases de données, pour chaque
domaine, accessibles aux membres de l'établissement,
tant dans les locaux de leurs bibliothèque qu'en
ligne.
Pour la recherche dans Internet, il suffira
de choisir un ou, de préférence, deux moteurs
de recherche qui indexent un grand nombre de sites.
Ensuite, lorsqu'on effectue une recherche
donnée, on s'assurera, pour chaque terme significatif
repéré lors de la consultation des articles de
base, que l'on considère aussi les variantes de ce
terme et les termes (synonymes ou autres) désignant
la même notion. Deux stratégies peuvent
être mises à contribution.
|
-
|
D'une part, on inclura dans la requête
diverses formes grammaticales d'un même terme :
nom, verbe et adjectif; singulier et pluriel; masculin et
féminin (en français).
Les outils de recherche des banques de
données offrent habituellement une possibilité
intéressante à cet égard : l'ajout
d'un caractère appelé joker
(wildcard) (souvent l'astérisque, parfois le
point d'interrogation). Placé dans un mot ou à
la fin de celui-ci, ce caractère remplace un ou
plusieurs caractères quelconques. Lorsque le
procédé est employé au milieu du mot,
on parle de masque, alors qu'à la fin ou, plus
rarement, au début, on parle de
troncature.
Par exemple, si le joker (*) peut remplacer
un nombre quelconque de caractères, le terme
« mesur* » comprend toutes les mots
suivants : mesure, mesures, mesurable, ainsi que toutes
les formes du verbe mesurer. Il faut toutefois veiller
à ne pas élargir ainsi la recherche à
des termes trop généraux, voire de sens
complètement différent. Par exemple,
« physic* » recouvre (en anglais)
physics, physicist et physicists, mais
aussi physical, beaucoup plus général,
et physician (médecin), qui a un tout autre
sens.
Attention! Le joker est accepté
par Google, mais employé seul entre deux mots, pour
en remplacer un ou plusieurs (et non des caractères
dans un mot).
|
-
|
D'autre part, on inclura les synonymes d'un
même terme (comme ammoniac et NH3, ou puma, couguar et
lion de montagne) ou les formes associées à un
même concept mais dérivées de racines
différentes (comme coeur et cardiaque,
frequency et spectral), ou encore les
équivalents d'un terme dans plusieurs langues (comme
tigre, tiger et panthera tigris).
On emploie le OU (ou son équivalent,
souvent OR) entre ces mots pour indiquer qu'il suffit qu'un
seul d'entre eux soit présent pour qu'un document
soit retenu.
|
Notons que la fonction de recherche simple
des moteurs de recherche dans Internet considère que
les mots simplement juxtaposés sont
séparés, selon les moteurs, soit par des ET
(le plus souvent), soit par des OU, sans que cela ne soit
nécessairement précisé dans la page
où l'on entre la requête. Il est donc important
de consulter l'aide en ligne pour bien connaître
l'interprétation que fera le moteur de la
requête qui lui sera soumise; l'utilisation de la
recherche avancée facilite les choses à cet
égard.
Par ailleurs, la plupart des moteurs de
recherche dans Internet ne cherchent que les mots exacts
soumis. Google fait figure d'exception à ce titre,
mais comme il est difficile de savoir quelles variantes
seront incluses dans la recherche, il est
préférable d'inclure explicitement ces
variantes dans la requête. On peut alors employer
l'outil Mot à mot offert par ce moteur, qui
élimine l'ajout de variantes et synonymes aux mots de
la requête. Cet outil est disponible dans la marge de
gauche de la page de résultats, rubrique Tous les
résultats - Plus d'outils.
Quelques moteurs permettent le recours aux
jokers, alors que certains, comme Google, fonctionnent comme
si chaque mot entré dans le champ de recherche,
à moins d'indication contraire, se terminait par un
joker. Si les jokers ne sont pas disponibles, on
procédera de la même façon qu'avec les
synonymes, en incluant explicitement diverses formes
grammaticales séparées par OU, ou encore en
effectuant des recherches successives avec des formes
différentes.
|
4.
|
Exemple de requête de recherche
|
Supposons que l'on veut chercher des
documents portant sur le sujet suivant : l'effet de la
fonte prévue des glaces polaires sur le climat du
nord de l'Europe.
Il s'agit d'un sujet assez
général; c'est donc une recherche que ferait
normalement une personne qui veut se familiariser avec le
sujet et non, par exemple, un étudiant qui
débuterait une recherche, portant
nécessairement sur un sujet beaucoup plus pointu, et
qui voudrait connaître tout ce qui s'est publié
en rapport avec ce sujet. La recherche dans Internet avec un
moteur général est donc ici une
stratégie pertinente.
Ici, les termes importants sont :
fonte, glaces, polaires, climat,
Europe et Nord; si on enlève un de ces
mots, on change le sujet de manière plus ou moins
importante. Par exemple, si on enlève
« polaire », on englobe la fonte des
glaciers du Nord de l'Europe. Cependant,
« Nord » n'est sans doute pas
nécessaire, car l'association
glaces-pôles-Europe risque plus de se rapporter au
nord de l'Europe qu'à la Méditerranée!
Pour assurer la spécificité de la
requête, la présence des termes fonte, glaces,
polaires, climat et Europe sera donc suffisante.
De leur côté, les termes
effet et prévue n'apportent rien de
significatif.
Il faut ensuite se demander si le même
sujet pourrait être décrit par d'autres formes
de ces mots ou d'autres mots (des synonymes, par exemple).
Ainsi, des documents pourraient faire état des glaces
de la région du Pôle plutôt que des
glaces polaires, ou encore de la banquise plutôt que
de la glace; songeons également que
« polaire » et
« glace » peuvent être au
singulier ou au pluriel. La requête sera donc plus
exhaustive si l'on inclut ces synonymes ou formes
alternatives.
Une requête de recherche qui tiendrait
compte de tous ces éléments pourrait donc se
lire :
De fait, cette requête, lancée
dans Google en décembre 2011, avec les OU et les ET
adaptés à la syntaxe du moteur :
a permis de repérer environ
120 000 documents, dont les premiers semblaient
à peu près tous pertinents, du moins à
première vue. Notons toutefois que les trois premiers
résultats étaient des articles de
Wikipédia, qui figurent presque toujours en
tête des résultats dans Google, quels que
soient leur qualité ou leur état d'avancement
(voir texte
A7).
|
|
|