Entrevue avec des experts

Préparation

Il peut être nécessaire de revoir le texte sur les probabilités avant de lire le texte de ces entrevues.

Entrevue avec Stan Matwin de l’Université d’Ottawa

Stan Matwin de l’Université d’Ottawa a accepté de nous accorder une entrevue. Il est un chercheur réputé dont voici quelques-unes des publications les plus citées :

– Scott, S. and Matwin, S., Text classification using WordNet hypernyms, Usage of WordNet in Natural Language Processing Systems : Proceedings of the Workshop, 1998.
– Scott, S. and Matwin, S., Feature engineering for text classification, Proceedings of ICML-99, 16th International Conference on Machine Learning, 1999.

Il a répondu à nos questions en mars 2006.

- Quel poste occupez-vous présentement ? Quels autres postes
avez-vous occupés récemment ?

Professeur titulaire d’informatique à l’Université d’Ottawa, directeur du laboratoire TAMALE (Text Analysis and Machine Learning), directeur sortant du Comité 331 du CRSNG (subventions de recherche en informatique pour tout le Canada), ancien directeur du Ottawa Carleton Institute for Computer Science, membre du comité de rédaction du Journal of Artificial Intelligence Research, Machine Learning journal, Computational Intelligence, membre du comité de programme de nombreuses conférences en apprentissage artificiel et IA [1].

- Qu’est-ce que l’information non structurée et pourquoi est-ce
important pour une organisation de s’en soucier ?

Pour moi, toute information qui ne réside pas (encore) dans une base de données est non structurée - donc images, textes, pages web, données et résultats d’expériences scientifiques, etc.

- Pouvez-vous nous parler de vos travaux de
recherche et des contributions majeures dans le domaine de l’information
non structurée ?

J’ai beaucoup travaillé avec les données textuelles ; par exemple, sur un système automatique de recommandation des articles à partir de Pubmed : des exemples d’articles pertinents sont donnés, et le système apprend les règles de choix d’autres articles qui ne sont même pas connus pendant l’apprentissage.

Nous avons aussi travaillé avec des données sur la performance des moteurs des Airbus d’Air Canada ; sur la prédiction de performance (volume de pain !) des nouvelles espèces de blé ; sur les profils des malades atteints de rétinopathie, etc. Toutes ces données nous sont parvenues non structurées et l’effort de structuration - de sorte qu’on puisse les traiter avec les méthodes d’apprentissage - a toujours été considérable.

- Comment a évolué la gestion de l’information non structurée
dans les dernières années ? Quels sont les facteurs qui contribuent à cette évolution ?

Il y deux facteurs qui interviennent ici : l’abondance des données non structurées qui proviennent de la toile, ainsi que les besoins croissants des utilisateurs ; en bref, le phénomène est connu en anglais sous le nom drinking from a firehose. Aussi les chercheurs et praticiens d’autres domaines, par exemple la bio-informatique et la médecine, produisent de plus en plus de données non structurées qui demandent à être traitées.

- Quelles sont les grandes difficultés actuelles en recherche
d’informations et quelles grandes découvertes reste-t-il à faire ?

À mon avis, les moteurs existants, du genre Google, résolvent assez bien le problème de rappel (recall), mais c’est la précision/personnalisation des résultats qui constitue toujours un défi [2].

- Quels sont les travaux réalisés au Canada dans le domaine de
l’information non structurée, tant dans l’industrie que dans les
universités ?

Il se fait beaucoup de travaux universitaires ainsi qu’industriels. Sans entrer dans les détails, pour les universités, on peut nommer les équipes de l’UdeM, le groupe du CNRC à Gatineau, notre groupe à Ottawa, Gord Cormack à Waterloo, Dekang Lin en Alberta - juste pour commencer (cette liste ne prétend aucunement être complète). En industrie, il y a OpenText, TrialStat à Ottawa, Hummingbird, Axon Software à Vancouver, et sûrement d’autres compagnies que j’oublie.

Entrevue avec Will Fitzgerald de la NASA

Will Fitzgerald a accepté de nous accorder une entrevue qu’il a reproduite sur son site personnel. Voici quelques publications de Will Fitzgerald.

– Riesbeck, C.K. and Fitzgerald, W., Language Understanding is Recognition, Not Construction, Psycoloquy, vol. 5, No. 38, 1994.
– Fitzgerald, W. and Firby, R.J., Dialogue Systems Require a Reactive Task Architecture, Proceedings of the AAAI Spring Symposium, 2000.

Il a répondu à nos questions en octobre 2005.

Cette version a été traduite par le professeur Lemire. Will Fitzgerald a répondu aux questions en anglais. Les sous-titres proviennent de la version originale en langue anglaise. Les notes de bas de page sont du professeur.

Biographie et affiliation

Quel poste occupez-vous en ce moment ? Quels autres postes avez-vous occupés ? Nous vous invitons à donner une courte biographie.

Je suis chercheur au Ames Research
Center à la NASA [3] où je travaille sur l’autonomy architecture [4](c’est-à-dire à faire en sorte que des objets, des hélicoptères dans notre cas, se déplacent et prennent des photos sans s’écraser). Auparavant, j’ai travaillé au Conseil national de recherche du Canada à l’Institut des technologies de l’information au Nouveau-Brunswick où je travaillais au développement de technologies de traduction. J’ai aussi travaillé au sein de plusieurs jeunes entreprises axées sur, entre autres choses, les technologies langagières.

Les données non structurées

Qu’est-ce que l’information non structurée et pourquoi devrait-elle préoccuper une organisation ?

La réponse facile est que l’information non structurée est de l’information sans aucune structure. Mais, évidemment, ça ne peut pas être le cas : la seule information vraiment non structurée proviendrait d’un processus aléatoire [5]. En général, le terme information non structurée signifie de l’information qui n’a pas de schéma SQL défini pour une fonction particulière [6]. Donc, une base de données contenant les noms et adresses de postulants est un exemple d’information structurée alors que les CV des postulants sont de l’information non structurée.

On dit souvent qu’un grand pourcentage de l’information d’une institution est de l’information non structurée ; il suffit de faire la recherche suivante sur Google pour s’en convaincre : «
percent "is unstructured data" » [7]. Trouver l’information qui se cache dans les données non structurées est crucial pour une organisation.

Une grande partie de ces données sont dans des documents (textuels) et le terme
text mining [8] est souvent utilisé pour décrire ce sujet.

Presque toute l’information disponible sur le web est non structurée, bien sûr. En fait, plusieurs affirment que l’explosion d’informations disponibles sur le web s’explique par la facilité avec laquelle on peut ajouter de l’information sur le web sans avoir à la structurer avec attention [9].

La recherche sur l’« information non structurée »

Pouvez-vous nous parler des résultats de vos recherches ainsi que de vos contributions majeures au domaine de l’information non structurée ?

Comme ce champ est large, je ne dirais pas que je suis un chercheur spécialiste des « données non structurées ». Néanmoins, il y deux domaines en lien avec les données non structurées où j’œuvre.

Un domaine général est le traitement de signaux [10] dans les données pour en obtenir une description qualitative [11]. Dans mes travaux sur les interfaces multimodales [12], par exemple, j’ai créé des langages de modélisation pour décrire comment les événements variant dans le temps peuvent prédire les intentions d’un utilisateur. Voir, par exemple, notre article "Multimodal
Event Parsing for Intelligent User Interfaces". Celui-ci décrit un système qui permet aux concepteurs de traiter les événements qui sont captés en temps réel de manière à comprendre les intentions des utilisateurs et d’autres descriptions qualitatives des données. Mes travaux plus récents tentent de préciser le concept en utilisant ce que je crois être de meilleurs modèles. Je n’ai pas encore beaucoup publié dans ce domaine, mais si vous êtes vraiment intéressés, vous pouvez lire la communication technique suivante :
“An
architecture for intelligent management of aerial observation
missions”. Elle traite surtout de l’aspect « autonomie », mais l’annexe donne des indications sur le « langage de surveillance » et de traitement que l’on développe à la NASA Ames. Une partie de cette théorie est expliquée dans un article écrit avec Daniel Lemire et Martin Brooks

“Quasi-monotonic segmentation of state variable behavior for
reactive control”. Ces articles montrent l’éventail des applications, mais aussi la difficulté qu’il y a à trouver le bon modèle !

Mais voici un exemple d’application plus facile : déterminer la langue dans laquelle un texte est écrit. Le texte suivant est-il en anglais ou en français ?

A truly great book should be read in youth, again in maturity and once more in old age, as a fine building should be seen by morning light, at noon and by moonlight. - Robertson Davies

Il se trouve que ce problème est relativement facile, même sans dictionnaires anglais et français. Prenez un grand corpus [13] en anglais, et un autre en français, et comptez la fréquence des
n-grammes de caractères dans chacun. (Un
« n-gramme » est une liste de n
items consécutifs [14]). Par exemple, dans un modèle en bigrammes [15],
« th » est très fréquent en anglais, « le » l’est moins, alors que le contraire est vrai en français. Les n-grammes semblent suivre une distribution de Zipf (en fait, Zipf a basé ses travaux originaux sur cette observation). Il y a plusieurs formulations de la loi de Zipf. En voici une :

$r^{1/{r-1}} \approx r^{-a}$

où r est le rang d’un item
(c’est-à-dire son ordre basé sur un tri de la fréquence), et a est une constante déterminée empiriquement. Pour appliquer adéquatement ces faits, il y a deux étapes à parcourir : l’entraînement d’abord, puis le test [16]. Pour chaque corpus, on identifie la fréquence relative de chaque n-gramme dans le corpus. Je traite la fréquence relative comme une probabilité $p_i$ , et je calcule la quantité d’informations
$iv_i$ du n-gramme comme étant
$iv_i=-\log(p_i)$ (cela donne le nombre de bits nécessaires pour coder de façon efficace le
n-gramme dans le corpus [17]). En traitant le corpus comme la
« population », cela donne généralement le codage le plus efficace pour les textes de cette langue. Alors, pour trouver la langue dans laquelle un texte est écrit, je calcule la quantité d’informations contenue dans chaque texte, selon la langue, et je choisis la langue qui donne la plus petite quantité d’information.

Code-switching est le terme que les sociolinguistes utilisent pour décrire le phénomène par lequel une personne passe d’une langue à l’autre. Détecter ces changements constitue un problème de recherche. Cela mène à l’identification d’une « micro-langue ». Considérons cette phrase, typiquement canadienne :

Bonjour ! S’il vous plait, leave a message at the sound of the tone. Merci.

Ce texte commence en français, puis passe à l’anglais. Combien de caractères (n dans n-grammes) doivent être utilisés pour identifier à quel moment le changement de langue se produit ? Observez en particulier que le mot « message » est à la fois un mot français et un mot anglais, ce qui suggère que connaître la probabilité qu’un court texte appartienne à une langue donnée est important (c’est-à-dire qu’on ne peut se fier seulement au meilleur choix). On peut recourir aux « fenêtres glissantes » [18] de texte, et calculer le meilleur choix de langue pour chaque fenêtre et déterminer par la suite où se situe le changement de langue. (Observez, par exemple, que le mot « message » est un mot en français et en anglais, donc, il faudra utiliser des techniques statistiques ou heuristiques pour décider si un changement de langue s’est produit.)

Un second champ où j’œuvre est l’utilisation de la « planification dynamique » pour traiter les conversations en temps réel, en utilisant des modèles à courte vie [19]. J’ai publié une communication sur le sujet, Item
descriptions add value to plans.. Plus proche du « text mining », un article relativement immature utilisait un modèle fait de questions typiques pour créer un système d’hyperliens–Voir "Using
natural language processing to construct large-scale hypertext
systems".

Histoire et avenir

Comment la gestion de l’information non structurée a-t-elle évolué ces dernières années ? Quels facteurs ont contribué à cette évolution ? Quels sont les grands défis et les grandes découvertes qu’il reste à faire ?

Le facteur le plus important a été l’explosion d’informations disponibles sur le web. Ce facteur est très important. Voici quelques projets intéressants en recherche d’informations :

Gérer l’information peu fiable ou fausse. Des gens sans scrupules essaient constamment de placer de l’information fausse sur le web. Par exemple, des robots web tentent de mettre des commentaires sur mon blog afin de tromper les moteurs de recherche sur l’importance de certains sites web [20]. En fait, des blogues entiers sont du « blog spam ». Nous sommes tous familiers avec le pourriel. Quelles sont les meilleures techniques pour résoudre ces problèmes ?

La taille du web. Quelle est la taille du web ? Quelle portion du web a été indexée ? Il y a une controverse récente à ce sujet concernant les prétentions de Yahoo, Google et Microsoft. Une étude de la NCSA [21] A Comparison of
the Size of the Yahoo ! and Google Indices a comparé Yahoo et Google. D’une part, les chercheurs ont examiné les résultats de chaque moteur de recherche et, d’autre part, ils n’ont considéré que les recherches en langue anglaise. Ce dernier point rend leur étude peu crédible. Jean
Véronis a écrit une série de billets critiques sur les résultats de Google, Yahoo et MSN. Par exemple, on cherche a déterminer si Yahoo indexe vraiment 19 milliards de pages, comme on le prétend–voir

ce billet. Cela a amené les chercheurs à se poser plusieurs questions, par exemple, qu’est-ce qui constitue une page web ? Les billets de Véronis valent la peine d’être lus [22].

Tagging. Plusieurs sites comme Flickr permettent aux utilisateurs d’utiliser des tags ou mots-clés [23]. Ces tags ne sont pas liés par un système formel ou une ontologie. Et il semble que ça fonctionne bien pour la recherche d’informations.

The Long Tail [24]. La loi de Zipf (ou toute distribution similaire) revient encore et encore. Par exemple, les chansons les plus populaires dans le catalogue iTunes d’Apple sont très très populaires ; on prétend que chaque chanson faisant partie du catalogue a été vendue au moins une fois. Voir, par exemple, le graphique de Chris
Anderson sur son blogue
Long tail weblog concernant le service musical Rhapsody. Une question intéressante est de trouver les choses intéressantes (sic) dans la long tail, là où il est théoriquement plus difficile de les trouver.

Les problèmes temporels. De plus en plus, le web est dynamique : cela signifie que le contenu d’une page web change d’un instant à l’autre. Par exemple, l’étude de la NCSA, mentionnée plus haut, a été modifiée après les critiques qui y furent adressées ; conséquemment, l’un des auteurs a retiré son nom (ce changement fut noté dans le rapport, mais pas immédiatement). Et, bien sûr, les adresses web changent, les objets se déplacent et il devient difficile de les retrouver. Je pense que ça ajoute un problème temporel intéressant à la question de la recherche d’informations : il est non seulement important de savoir où trouver quelque chose, mais aussi quand cela fut créé et modifié.

L’entrevue avec Will Fitzgerald est sous licence Creative Commons
Attribution 2.5 License. Vous pouvez :

la copier, la distribuer, la diffuser ;

la modifier ;

en faire un usage commercial

sous les conditions suivantes : vous devez attribuer l’œuvre à l’auteur (Will Fitzgerald). Lors de toute réutilisation, vous devez diffuser les termes de cette licence.

Current position and biography

What is your current position and affiliation ? What other
positions did you held in the recent past ? Feel free to give a
short bio.

I am currently a Research Scientist at NASA’s Ames Research
Center, where I work on autonomy architecture (that is,
getting things–in our case, helicopters–to do things
on their own–in our case, fly around and take pictures of
things without crashing). Just prior to this, I worked at the
National Research Council of Canada’s
Institute for Information Technology centre in New Brunswick,
where I worked on translation technologies. I have also worked in
a number of start-up companies working on (among other things)
language technologies.

Unstructured text

What is unstructured data and why should an organization
care about it ?

The flip answer is that it is data which doesn’t have
any structure. But, of course, this can not be the case : the only
truly unstructured data would be data generated by some kind of
random process. Typically, “unstructured data” means
data that do not have (SQL) database schemata defined for them
for a particular purpose. So, a database of the names and
addresses of job applicants is likely to be structured, but the
resumes the applicants sent it is likely to be unstructured.

It’s often said that some large percentage of an
institution’s information is unstructured data–just
check out this Google search pattern :
percent ???unstructured data ???. Getting at information buried in
this data can be crucial to the needs of a company or
institution.

Much of this data are in documents, and the term
text mining is often used for this important
subset.

Almost all of the information available on the world wide web
is unstructured data, of course. In fact, many say that the
explosion of information available on the web is due to how easy
it is to put data out on the web without having to carefully
structure it first.

Research into “unstructured data”

Please tell us about some of your research results and
major contributions in the field of “unstructured
data” ?

Because this field is so broad, I wouldn’t consider that
I’m an “unstructured data” researcher. Still,
there are two areas that relate to unstructured data
research.

One general area relates to using signals in the data to get
qualitative descriptions of the data out. In my work on
multimodal user interfaces, for example, I’ve created a
modeling language for describing how time-varying events can
predict user intentions. See, for example, our paper Multimodal
Event Parsing for Intelligent User Interfaces. This describes
a system that allows system designers to “parse” the
events that come into a system in real-time in order to
understand user intentions and other qualitative descriptions of
the data. My more recent work has been in refining this concept,
based (I think) on better models of the underlying data. Not much
has been published on this yet, but if you’re really
interested, you can read a recent technical conference paper
“An
architecture for intelligent management of aerial observation
missions”. This really focuses on the autonomy area,
but the appendix has hints, at least, on the monitoring/parsing
language we are developing at Ames. One piece of this theory is
in the paper written with Daniel Lemire and Martin Brooks

Quasi-monotonic segmentation of state variable behavior for
reactive control. In anything, these paper show both the wide
applicability of these approaches, and how difficult it is to
come up with just the right models !

But here’s an easier example of this : determining the
language in which a text is written. For example, is the
following text French or English :

A truly great book should be read in youth, again in maturity and once more in old age, as a fine building should be seen by morning light, at noon and by moonlight. - Robertson Davies

It turns out to be relatively easy to do so, even without a
dictionary of English and French words. Take a large corpus of
English text, and one in French, and count how frequently
n-grams of letters occur in each. (An
“n-gram” is just a combination of n
letters). For example, in a bigram character model,
‘th’ is very frequent in English, ‘le’ is
less so ; the opposite is true in French. N-gram seem to
follow a “Zipf’s law” distribution (in fact,
Zipf based his original research on this). There are a number of
formulations of Zipf’s law. Here’s one :

$r^{1/{r-1}} \approx r^{-a}$

where r is the rank of the item counted
(i.e., it’s order in a sorting based on its
frequency), and a is an empirical constant. To make use
of these facts, there are two stages, a training stage, and the
testing stage. From each corpus, I identify the relative
frequency of each n-gram in the corpus. I treat the
relative frequency as a probability $p_i$ , and calculate each
n-gram’s information value,
$iv_i=-\log(p_i)$ (this gives
the number of bits needed to most efficiently encode the
n-gram in the corpus) ; treating the corpus as the
“population,” it gives the most efficient encoding,
in general for texts in that language. Then, to test which
language a probe text is in, I sum the information value of the
text in each of the languages ; the one with the lowest
information value is the best guess.

“Code-switching” is the term sociolinguists use to
describe the phenomenon of a person switches from one language to
another. The research problem is to identify code-switching
within document. So, this becomes a micro-language identification
problem. Consider this type of sentence familiar enough to
Canadians, if not people in the U.S.

Bonjour ! S’il vous plaît, leave a message at the sound of the tone. Merci.

Starts in French, switches to English. How can
character n-grams be used to identify where the switch
occurs ? Note in particular that “message” is a word
in both English and French, which suggests that knowing the
probability of language identification of a (short) string is
important (i.e., we can’t just depend on the
“best guess”). But one can take “sliding
windows” of text, and calculate the best guess for each of
these, and make guesses thereby of where switches in language
occur. (Note for example, that the word “message” is
both a word in French and English, so we’ll need some
statistical techniques and/or heuristics to decide whether a
switch in fact occurs.)

A second area is using dynamic planning for parsing
conversations in real time by making only weak commitments to the
models used while parsing. A workshop paper, Item
descriptions add value to plans.. More closely related to
text mining is a relatively early paper which used a model of
typical questions asked/questions answered to create hypertext
systems–See Using
natural language processing to construct large-scale hypertext
systems.

History and Future

How did the management of unstructured data evolved in the
current years and what factors contributed to this evolution ?
What are the major difficulties in information retrieval and what
big discoveries are yet to be made ?

The most important factor has been the explosion of
information available on the world wide web. It is hard to
overestimate the importance of this. Here are some interesting
present challenges in information retrieval :

Dealing with untrustworthy data. Unscrupulous
people are constantly placing untrustworthy data on the web.
For example, web robots attempt to place comments on my weblog entries in
order to fool the search engines on how important other
websites are. In fact, entire weblogs are “weblog
spam.” We’re all familiar with email spam. What
are good techniques for dealing with this ?

The size of the web. How large is the web ? How much
of it has a search engine indexed ? This is a recent
controversy with conflicting claims by Yahoo, Google and
Microsoft. An NCSA study A Comparison of
the Size of the Yahoo ! and Google Indices compared Yahoo
and Google. On the one hand, they examined actual results
returned from the search engines ; on the other, they
investigated only English searches. The later makes it very
unlikely to report a comparison fairly. Jean
Veronis has written a series of posts examining
reported results from Google, Yahoo and MSN. For example, one
looks at whether Yahoo is indexing 19 billion pages–see

his post. This has raised a lot of questions about, for
example, what counts as a ”page.” His posts are
well worth reading.

Tagging. Many sites, such as Flickr, are allowing
users to “tag” entries with their own keywords.
These are not connected to any formal system or ontology. And
it seems to work pretty well for retrieval.

The Long Tail. The Zipf’s Law distribution
(or similar distributions) mentioned above seems to come up
again and again. For example, the most popular songs in
Apple’s iTunes catalog are very, very popular, but
it’s been claimed that every song in the catalog has
been sold at least once. See the excellent graph at Chris
Anderson’s
Long tail weblog for music data from the Rhapsody
service. The interesting search question is how find
interesting things in the “long tail,” where it
is theoretically harder to find them.

Issues of time. Increasingly, the web is “out
of date,” meaning that the state of a webpage (say)
changes from one access to another. For example, the NCSA
study referenced above was changed after criticisms were made
of it, and one of the author’s names was dropped (this
is reported in the paper, but I believe it was not there at
first). And, of course, web address change, items are moved,
and it’s hard to find them again. I think this adds an
interesting temporal aspect to the question of information
retrieval : it’s not only important to know where
to find something, but at what point in time it was
originally created, modified, etc.

Goodbye

Do you agree to put this interview in the public
domain ?

This work is licensed under a Creative Commons
Attribution 2.5 License. You are free :

to copy, distribute, display, and perform the work

to make derivative works

to make commercial use of the work

Under the following conditions : You must attribute the work in
the manner specified by the author. For any reuse or
distribution, you must make clear to others the license terms of
this work. Any of these conditions can be waived if you get
permission from the copyright holder.

Matériel optionnel — autres entrevues

Peter Norvig, le directeur de la recherche chez Google, a aussi accordé une entrevue au magazine Technology Review :

Kate Greene, The Future of Search, The head of Google Research talks about his group’s projects. Technology Review, July 16, 2007.

Voici une série d’entrevues très pertinente :

– Gord Hotchkiss, Search In The Year 2010, Search Engine Land, Aug. 10, 2007.

– Gord Hotchkiss, Search In The Year 2010 (part 2), Search Engine Land, Sept. 7, 2007.

[1] IA est l’acronyme pour intelligence artificielle.

[2] Le rappel est la portion des documents pertinents qui sont trouvés. La précision est la portion des documents trouvés qui sont pertinents.

[3] Will Fitzgerald travaille maintenant chez Powerset, une société concurrente de Google.

[4] L’autonomy architecture est un terme propre à la NASA.

[5] On peut se demander si un processus aléatoire peut vraiment générer de l’information. La théorie de l’information de Shannon est basée sur notre capacité à stocker l’information et, en ce sens, un processus aléatoire génère effectivement beaucoup d’informations s’il est vraiment aléatoire.

[6] Un « schéma SQL » est une description des informations contenues dans une base de données SQL telle que SQL Server, MySQL ou PostgreSQL. Rappelons qu’une base de données SQL est une base de données relationnelle utilisant le Structured Query Language.

[7] On y voit des affirmations selon lesquelles 80 % à 90 % des informations sont non structurées.

[8] Text Mining : exploration ou forage de textes.

[9] Cette remarque de Will Fitzgerald est très intéressante : l’information non structurée est plus facile à produire, ce qui explique son abondance relative. On peut alors se demander comment une initiative comme le web sémantique va arriver à concilier la facilité avec la structure.

[10] Un signal est une transmission qui dure dans le temps et qui est captée par un détecteur. Une radio capte des signaux. Les signaux sont un exemple d’information non structurée !

[11] Une description qualitative s’oppose ici à une description quantitative, numérique.

[12] Une interface multimodale est une interface qui utilise plusieurs « modes » : par exemple la voix, l’image et les entrées au clavier.

[13] Corpus : ensemble de documents.

[14] Dans la phrase « Lucie a un chat », les 3-grammes de lettres sont « luc », « uci », « cie », « iea », « eau », « aun », « unc », « nch », « cha », « hat ».

[15] Un bigramme est un 2-gramme : 2 caractères apparaissant de façon consécutive dans un texte forment un bigramme de caractères. Un trigramme est un 3-gramme et ainsi de suite.

[16] En recherche, pour tester une nouvelle méthode basée sur des statistiques ou sur l’intelligence artificielle, on divisera souvent les données recueillies en au moins deux parties : dans la première, on expérimentera la méthode choisie en s’« entraînant » d’abord et dans la seconde, on testera (à proprement parler) la méthode. Par exemple, je vais calculer la fréquence des bigrammes d’un premier ensemble des documents français et anglais avant de vérifier sur un second ensemble de documents si je peux correctement distinguer les documents anglais des documents français. On peut ensuire utiliser plusieurs différentes partitions des documents et refaire plusieurs tests, selon la méthode du bootstrap.

[17] Will Fitzgeral fait ici référence à la théorie de l’information de Shannon.

[18] Une fenêtre glissante est une plage de mots déplaçable dans le texte ; par exemple, dans le phrase « Lucie aime Luc », on pourrait d’abord prendre la fenêtre « Lucie aime », puis la fenêtre « aime Luc ».

[19] Dans ce paragraphe, Will Fitzgerald est plutôt bref et il ne nous donne qu’un aperçu rapide de certains autres de ses travaux.

[20] Un blogue est un carnet personnel. Un blogue peut contenir des commentaires qui eux-mêmes contiennent des liens pointant vers d’autres sites web ; un moteur de recherche comme Google peut faire croire, à tort, que de tels liens indiquent que les sites référencés sont importants.

[21] NCSA : National Center for Supercomputing Applications, un centre de recherche américain.

[22] Véronis est professeur en France et écrit en français. Son blogue est à l’adresse http://aixtal.blogspot.com/.

[23] Les tags sur le web sont une technique qui se rapproche des signets : à chaque site ou objet rencontré, on associe un certain nombre de mots-clés comme « famille », « vacances », « chat ». L’astuce est que chaque utilisateur est libre d’utiliser les mots-clés qu’il veut pour chaque objet : un même objet aura donc des mots-clés différents selon les utilisateurs, selon les points de vue. On peut ensuite regrouper tous les objets ayant reçu le mot-clé « vacances », par exemple. Les résultats peuvent être intéressants, car on réconcilie les différents points de vue de façon informelle.

[24] La long tail est l’ensemble des items utilisés peu fréquemment mais qui, néanmoins, constituent une quantité importante. Par exemple, si une boutique vend surtout 2 articles, elle pourra quand même avoir 100 articles en vente. Si elle cesse de vendre les 100 articles et se concentre sur seulement les 2 articles les plus populaires, il est possible que ses ventes chutent. On dira alors que la boutique a négligé la long tail. On croit qu’avec l’émergence du commerce électronique, l’ensemble des produits peu populaires constituera un marché très lucratif.

Semaine 2