Entrevue avec des experts |
Préparation
Il peut être nécessaire de revoir le texte sur les probabilités avant de lire le texte de ces entrevues.
Entrevue avec Stan Matwin de l’Université d’Ottawa
Stan Matwin de l’Université d’Ottawa a accepté de nous accorder une entrevue. Il est un chercheur réputé dont voici quelques-unes des publications les plus citées :
– Scott, S. and Matwin, S., Text classification using WordNet hypernyms, Usage of WordNet in Natural Language Processing Systems : Proceedings of the Workshop, 1998.
– Scott, S. and Matwin, S., Feature engineering for text classification, Proceedings of ICML-99, 16th International Conference on Machine Learning, 1999.
Il a répondu à nos questions en mars 2006.
- Quel poste occupez-vous présentement ? Quels autres postes
avez-vous occupés récemment ?Professeur titulaire d’informatique à l’Université d’Ottawa, directeur du laboratoire TAMALE (Text Analysis and Machine Learning), directeur sortant du Comité 331 du CRSNG (subventions de recherche en informatique pour tout le Canada), ancien directeur du Ottawa Carleton Institute for Computer Science, membre du comité de rédaction du Journal of Artificial Intelligence Research, Machine Learning journal, Computational Intelligence, membre du comité de programme de nombreuses conférences en apprentissage artificiel et IA [1].
- Qu’est-ce que l’information non structurée et pourquoi est-ce
important pour une organisation de s’en soucier ?Pour moi, toute information qui ne réside pas (encore) dans une base de données est non structurée - donc images, textes, pages web, données et résultats d’expériences scientifiques, etc.
- Pouvez-vous nous parler de vos travaux de
recherche et des contributions majeures dans le domaine de l’information
non structurée ?
J’ai beaucoup travaillé avec les données textuelles ; par exemple, sur un système automatique de recommandation des articles à partir de Pubmed : des exemples d’articles pertinents sont donnés, et le système apprend les règles de choix d’autres articles qui ne sont même pas connus pendant l’apprentissage.
Nous avons aussi travaillé avec des données sur la performance des moteurs des Airbus d’Air Canada ; sur la prédiction de performance (volume de pain !) des nouvelles espèces de blé ; sur les profils des malades atteints de rétinopathie, etc. Toutes ces données nous sont parvenues non structurées et l’effort de structuration - de sorte qu’on puisse les traiter avec les méthodes d’apprentissage - a toujours été considérable.
- Comment a évolué la gestion de l’information non structurée
dans les dernières années ? Quels sont les facteurs qui contribuent à cette évolution ?Il y deux facteurs qui interviennent ici : l’abondance des données non structurées qui proviennent de la toile, ainsi que les besoins croissants des utilisateurs ; en bref, le phénomène est connu en anglais sous le nom drinking from a firehose. Aussi les chercheurs et praticiens d’autres domaines, par exemple la bio-informatique et la médecine, produisent de plus en plus de données non structurées qui demandent à être traitées.
- Quelles sont les grandes difficultés actuelles en recherche
d’informations et quelles grandes découvertes reste-t-il à faire ?
À mon avis, les moteurs existants, du genre Google, résolvent assez bien le problème de rappel (recall), mais c’est la précision/personnalisation des résultats qui constitue toujours un défi [2].
- Quels sont les travaux réalisés au Canada dans le domaine de
l’information non structurée, tant dans l’industrie que dans les
universités ?Il se fait beaucoup de travaux universitaires ainsi qu’industriels. Sans entrer dans les détails, pour les universités, on peut nommer les équipes de l’UdeM, le groupe du CNRC à Gatineau, notre groupe à Ottawa, Gord Cormack à Waterloo, Dekang Lin en Alberta - juste pour commencer (cette liste ne prétend aucunement être complète). En industrie, il y a OpenText, TrialStat à Ottawa, Hummingbird, Axon Software à Vancouver, et sûrement d’autres compagnies que j’oublie.
Entrevue avec Will Fitzgerald de la NASA
Will Fitzgerald a accepté de nous accorder une entrevue qu’il a reproduite sur son site personnel. Voici quelques publications de Will Fitzgerald.
– Riesbeck, C.K. and Fitzgerald, W., Language Understanding is Recognition, Not Construction, Psycoloquy, vol. 5, No. 38, 1994.
– Fitzgerald, W. and Firby, R.J., Dialogue Systems Require a Reactive Task Architecture, Proceedings of the AAAI Spring Symposium, 2000.
Il a répondu à nos questions en octobre 2005.
Cette version a été traduite par le professeur Lemire. Will Fitzgerald a répondu aux questions en anglais. Les sous-titres proviennent de la version originale en langue anglaise. Les notes de bas de page sont du professeur.
Biographie et affiliation
Quel poste occupez-vous en ce moment ? Quels autres postes avez-vous occupés ? Nous vous invitons à donner une courte biographie.
Je suis chercheur au Ames Research
Center à la NASA [3] où je travaille sur l’autonomy architecture [4](c’est-à-dire à faire en sorte que des objets, des hélicoptères dans notre cas, se déplacent et prennent des photos sans s’écraser). Auparavant, j’ai travaillé au Conseil national de recherche du Canada à l’Institut des technologies de l’information au Nouveau-Brunswick où je travaillais au développement de technologies de traduction. J’ai aussi travaillé au sein de plusieurs jeunes entreprises axées sur, entre autres choses, les technologies langagières.Les données non structurées
Qu’est-ce que l’information non structurée et pourquoi devrait-elle préoccuper une organisation ?
La réponse facile est que l’information non structurée est de l’information sans aucune structure. Mais, évidemment, ça ne peut pas être le cas : la seule information vraiment non structurée proviendrait d’un processus aléatoire [5]. En général, le terme information non structurée signifie de l’information qui n’a pas de schéma SQL défini pour une fonction particulière [6]. Donc, une base de données contenant les noms et adresses de postulants est un exemple d’information structurée alors que les CV des postulants sont de l’information non structurée.
On dit souvent qu’un grand pourcentage de l’information d’une institution est de l’information non structurée ; il suffit de faire la recherche suivante sur Google pour s’en convaincre : «
percent "is unstructured data" » [7]. Trouver l’information qui se cache dans les données non structurées est crucial pour une organisation.Une grande partie de ces données sont dans des documents (textuels) et le terme
text mining [8] est souvent utilisé pour décrire ce sujet.Presque toute l’information disponible sur le web est non structurée, bien sûr. En fait, plusieurs affirment que l’explosion d’informations disponibles sur le web s’explique par la facilité avec laquelle on peut ajouter de l’information sur le web sans avoir à la structurer avec attention [9].
La recherche sur l’« information non structurée »
Pouvez-vous nous parler des résultats de vos recherches ainsi que de vos contributions majeures au domaine de l’information non structurée ?
Comme ce champ est large, je ne dirais pas que je suis un chercheur spécialiste des « données non structurées ». Néanmoins, il y deux domaines en lien avec les données non structurées où j’œuvre.
Un domaine général est le traitement de signaux [10] dans les données pour en obtenir une description qualitative [11]. Dans mes travaux sur les interfaces multimodales [12], par exemple, j’ai créé des langages de modélisation pour décrire comment les événements variant dans le temps peuvent prédire les intentions d’un utilisateur. Voir, par exemple, notre article "Multimodal
Event Parsing for Intelligent User Interfaces". Celui-ci décrit un système qui permet aux concepteurs de traiter les événements qui sont captés en temps réel de manière à comprendre les intentions des utilisateurs et d’autres descriptions qualitatives des données. Mes travaux plus récents tentent de préciser le concept en utilisant ce que je crois être de meilleurs modèles. Je n’ai pas encore beaucoup publié dans ce domaine, mais si vous êtes vraiment intéressés, vous pouvez lire la communication technique suivante :
“An
architecture for intelligent management of aerial observation
missions”. Elle traite surtout de l’aspect « autonomie », mais l’annexe donne des indications sur le « langage de surveillance » et de traitement que l’on développe à la NASA Ames. Une partie de cette théorie est expliquée dans un article écrit avec Daniel Lemire et Martin Brooks
“Quasi-monotonic segmentation of state variable behavior for
reactive control”. Ces articles montrent l’éventail des applications, mais aussi la difficulté qu’il y a à trouver le bon modèle !Mais voici un exemple d’application plus facile : déterminer la langue dans laquelle un texte est écrit. Le texte suivant est-il en anglais ou en français ?
A truly great book should be read in youth, again in maturity and once more in old age, as a fine building should be seen by morning light, at noon and by moonlight. - Robertson DaviesIl se trouve que ce problème est relativement facile, même sans dictionnaires anglais et français. Prenez un grand corpus [13] en anglais, et un autre en français, et comptez la fréquence des
n-grammes de caractères dans chacun. (Un
« n-gramme » est une liste de n
items consécutifs [14]). Par exemple, dans un modèle en bigrammes [15],
« th » est très fréquent en anglais, « le » l’est moins, alors que le contraire est vrai en français. Les n-grammes semblent suivre une distribution de Zipf (en fait, Zipf a basé ses travaux originaux sur cette observation). Il y a plusieurs formulations de la loi de Zipf. En voici une :où r est le rang d’un item
(c’est-à-dire son ordre basé sur un tri de la fréquence), et a est une constante déterminée empiriquement. Pour appliquer adéquatement ces faits, il y a deux étapes à parcourir : l’entraînement d’abord, puis le test [16]. Pour chaque corpus, on identifie la fréquence relative de chaque n-gramme dans le corpus. Je traite la fréquence relative comme une probabilité , et je calcule la quantité d’informations
du n-gramme comme étant
(cela donne le nombre de bits nécessaires pour coder de façon efficace le
n-gramme dans le corpus [17]). En traitant le corpus comme la
« population », cela donne généralement le codage le plus efficace pour les textes de cette langue. Alors, pour trouver la langue dans laquelle un texte est écrit, je calcule la quantité d’informations contenue dans chaque texte, selon la langue, et je choisis la langue qui donne la plus petite quantité d’information.Code-switching est le terme que les sociolinguistes utilisent pour décrire le phénomène par lequel une personne passe d’une langue à l’autre. Détecter ces changements constitue un problème de recherche. Cela mène à l’identification d’une « micro-langue ». Considérons cette phrase, typiquement canadienne :
Bonjour ! S’il vous plait, leave a message at the sound of the tone. Merci.Ce texte commence en français, puis passe à l’anglais. Combien de caractères (n dans n-grammes) doivent être utilisés pour identifier à quel moment le changement de langue se produit ? Observez en particulier que le mot « message » est à la fois un mot français et un mot anglais, ce qui suggère que connaître la probabilité qu’un court texte appartienne à une langue donnée est important (c’est-à-dire qu’on ne peut se fier seulement au meilleur choix). On peut recourir aux « fenêtres glissantes » [18] de texte, et calculer le meilleur choix de langue pour chaque fenêtre et déterminer par la suite où se situe le changement de langue. (Observez, par exemple, que le mot « message » est un mot en français et en anglais, donc, il faudra utiliser des techniques statistiques ou heuristiques pour décider si un changement de langue s’est produit.)
Un second champ où j’œuvre est l’utilisation de la « planification dynamique » pour traiter les conversations en temps réel, en utilisant des modèles à courte vie [19]. J’ai publié une communication sur le sujet, Item
descriptions add value to plans.. Plus proche du « text mining », un article relativement immature utilisait un modèle fait de questions typiques pour créer un système d’hyperliens–Voir "Using
natural language processing to construct large-scale hypertext
systems".Histoire et avenir
Comment la gestion de l’information non structurée a-t-elle évolué ces dernières années ? Quels facteurs ont contribué à cette évolution ? Quels sont les grands défis et les grandes découvertes qu’il reste à faire ?
Le facteur le plus important a été l’explosion d’informations disponibles sur le web. Ce facteur est très important. Voici quelques projets intéressants en recherche d’informations :
Gérer l’information peu fiable ou fausse. Des gens sans scrupules essaient constamment de placer de l’information fausse sur le web. Par exemple, des robots web tentent de mettre des commentaires sur mon blog afin de tromper les moteurs de recherche sur l’importance de certains sites web [20]. En fait, des blogues entiers sont du « blog spam ». Nous sommes tous familiers avec le pourriel. Quelles sont les meilleures techniques pour résoudre ces problèmes ?
La taille du web. Quelle est la taille du web ? Quelle portion du web a été indexée ? Il y a une controverse récente à ce sujet concernant les prétentions de Yahoo, Google et Microsoft. Une étude de la NCSA [21] A Comparison of
the Size of the Yahoo ! and Google Indices a comparé Yahoo et Google. D’une part, les chercheurs ont examiné les résultats de chaque moteur de recherche et, d’autre part, ils n’ont considéré que les recherches en langue anglaise. Ce dernier point rend leur étude peu crédible. Jean
Véronis a écrit une série de billets critiques sur les résultats de Google, Yahoo et MSN. Par exemple, on cherche a déterminer si Yahoo indexe vraiment 19 milliards de pages, comme on le prétend–voir
ce billet. Cela a amené les chercheurs à se poser plusieurs questions, par exemple, qu’est-ce qui constitue une page web ? Les billets de Véronis valent la peine d’être lus [22].Tagging. Plusieurs sites comme Flickr permettent aux utilisateurs d’utiliser des tags ou mots-clés [23]. Ces tags ne sont pas liés par un système formel ou une ontologie. Et il semble que ça fonctionne bien pour la recherche d’informations.
The Long Tail [24]. La loi de Zipf (ou toute distribution similaire) revient encore et encore. Par exemple, les chansons les plus populaires dans le catalogue iTunes d’Apple sont très très populaires ; on prétend que chaque chanson faisant partie du catalogue a été vendue au moins une fois. Voir, par exemple, le graphique de Chris
Anderson sur son blogue
Long tail weblog concernant le service musical Rhapsody. Une question intéressante est de trouver les choses intéressantes (sic) dans la long tail, là où il est théoriquement plus difficile de les trouver.Les problèmes temporels. De plus en plus, le web est dynamique : cela signifie que le contenu d’une page web change d’un instant à l’autre. Par exemple, l’étude de la NCSA, mentionnée plus haut, a été modifiée après les critiques qui y furent adressées ; conséquemment, l’un des auteurs a retiré son nom (ce changement fut noté dans le rapport, mais pas immédiatement). Et, bien sûr, les adresses web changent, les objets se déplacent et il devient difficile de les retrouver. Je pense que ça ajoute un problème temporel intéressant à la question de la recherche d’informations : il est non seulement important de savoir où trouver quelque chose, mais aussi quand cela fut créé et modifié.
L’entrevue avec Will Fitzgerald est sous licence Creative Commons
Attribution 2.5 License. Vous pouvez :
la copier, la distribuer, la diffuser ;
la modifier ;
en faire un usage commercial
sous les conditions suivantes : vous devez attribuer l’œuvre à l’auteur (Will Fitzgerald). Lors de toute réutilisation, vous devez diffuser les termes de cette licence.
Matériel optionnel — autres entrevues
Peter Norvig, le directeur de la recherche chez Google, a aussi accordé une entrevue au magazine Technology Review :
Kate Greene, The Future of Search, The head of Google Research talks about his group’s projects. Technology Review, July 16, 2007.
Voici une série d’entrevues très pertinente :
– Gord Hotchkiss, Search In The Year 2010, Search Engine Land, Aug. 10, 2007.
– Gord Hotchkiss, Search In The Year 2010 (part 2), Search Engine Land, Sept. 7, 2007.
[1] IA est l’acronyme pour intelligence artificielle.
[2] Le rappel est la portion des documents pertinents qui sont trouvés. La précision est la portion des documents trouvés qui sont pertinents.
[4] L’autonomy architecture est un terme propre à la NASA.
[5] On peut se demander si un processus aléatoire peut vraiment générer de l’information. La théorie de l’information de Shannon est basée sur notre capacité à stocker l’information et, en ce sens, un processus aléatoire génère effectivement beaucoup d’informations s’il est vraiment aléatoire.
[6] Un « schéma SQL » est une description des informations contenues dans une base de données SQL telle que SQL Server, MySQL ou PostgreSQL. Rappelons qu’une base de données SQL est une base de données relationnelle utilisant le Structured Query Language.
[7] On y voit des affirmations selon lesquelles 80 % à 90 % des informations sont non structurées.
[8] Text Mining : exploration ou forage de textes.
[9] Cette remarque de Will Fitzgerald est très intéressante : l’information non structurée est plus facile à produire, ce qui explique son abondance relative. On peut alors se demander comment une initiative comme le web sémantique va arriver à concilier la facilité avec la structure.
[10] Un signal est une transmission qui dure dans le temps et qui est captée par un détecteur. Une radio capte des signaux. Les signaux sont un exemple d’information non structurée !
[11] Une description qualitative s’oppose ici à une description quantitative, numérique.
[12] Une interface multimodale est une interface qui utilise plusieurs « modes » : par exemple la voix, l’image et les entrées au clavier.
[13] Corpus : ensemble de documents.
[14] Dans la phrase « Lucie a un chat », les 3-grammes de lettres sont « luc », « uci », « cie », « iea », « eau », « aun », « unc », « nch », « cha », « hat ».
[15] Un bigramme est un 2-gramme : 2 caractères apparaissant de façon consécutive dans un texte forment un bigramme de caractères. Un trigramme est un 3-gramme et ainsi de suite.
[16] En recherche, pour tester une nouvelle méthode basée sur des statistiques ou sur l’intelligence artificielle, on divisera souvent les données recueillies en au moins deux parties : dans la première, on expérimentera la méthode choisie en s’« entraînant » d’abord et dans la seconde, on testera (à proprement parler) la méthode. Par exemple, je vais calculer la fréquence des bigrammes d’un premier ensemble des documents français et anglais avant de vérifier sur un second ensemble de documents si je peux correctement distinguer les documents anglais des documents français. On peut ensuire utiliser plusieurs différentes partitions des documents et refaire plusieurs tests, selon la méthode du bootstrap.
[17] Will Fitzgeral fait ici référence à la théorie de l’information de Shannon.
[18] Une fenêtre glissante est une plage de mots déplaçable dans le texte ; par exemple, dans le phrase « Lucie aime Luc », on pourrait d’abord prendre la fenêtre « Lucie aime », puis la fenêtre « aime Luc ».
[19] Dans ce paragraphe, Will Fitzgerald est plutôt bref et il ne nous donne qu’un aperçu rapide de certains autres de ses travaux.
[20] Un blogue est un carnet personnel. Un blogue peut contenir des commentaires qui eux-mêmes contiennent des liens pointant vers d’autres sites web ; un moteur de recherche comme Google peut faire croire, à tort, que de tels liens indiquent que les sites référencés sont importants.
[21] NCSA : National Center for Supercomputing Applications, un centre de recherche américain.
[22] Véronis est professeur en France et écrit en français. Son blogue est à l’adresse http://aixtal.blogspot.com/.
[23] Les tags sur le web sont une technique qui se rapproche des signets : à chaque site ou objet rencontré, on associe un certain nombre de mots-clés comme « famille », « vacances », « chat ». L’astuce est que chaque utilisateur est libre d’utiliser les mots-clés qu’il veut pour chaque objet : un même objet aura donc des mots-clés différents selon les utilisateurs, selon les points de vue. On peut ensuite regrouper tous les objets ayant reçu le mot-clé « vacances », par exemple. Les résultats peuvent être intéressants, car on réconcilie les différents points de vue de façon informelle.
[24] La long tail est l’ensemble des items utilisés peu fréquemment mais qui, néanmoins, constituent une quantité importante. Par exemple, si une boutique vend surtout 2 articles, elle pourra quand même avoir 100 articles en vente. Si elle cesse de vendre les 100 articles et se concentre sur seulement les 2 articles les plus populaires, il est possible que ses ventes chutent. On dira alors que la boutique a négligé la long tail. On croit qu’avec l’émergence du commerce électronique, l’ensemble des produits peu populaires constituera un marché très lucratif.