Accueil  / Semaine 2 / Les informations non structurées

Les informations non structurées

Présentation de la leçon

Dans la présente leçon, nous définirons d’abord les trois grands types d’informations (structurées, non structurées et semi-structurées) et traiterons ensuite de la problématique de la surcharge d’informations qui caractérise les informations non structurées.

Commentaires du professeur

L’information non structurée, qu’est-ce que c’est ? Contrairement à ce qu’on pourrait penser, ce n’est pas de l’information mal organisée, mais plutôt de l’information qui ne peut pas être traitée facilement par un ordinateur. Un document Word est un exemple d’information non structurée dans la mesure où il est difficile pour l’ordinateur d’en traiter le contenu. À l’opposé de l’information non structurée, on trouve les bases de données informatiques. L’information structurée est généralement créée par des informaticiens ou des logiciels, et sa gestion est relativement aisée. L’information non structurée est beaucoup plus difficile à gérer et relativement abondante : le web est un exemple d’information non structurée (ou semi-structurée). On cherche d’ailleurs à transformer le web en un web sémantique qui contiendrait davantage d’information structurée

Introduction

Il importe d’abord de distinguer les informations de la connaissance (dans le cadre du présent cours, nous ne traiterons qu’indirectement de cette dernière). Les informations existent en elles-mêmes, sans l’être humain, alors que la connaissance s’acquiert par un processus cognitif. Par ailleurs, tandis qu’on peut parler d’informations d’un point de vue strictement informatique, la connaissance est un sujet qui requiert le concours de la psychologie, de la philosophie et de plusieurs autres disciplines.

1. Types d’informations

En informatique, les informations se divisent en trois types : les informations structurées, non structurées et semi-structurées. Les deux derniers cas, qui constituent l’objet du cours, représentent un problème plus complexe qui constitue un domaine appelé « la recherche d’informations » (Information Retrieval). Nous présentons et définissons ces types d’informations ci-après.

1.1 Informations structurées

Nous trouvons les informations structurées dans les bases de données et les langages informatiques. Nous reconnaissons les informations structurées au fait qu’elles sont disposées de façon à être traitées automatiquement et efficacement par un logiciel, mais non nécessairement par un humain.

La ligne de code Java

int salaire = 60000; String nom="Jean";

est un exemple simple d’informations structurées : nous connaissons les valeurs, dont le nom est associé à la fonction. Nous pouvons ici supposer que le nom de l’individu est Jean et que son salaire est de 60 000 dollars.

Par opposition, la chaîne de caractères « Jean gagne un salaire de 60 000 dollars » n’est pas structurée, car nous ne pouvons nous attendre à ce qu’un logiciel puisse lire et comprendre une phrase écrite en français.

Le plus souvent, nous disposons les informations structurées dans des tableaux, comme dans une base de données relationnelle [1]. Voici un exemple d’informations structurées présentées dans un tableau :

ÉtudiantNote
Jean75
Marie85

Plusieurs organisations utilisent des bases de données, c’est-à-dire des informations structurées, pour gérer leur inventaire, leur comptabilité, etc.

1.2 Informations non structurées et semi-structurées

Il est impossible de tout stocker sous la forme d’informations structurées (p. ex. lettres, courriels, livres, rapports, collections d’images ou de vidéos, brevets, images satellites, offres de service et CV, appels d’offre). Il s’agit pourtant d’informations que les organisations doivent traiter.

Même dans les documents textuels, nous trouvons plusieurs niveaux entre l’absence complète de structure et les informations structurées. Par exemple, un courriel est transmis sur Internet dans une forme comme celle-ci [2] :

Date : Mardi, 21 juin 2005 13:14:47 -0400

From : Jean Couture

Subject : Nouveaux fichiers pour la Table du 22 juin

To : Lemire Daniel

X-Virus-Status : Clean

Bonjour Daniel,

Voici les fichiers demandés.

Au plaisir,

Jean Couture

Un courriel contient une combinaison pratiquement égale d’informations non structurées (le corps du message) et d’informations structurées (date, auteur, destinataire, etc.). Une partie du courriel s’adresse à un humain et l’autre, à une machine [3]. Une page web partage cette caractéristique : une partie de son contenu s’adresse à l’humain, comme le texte (informations non structurées), alors qu’une autre partie est destinée à la machine, comme les balises (informations structurées). Pour en juger, voici l’allure générale du code source d’une page web simple :

<html>

<head>

<title>titre de ma page</title>

</head>

<body>

<p>Ceci est un paragraphe. Mon nom est Jean. Il se termine.</p>

</body>

</html>

La ligne <title>titre de ma page</title>, qui est destinée à être traitée par la machine et constitue un exemple d’informations structurées. La machine peut aussi automatiquement déterminer qu’il doit y avoir un paragraphe et un seul. Cependant, elle ne peut facilement déterminer le nom de l’auteur.

Un film ou un enregistrement audio est destiné à l’humain, et c’est pourquoi ils sont des informations non structurées. Cependant, on ajoute souvent des métadonnées aux documents multimédias. Par exemple, les fichiers de musique MP3 contiennent souvent une section ID3 qui permet de spécifier l’interprète, le compositeur, etc.

La manipulation relativement rapide des informations structurées a été résolue en grande partie par les bases de données. Par contre, les informations non structurées ou semi-structurées posent des problèmes plus difficiles, surtout lorsque la recherche porte sur la partie purement non structurée des informations. Voici quelques exemples de problèmes relatifs à :

- la recherche de données : dans une pile de CV, trouver automatiquement le nombre de postulants ayant un baccalauréat ;

- la recherche de documents : trouver le rapport, écrit en 2001, qui traitait de la nouvelle politique concernant les départs à la retraite ;

- la recherche de textes : trouver la définition de l’expression « abus législatif » dans un ensemble de documents juridiques ;

- la recherche d’images : trouver la photographie de mon enfant, qui a été prise le jour de mon dernier anniversaire.

- la recherche qualitative : trouver la dernière fois que le cours de mes actions a connu une hausse subite.

Dans tous ces exemples, nous voyons que la solution serait plus facile à trouver si les informations étaient structurées. Nous pourrions demander aux postulants de cocher une case dans laquelle ils auraient à répondre à la question « Êtes-vous titulaire d’un baccalauréat ? » ; nous pourrions classer les rapports par sujet dans une taxonomie [4] ; nous pourrions copier toutes les définitions dans un glossaire électronique ; nous pourrions classer les images par date et selon les personnes représentées ; nous pourrions répertorier dans une base de données tous les événements ayant trait au cours de mes actions. Ce n’est malheureusement pas toujours possible. La plupart des entreprises mettent leur adresse sur leur site web, mais une application qu’on voudrait apte à les récupérer ne peut nécessairement s’appuyer sur ces entreprises pour qu’elles disposent et formatent leurs adresses sur le site web de sorte qu’il soit facile de les récupérer. C’est d’ailleurs le sujet d’une initiative de recherche majeure, appelée web sémantique, qui vise à faire du web une contrée contenant beaucoup plus d’informations structurées à l’aide notamment du RDF.

2. Vertige devant la masse : la crise du trop-plein d’informations

L’abondance relative d’informations non structurées et semi-structurées est récente et en partie attribuable au web et à son ubiquité. Bien que nous ayons le sentiment que nos ordinateurs sont de plus en plus puissants, nous pouvons nous demander s’ils peuvent continuer à gagner suffisamment en puissance pour nous aider à gérer la surcharge d’informations.

2.1 La surcharge d’informations

Dès les années 1970, il était devenu évident que nous allions atteindre rapidement le seuil où la capacité de l’humain à gérer les informations serait mise à rude épreuve. Toffler proposa alors le concept de surcharge d’informations (Information Overload) pour désigner ce phénomène. Plus récemment, Toffler a estimé que chaque individu a accès à environ 12 000 pétaoctets (Po) d’informations [5]. Selon Eric Schmidt, PDG de Google, il existe « 5 millions de téraoctets [6] d’informations » dans le monde et nous n’en avons indexé que « 170 téraoctets » (c’est-à-dire beaucoup moins de 1 %). De plus, il a estimé qu’il faudrait 300 ans pour indexer toutes les informations connues sur Terre [7].

À cause de la nature ouverte et décentralisée d’Internet, il est difficile d’avoir des chiffres très précis nous permettant d’évaluer le nombre de pages web ou de courriels transmis chaque jour. D’après une étude de cas, le nombre de courriels transmis par jour a doublé tous les 13 mois entre 2000 et 2004. Selon Yahoo ! Answers, le nombre de courriels transmis chaque jour en 2006 était de presque 62 milliards. Le nombre de pages web indexées par Google est passé de 1 milliard au début de l’an 2000 à plus 4 milliards en 2004 et, depuis l’été 2005, il est passé à plus de 8 milliards. En somme, de 2000 à 2005, le nombre de pages web se trouvant dans le moteur de recherche Google a doublé tous les 20 mois environ. Si les pages en question étaient statiques, ça représenterait déjà un exploit technique, mais le moteur de recherche doit, en plus, constamment revisiter les pages en question [8].

Nombre de pages web indexées par Google, d’après la « Google’s timeline » fournie par Google. On peut penser que les concurrents de Google, comme Yahoo et MSN, ont connu une évolution comparable.

Plusieurs facteurs contribuent à l’impression que nous partageons tous d’avoir accès à trop d’informations :

- une grande quantité d’informations accumulées : il n’est pas rare pour un professionnel d’avoir reçu plus d’un gigaoctet de courriels ;

- on a estimé qu’Internet comptait environ 18,5 millions de serveurs web et donc, une quantité phénoménale de pages web ;

- un grand nombre de nouvelles informations provenant de sources variées sont parfois contradictoires : une recherche sur Internet, pour un terme donné, donnera facilement des centaines de pages qui n’ont pas nécessairement une grande cohérence ;

- l’accès à un grand nombre d’informations qui sont peu ou pas pertinentes pour ce qu’on doit faire : le bulletin de la météo de Montréal nous donne la température qu’il fait à Victoria en Colombie-Britannique et il est suivi par le cours de l’or [9], alors que nous n’en avons pas toujours besoin ;

- le manque de méthode pour traiter toutes ces informations : plusieurs professionnels ont été formés avant l’arrivée du web et du courriel ;

- des logiciels inefficaces : un logiciel de courriel qui fonctionne très bien si je reçois 40 courriels par jour ne répondra peut-être plus à mes besoins si je reçois 120 courriels par jour. De la même façon, un logiciel qui permet de faire un site web pour mon club de bridge local ne me permettra peut-être pas de mettre sur pied un site web efficace pour une entreprise qui a 50 000 clients dans le monde entier et qui offre de nouveaux produits chaque jour.

2.2 La recherche d’informations et l’évolution des capacités de stockage

Nous constatons que, depuis 1965, la vitesse des microprocesseurs augmente à un rythme exponentiel. Selon la « loi de Moore », le nombre de transistors par unité d’aire dans les microprocesseurs double tous les deux ans : cette affirmation qui date de 1965 reste valable encore aujourd’hui. Bien que la densité des transistors ne soit pas une mesure directe de la performance d’un ordinateur personnel, cette dernière suit assez bien cette progression exponentielle. Nous pourrions croire qu’avec ces machines toujours plus performantes, la vitesse à laquelle nous pouvons trouver les informations ne fera qu’augmenter. Cependant, plusieurs autres facteurs entrent en jeu : la quantité d’informations, la vitesse de lecture des informations, la vitesse d’accès à ces dernières et la latence (temps d’attente).

En informatique, la quantité de données se mesure en nombre de « bits » : un bit ne peut prendre que deux valeurs (0 ou 1). L’utilisation de la notion de bits est ce qui distingue le stockage « numérique » (sur cédérom ou disque) du stockage « analogique » (ruban VHS). Il s’avérerait fastidieux de compter toutes les informations en bits, et c’est pourquoi nous utilisons fréquemment des unités plus grandes.

Tableau I

Quelques unités mesurant la quantité d’informations en informatique

Unité Valeur
demi-octet 4 bits
octet 8 bits
kilo-octet (Ko) 1000 octets
kibioctet (Kio) 1024 octets
mégabit (Mbit) $10^6$ bits
mébibit (Mibit) $2^20$ bits
mégaoctet (Mo) $10^6$ octets
mébioctet (Mio) $2^20$ octets
gigaoctet (Go) $10^9$ octets
gibioctet (Gio) $2^30$ octets
téraoctet (To) $10^12$ octets
tébioctet (Tio) $2^40$ octets
pétaoctet (Po) $10^15$ octets
pébioctet (Pio) $2^50$ octets
nombre d’électrons dans l’univers $10^79$

Les capacités de stockage augmentent sans cesse et deviennent de moins en moins coûteuses. Les architectures informatiques courantes se divisent généralement en stockage interne (RAM) et en stockage externe (p. ex. disques rigides). Le tableau suivant donne la capacité de stockage d’un ordinateur en 1993, en 1998, en 2004 et en 2014 :

Tableau II

Espace de stockage d’un ordinateur de 1993 à 2014

1993 1998 2004 2014
Interne 4 Mo 16 Mo 256 Mo 4 Go
Externe 100 Mo 1 Go 100 Go 1To

Nous constatons sans mal que la capacité de stockage de nos ordinateurs personnels augmente de façon exponentielle. En dix ans, la capacité de stockage interne a été multipliée par 64, alors que la capacité de stockage externe a été multipliée par 1000 [10]. Nous pouvons également considérer l’exemple des disques optiques. Le cédérom, qui date de 1985, permet de stocker 650 Mo ; dix ans plus tard, en 1995, le DVD-ROM a une capacité qui varie de 4,7 Go à 17,1 Go, alors que le Blu-Ray (2003) offre une capacité de stockage de 25 Go, soit l’équivalent de 40 cédéroms. Dans la même période, en appliquant la loi de Moore, le nombre de transistors par unité d’aire dans nos microprocesseurs a été multiplié par 45. Nous constatons donc que la capacité de stockage externe s’accroît à un rythme beaucoup plus élevé que la capacité de stockage interne ou que le nombre de transistors par unité d’aire. Nous nous dirigeons sans doute vers un monde où les capacités de stockage seront infinies. En effet, selon Gray [11], un enregistrement de tout ce que vous pouvez lire occuperait 25 Mo par an ; un enregistrement de tout ce que vous pouvez entendre occuperait 100 Go par an ; alors qu’un enregistrement de tout ce que vous pouvez voir occuperait 10 To par an. Ainsi, nous pouvons penser que dès que des disques ayant une capacité de 10 To seront à des prix très abordables, nous aurons effectivement une capacité de stockage « infinie » dans la mesure où le coût de stockage n’aura plus aucune importance.

La capacité de stockage n’est qu’une partie du problème ; il faut aussi examiner la vitesse de lecture des informations stockées. Deux facteurs permettent de mesurer la vitesse de lecture : le temps d’accès et le taux de transfert (ou bande passante). Le taux de transfert est la vitesse de lecture des données en séquence : dans un disque rigide, cette vitesse correspond un peu à la vitesse de l’aiguille au-dessus du disque magnétique, qui est elle-même déterminée par la vitesse de rotation du disque. Le taux de transfert s’exprime en octets ou bits par seconde (Ko/s, Mo/s, etc.). Le temps d’accès est le délai moyen qu’il faut pour trouver et commencer à lire une section de mémoire. Ce délai s’exprime souvent en millisecondes (ms) ou en nanosecondes (ns) : dans un disque rigide, cette vitesse est fonction de la vitesse à laquelle on peut placer l’aiguille à la bonne position au-dessus du disque magnétique. La latence (temps d’attente) est le résultat de la somme du temps d’accès et du taux de transfert multiplié par la quantité d’informations à lire.

\textrm{latence} = \textrm{temps d’acc\`es} +  \textrm{quantit\’e d’information} / \textrm{taux de transfert}

Par exemple, le temps nécessaire pour télécharger un site web comprend le temps nécessaire pour trouver le serveur web (temps d’accès) et le temps nécessaire pour télécharger la page (la taille de la page divisé par le taux de transfert). Même si la page web a télécharger est très petite, si le temps d’accès est élevé (recherche du serveur et connexion), la latence peut être tout de même élevée.

Le tableau suivant montre que la vitesse de lecture séquentielle de la mémoire a été multipliée. Cependant, la mémoire s’est accélérée davantage que la mémoire externe.

Tableau III

Vitesse de lecture de la mémoire d’un ordinateur représentatif de 1993 à 2014

1993 1998 2004 2014
Interne 10 Mo/s 10 Mo/s 100 Mo/s 10 Go/s
Externe 100 Ko/s 100 Ko/s 30 Mo/s 200 Mo/s

Nous pouvons aussi comparer ces valeurs avec les vitesses de lecture des disques optiques qui sont des multiples de 150 Ko/s pour le cédérom (1985), des multiples de 1,3 Mo/s pour le DVD-ROM (1995).

Comme le montre le tableau suivant, le temps d’accès de la mémoire s’améliore moins vite que les capacités de stockage ou que le taux de transfert. En particulier, le temps d’accès de la mémoire externe est pratiquement constant.

Tableau IV

Temps d’accès à la mémoire d’un ordinateur représentatif de 1993 à 2014

1993 1998 2004 2014
Interne 200 ns 200 ns 10 ns 10 ns
Externe 10 ms 10 ms 7 ms 3 ms

Le calcul des temps d’accès pour les disques optiques est rarement fait, mais les temps d’accès sont généralement de 5 à 10 fois plus longs que pour un disque rigide (de l’ordre de 100 ms).

Le résultat net est que si nos machines sont de plus en plus performantes, les temps d’accès sur nos disques rigides deviennent de plus en plus un facteur limitant. C’est comme si on avait des supermarchés de plus en plus gros avec de plus en plus de choix, avec des paniers de plus en plus gros et des caissières plus rapides, mais que malgré toute cette sophistication, on ne puisse trouver plus rapidement chacun des produits de notre liste d’épicerie toujours plus longue. Le résultat net sera une latence toujours plus grande à moins qu’on puisse regrouper avec intelligence les produits pour diminuer le temps de leur recherche.

Dans une étude récente, Gray a montré que bien que, de 1985 à 2000, le nombre d’éléments pouvant être triés par seconde ait doublé chaque année (et ce, avec un équipement informatique renouvelé de même valeur), il n’a cependant augmenté que de 20 % par année depuis 2000. L’auteur attribue ce « plateau » au peu d’amélioration des temps d’accès de la mémoire interne. Ainsi, si la taille de nos ensembles de données augmente plus rapidement que de 20 % par année, ce qui est certainement le cas [12], nous pouvons nous trouver avec des systèmes qui sont de moins en moins rapides (temps d’accès important) même si le matériel est constamment mis à jour.

Heureusement, les disques flash tels qu’utilisés par plusieurs ordinateurs portables ont de bien meilleurs temps d’accès : on trouve de tels disques avec un temps d’accès de 100 ns. De plus, les disques flash consomment moins d’énergie (environ 30 % de moins) ; ils sont silencieux et petits. Par contre, leur prix est entre 15 et 20 fois plus élevé.

Anecdote - En 2005, le record de tri de données d’un ordinateur représentatif était détenu par Robert Ramey, qui est arrivé à trier un bloc de données de 16 Go en moins de 17 minutes [13]. Cela signifie que si vous accumulez des gigaoctets de données, attendez-vous à ce que le traitement de ces données prenne plusieurs minutes, voire plusieurs heures, et ce, même si votre ordinateur est performant. Évidemment, en pratique, les utilisateurs de la technologie jugent une attente de plusieurs secondes comme étant à peine acceptable. Pourquoi attendre quand un moteur de recherche peut chercher une donnée dans la totalité du web en beaucoup moins d’une seconde ? Si vous êtes responsable d’un projet qui vise le traitement de beaucoup de données, vous devrez donc être astucieux.

Un autre facteur limitant la recherche d’informations est la bande passante en réseautique : le nombre de bits pouvant être transmis par seconde. Par exemple, les services d’« Internet haute vitesse » de base offrent des taux de transfert approximatifs de 50 Ko/s (environ 9 fois la vitesse d’un modem). À une telle vitesse, il faudrait un mois pour le transfert d’un disque de 100 Go. Pour charger 8 milliards de pages web de 10 Ko chacune, il faudrait plus de 50 ans à un débit 50 Ko/s. En somme, si vous vouliez offrir un service comparable à celui d’un moteur de recherche comme Google à partir de votre ordinateur à la maison, en supposant que vous avez un ordinateur très puissant, il vous faudrait 50 ans pour visiter autant de sites web que Google possède dans ses bases de données actuellement, et d’ici là, évidemment, votre base serait désuète.

Il est intéressant d’observer qu’il y a un lien direct entre les capacités de stockage et le taux de transfert. Actuellement, on peut stocker environ 40 Go par pouce [14] carré sur un disque. Un disque faisant 10 pouces de diamètre peut donc stocker environ 3000 Go ou 3 To. Si je place 100 de ces disques dans ma camionnette et que je fais le trajet de Montréal à Québec en 2 heures, j’obtiens un taux de transfert de 150 To/h ou 40 Go/s, ce qui excède largement un transfert par Internet. Par contre, le temps d’accès aux données est de deux heures ! C’est loin d’être réjouissant. Nous voyons donc que nous pouvons avoir une grande capacité de stockage et une bande passante élevée, sans pour autant avoir de bons temps d’accès.

3. Les outils de traitement des informations non structurées

3.1 WebFountain

Plusieurs outils permettent de traiter les informations non structurées. L’un des plus célèbres est sans doute WebFountain d’IBM. L’objectif de WebFountain est de pouvoir traiter le grand volume de données non structurées trouvées sur le web. L’intérêt de l’outil est de pouvoir cataloguer et analyser les informations non structurées de façon continue (en temps réel) pour y trouver des tendances, des motifs récurrents et des relations. En y mettant le prix, nous pouvons utiliser WebFountain à l’aide de compagnies comme Factiva. WebFountain utilise notamment l’algorithme HITS que nous étudierons plus tard dans ce cours.

3.2 Echelon

ECHELON est un système d’interception et de traitement de données opéré par les services secrets américains. ECHELON intercepte les conversations téléphoniques, les courriels, les requêtes diverses, etc., à des fins d’espionnage et de contre-espionnage. Les quantités de données traitées sont probablement colossales. Il s’agit sans doute du plus important système de traitement de données non structurées à des fins d’espionnage au monde.

Un radôme faisant possiblement partie d’ECHELON (source : Wikipédia).

3.3 YouTube

YouTube est un site web entreposant des millions d’extraits vidéos. La particularité du site est que tout le monde peut y déposer un extrait vidéo [15]. Fondé en février 2005, le site a été vendu à Google en octobre 2006 pour la rondelette somme de 1,65 milliard de dollars. On pense que YouTube a plus de 45 téraoctets de vidéos.

Logo de la société YouTube.

YouTube appartient à une tendance appelée parfois « Web 2.0 » qui désigne les sites web comme Wikipédia ou les blogues dont le contenu provient des utilisateurs qui peuvent communiquer directement le fruit de leurs travaux.

3.4 Outils pour votre bureau

Les nouveaux systèmes de fichiers, comme WinFS et ReiserFS, incorporent les techniques avancées de gestion des informations dans les systèmes d’exploitation communs comme Windows, MacOS et Linux.

Dans le même esprit, nous vous invitons à mettre à l’essai les outils de recherche d’informations suivants sur votre ordinateur à la maison (pour Windows) :

- Copernic Desktop Search ;

- Yahoo Desktop Search.

Si vous utilisez Linux, Beagle et Kerry sont des produits équivalents ; pour MacOS, il faut utiliser Spotlight.

4. Pour terminer la leçon, un tableau...

On peut estimer le prix d’un téraoctet de stockage à environ 50 $. Le tableau suivant donne une estimation des quantités d’information ainsi que le prix d’achat des unités de stockage correspondantes. Notons que le prix exclut les coûts d’acquisition et de traitement des données.

Tableau V

Espace de stockage requis et coût approximatif correspondant

Totalité des informations 12 000 000 To 600 millions $
Enregistrement vidéo pendant un an 10 To 500 $
Enregistrement audio pendant un an 100 Go 5 $

[1Une base de données relationnelle est une base de données structurées suivant les principes de l’algèbre relationnelle.

La théorie des bases de données relationnelles est attribuée à Codd.

La plupart des moteurs de bases de données utilisés en technologie de l’information sont relationnels : SQL Server, Oracle, MySQL, PostgreSQL, etc.

[2La première partie du courriel contient une séquence de lignes au format « quelquechose : autrechose », puis se termine par une ligne vide. Nous verrons qu’il est très facile de traiter ce type de texte qui suit un modèle aussi simple en utilisant des expressions régulières. Nous aborderons ce sujet plus tard dans le cours.

[3On pourrait faire valoir que, dans un courriel, la ligne « From : Jean Couture  » peut être lue à la fois par une machine et par un humain. En effet, les informations textuelles pouvant être lues par une machine peuvent aussi être lues par l’humain, et c’est une bonne chose. Néanmoins, nous distinguons le contenu d’un tel extrait de texte de celui de la ligne « Voici les fichiers demandés. », qui n’a pas été écrite dans le but d’être traitée par une machine. En raison de l’intelligence artificielle, un logiciel pourrait cependant conclure que le courriel en question fait référence à des pièces jointes, mais cela peut représenter un problème étonnamment difficile pour une machine.

[4Taxonomie : classification d’éléments concernant un domaine.

[5Alvin Toffler et Heidi Toffler, Revolutionary Wealth, New York, Knopf, 2006, ISBN : 0375401741.

[6Un téraoctet compte 1024 gigaoctets ; donc, 5 millions de téraoctets correspondent à 64 millions de disques de 80 gigaoctets ou 8 milliards de cédéroms !

[7Par indexer, on entend « rendre facile à trouver rapidement » : Eric Schmidt fait ici référence aux « index inversés » utilisés par les moteurs de recherche pour rendre les recherches plus rapides. Nous traiterons cette question plus tard dans le cours.

[8Pour visiter 8 milliards de pages chaque jour, il faut en télécharger 200 000 par seconde ! Imaginez un atelier contenant 200 000 personnes qui téléchargent toutes une page à chaque seconde ! Imaginez que toutes ces personnes doivent se coordonner entre elles pour ne pas télécharger deux fois la même page.

[9Quelle portion de la population achète et vend de l’or de nos jours ? Pourtant, on donne cette information tous les soirs au téléjournal de Radio-Canada !

[10Cet accroissement considérable de la capacité de stockage des disques est en bonne partie attribuable à la découverte de la magnétorésistance géante en 1998 pour laquelle Fert et Gruenberg ont obtenu le prix Nobel de physique en 2007.

[11Jim Gray, What Next ? A Dozen Information-Technology Research Goals, Journal of the ACM, vol. 50, no 1, janvier 2003.

[12Szalay, A. et Gray, J., 2020 Computing : Science in an exponential world, Nature, 2006.

[13Nous avons vu plus tôt dans le cours que le tri est une opération en temps O(n \log n)n est le nombre d’éléments. Dans le cas de l’expérience de Ramey, n= 4194304 ; nous nous attendrions donc à ce que le temps de calcul soit 1000 fois plus lent que pour le tri de 10 000 éléments (n=10 000). Cependant, ce serait un exploit de ne pas voir une différence plus importante, car si le tri de 10 000 éléments peut se faire en mémoire vive (interne), le tri de 4 millions d’éléments, sur un ordinateur représentatif de 2005, ne peut se faire en mémoire vive : on doit donc utiliser le stockage sur disque de façon intensive, ce qui ralentit d’autant l’opération à faire.

[14Un pouce représente 2,54 centimètres.

[15Y compris le professeur Lemire qui y dépose les films qu’il fait de ses enfants.