Les informations non structurées

Présentation de la leçon

Dans la présente leçon, nous définirons d’abord les trois grands types d’informations (structurées, non structurées et semi-structurées) et traiterons ensuite de la problématique de la surcharge d’informations qui caractérise les informations non structurées.

Introduction

Il importe d’abord de distinguer les informations de la connaissance (dans le cadre du présent cours, nous ne traiterons qu’indirectement de cette dernière). Les informations existent en elles-mêmes, sans l’être humain, alors que la connaissance s’acquiert par un processus cognitif. Par ailleurs, tandis qu’on peut parler d’informations d’un point de vue strictement informatique, la connaissance est un sujet qui requiert le concours de la psychologie, de la philosophie et de plusieurs autres disciplines.

1. Types d’informations

En informatique, les informations se divisent en trois types : les informations structurées, non structurées et semi-structurées. Les deux derniers cas, qui constituent l’objet du cours, représentent un problème plus complexe qui constitue un domaine appelé « la recherche d’informations » (Information Retrieval). Nous présentons et définissons ces types d’informations ci-après.

1.1 Informations structurées

Nous trouvons les informations structurées dans les bases de données et les langages informatiques. Nous reconnaissons les informations structurées au fait qu’elles sont disposées de façon à être traitées automatiquement et efficacement par un logiciel, mais non nécessairement par un humain.

La ligne de code Java

int salaire = 60000; String nom="Jean";

est un exemple simple d’informations structurées : nous connaissons les valeurs, dont le nom est associé à la fonction. Nous pouvons ici supposer que le nom de l’individu est Jean et que son salaire est de 60 000 dollars.

Par opposition, la chaîne de caractères « Jean gagne un salaire de 60 000 dollars » n’est pas structurée, car nous ne pouvons nous attendre à ce qu’un logiciel puisse lire et comprendre une phrase écrite en français.

Le plus souvent, nous disposons les informations structurées dans des tableaux, comme dans une base de données relationnelle [1]. Voici un exemple d’informations structurées présentées dans un tableau :

Étudiant	Note
Jean	75
Marie	85

Plusieurs organisations utilisent des bases de données, c’est-à-dire des informations structurées, pour gérer leur inventaire, leur comptabilité, etc.

1.2 Informations non structurées et semi-structurées

Il est impossible de tout stocker sous la forme d’informations structurées (p. ex. lettres, courriels, livres, rapports, collections d’images ou de vidéos, brevets, images satellites, offres de service et CV, appels d’offre). Il s’agit pourtant d’informations que les organisations doivent traiter.

Même dans les documents textuels, nous trouvons plusieurs niveaux entre l’absence complète de structure et les informations structurées. Par exemple, un courriel est transmis sur Internet dans une forme comme celle-ci [2] :


Date: Mardi, 21 juin 2005 13:14:47 -0400

From: Jean Couture 

Subject: Nouveaux fichiers pour la Table du 22 juin

To: Lemire Daniel 

X-Virus-Status: Clean

 

Bonjour Daniel,

 

Voici les fichiers demandés.

 

Au plaisir,

 

Jean Couture

Un courriel contient une combinaison pratiquement égale d’informations non structurées (le corps du message) et d’informations structurées (date, auteur, destinataire, etc.). Une partie du courriel s’adresse à un humain et l’autre, à une machine [3]. Une page web partage cette caractéristique : une partie de son contenu s’adresse à l’humain, comme le texte (informations non structurées), alors qu’une autre partie est destinée à la machine, comme les balises (informations structurées). Pour en juger, voici l’allure générale du code source d’une page web simple :

<html>



<head>



<title>titre de ma page</title>



</head>



<body>



<p>Ceci est un paragraphe. Mon nom est Jean. Il se termine.</p>



</body>



</html>

La ligne <title>titre de ma page</title>, qui est destinée à être traitée par la machine et constitue un exemple d’informations structurées. La machine peut aussi automatiquement déterminer qu’il doit y avoir un paragraphe et un seul. Cependant, elle ne peut facilement déterminer le nom de l’auteur.

Un film ou un enregistrement audio est destiné à l’humain, et c’est pourquoi ils sont des informations non structurées. Cependant, on ajoute souvent des métadonnées aux documents multimédias. Par exemple, les fichiers de musique MP3 contiennent souvent une section ID3 qui permet de spécifier l’interprète, le compositeur, etc.

La manipulation relativement rapide des informations structurées a été résolue en grande partie par les bases de données. Par contre, les informations non structurées ou semi-structurées posent des problèmes plus difficiles, surtout lorsque la recherche porte sur la partie purement non structurée des informations. Voici quelques exemples de problèmes relatifs à :

– la recherche de données : dans une pile de CV, trouver automatiquement le nombre de postulants ayant un baccalauréat ;

– la recherche de documents : trouver le rapport, écrit en 2001, qui traitait de la nouvelle politique concernant les départs à la retraite ;

– la recherche de textes : trouver la définition de l’expression « abus législatif » dans un ensemble de documents juridiques ;

– la recherche d’images : trouver la photographie de mon enfant, qui a été prise le jour de mon dernier anniversaire.

– la recherche qualitative : trouver la dernière fois que le cours de mes actions a connu une hausse subite.

Dans tous ces exemples, nous voyons que la solution serait plus facile à trouver si les informations étaient structurées. Nous pourrions demander aux postulants de cocher une case dans laquelle ils auraient à répondre à la question « Êtes-vous titulaire d’un baccalauréat ? » ; nous pourrions classer les rapports par sujet dans une taxonomie [4] ; nous pourrions copier toutes les définitions dans un glossaire électronique ; nous pourrions classer les images par date et selon les personnes représentées ; nous pourrions répertorier dans une base de données tous les événements ayant trait au cours de mes actions. Ce n’est malheureusement pas toujours possible. La plupart des entreprises mettent leur adresse sur leur site web, mais une application qu’on voudrait apte à les récupérer ne peut nécessairement s’appuyer sur ces entreprises pour qu’elles disposent et formatent leurs adresses sur le site web de sorte qu’il soit facile de les récupérer. C’est d’ailleurs le sujet d’une initiative de recherche majeure, appelée web sémantique, qui vise à faire du web une contrée contenant beaucoup plus d’informations structurées à l’aide notamment du RDF.

2. Vertige devant la masse : la crise du trop-plein d’informations

L’abondance relative d’informations non structurées et semi-structurées est récente et en partie attribuable au web et à son ubiquité. Bien que nous ayons le sentiment que nos ordinateurs sont de plus en plus puissants, nous pouvons nous demander s’ils peuvent continuer à gagner suffisamment en puissance pour nous aider à gérer la surcharge d’informations.

2.1 La surcharge d’informations

Dès les années 1970, il était devenu évident que nous allions atteindre rapidement le seuil où la capacité de l’humain à gérer les informations serait mise à rude épreuve. Toffler proposa alors le concept de surcharge d’informations (Information Overload) pour désigner ce phénomène. Plus récemment, Toffler a estimé que chaque individu a accès à environ 12 000 pétaoctets (Po) d’informations [5]. Eric Schmidt a estimé qu’il faudrait 300 ans pour indexer toutes les informations connues sur Terre [6].

À cause de la nature ouverte et décentralisée d’Internet, il est difficile d’avoir des chiffres très précis nous permettant d’évaluer le nombre de pages web ou de courriels transmis chaque jour. On estime que le nombre de courriels transmis par jour double à tous les 13 mois.

Nombre de pages web indexées par Google, d’après la « Google’s timeline » fournie par Google. On peut penser que les concurrents de Google, comme Yahoo et MSN, ont connu une évolution comparable.

Plusieurs facteurs contribuent à l’impression que nous partageons tous d’avoir accès à trop d’informations :

– une grande quantité d’informations accumulées : il n’est pas rare pour un professionnel d’avoir reçu plus d’un gigaoctet de courriels ;

– on a estimé qu’Internet comptait environ 18,5 millions de serveurs web et donc, une quantité phénoménale de pages web ;

– un grand nombre de nouvelles informations provenant de sources variées sont parfois contradictoires : une recherche sur Internet, pour un terme donné, donnera facilement des centaines de pages qui n’ont pas nécessairement une grande cohérence ;

– l’accès à un grand nombre d’informations qui sont peu ou pas pertinentes pour ce qu’on doit faire : le bulletin de la météo de Montréal nous donne la température qu’il fait à Victoria en Colombie-Britannique et il est suivi par le cours de l’or [7], alors que nous n’en avons pas toujours besoin ;

– le manque de méthode pour traiter toutes ces informations : plusieurs professionnels ont été formés avant l’arrivée du web et du courriel ;

– des logiciels inefficaces : un logiciel de courriel qui fonctionne très bien si je reçois 40 courriels par jour ne répondra peut-être plus à mes besoins si je reçois 120 courriels par jour. De la même façon, un logiciel qui permet de faire un site web pour mon club de bridge local ne me permettra peut-être pas de mettre sur pied un site web efficace pour une entreprise qui a 50 000 clients dans le monde entier et qui offre de nouveaux produits chaque jour.

2.2 La recherche d’informations et l’évolution des capacités de stockage

Nous constatons que, depuis 1965, la vitesse des microprocesseurs augmente à un rythme exponentiel. Selon la « loi de Moore », le nombre de transistors par unité d’aire dans les microprocesseurs double tous les deux ans : cette affirmation qui date de 1965 reste valable encore aujourd’hui. Bien que la densité des transistors ne soit pas une mesure directe de la performance d’un ordinateur personnel, cette dernière suit assez bien cette progression exponentielle. Nous pourrions croire qu’avec ces machines toujours plus performantes, la vitesse à laquelle nous pouvons trouver les informations ne fera qu’augmenter. Cependant, plusieurs autres facteurs entrent en jeu : la quantité d’informations, la vitesse de lecture des informations, la vitesse d’accès à ces dernières et la latence (temps d’attente).

En informatique, la quantité de données se mesure en nombre de « bits » : un bit ne peut prendre que deux valeurs (0 ou 1). L’utilisation de la notion de bits est ce qui distingue le stockage « numérique » (sur cédérom ou disque) du stockage « analogique » (ruban VHS). Il s’avérerait fastidieux de compter toutes les informations en bits, et c’est pourquoi nous utilisons fréquemment des unités plus grandes.

Tableau I

Quelques unités mesurant la quantité d’informations en informatique

Unité	Valeur
demi-octet	4 bits
octet	8 bits
kilo-octet (Ko)	1000 octets
kibioctet (Kio)	1024 octets
mégabit (Mbit)	$10^6$ bits
mébibit (Mibit)	$2^20$ bits
mégaoctet (Mo)	$10^6$ octets
mébioctet (Mio)	$2^20$ octets
gigaoctet (Go)	$10^9$ octets
gibioctet (Gio)	$2^30$ octets
téraoctet (To)	$10^12$ octets
tébioctet (Tio)	$2^40$ octets
pétaoctet (Po)	$10^15$ octets
pébioctet (Pio)	$2^50$ octets
nombre d’électrons dans l’univers	$10^79$

Les capacités de stockage augmentent sans cesse et deviennent de moins en moins coûteuses. Les architectures informatiques courantes se divisent généralement en stockage interne (RAM) et en stockage externe (p. ex. disques rigides). Le tableau suivant donne la capacité de stockage d’un ordinateur en 1993, en 1998, en 2004 et en 2014 :

Tableau II

Espace de stockage d’un ordinateur de 1993 à 2014

	1993	1998	2004	2014
Interne	4 Mo	16 Mo	256 Mo	4 Go
Externe	100 Mo	1 Go	100 Go	1To

Nous constatons sans mal que la capacité de stockage de nos ordinateurs personnels augmente de façon exponentielle. En dix ans, la capacité de stockage interne a été multipliée par 64, alors que la capacité de stockage externe a été multipliée par 1000 [8]. Nous pouvons également considérer l’exemple des disques optiques. Le cédérom, qui date de 1985, permet de stocker 650 Mo ; dix ans plus tard, en 1995, le DVD-ROM a une capacité qui varie de 4,7 Go à 17,1 Go, alors que le Blu-Ray (2003) offre une capacité de stockage de 25 Go, soit l’équivalent de 40 cédéroms. Dans la même période, en appliquant la loi de Moore, le nombre de transistors par unité d’aire dans nos microprocesseurs a été multiplié par 45. Nous constatons donc que la capacité de stockage externe s’accroît à un rythme beaucoup plus élevé que la capacité de stockage interne ou que le nombre de transistors par unité d’aire. Nous nous dirigeons sans doute vers un monde où les capacités de stockage seront infinies. En effet, selon Gray [9], un enregistrement de tout ce que vous pouvez lire occuperait 25 Mo par an ; un enregistrement de tout ce que vous pouvez entendre occuperait 100 Go par an ; alors qu’un enregistrement de tout ce que vous pouvez voir occuperait 10 To par an. Ainsi, nous pouvons penser que dès que des disques ayant une capacité de 10 To seront à des prix très abordables, nous aurons effectivement une capacité de stockage « infinie » dans la mesure où le coût de stockage n’aura plus aucune importance.

La capacité de stockage n’est qu’une partie du problème ; il faut aussi examiner la vitesse de lecture des informations stockées. Deux facteurs permettent de mesurer la vitesse de lecture : le temps d’accès et le taux de transfert (ou bande passante). Le taux de transfert est la vitesse de lecture des données en séquence : dans un disque rigide, cette vitesse correspond un peu à la vitesse de l’aiguille au-dessus du disque magnétique, qui est elle-même déterminée par la vitesse de rotation du disque. Le taux de transfert s’exprime en octets ou bits par seconde (Ko/s, Mo/s, etc.). Le temps d’accès est le délai moyen qu’il faut pour trouver et commencer à lire une section de mémoire. Ce délai s’exprime souvent en millisecondes (ms) ou en nanosecondes (ns) : dans un disque rigide, cette vitesse est fonction de la vitesse à laquelle on peut placer l’aiguille à la bonne position au-dessus du disque magnétique. La latence (temps d’attente) est le résultat de la somme du temps d’accès et de la quantité d’informations à lire divisée par le taux de transfert.

latence = temps d’accès + quantité d’informations / taux de transfert

Par exemple, le temps nécessaire pour télécharger un site web comprend le temps nécessaire pour trouver le serveur web (temps d’accès) et le temps nécessaire pour télécharger la page (la taille de la page divisé par le taux de transfert). Même si la page web a télécharger est très petite, si le temps d’accès est élevé (recherche du serveur et connexion), la latence peut être tout de même élevée.

Il est intéressant d’observer qu’il y a un lien direct entre les capacités de stockage et le taux de transfert. Dans le pire des cas, je peux acheter des disques physiques, les charger dans une voiture et rouler de Montréal à Québec. La latence sera élevée, mais le taux de transfert pourrait être important.

3. Les outils de traitement des informations non structurées

3.1 WebFountain

Plusieurs outils permettent de traiter les informations non structurées. L’un des plus célèbres est sans doute WebFountain d’IBM. L’objectif de WebFountain est de pouvoir traiter le grand volume de données non structurées trouvées sur le web. L’intérêt de l’outil est de pouvoir cataloguer et analyser les informations non structurées de façon continue (en temps réel) pour y trouver des tendances, des motifs récurrents et des relations. En y mettant le prix, nous pouvons utiliser WebFountain à l’aide de compagnies comme Factiva. WebFountain utilise notamment l’algorithme HITS que nous étudierons plus tard dans ce cours.

3.2 Echelon

ECHELON est un système d’interception et de traitement de données opéré par les services secrets américains. ECHELON intercepte les conversations téléphoniques, les courriels, les requêtes diverses, etc., à des fins d’espionnage et de contre-espionnage. Les quantités de données traitées sont probablement colossales. Il s’agit sans doute du plus important système de traitement de données non structurées à des fins d’espionnage au monde.

**Un radôme faisant possiblement partie d’ECHELON (source : Wikipédia).**

3.3 YouTube

YouTube est un site web entreposant des millions d’extraits vidéos. La particularité du site est que tout le monde peut y déposer un extrait vidéo. Fondé en février 2005, le site a été vendu à Google en octobre 2006 pour la rondelette somme de 1,65 milliard de dollars.

Logo de la société YouTube.

YouTube appartient à une tendance appelée parfois « Web 2.0 » qui désigne les sites web comme Wikipédia ou les blogues dont le contenu provient des utilisateurs qui peuvent communiquer directement le fruit de leurs travaux.

3.4 Outils pour votre bureau

Les nouveaux systèmes de fichiers, comme WinFS et ReiserFS, incorporent les techniques avancées de gestion des informations dans les systèmes d’exploitation communs comme Windows, MacOS et Linux.

4. Pour terminer la leçon, un tableau...

On peut estimer le prix d’un téraoctet de stockage à environ 50 $. Le tableau suivant donne une estimation des quantités d’information ainsi que le prix d’achat des unités de stockage correspondantes. Notons que le prix exclut les coûts d’acquisition et de traitement des données.

Tableau V

Espace de stockage requis et coût approximatif correspondant

Totalité des informations	12 000 000 To	600 millions $
Enregistrement vidéo pendant un an	10 To	500 $
Enregistrement audio pendant un an	100 Go	5 $

[1] Une base de données relationnelle est une base de données structurées suivant les principes de l’algèbre relationnelle.

La théorie des bases de données relationnelles est attribuée à Codd.

La plupart des moteurs de bases de données utilisés en technologie de l’information sont relationnels : SQL Server, Oracle, MySQL, PostgreSQL, etc.

[2] La première partie du courriel contient une séquence de lignes au format « quelquechose : autrechose », puis se termine par une ligne vide. Nous verrons qu’il est très facile de traiter ce type de texte qui suit un modèle aussi simple en utilisant des expressions régulières. Nous aborderons ce sujet plus tard dans le cours.

[3] On pourrait faire valoir que, dans un courriel, la ligne « From : Jean Couture » peut être lue à la fois par une machine et par un humain. En effet, les informations textuelles pouvant être lues par une machine peuvent aussi être lues par l’humain, et c’est une bonne chose. Néanmoins, nous distinguons le contenu d’un tel extrait de texte de celui de la ligne « Voici les fichiers demandés. », qui n’a pas été écrite dans le but d’être traitée par une machine. En raison de l’intelligence artificielle, un logiciel pourrait cependant conclure que le courriel en question fait référence à des pièces jointes, mais cela peut représenter un problème étonnamment difficile pour une machine.

[4] Taxonomie : classification d’éléments concernant un domaine.

[5] Alvin Toffler et Heidi Toffler, Revolutionary Wealth, New York, Knopf, 2006, ISBN : 0375401741.

[6] Par indexer, on entend « rendre facile à trouver rapidement » : Eric Schmidt fait ici référence aux « index inversés » utilisés par les moteurs de recherche pour rendre les recherches plus rapides. Nous traiterons cette question plus tard dans le cours.

[7] Quelle portion de la population achète et vend de l’or de nos jours ? Pourtant, on donne cette information tous les soirs au téléjournal de Radio-Canada !

[8] Cet accroissement considérable de la capacité de stockage des disques est en bonne partie attribuable à la découverte de la magnétorésistance géante en 1998 pour laquelle Fert et Gruenberg ont obtenu le prix Nobel de physique en 2007.

[9] Jim Gray, What Next ? A Dozen Information-Technology Research Goals, Journal of the ACM, vol. 50, no 1, janvier 2003.

Semaine 2

Les informations non structurées

Présentation de la leçon