Accueil  / Semaine 3 / Les sources de données

Les sources de données

Les sources d’informations numériques sont de plus en plus riches et variées. Internet (et le web en particulier) est une ressource bien connue et très importante. Les librairies numériques et différentes initiatives similaires et récentes (Gutenberg et Wikipédia) constituent aussi des sources d’informations très riches.

Internet

Internet a vu le jour en 1969 sous le nom d’ARPANET : c’était un projet militaire américain. Au cours des années 1980, Internet s’est répandu dans les universités et a pris tranquillement la forme que nous lui connaissons maintenant. Cependant, le web n’en faisait pas encore partie. Il a fallu attendre Tim Berners-Lee qui a proposé le web en mars 1989 : l’adoption a été rapide et, dès 1994, son invention était connue partout dans le monde.

Le web se caractérise (voir Nie, 2004) par sa taille gigantesque, par son dynamisme (le web est toujours changeant) et par ses données hétéroclites (multimédiatiques, multilingues, distribuées). La recherche d’informations sur le web est particulièrement difficile : songeons qu’on ne peut parcourir le web dans son entier. Le simple problème d’en connaître la taille est difficile. Même en supposant qu’on puisse trouver sur le web tous les documents traitant d’un sujet donné, la qualité de l’information est assez variable ; il faut pouvoir faire le tri de l’information ou encore, la filtrer. L’abondance de documents non textuels (images, sons, vidéos, etc.) est un problème parce que les méthodes traditionnelles de recherche d’information portent surtout sur les documents textuels.

Afin de résoudre en partie ces difficultés, l’inventeur du web, Tim Berners-Lee, a proposé en 2001 de faire évoluer le web vers un web sémantique (Carvin, 2004), c’est-à-dire un web qui permet aux ordinateurs de traiter le sens des informations qu’il contient. Le web sémantique est fondé sur le RDF et le XML, mais aussi sur les travaux faits depuis 30 ans en intelligence artificielle (IA). On pourrait dire que si le web actuel contient surtout de l’information non structurée et semi-structurée, le but du web sémantique est de rendre cette information plus structurée.

Wikipédia

Wikipédia (wikipedia.org) est une encyclopédie en ligne gratuite écrite par des bénévoles en plus de 100 langues différentes et contenant entre 1 et 2 millions d’articles. Le site Wikipédia reçoit environ 80 millions de visites par jour pour un total de 2,4 milliards de visites par mois. En somme, c’est comme si un être humain sur 3 sur la Terre visitait au moins une page de Wikipédia chaque mois ! Bien que fondé en janvier 2001, le site contient déjà la plus importante encyclopédie de l’histoire (pour le nombre de ses articles). En comparaison, la plus grande encyclopédie traditionnelle, l’Encyclopædia Britannica, ne compte que 85 000 articles.
L’encyclopédie Wikipédia présente les caractéristiques du web, car elle est toujours changeante, énorme, et multilingue. Ajoutons que comme l’encyclopédie est écrite par des bénévoles, il arrive que l’information soit incorrecte ou même d’une qualité très médiocre : il faut conserver un esprit critique face à toute cette information massive.

La blogosphère

La blogosphère est l’ensemble des « blogues » ou « carnets web ». Un blogue est défini comme un site web contenant des billets (ou « articles ») organisés de façon séquentielle. Le blogue est en général écrit par une seule personne, même s’il existe des métablogues ou multiblogues qui contiennent des billets écrits par divers auteurs. Plusieurs personnalités connues ont des blogues comme Scott Adams, l’auteur des bandes
dessinées Dilbert, ou Michael Moore, le célèbre cinéaste. Tim Bray, un des inventeurs du XML, a décrit l’arrivée des blogues comme étant la seconde révolution du web (après l’arrivée de Google qui a constitué la première révolution) : il a décrit cette révolution comme étant le passage du web comme bibliothèque, au web comme flot d’événements et d’informations. On sait que plusieurs firmes de communication étudient la blogosphère pour y trouver les nouvelles tendances.

Tous les blogues ne contiennent pas que du texte. Outre l’utilisation régulière d’images, plusieurs blogues utilisent des enregistrements vocaux (les audioblogues ou podcast) ou même des enregistrements vidéos (les vlogues). L’utilisation intensive du multimédia est rendue possible par le faible coût et la convivialité des équipements électroniques comme les téléphones intelligents.

La plupart des blogues rendent disponible leur contenu en utilisant des formats XML comme RSS et Atom. On peut donc automatiquement suivre plusieurs blogues en utilisant des outils d’intégration comme http://www.bloglines.com/ (en anglais).

À titre d’exemple, la radio anglophone de Radio-Canada rend disponible un podcast, c’est-à-dire une liste de pièces musicales en format MP3 dans un fichier XML. On peut télécharger le fichier XML en question et, à l’aide d’outils, déposer les fichiers MP3 automatiquement sur un lecteur de MP3. Chaque pièce musicale est décrite sommairement avec un titre, sa longueur (en octets) et sa date de publication. On peut considérer que c’est une forme de blogue.

Les sources d’informations : les bibliothèques numériques

Une bibliothèque numérique est à l’image d’une bibliothèque traditionnelle, c’est-à-dire qu’elle contient des textes numériques, mais elle peut aussi offrir des services appuyant la recherche, l’éducation et la préservation des documents.
La plupart des bibliothèques numériques sont accessibles sur le web.
On estime que dans l’histoire de l’humanité, environ 32 millions de livres furent publiés et environ un demi-million de films furent tournés. Pour stocker l’œuvre intégrale de l’humanité, il faudrait environ 50 pétaoctets (ou 50 000 000 Go). Nous pourrons bientôt, en théorie, numériser toute l’œuvre humaine et la faire tenir dans une petite boîte. (Un

Au Québec, la bibliothèque nationale offre l’accès à de nombreux documents numériques dans sa collection numérique. Par exemple, on peut y consulter en ligne le journal La Minerve (1826-1899) ou demander, en ligne, l’aide des services de référence.

Un document textuel numérisé (comme un journal) est d’abord disponible sous la forme d’une image que l’on peut ensuite traiter avec un logiciel de reconnaissance des caractères pour le transformer en texte. Cette
dernière opération est rarement entièrement automatique.
Quelques-uns des avantages des bibliothèques numériques sont (Faye, 2004) :

- l’accessibilité : l’accès aux documents peut être gratuit pour tous, en tout temps et partout, sans coûts élevés ;
- la recherche : un document numérisé peut être analysé et traité numériquement, ce qui permet de faire des recherches informatiques ;
- la préservation des originaux : les textes originaux seront manipulés par moins de gens et pourront donc être préservés plus longtemps. Par contre, les bibliothèques numériques nécessitent un investissement initial important, car la numérisation des documents est un processus lent et coûteux. Il coûte environ 10 $ pour numériser un livre dans une pays où la main-d’œuvre est peu chère (comme la Chine) et environ 30 $ aux É.-U. [1]. Notez qu’à ce prix, les textes n’ont pas été transcrits et que seules les images ont été capturées.

La numérisation étant essentiellement une copie, on se trouve confronté aux problèmes de droits d’auteur : c’est pourquoi on numérise souvent d’abord les œuvres anciennes, libres de droits. À titre d’exception, Google Print vous permet d’avoir accès à des extraits de livres très récents, mais vous ne pourrez avoir accès qu’à une toute petite partie du livre dans la plupart des cas.

Les bibliothèques numériques ont souvent le souci de s’assurer que l’on puisse déterminer la provenance d’un texte électronique et elles utilisent donc des banques d’informations semi-structurées utilisant souvent le XML [2].

Les bibliothèques numériques : la bibliothèque ABU

ABU, la Bibliothèque Universelle, est un projet de numérisation de la littérature francophone du Conservatoire national des arts et métiers. On y trouve 300 œuvres intégrales, numérisées en format texte. On peut y lire des romans de Balzac, de Hugo, de Verne ou de Zola.

Les bibliothèques numériques : le projet Gutenberg

Le projet Gutenberg est une collection de 16 000 livres numérisés en format texte qui date de 1971. La plupart des livres appartiennent au domaine public et ils sont disponibles gratuitement sur le web. Comme Wikipédia, le projet est entièrement soutenu par des bénévoles : une des tâches difficiles est la relecture et la correction des textes numérisés, car les logiciels de reconnaissance des caractères sont loin d’être parfaits, malgré les énormes progrès réalisés dans les dernières décennies. La plupart des livres sont en anglais, mais un certain nombre sont dans d’autres langues, tel le français.

Les bibliothèques numériques : le multimédia

Outre le texte, les bibliothèques numériques deviennent des dépôts de documents sonores et visuels. Par exemple, Librivox est un répertoire de livres qu’on a lus et enregistrés dans les formats MP3 et Ogg. La collection numérique de la Bibliothèque nationale du Québec comprend des cartes postales et des estampes numérisées, outre des copies numériques du magazine La vie en rose ou le journal La Minerve. Ainsi, loin de ne fournir que le texte, les bibliothèques numériques nous fournissent aussi la voix et l’image.

Page couverture de la « Vie en rose » (revue féministe)

Les capteurs

Les capteurs sont des appareils (souvent électroniques) qui mesurent automatiquement une certaine quantité de facteurs et qui peuvent la transmettre, souvent sans fil, à distance. On peut les voir comme une adaptation des sens humains. La norme IEEE 802.11 est souvent utilisée pour la transmission des données provenant de capteurs.

Les capteurs peuvent mesurer tout un éventail de quantités :

- la différence de potentiel, le courant, la résistance électronique, etc. ;
- le champ magnétique ;
- la pression atmosphérique ;
- la vitesse du flot ;
- la vitesse, l’accélération, la position ;
- les quantités chimiques (oxygène, pH, etc.) ;
- la luminosité ;
- la radiation ;
- la proximité ;
- la luminosité infra-rouge ;
- le son ;
- l’odeur ;
- l’orientation ;
- les niveaux hormonaux ;
- le champ électrique cardiaque (électrocardiogrammes).

Les données en provenance des capteurs sont non structurées.

Comme le coût des capteurs décroît très rapidement, et que leur sophistication n’a de cesse d’augmenter, certains auteurs, comme Gray et Szalay, pensent que l’on vit à une époque où la quantité de données croît de manière exponentielle. Ajoutons qu’Internet permet de rendre disponibles à plus de monde que jamais ces quantités d’informations de plus en plus grandes.

Voici quelques exemples de données provenant de capteurs accessibles sur le web :

- des données sur le délai entre les battements cardiaques ;
- la position géographique des baleines capturées par des satellites ;
- des données biomédicales diverses incluant des électrocardiogrammes ;
- séries temporelles diverses (University of California at Irvine).

Données financières

Des sites comme Yahoo Finance ou Google Finance permettent d’avoir accès, de plus en plus facilement, à de grandes quantités d’informations concernant l’évolution des cours boursiers. On peut facilement télécharger l’information et la traiter avec des logiciels sophistiqués. Il s’agit d’informations essentiellement non structurées.


[1Scan This Book !, New York Times, 14 mai 2006.

[2Sánchez, J. A., Proal, C., Maldonado-Naude, F., Supporting structured, semi-structured and unstructured data in digital libraries, Proceedings of the Mexican International Conference on Computer Science, 2004.