Vous avez trouvé une erreur ?
En tout temps, si vous trouvez une erreur ou une coquille au sein des notes de cours, nous vous invitons à communiquer avec le professeur responsable du cours.
Parcours de la semaine
Cette semaine, nous allons étudier les entrepôts de données. Nous définirons d’abord ce qu’est un entrepôt de données, puis nous donnerons une liste des principales difficultés rencontrées lors de la conception et de la gestion d’un entrepôt. Cependant, au lieu d’approfondir l’ensemble de ces problèmes, notamment la gestion de projets, la conciliation sémantique, etc., nous nous attarderons plus particulièrement sur la méthode extraction-transformation-chargement (ETC). Cette méthode fournit un cadre au sein duquel on traite les données.
Les données qui nourrissent un entrepôt proviennent de différentes sources. Parfois, elles résident dans des applications qui ne permettent pas facilement l’extraction des données. Par exemple, si des employés mettent des données numériques pertinentes à un entrepôt dans des pages HTML ou dans des documents Microsoft Word, il faudra trouver un moyen de les extraire.
Un format fréquemment utilisé dans les entrepôts est le format avec les valeurs séparées par des virgules (Comma-Separated Values ou CSV). C’est un format simple à mettre en oeuvre et à traiter. Par exemple, il est possible pour toutes les bases de données commerciales ou les chiffriers électroniques de produire des versions CSV de leurs données. Un autre format fréquemment utilisé est le format XML.
Il est possible d’appliquer la méthode ECT sans pour autant utiliser une application dédiée. Cependant, il est parfois plus facile d’utiliser une application telle que Apache Hop, que nous étudierons plus en détail au cours de cette semaine. Il s’agit d’une application gratuite et open source.
La semaine se termine avec un travail noté portant sur la méthode ECT. Avant d’effectuer ce travail, il est obligatoire de faire les laboratoires ECT de la semaine.