Accueil  / Semaine 3 / Travail noté sur les informations non structurées

Travail noté sur les informations non structurées

Attention ! Le cours comprend quelques consignes simples pour la remise des travaux. Si vous choisissez de ne pas en tenir compte, il est possible que vous deviez subir des délais supplémentaires.

Petit rappel

Il est possible que vous éprouviez le besoin de revoir le texte sur les probabilités avant de faire ce travail. N’hésitez pas à le relire.

Consignes du travail noté 1

Vous devez rédiger un court rapport (en format « pdf », « Word 97/2000/XP », « RTF », « OpenDocument » ou « texte ») que vous transmettrez par courrier électronique au chargé d’encadrement [1]. Vous devez transmettre votre travail en utilisant l’outil de dépôt.

Si vous ne respectez pas les consignes, il y aura des délais dans la correction. Vous devez transmettre un courriel de la manière décrite. Vous devez utilisez des fichiers aux formats recommandés. Vous ne devez pas transmettre d’archive (par ex. un fichier rar). N’utilisez pas d’archive RAR.

Précision : Nous n’offrons pas d’accusé de réception. C’est inutile, car il n’y a pas de pénalité pour les remises de travail en retard dans ce cours. Gardez toujours une copie de chacun de vos travaux jusqu’à la fin du cours.

Le présent travail vaut 10 points [2]. Comptez environ 7 heures pour le faire si vous avez pris connaissance des lectures prévues pour cette semaine et de celles de la semaine précédente et que vous avez effectué les activités d’autoévaluation.

Remise du travail

Nous vous invitons à remettre le travail à la fin de la troisième semaine du cours. Si vous ne savez pas à quoi elle correspond pour vous, ou que les informations que vous avez reçues n’étaient pas assez précises, vous pouvez obtenir plus de renseignements auprès de l’Université, mais non de la personne qui vous encadre car elle ne gère pas les inscriptions.

Question 1 (5 points)

Choisissez le site web des gouvernements d’au moins 35 pays dont au moins un est situé en Asie et un en Afrique, incluant le site du gouvernement du Canada (http://www.canada.ca/), celui de la France (http://www.gouvernement.fr/) et de la Grande-Bretagne (https://www.gov.uk/). Dans le cas des pays qui n’ont pas de site web officiel, vous pouvez opter pour le site web de la présidence du pays, ou l’équivalent.

En faisant s’afficher la source d’une page choisie (au moyen d’un clic droit de souris), vérifiez si on utilise, dans les sites, la norme Dublin Core (indice : cherchez des lignes commençant par « <meta name="DC » ou « <meta name="dcterms [3]). Par la suite, dressez la liste des pays choisis, indiquez le site web correspondant et inscrivez si la norme Dublin Core a été utilisée. Présentez les résultats dans un tableau. Identifiez aussi la présence éventuelle de normes similaires comme Open Graph.

Ajoutez d’autres sites jusqu’à ce que vous ayez au moins 20 sites utilisant une norme RDF telle que Dublin Core, Open Graph, etc. Il est permis d’inclure des sites non-gouvernementaux pour arriver au total de 20 sites.

Faites ensuite le tour de tous les sites utilisant une norme RDF telle que Dublin Core (ou OpenGraph) et déterminez quels sont les « verbes » ou « prédicats » employés. Pour chaque « verbe », dites combien de sites de gouvernement l’utilisent. Triez les « verbes » dans l’ordre inverse de leur fréquence. À chaque
verbe, associez son rang numérique : 1 pour le plus fréquent, 2 pour le deuxième en importance, et ainsi
de suite. Normalisez les fréquences pour que leur somme donne 1 (fréquence relative).

Il se peut que vous trouviez peu de cas d’utilisation de la norme Dublin core. C’est normal ! Vous n’avez pas non plus à identifier toutes les annotations possibles.

En n’utilisant que les verbes observés au moins une fois, modélisez ensuite la fréquence relative des prédicats en utilisant (a) une distribution uniforme (P(X)=a pour une constante a) et (b) une distribution de Zipf (P(X)=K/kk correspond au rang).

Créez un tableau qui donne le rang, la fréquence relative observée, la fréquence relative prédite par un modèle uniforme
et la fréquence relative prédite par le modèle de Zipf. (Indice : la somme de chacune des trois colonnes de fréquences relatives doit donner 1.)

Toujours en référence au tableau, calculez l’entropie de Shannon des fréquences relatives pour chaque colonne (observée, uniforme, Zipf). Selon l’entropie et la théorie de Shannon, quelle est la compressibilité relative des modèles (observé, uniforme, Zipf) si vous prenez comme base le modèle uniforme ?

Selon ce tableau et l’analyse que vous venez de mener, quel est le meilleur modèle (uniforme ou Zipf) ? Expliquez.

Question 2 (5 points)

Admettons que la quantité de stockage sera infinie dans moins de dix ans alors que le temps d’accès et la vitesse de lecture demeureront finis. Émettez une hypothèse quant à un problème que cette situation poserait en technologie de
l’information et expliquez ses
conséquences dans un texte d’au moins 500 mots. Votre texte doit contenir au moins
une référence à un article de l’encyclopédie Wikipédia.

Rappel : Les archives RAR ne sont jamais acceptées lors de la remise des travaux.


Les travaux du cours INF 6104 ne sont pas sous une licence Creative Commons.


[1Vous pouvez inclure des annexes dans d’autres documents, mais toutes vos réponses doivent se trouver dans un même document. Ne transmettez pas un fichier compressé (rar, zip, etc.).

[2Il représente 5 % de la note finale du cours.

[3Voir par exemple la spécification RFC2731.