2. Folksonomie et filtrage collaboratif

2.2 Les étiquettes et le tagging

2.2.1 Étiquettes et tagging : définition

On dit qu’un système du web social permet le tagging lorsque les utilisateurs peuvent attribuer des étiquettes à des ressources sur le web. Ces ressources peuvent avoir différentes formes ; le plus souvent il s’agit de liens, d’images ou de vidéos, mais il peut même s’agir de choses de nature moins virtuelle, comme des événements (à condition bien sûr de leur associer une représentation sur le web).

Une étiquette ( tag ou label en anglais) est simplement une chaîne de caractères choisie de façon libre par l’utilisateur. Certains systèmes restreignent le jeu de caractères permis, notamment en empêchant l’utilisation d’espaces ou de certains caractères de ponctuation. L’étiquette s’apparente à un mot-clé.

Le tagging a été popularisé par le système del.icio.us (depuis rebaptisé delicious.com) vers 2003. Delicious est un service de signets sociaux,.

L’idée du tagging a depuis été reprise par d’innombrables sites, comme entre autres le site de partage de photos Flickr, le site de partage de vidéos YouTube, Twitter/X et le système de courriel Gmail.

Comment étiqueter ?

Dans des systèmes comme Twitter/X, il suffit d’ajouter le bout de texte « #INF6107 » pour ajouter l’étiquette INF6107 à votre billet.

Pourquoi étiqueter ?

Ayant donné un début de réponse à la question « Comment étiqueter ? », il convient également de se demander pourquoi on le ferait. Différents utilisateurs auront différentes réponses à cette question. Nous verrons à travers ce module plusieurs motivations qui sous-tendent l’activité de tagging. Citons tout de suite une première utilité, relativement évidente, des étiquettes : la possibilité qu’elles offrent de retrouver des contenus que l’on a conservés.

Les systèmes qui offrent la possibilité d’étiqueter des ressources permettent bien sûr d’utiliser les étiquettes comme filtre de recherche. Par exemple, chaque fois que je trouve une page web qui décrit un restaurant qui semble prometteur à Montréal (la ville où je travaille), je lui appose les étiquettes « mtl » et « food ».

Exercice 2B : L’exploration des systèmes de tagging

Visitez des sites du web social et trouvez :

une ressource étiquetée ;
une page propre à une étiquette ;
la liste des étiquettes employées par un utilisateur.

(Notez que, dans certains cas, ces éléments ne sont pas tous présents.)

2.2.2 Les dimensions du tagging

Les systèmes de tagging se distinguent par la manière précise dont ils fonctionnent. Les principales dimensions qui permettent de caractériser un système de tagging sont les suivantes :

– l’origine des ressources qui sont étiquetées ;
– l’association directe ou indirecte ;
– le modèle d’agrégation des étiquettes ;
– le qui : le tagging par le créateur ou le tagging par un tiers ;
– l’accès public, privé ou restreint.

Examinons en détail chacune d’elles.

L’origine des ressources qui sont étiquetées

Dans un système de tagging, les ressources qui reçoivent les étiquettes sont souvent fournies par les utilisateurs (comme on le voit sur YouTube, où les utilisateurs envoient eux-mêmes des extraits vidéo).

À l’inverse, certains systèmes partent d’un ensemble de ressources sous la gouverne d’un administrateur, que les utilisateurs peuvent étiqueter à leur guise. Le site du Brooklyn Museum fournit un bon exemple. Les visiteurs peuvent y étiqueter des objets d’art, mais ne peuvent pas en ajouter, ce qui est naturel puisque le but du système est d’amasser de l’information sur la collection du musée.

Certains systèmes incorporent des ressources des deux origines. LibraryThing fournit au départ un imposant corpus de livres, mais il demeure possible d’y ajouter un livre qui ne se trouve pas dans la base de données préexistante.

L’association directe ou indirecte

La distinction la plus importante à faire entre les systèmes de tagging est de déterminer si l’étiquette est directement associée à l’objet dans le système où elle réside ou si elle y est associée indirectement depuis un autre système via un hyperlien.

Dans une association directe, les étiquettes n’existent pas indépendamment de la ressource. Le service de partage de photos Flickr constitue un exemple. Visitez cette page sur Flickr. Voyez la liste des étiquettes qui sont associées à la photo dans la colonne de droite. Ici, le créateur de la photo a permis à n’importe quel membre de Flickr d’en ajouter. (Essayez-le si vous avez un compte Flickr ; vous pouvez toujours supprimer votre photo après coup).

Dans les systèmes comme celui-ci où il y a une association directe, on pourra employer le terme de tagging simple.

Dans le cas d’une association indirecte, le système où réside la ressource étiquetée et celui qui gère les étiquettes sont des systèmes indépendants. Les systèmes de signets sociaux nous en fournissent un exemple, puisqu’ils sont indépendants des serveurs où sont hébergées les ressources. On pourra alors parler de tagging indirect.

Le modèle d’agrégation des étiquettes

Dans le contexte du tagging, le terme d’agrégation fait référence au traitement fait aux étiquettes une fois qu’elles ont été fournies par les utilisateurs. Ici, deux modèles s’opposent : le tagging sac et le tagging ensembliste.

Lorsque les fréquences d’apparition de chaque étiquette sont tabulées pour chaque ressource, on a affaire au modèle de tagging sac ou de bag-model. [1]

Ce que vous voyez alors est un nuage d’étiquettes, ou tag cloud : une représentation d’un ensemble d’étiquettes, chacune ayant une fréquence d’occurrence. Le plus souvent, la taille de chaque étiquette dans le nuage augmente avec sa fréquence d’occurrence. Il est intéressant de constater que ce nuage donne une bonne idée du contenu du site, du moment que suffisamment d’utilisateurs y ont apposé des étiquettes.

Certains systèmes n’utilisent pas le tagging sac : ils ne comptent pas les fréquences d’apparition de chaque étiquette. Une étiquette donnée (par exemple « sunset ») est présente ou elle ne l’est pas. Il s’agit alors d’un modèle de tagging ensembliste ou de set-model.
Visitez de nouveau cette photo sur Flickr pour voir un exemple de tagging ensembliste.

Le tagging par le créateur et le tagging par un tiers

Une autre dimension importante du tagging est l’identité de la personne qui fait le tagging. Dans plusieurs systèmes, le créateur d’une ressource est le seul à pouvoir associer des étiquettes à cette ressource. Le système YouTube en est un exemple.

Si l’on se tourne cependant vers un site de signets sociaux, on peut voir, pour la même vidéo, un ensemble différent d’étiquettes, qui a été, lui, choisi par des tiers.

Certains systèmes permettent à la fois le tagging par le créateur et par des tiers. C’est le cas de Flickr, qui permet de voir qui a fourni chaque étiquette, mais qui ne donne pas un statut privilégié aux étiquettes fournies par le créateur d’une photo.

Les systèmes les plus sophistiqués permettent au créateur de préciser exactement qui peut fournir des étiquettes, par exemple, seulement les amis lorsque le réseau social de l’utilisateur est représenté dans le système.

L’accès public, privé ou restreint

Les utilisateurs ne désirent pas toujours que leurs étiquettes soient à la vue de tous. Alors que certains systèmes fonctionnent de façon complètement publique, d’autres permettent aux utilisateurs de garder leurs étiquettes pour eux, tandis que d’autres encore permettent à l’utilisateur d’étiqueter de façon privée seulement lorsqu’il le souhaite. Par exemple, certains utilisent le tagging privé pour collectionner des liens vers des idées-cadeaux.

Lorsque l’on parle de services où les utilisateurs fournissent des ressources, la distinction entre privé et public s’applique habituellement de la même façon à la ressource et à ses étiquettes. Ainsi, les étiquettes associées à des photos privées sur Flickr ne seront pas affichées aux autres utilisateurs (à moins qu’elles aient aussi été utilisées sur des photos publiques).

Enfin, certains systèmes supportent en plus la notion de groupe d’utilisateurs avec lequel il est possible de partager des étiquettes. Lorsque le groupe est privé, on parle de tagging restreint.

Exercice 2C.

Choisissez deux des systèmes présentés à l’exercice 2B et identifiez leur type de tagging selon toutes les dimensions énoncées en 2.2.2. (Vous devrez probablement vous créer un compte pour faire des essais.)
Qu’arrive-t-il lorsque les ressources changent d’URL dans les systèmes de tagging à association directe ? À association indirecte ?
Pourquoi, dans les systèmes de tagging à association indirecte, il est fréquent qu’aucune des étiquettes ne provienne du créateur ?
Quel type de tagging est le plus susceptible de contenir du « bruit » (de l’information qui prête à confusion), celui fait par le créateur ou celui fait par des tiers ?
Identifiez un contexte où un tagging fait par le créateur risque d’être plus utile qu’un tagging fait par des tiers ; trouvez un contexte où c’est l’inverse.

[1] Ces termes sont empruntés à Marlow et al. dans l’article « HT06, Tagging Paper, Taxonomy, Flickr, Academic Article, ToRead ».