L’encodage des données : 1 – Définition

L’encodage est une notion polysémique qui peut avoir des significations techniques, sociales, éthiques ou juridiques. Dans le domaine du numérique, l’encodage peut signifier aussi bien le chiffrement que le cryptage ou la compression des données. En informatique, l’encodage est le processus de conversion des données dans un format déterminé pour un certain nombre de besoins comme la compilation et l’exécution de programmes, la transmission de données, le stockage et la compression / décompression, etc. Ce billet est le premier de trois qui font le tour de la question de l’encodage des données en rapport avec les humanités digitales.

En traversant beaucoup de secteurs d’activités, la notion d’encodage numérique peut devenir polysémique selon le contexte, l’usage et l’objet encodé. Outre les interprétations souvent évoquées de chiffrement ou de compression de données, on peut aussi parler d’encodage de caractères, de textes ou de documents comme on peut parler d’encodage de couleur, de son et de formes. En informatique, l’encodage est le processus qui consiste à donner à un caractère (lettre, chiffre, symbole), à un pixel de couleur ou à un échantillon sonore une valeur binaire abstraite (composée de 0 et de 1) définie dans une norme ou un format de référence comme l’ASCII pour le texte, RVB (Rouge vert Bleu) pour la couleur, ADPCM (Adaptive Differential Pulse Code Modulation) pour le son, AVC (Advanced Video Coding) pour la vidéo, etc. Cette valeur binaire abstraite est univoque dans les opérations d’affichage, de stockage ou de mise en réseau des données.

On peut parler aussi d’encodage de textes, de documents ou de ressources (aussi bien une image qu’un fichier audio ou vidéo) pour désigner une façon de baliser leur contenu afin d’y distinguer des entités de forme ou de sens. Le terme « balisage » fait référence à l’utilisation de balises qui encadrent des mots ou des phrases dans un document. Ces balises sont toujours appliquées dans une structure hiérarchique et toujours intégrés dans le flux du texte lui-même. Cette opération, aussi appelée étiquetage ou « taggage », est une opération d’un niveau supérieur à celle de l’encodage abstrait (numérisation) des entités alphanumériques, de couleurs ou de son qui est laissée à l’entière responsabilité des systèmes d’exploitation des machines et des protocoles de transmission des données sur Internet. Ce deuxième niveau d’encodage consiste en une segmentation des données en entités physiques (i.e. mots, phrases, paragraphes, couleurs, sons, etc.) ou sémantiques (i.e. un nom propre, une adresse, un co-auteur, une date, un visage, un éclat de rire, etc.) et à leur attribuer des caractéristiques formelles explicites qui seront interprétées par les outils logiciels aussi bien d’un point de vue de leurs formes que de leurs sens. Les moissonneurs de métadonnées en font aussi usage pour les intégrer dans des systèmes d’information comme les silos de données, les data centers ou les index des moteurs de recherche.

Ce deuxième niveau d’encodage est plutôt destiné aux utilisateurs qui ont besoin de baliser les formes physiques et sémantiques des données pour mieux maîtriser leur édition et leur recherche ultérieure. Par exemple, utiliser des balises de mise en forme pour ajouter des attributs de police de caractères et de couleur au nom d’auteur et au titre de la « Divine Comédie » de Dante, permet d’éditer et d’imprimer ces deux entités différemment du reste du texte. Ajouter simultanément des balises sémantiques autour de « Divine Comédie » pour spécifier que c’est un titre et de « Dante » pour spécifier que c’est un nom d’auteur permet de rechercher ces valeurs dans un corpus numérique sur la base de leurs valeurs sémantiques et non en tant que chaînes de caractères pouvant exister n’importe où dans un document numérique. C’est quasiment pareil pour baliser un détail dans un tableau de peinture, un refrain ou un solo dans une chanson, un gros plan dans un film, une glose dans un manuscrit, une didascalie dans une pièce de théâtre, etc. À chacune de ces entités correspond un identifiant unique et un balisage spécifique de localisation, de durée, de sens, de cardinalité, etc. Ce balisage est défini selon le niveau interprétatif défini par une communauté savante et appliqué à la ressource grâce à un référentiel d’encodage physique et sémantique déterminé. Tout acte d’introduction d’une balise dans un texte est finalement un acte d’interprétation. Le balisage est une manière de faire une intervention explicite dans un texte afin qu’il puisse être analysé, recherché et mis en relation avec d’autres textes dans un référentiel ou un corpus. Cette opération d’étiquetage, bien qu’auparavant réalisée manuellement, en réponse à des choix aléatoires de niveaux d’indexation et d’analyse, est de plus en plus prise en charge par des logiciels spécialisés.

tei

Source : Susanne Haaf and Christian Thomas

Vous aimerez aussi...