L’encodage des données : 2 – Données strcuturées ou non structurées ?
Données structurées, données non structurées, les big data ont remis en surface ces deux notions pourtant vieilles depuis le temps des copistes médievaux et des premiers imprimeurs de l’ère Gutenberg. Avec le numérique, la structuration des données est au coeur de plusieurs nouveaux processus technologies qui enf ont une matière de base pour développer des produits et services numériques à valeurs ajoutées. Dans ce deuxième billet sur l’encodage des données, le concept de la structuration des données est revisité avec un regard sur l’historique des métiers qui en font usage.
ENCODAGE, STRUCTURATION DES RESSOURCES ET MÉTADONNÉES
Il faut néanmoins rappeler la double spécificité du texte comme donnée et comme outil d’encodage par rapport aux autres formes de données multimédia. Outre sa préemption comme forme de donnée numérique, le texte se distingue par sa malléabilité et son poids très léger comparé aux volumes disproportionnés de l’audio, du graphisme et de la vidéo. Il constitue un moyen pratiquement plus simple pour passer des instructions aux machines, aux éditeurs de texte, aux navigateurs Web et aux logiciels de moissonnage de métadonnées sur Internet.
Rappelons aussi qu’avec l’arrivée du multimédia, l’encodage des données a dû faire face à un problème de structure de contenus. Dans le domaine de l’analyse des données, notamment celui des Big data, on fait souvent la distinction entre données structurées et données non structurées. A priori, toute donnée textuelle est structurée car elle prend souvent forme d’un fichier numérique organisé sur la base d’une norme d’encodage de caractères comme l’ASCII ou l’Unicode. La distinction entre lettres, chiffres et symboles selon des valeurs de codes préétablies est en soi une structuration même si elle est de bas niveau.
Or, le principe des données structurées et son importance dans les systèmes d’information fait plutôt référence au deuxième niveau d’encodage ou de balisage qui permet de gérer et de manipuler les données au-delà de la couche de leur représentation binaire. À ce niveau, un document texte peut facilement être découpé et donc balisé selon des règles morphosyntaxiques ou sémantique précises en ajoutant au flux du texte des balises qui identifient des éléments qu’on voudrait extraire, par exemple tagger tous les noms d’acteurs dans une pièce de théâtre de Molière, toutes les occurrences du mot « Bordeaux » dans les essais de Montaigne ou tous les adjectifs épiques dans l’Iliade de Homère.
Les données non-structurées, comme les photos, les fichiers audio et vidéo sont généralement moins réguliers et moins homogènes dans leur composition interne et sont donc moins susceptibles d’accueillir des balises pour identifier des entités de forme ou de sens. Pour pouvoir les exploiter (référencer, indexer, rechercher), elles ont besoin d’être doublées de données textuelles structurées sous forme de fiches de métadonnées organisées selon des modèles ou des schémas spécifiques. Ces schémas peuvent être descriptifs (une description bibliographique approfondie et détaillée de la ressource), structurels (qui reconstituent la structure du document original numérique ou papier), ou administratifs (des informations techniques nécessaires à la lecture de la ressource).
Les schémas de métadonnées sont développés en réponse à un besoin communautaire. Ils sont ensuite maintenus par des centres d’excellence reconnus à l’échelle nationale ou internationale, comme la BNF ou la Library of Congres. Certains organismes, tels que la DCMI (Dublin Core Metadata Initiative) ou l’OGC (Open Geospatial Consortium), développent activement des schémas et les ratifient comme standards pour leur communauté d’utilisateurs. Les organes statutaires (éditeurs, imprimeurs, industriels, organismes de recherche) développent également des schémas qui, une fois ratifiés en interne, peuvent devenir des standards obligatoires pour la création de métadonnées à travers un corps de métier ou une communauté de pratiques. Un certain nombre de schémas sont ensuite ratifiés par des organismes professionnels, nationaux ou internationaux tels que la CIA (Conseil international des archives), l’AFNOR (Agence française de normalisation) et l’ISO (Organisation internationale de normalisation).
Souce : DMAIPH (https://dmaiph.com/)
APERÇU HISTORIQUE DE L’ENCODAGE ET DE LA STRUCTURATION DE TEXTE
Historiquement, l’origine du balisage de données remonte au travail des copistes médiévaux puis des éditeurs et imprimeurs de l’ère Gutenberg qui faisaient la révision des manuscrits à recopier ou à imprimer en les marquant par des symboles codés par le métier pour ajouter des commentaires (gloses) ou signaler des zones de révision comme des fautes typographiques, des incompréhensions de sens, des retours à la ligne, etc. Une fois extrapolé dans le domaine de l’édition numérique, le balisage (ou marquage) est présenté comme un supplément de mots et de symboles, distinct du contenu d’un document, ajouté pour que les programmes qui traitent le document puisse le lire correctement en distinguant les données de contenu de celles de marquage de forme et de sens. Aujourd’hui encore, les éditeurs de texte comme Microsoft Word et les navigateurs Internet comme Firefox masquent systématiquement les balises aux utilisateurs de façon à ce qu’ils n’en soient pas perturbés.
Avec le digital, on s’est rendu compte très tôt qu’un seul langage de balisage ne pouvait suffire à tous les besoins de l’édition numérique d’autant plus que les besoins de marquage diffèrent énormément d’un domaine à l’autre. On ne balisera pas un annuaire téléphonique de la même manière qu’on balisera une pièce de théâtre, un roman, un tableau de peinture ou un dictionnaire. Or, pour garantir qu’un niveau de cohérence soit maintenu entre les différentes formes de balisage ‑ qui pourraient éventuellement exister dans un même corpus de documents ‑ il y a eu besoin d’un métalangage qui serait transversal à tous les systèmes d’encodage. C’est SGML (Standard Generalised Markup Language), mis au point par IBM dans les années 1960 et publié en tant que norme ISO en 1986, qui a été retenu comme un langage de balisage générique. SGML a permis la structuration et le partage de documents de grande envergure lisibles par machine, dans les domaines gouvernemental, juridique, industriel, militaire et aérospatial. Mais la grande collection des règles et le grand nombre de fonctionnalités optionnelles qu’il propose ont vite fait de lui un langage lourd et complexe à gérer. D’où l’idée du développement d’un langage plus simple, en l’occurrence XML (eXtended Mark-up Language), dont la première version a été proposée par le World Wide Web Consortium (W3C) en février 1998.
XML hérite ainsi des traits génétiques de SGML qui lui donne une flexibilité qu’un langage comme HTML (Hyper Text Mark-up Language) n’a pas. Alors que HTML est un langage fermé, limité au formatage physique des ressources et sans sous-ensembles ni applications dérivées, XML permet à chacun d’inventer et de définir ses propres balises dans des sous-ensembles qui s’adaptent à tous les contextes, tous les domaines et tous les types de supports. Pour chaque besoin, un sous-ensemble de codes XML est pris comme le noyau d’un schéma de base auquel sont ajoutés des balises personnalisées, déclarées dans une table de définition de données (DTD).
Outre des langages très répandus comme RDF (Resource Description Framework), qui décrit de façon formelle les ressources Web et leurs métadonnées, on peut citer des langages moins connus, mais qui sont très pratiques dans leurs contextes respectifs. SMIL (Synchronized Multimedia Integration Language), à titre d’exemple, permet de spécifier dans une présentation multimédia synchronisée le moment où et pendant combien de temps un contenu est affiché sur écran. On peut citer aussi le langage KML (Keyhole Markup Language) que l’on peut traduire par « langage de balises de géolocalisation », un langage fondé sur le formalisme XML pour afficher des données géospatiales. Un grand nombre de ce type de sous-ensemble de codes XML existe dans le monde numérique. Nous évoquerons plus loin l’encodage de la Text Encoding Initative (TEI).
En définitive, les langages de balisage issus d’XML sont conçus pour attirer l’attention sur le contenu des ressources. Or, vu l’innombrable types et modèles de ressources susceptibles d’être décrits et analysés, ces langages sont dotés d’une flexibilité qui leur permet d’encoder des entités aussi fines que la langue d’un titre, le rôle d’un auteur secondaire, la rime d’une strophe, la durée d’applaudissement dans un discours, l’humeur d’un acteur sur scène, le ton dans la voix d’un conférencier, la tache de moisissure dans une page de manuscrit, etc. Ils se rendent ainsi d’une utilité considérable pour des projets de gestion de corpus de données sur supports papier ou électronique, avec des potentialités sans précédents pour la recherche et l’analyse des données. Ils viennent entre-autres fournir des solutions d’une grande valeur analytique au travail des humanités numériques car c’est le premier moyen de structurer les textes tels qu’ils sont transcrits, numérisés ou naissent numériques. La TEI (Text Encoding initative), un sous-ensemble d’XML, est très ancrée dans cette richesse et cette flexibilité d’analyse et constitue pour cela un instrument parfaitement adapté pour la gestion et l’analyse des corpus des données numériques en sciences humaines et sociales.