L’encodage des données : 3 – TEI et Humanités digitales

La Text Encoding Initiative (TEI) est une norme d’encodage des données qui prend source dans une alliance entre des institutions de recherche en sciences informatiques et en sciences humaines. Cette filiation d’origine inetrdisciplinaire prédispose la TEI pour jouer un rôle prépondérant dans la nouvelle dynamique mondiale des Humanités digitales. Bien qu’elle soit initialement destinée à l’encodage des tetxes, la version P5 des TEI Guidelines permet aussi un encodage très fin de tous les supports mumtimédia en XML, un langage d’encodage formel très largement utilisé sur Internet.

LA RENCONTRE DE LA TEI ET DES HUMANITÉS DIGITALES

La TEI a été fondée en 1987 lors d’une réunion tenue au Vassar College à Poughkeepsie, dans l’État de New York, parrainée par la Association for Computers in the Humanities et financée par la National Endowment for the Humanities. L’objectif de cette réunion qui regroupait des chercheurs de différentes disciplines et représentant des sociétés professionnelles, des bibliothèques, des archives et des projets dans plusieurs pays d’Europe, d’Amérique du Nord et d’Asie, était de résoudre des obstacles majeurs à la création d’archives et d’outils durables et partageables en une époque où les systèmes semblaient presque toujours incompatibles et souvent mal conçus. Lors de cette réunion, la base intellectuelle pour la Text Encoding Initiative a été articulée grâce à la coordination de trois associations qui parrainent la TEI, à savoir la Association for Computers in the Humanities, la Association for Literary and Linguistic Computing, et la Association for Computational Linguistics. Cette coordination a débouché en juin 1990, à la publication de la première version des directives TEI connue sous le nom de « P1».

Depuis 2000, la TEI s’est établie en consortium composé d’institutions académiques, de projets de recherche et de chercheurs individuels du monde entier, pour développer et maintenir collectivement la nouvelle norme à des fins de représentation des textes sous forme numérique, principalement dans les sciences humaines, les sciences sociales et la linguistique. Les directives de la TEI sont très en phase avec cette diversité d’acteurs et de besoins spécifiques. Néanmoins, bien que la norme soit très détaillée, la plupart des utilisateurs n’auront besoin que d’un petit sous-ensemble des balises et des attributs que proposent les lignes directrices TEI P5. Celles-ci, loin de vouloir offrir un format monolithique qui définit toutes les balises de l’encodage TEI, proposent plutôt des schémas de métadonnées minimalistes adaptés à des genres littéraires particuliers comme le théâtre, la poésie, la prose, le discours oral, le manuscrit médiéval, les apparats critiques, etc. Les utilisateurs sont dès lors encouragés à développer leurs propres balises et feuilles de style appropriées pour traiter de telles adaptations.

Techniquement, les règles et les balises de la TEI héritent d’XML le principe d’encoder les hiérarchies structurelles, les divisions et les caractéristiques d’un document donné, pour indiquer par exemple des sauts de ligne et des paragraphes, la pagination et les principales divisions d’un texte tel que les volumes, les chapitres et les sections. Mais pour le balisage personnalisé, la première phase de travail consiste souvent à choisir un schéma ou un modèle de contenu qui n’est pas obligatoirement lié au genre littéraire à encoder, mais qui incarne plutôt les tâches intellectuelles auxquelles le travail d’encodage est soumis. Il faudrait d’emblée se demander par exemple, si un corpus de textes de Robert Estival serait encodé et analysé pour son contenu disciplinaire en linguistique, en sciences de l’information ou pour ses liens avec les arts plastique ou les trois domaines à la fois ? La réponse à cette question détermine le jeu de balises à prévoir pour l’analyse du corpus en question. Elle doit correspondre au thème et / ou au contenu des textes, mais aussi aux informations que l’on veut extraire et analyser. Créer un « modèle de contenu » pour un projet est un exercice intellectuel important. Il façonne le cadre d’interprétation dans lequel le travail d’analyse se déroulera.

Source: https://www.wwp.northeastern.edu/outreach/seminars/_utils/gfx/concept_syntax_language.png

Bref, encoder et composer des documents en langage XML est un processus continu. Au fur et à mesure que nous avançons dans l’édition numérique, nous réalisons que nous avons besoin de plus de balises, que nous devons distinguer plus de cas particuliers et que nous voulons ajouter plus d’informations à notre édition. Cela signifie que nous devrons faire des aller-retour permanents entre un texte ou un corpus de textes qui restera ouvert en permanence jusqu’à son archivage définitif, et un modèle ou un schéma d’encodage qui peut subir des transformations récursives pour l’adapter à de nouveaux besoins de recherche.

Source : HUDIMA (https://fr.slideshare.net/MokhtarBenHenda/tei-et-humanits-digitales-projet-humanitdigitmaghreb)

 

 

Vous aimerez aussi...