Étiqueté : TEI

L’encodage des données : 3 – TEI et Humanités digitales

La Text Encoding Initiative (TEI) est une norme d’encodage des données qui prend source dans une alliance entre des institutions de recherche en sciences informatiques et en sciences humaines. Cette filiation d’origine inetrdisciplinaire prédispose la TEI pour jouer un rôle prépondérant dans la nouvelle dynamique mondiale des Humanités digitales. Bien qu’elle soit initialement destinée à l’encodage des tetxes, la version P5 des TEI Guidelines permet aussi un encodage très fin de tous les supports mumtimédia en XML, un langage d’encodage formel très largement utilisé sur Internet.

L’encodage des données : 2 – Données strcuturées ou non structurées ?

Données structurées, données non structurées, les big data ont remis en surface ces deux notions pourtant vieilles depuis le temps des copistes médievaux et des premiers imprimeurs de l’ère Gutenberg. Avec le numérique, la structuration des données est au coeur de plusieurs nouveaux processus technologies qui enf ont une matière de base pour développer des produits et services numériques à valeurs ajoutées. Dans ce deuxième billet sur l’encodage des données, le concept de la structuration des données est revisité avec un regard sur l’historique des métiers qui en font usage.

Les corpus dans la recherche scientifique

Un corpus est un ensemble raisonné de textes régis par une cohérence interne qui peut être constituée selon différentes modalités et structurée selon plusieurs méthodes et démarches. Les corpus posent un certain nombre de questions d’ordre pratique et  épistémologique qui renvoient à leurs typologies, structures et modes d’organisation, mais aussi au conditionnement des paradigmes méthodologiques liés à leur analyse et leur  exploitation. Enrichis par les avancées numériques incessantes, les corpus font vite l’objet de normes dédiées que proposent des communautés de recherche dans le courant des Humanités numériques.