Les corpus dans la recherche scientifique

Un corpus est un ensemble raisonné de textes régis par une cohérence interne qui peut être constituée selon différentes modalités et structurée selon plusieurs méthodes et démarches. Les corpus posent un certain nombre de questions d’ordre pratique et  épistémologique qui renvoient à leurs typologies, structures et modes d’organisation, mais aussi au conditionnement des paradigmes méthodologiques liés à leur analyse et leur  exploitation. Enrichis par les avancées numériques incessantes, les corpus font vite l’objet de normes dédiées que proposent des communautés de recherche dans le courant des Humanités numériques.

Au cours des dernières années, marquées d’une intensification exponentielle de l’effet numérique, il y a eu une croissance considérable de l’intérêt et de l’activité de recherche par et autour de la construction et l’analyse de corpus, phénomène qui augure d’un nouveau paradigme méthodologique, d’un renouvellement conceptuel et épistémologique dans la recherche scientifique. Or, si les corpus apparaissent aujourd’hui comme constitutifs de quasi toutes recherches en Sciences Humaines et Sociales (SHS), leurs modes de conception, de traitement, d’analyse et de valorisation varient selon les disciplines et les contextes, voire aussi les choix des chercheurs et des communautés de pratiques qui tendent tous à se les approprier selon des méthodes et des outils variés.

La question des corpus renvoie à une série de questionnements relatifs à leurs typologies, mais aussi au conditionnement des paradigmes méthodologiques liés à leur construction et leurs modalités analytiques. Idéalement, un corpus est un ensemble d’échantillons de produits (corpus d’étude) conçus pour être représentatifs d’un domaine (corpus existant) ou d’un sous-domaine (corpus de référence) au moyen d’une sélection rigoureuse et méthodique. Cette construction mesurée d’échantillons représentatifs constitue un « espace discursif » formé d’un ensemble limité d’éléments (énoncés) qui « constituent des sources d’évidences tout à fait valables » (Stark, 2014).

La question des corpus revoie aussi à un débat épistémologique lié au positionnement du chercheur, son implication ou sa distanciation par rapport à son corpus d’étude et à ses choix méthodologiques, à l’articulation de ses résultats d’analyse avec la réalité du concret. La question des corpus, comme processus d’accès à la connaissance, va se trouver ainsi au milieu d’un débat scientifique de longue date qui a opposé plusieurs courants de pensées comme le positivisme et ses hypothèses ontologiques, déterministes et dualistes (cause à effet) d’une réalité objective, ou encore la tendance sociolinguistique (d’abord « variationniste », puis interactive et désormais anti-objectivante), jusqu’au courant constructiviste moderne qui « introduit une nouvelle relation viable, plus tangible, entre connaissance et réalité » (Von Glasersfeld, E., 1994).

Selon une conception constructiviste de la recherche qui envisage l’objet-corpus comme un construit dépendant du chercheur mais aussi des sujets et de l’environnement étudiés, la méthodologie de la recherche « dépend de la capacité du chercheur à adapter son analyse au vu des résultats, et de prendre conscience de cette dépendance entre méthode et résultats » (Mucchielli, 2006). Se pose dès lors la question de la scientificité d’une recherche critique inclusive de la subjectivité et de l’expérienciation de l’acteur-chercheur. Comment un chercheur en SHS peut-il s’approprier l’objet-corpus, depuis le « recueil » jusqu’à l’analyse, à travers l’emploi d’une méthodologie et la création d’une méthode ? Le corpus s’inscrirait ainsi plutôt du côté de l’herméneutique en tant que paramètre méthodologique défini par un objectif de lecture et d’analyse qui d’autant plus peut nourrir une réflexion interdisciplinaire désormais incontournable. En effet, la tendance constructiviste part du principe que toutes les disciplines s’inspirent mutuellement en obligeant le chercheur à reconsidérer ses préjugés, ses méthodes, ses points de vues, voire à créer de nouvelles approche, sans toutefois déborder du périmètre de sa discipline source.

Dans les SHS, désormais traversées par un courant d’interdisciplinarité de plus en plus avéré, il y a toutefois des points de convergence et des formes de complémentarité qui font que « des problématiques partagées émergent alors sur les pratiques d’encodage de l’information, sur la structuration, la diffusion et l’archivage des corpus » (Marin Dacos et Pierre Mounier, 2014). La densité scientifique variée des corpus participe désormais d’une méthodologie constructiviste qui part du principe que toutes les disciplines, en s’inspirant mutuellement, obligent le chercheur à reconsidérer ses préjugés, ses connaissances, ses acquis méthodologiques, voire à se créer de nouvelles compétences pour s’inscrire dans le courant de l’interdisciplinarité. Des normes d’encodage et de balisage de corpus apparaissent, parallèlement à de nouveaux outils technologiques qui se spécialisent dans la gestion des collections de ressources textuelles et multimodales aussi bien dans leurs phases de collecte, de balisage et d’annotation que dans leur référencement, indexation et recherche. Transcendant toute la gamme de processus classiques de la GED (gestion électronique de documents) fondées sur les principes du référencement documentaire, la constitution et l’organisation des corpus numériques, comme objet construit, s’attaque à la substance profonde de l’objet-document. Elle devient ainsi la voie privilégiée de la construction du sens intégrant entre autres les technologies de l’ingénierie linguistique, de l’analyse sémantique et de la reconnaissance des formes. Enrichies par les avancées technologiques liées au Web 3.0 et aux réseaux sémantiques, notamment les ontologies de domaines et les systèmes d’organisation des connaissances partagées (SKOS), les corpus font vite l’objet de normes dédiées proposées par des communautés de recherche désormais inscrites dans le courant des Humanités numériques. Le consortium TEI par exemple, propose la norme TEI (Text Encoding Initiative) qui donnera lieu à la MEI (Music Encoding Initiative) et le CES (Corpus Encoding Standard). L’effort normatif des corpus atteint son plus haut niveau avec l’Organisation Internationale de la Normalisation (ISO) qui publie en 2016 la norme ISO 24624:2016 pour la transcriptions de corpus annotés d’enregistrements audio et vidéo d’interactions parlées.

Lectures proposées :

Vous aimerez aussi...