Mon positionnement naturellement à l’intersection de la linguistique et des techniques liées au numérique guide mon activité de recherche. Il s’agit d’une démarche épistémologique et trans-disciplinaire dont la langue ou le langage en sont la pierre de touche. Le dénominateur commun de mes différents travaux, qui peut être constaté au travers de mes différentes productions, tant des publications que des
développements, est la notion de ressource. Ces dernières années les notions d’usage et de diachronie ont été au centre de mes préoccupations ; en témoigne mon implication dans le projet Créalscience (naissance du vocabulaire scientifique au moyen âge) et le réseau UDPN (Usage des patrimoines numérisés). Depuis 2016 je développe un axe lié au domaine de la santé publique, celui-ci étant en partie dû au travail de thèse entreprit par Mme Haroutunian. Les problématiques que je développe concernent (i) l’accès aux publications scientifiques (ii) l’analyse du discours sur la médecine dans les réseaux sociaux et plus généralement sur le web (iii) plus globalement, cette démarche s’inscrit dans le cadre des humanités médicales.
Le mot est pensé jusqu’au 18 e siècle comme l’unité élémentaire linguistique porteuse de sens et c’est le passage du manuscrit à l’imprimerie qui consacre la notion de mot. Connue de la plupart des locuteurs elle est intuitivement perçue comme une unité élémentaire, supposée atomique, de la langue au sein d’une phrase. L’histoire des notions linguistiques montre que le mot est incontournable dans la modélisation des langues, même si cette notion préscientifique a, de tout temps, donné lieu à des attaques
et à des tentatives de remplacement par d’autres notions à la définition plus précise (signe, morphème, lexème, monème, lexie, unité lexicale). Les premiers traitements sur des ressources numériques consistent à identifier les mots à partir d’un flux de caractères, ce n’est que lorsque cette étape est terminée que d’autres traitements peuvent être envisagés. Cette notion du mot, je l’aborde sous différents angles :
1. La morphologie : j’ai présenté un modèle de représentation de la flexion proposant un formalisme de transformation sous forme de règles couplé à une description permettant la structuration de celles-ci. Je distingue deux niveaux : (i) comment, à partir d’une forme initiale, il est possible d’arriver à une forme dérivée ? (ii) comment organiser les règles pour les regrouper efficacement de manière à éviter la redondance qui, du strict point de vue de la gestion, est source d’erreurs ? ; Cette dissociation permet de rendre compte de la nature fonctionnelle / relationnelle de la morphologie dans un cadre théorique réalisationnel Ce même formalisme peut aussi être utilisé en analyse pour identifier la nature de certains néologismes.
2. Le figement : Le figement est un phénomène très complexe, très répandu et pour lequel il existe une abondante littérature tant pour son étude que pour sa description J’ai abordé cette notion en cherchant à répondre à deux questions : comment les représenter en tant que ressource numérique, comme dans le formalisme des grammaires d’arbres adjoints, et comment les identifier ? Je me suis inspiré pour le premier point à la fois des grammaires d’unification et du modèle morphologique décrit supra ; le second point fait intervenir un ensemble de tests syntaxiques, sémantiques (inspiré par les travaux de Zellig S. Harris) et quantitatif afin d’exhiber un ensemble de candidats. Cette stratégie a aussi été utilisée afin de procéder à un alignement de termes dans le cadre de corpus bilingues.
Élaborer une ressource linguistique morphologique est une tâche complexe qui dépasse la réalisation proprement dite du modèle. La constitution de la ressource elle-même est une activité toute différente et nécessite une connaissance parfaite à la fois du modèle formel et du modèle linguistiques. Pour les différentes expérimentations auxquelles j’ai procédé, j’ai donc fait appel à des informateurs ; dans ce cas précis, faire appel à un locuteur natif ne suffit pas et c’est un linguiste natif qui tient le rôle d’informateur avec toutes les difficultés de communications inhérentes à ce type d’interactions. Le travail réalisé sur l’ancien français l’a été en collaboration avec Xavier-Laurent Salvador tout d’abord dans l’objectif de constituer une ressource puis dans le cadre de l’ANR Créalscience. L’étude des verbes arabes s’est faite quant à elle en collaboration avec plusieurs collègues arabisants des universités de La Manouba et de Sousse. L’étude du polonais s’est faite en collaboration avec Alicja Hajok de l’université de Cracovie.
De nombreux projets dans les humanités ont des objectifs de numérisation. Si les enjeux techniques afférents semblent résolues, il n’en est pas de même concernant les questions de pérennité, d’accessibilité et plus généralement d’usage. J’ai participé, et je participe, à différents projets dont l’enjeu final est la mise à disposition de données patrimoniales.
— Projet GORDES : Le projet GORDES (Groupe d’Observation et de Recherches sur les Documents Epistolaires du Seizième siècle), est un projet d’Histoire Moderne centré sur l’étude des premières guerres de religion en France, entre 1565 et 1576. Il repose sur la mise en valeur des 31 tomes de la série « K » appartenant au fonds d’archives du Château de Chantilly. Cette série est composée de 7 018 lettres reçues par Bertrand-Raimbaud de Simiane, baron de Gordes, lieutenant général du roi en Dauphiné entre 1565 et 1578.
— Dictionnaire Créalscience : Regroupant des préoccupations anciennes, la morphologie en synchronie et en diachronie, et nouvelles, la dictionnairique le projet Crealscience à pour objectif la rédaction d’un lexique du XIIe-XVe siècle ; il s’agit d’un poste d’observation pour une recherche sur la genèse d’une terminologie en français. Ce programme qui réunit un grand nombre de spécialistes – médiévistes, historiens des sciences et de la langues, linguistes, lexicographes – a permis de développer un grand nombre de problématiques liées à ces domaines et a permis d’en faire émerger de nouveaux. En effet, à une problématique purement dictionnairique se greffe la nécessité pour le lecteur moderne d’un dictionnaire notionnel. Outre ma participation en tant que rédacteur / correcteur de fiches, de la définition de la micro structure et des choix à effectuer concernant les contenus, j’ai mené une réflexion sur la problématique de l’accès des savoirs anciens pour un public moderne. En effet, indépendamment des compétences du lecteur en ancien français et dans un des domaines des sciences concernés, l’information inconnue doit être accessible. J’ai donc développé une chaîne de traitements tirant partie des contraintes rédactionnelles pour créer un ensemble de graphes permettant de naviguer de manière onomasiologique dans le dictionnaire.
Mes projets de recherche m’ont conduit à développer un certain nombre d’outils prototypes afin de tester ou de valider certaines hypothèses. L’ensemble de ces productions représente un travail important et certainement utile à la communauté (même si une tâche 9d’empaquetage nécessaire à une diffusion plus large reste à faire). Les applications / bibliothèques sont développées en Python et sont publiées de manière informelle sous licence GPL3. Les différents logiciels peuvent être téléchargés à cette adresse : http://apps.bombadil.fr).
— Télanaute : Ce logiciel est un aspirateur web qui a la particularité d’effectuer un téléchargement ciblé. Il est possible de définir un certain nombre de critères, méta-linguistiques et / ou linguistiques, afin de constituer un corpus répondant à un besoin spécifique.
— Proteus : Implémentation du modèle de flexion (cf. infra) développé en vue de résoudre un certain nombre de problèmes liés à l’analyse et la génération morphologique.
— Corpindex : Une bibliothèque très complète et surtout évolutive et paramétrable pour la manipulation de très gros corpus. Cette bibliothèque a été utilisée pour notamment développer un étiqueteur morphosyntaxique pour le français basé sur des règles écrites manuellement, un outil d’alignement d’expressions sur des bi-texte, un moteur de recherche linguistique (un site démonstration de faisabilité sur un corpus de faible taille – environ 12 millions de mots étiquetés, soit 150 romans – peut être consulté à cette adresse http://zenodote.bombadil.fr).
— Corpus DH : Le corpus Droits de l’homme est une ressource de référence en matière d’information juridique électronique. Il est constitué de 28 conventions en deux ou trois langues et suit les recommandations TEI.
— DFSM : Le Dictionnaire de Français Scientifique Médiéval, élaboré dans le cadre du programme ANR Créalscience, a pour ambition de donner un inventaire des créations terminologiques dès le XIIe siècle et jusqu’au XVe siècle. Le di