Accéder directement au contenu

Mathieu Goux

Mathieu Goux - Chercheur post-doctoral (CRISCO UR 4255)
3
Documents
Affiliations actuelles
Identifiants chercheurs
Contact

Présentation

<a name="_Toc93685266"></a>Domaines de recherche ------------------------------------------------ **A. Linguistique diachronique** Je me suis spécialisé en linguistique diachronique, et notamment dans l’étude de la période du français préclassique et classique (1550-1750). Cette période de l’histoire de la langue française m’intéresse particulièrement (i) pour les changements fondamentaux observés du point de vue morphologique (évolution des phénomènes d’accord, morphologie verbale), syntaxique (ordre des mots, coordination et subordination) et textuel (évolution et organisation de la structure informationnelle de l’énoncé) ; (ii) pour les bouleversements que subit le texte écrit du point de vue éditorial et typodispositionnel (stabilisation de la ponctuation et de la gestion de l’espace paginal) ; (iii) pour la réflexion normative intense menée par les grammairiens et les remarqueurs du temps. Mes recherches s’inscrivent dans la continuité des travaux de Nathalie Fournier (qui a dirigé ma thèse de doctorat), de Bernard Combettes, de Sophie Prévost, de Philippe Caron ou de Wendy Ayres-Bennett. En ce sens, je m’attache à relier les facteurs internes de la variation linguistique à des facteurs externes, et à montrer de quelle façon la dynamique et la chronologie du changement dépendent non seulement de paramètres systémiques, morphologiques ou syntaxiques, mais également de facteurs socio-culturels complexes comme l’influence du genre textuel et du style, la normalisation linguistique, le discours métalinguistique, l’évolution des pratiques d’écriture, de lecture et d’édition des textes, ou l’influence d’autres champs culturels et artistiques. Si la période préclassique et classique demeure mon sujet d’étude privilégié, j’ai depuis étendu le spectre de mes travaux à la période médiévale et au français de la Renaissance d’une part, à la langue moderne de l’autre. Mon implication dans des projets de recherche en diachronie longue, comme ConDÉ, MICLE, EPELE ou PRESTO), m’a permis de développer des compétences d’analyse sur toutes les périodes de l’histoire de la langue française. Mes travaux visent ainsi à replacer l’évolution de la langue française au sein d’un continuum transcendant la seule perspective linguistique et prenant en considération tous les aspects de l’expérience humaine, et à déterminer le poids respectif de ces différents paramètres. **B. Syntaxe et grammaire de texte** Je me suis également spécialisé, lors de ma thèse de doctorat, dans l’étude des relations entre la syntaxe et le texte, perçu comme un objet grammatical. En ce sens, je m’intéresse (i) aux notions de cohésion, de cohérence et de connexité textuelles, et à la façon dont les relais anaphoriques, les connecteurs, les syntagmes cadratifs, participent par leurs propriétés morphologiques et syntaxiques à la perspective informationnelle de l’énoncé ; (ii) aux unités infratextuelles permettant de conduire cette analyse : phrase, période ou séquence, leurs relations et leur évolution syntaxique (ordre des mots, faits de subordination et de coordination, systèmes corrélatifs…) selon différents paramètres historiques ou linguistiques ; (iii) à l’influence des paramètres extralinguistiques de genre, de générations d’auteurs, des supports et de la traduction dans ces problématiques. Cette perspective, qui s’inscrit également dans les travaux des chercheurs cités précédemment, s’appuie également sur les réflexions de Jean-Michel Adam ou de Michel Charolles sur la fabrique de l’énoncé, et la façon dont le sens d’un texte émerge de l’association complexe des éléments de niveaux inférieurs. Je m’attache à déterminer comment des unités simples, mots ou syntagmes, permettent par leur organisation et leurs contraintes syntaxiques d’aboutir à des unités complexes, phrases, périodes, séquences, texte. Cette réflexion m’a invité à analyser des genres textuels qui ont rarement fait l’objet d’études approfondies en linguistique, à l’instar des recettes de cuisine, des notices de jeux ou des textes juridiques. Ces textes « de spécialité », souvent délaissés au profit des textes littéraires, permettent cependant de comprendre davantage les contraintes dirigeant l’écriture des auteurs, et améliorent notre connaissance des phénomènes textuels. **C. Linguistique de corpus et linguistique outillée** Mon travail en linguistique diachronique d’une part, en syntaxe et en grammaire textuelle de l’autre, m’a conduit à être particulièrement sensible à la question de la variation, sous toutes ses formes : historique bien entendu, mais également diatopique, diastratique, diaphasique, générique ou diamésique. En ce sens, je travaille également en linguistique de corpus et en linguistique outillée, et notamment dans le cadre de l’annotation des très grands corpus qui permettent d’évaluer la façon dont les paramètres de variation influencent la réalisation des structures syntaxiques et la perspective informationnelle des énoncés. Mes travaux post-doctoraux, dans le cadre du projet MICLE et du projet ConDÉ m’ont également permis de développer des compétences en TAL via l’utilisation des analyseurs syntaxiques en dépendances comme HOPS ou Stanford NLP, et d’appréhender le format CONLL-U et le standard XML-TEI dans la constitution de corpus interrogeables. J’administre notamment le portail d’interrogation <txm-crisco.huma-num.fr/> pour autoriser la recherche textométrique sur différents corpus. Je me suis ainsi formé à sa maintenance, et j’ai animé des ateliers de formation à TXM à destination de doctorants et de collègues enseignants-chercheurs. Je me suis également formé dans le langage de programmation Python, pour la manipulation automatisée de fichiers XML-TEI. La réflexion que je mène est tant théorique que pratique. Ainsi, je travaille sur les jeux d’étiquettes morphosyntaxiques et les référentiels de lemmatisation exploités par la communauté scientifique, et ce depuis mes années de recherche doctorale à l’occasion de ma participation au projet ANR-DFG PRESTO, et je réfléchis également sur les méthodes de numérisation, de transcription et d’outillage des textes issus de l’histoire de la langue française, en investissant des problématiques philologiques ou codicologiques. L’exploitation de grands corpus outillés pour mes recherches sur l’histoire de la langue française, que ce soit au niveau morpho-syntaxique ou textuel, m’a amené à développer une démarche scientifique spécifique. J’ai notamment pu mesurer à quel point la constitution et l’homogénéisation d’un corpus déterminent particulièrement les résultats obtenus, et le soin que l’on doit dès lors apporter à son calibrage. **D. Grammaire et sémiotique du jeu vidéo** Parallèlement à mes travaux portant sur la langue française, je m'intéresse au jeu vidéo comme fait de communication complexe et à l’intersection de plusieurs traditions et de plusieurs enjeux culturels, sociaux et sémiotiques. J’ai développé une pensée inédite, prenant en compte la dimension multimodale de ce média et proposant une analyse intégrale de ses dimensions graphiques, musicales, ludiques, architecturales, etc. Ces analyses se sont matérialisées au sein d’articles dans des revues à comité de lecture, d’émissions de radio en ligne, de conférences et d’ouvrages destinés à un public universitaire. Ma réflexion consiste à jeter une passerelle entre game studies et linguistique en adoptant une démarche interdisciplinaire, qui permet de conserver le caractère multimédia propre au jeu vidéo tout en l’outillant et en l’incluant au sein d’une méthode d'analyse plus large, systémique et fonctionnelle. Cette approche me permet de replacer le jeu vidéoo au sein des grandes productions culturelles humaines, historiques comme contemporaines. ### <a name="_Toc93685267"></a>Réalisations significatives autour des sciences du langage **1. Post-doctorant du projet MICLE** (ANR-DFG, Université de Caen). Coordination de l’équipe de recherche. Organisation des formations. Numérisation, annotation et exploration du corpus d’étude. &lt;https://www.unicaen.fr/projet\_de\_recherche/micle/&gt;, 2021 – 2024. Ce projet de recherche ANR-DFG financé pour 36 mois et basé à Caen pour la partie française, et à Francfort pour la partie italienne, s’intéresse aux mécanismes du changement grammatical sur temps long et notamment à la question de l’ordre des mots et de l’organisation V2 des langues romanes. Il s’agit particulièrement de comparer, par l’intermédiaire d’un corpus calibré d’ancien et de moyen français et d’italien vénitien, des plus anciens textes disponibles (milieu du 14e siècle) jusqu’à la Renaissance (milieu du 16e siècle), les indices micro-syntaxiques qui auraient pu favoriser le développement, puis la régression de la structure V2 dans les états anciens de la langue. Je me charge de la co-organisation de l’équipe de recherche et des formations, ainsi que de la constitution de la partie française du corpus. J’ai également formalisé la chaîne d’édition et d’annotation des textes. Cette recherche translinguistique s’appuie sur (i) l’homogénéisation des données textuelles, issues de documents non-littéraires comme des correspondances privées, des minutes de procès ou autres textes de spécialité, et ce afin de limiter les influences stylistiques dans la recherche des occurrences ; (ii) l’annotation morpho-syntaxique de ces documents, afin de faire émerger des schémas d’évolution ; (iii) l’analyse de la périphérie gauche de la phrase, en réinvestissant les théories en syntaxe formelle et notamment le modèle « XP », mais également les théories de grammaire textuelle et des modèles informationnels. **2. Post-doctorant du projet ConDÉ** (RIN, Université de Caen &lt;https://conde.hypotheses.org/&gt;, <pdn-lingua.unicaen.fr/coutumiers/conde/accueil.html>). Coordination de l’équipe de recherche. Organisation des formations. Constitution du corpus d’étude. Exploration linguistique des coutumiers de Normandie, du xiiie au xviiie siècles, 2018 - 2021. Ce projet de recherche financé par la région Normandie, pour une durée de 32 mois et basé à UniCaen et à l’Université de Rouen pour la partie historique, a trois objectifs primordiaux : (i) créer une base de données interrogeable d’une quinzaine de coutumiers normands, du moyen-âge à la période moderne ; (ii) proposer des analyses inédites concernant l’histoire de la langue française ; (iii) améliorer notre connaissance historique de ces coutumiers. Je me suis chargé de la coordination de l’équipe de recherche, de l’organisation des formations et j’ai participé à la constitution du corpus d’études. Au terme du projet, c’est un corpus d’environ 30 millions de caractères, répartis sur une quinzaine de témoins et s’échelonnant sur plus de six siècles, qui a été rendu accessible à l’ensemble de la communauté des chercheurs en langue et en histoire, de même qu’au grand public et aux passionnés grâce à une interface simplifiée et une exposition virtuelle, recontextualisant et présentant les dimensions de ce sujet. Le projet a conduit au déploiement, grâce aux services d’Huma-Num, d’un portail TXM &lt;txm-crisco.huma-num.fr&gt; autorisant, aux côtés du site de consultation hébergé à la MRSH de Caen, une exploration fine des textes. **3. Post-doctorant du projet EPELE** (CORNUM, MRSH de l’Université de Caen &lt;https://www.unicaen.fr/epele//accueil&gt;). Édition numérique des textes. Enrichissement TAL (lemmatisation et étiquetage morphosyntaxique), 2018. Suite à la titularisation d’Isabelle Bretthauer, précédente post-doctorante sur le projet, je me suis chargé de l’édition numérique et de l’enrichissement TAL de trois corpus de moyen français, rédigés par des locuteurs « peu lettrés » (un tabellion, un marchand et des membres et proches de la famille Estouteville, notables de Normandie). J’ai transformé les transcriptions du format .docx au format TEI-XML, construit les métadonnées, lemmatisé et étiqueté morpho-syntaxiquement les corpus. **4. Collaboration au projet PRESTO** (ANR &amp; DFG \[Deutsche Forschungsgemeinshaft\], piloté par le laboratoire ICAR \[ENS Lyon\], &lt;http://presto.ens-lyon.fr/&gt;). Participation à la première campagne d’annotations syntaxiques sur textes français du xvie au xixe siècle. Exploitation du logiciel de textométrie *TXM* &lt;http://textometrie.ens-lyon.fr/&gt; et du logiciel d’annotation *Analog* &lt;https://cahier.hypotheses.org/navilog-analog-varialog&gt;, 2013-2017. Alors doctorant, j’ai participé aux réunions d’équipe et à la première campagne d’annotation du projet PRESTO, dédié à l’étude des prépositions du français en diachronie longue. J’ai participé à la stabilisation du jeu d’étiquettes, ai contribué à la rédaction du manuel d’utilisateur du logiciel d’annotation ANALOG et à l’exploration du corpus. ### <a name="_Toc93685267"></a>Responsable de thématique de recherche **Responsable de la thématique 2 « Recherche linguistique appliquée à des pratiques et à la production de ressources électroniques » du laboratoire CRISCO (EA 4255, Université de Caen)**, 2022 – en cours. Mes compétences en linguistique outillée ainsi que mon expérience en pilotage de projet (voir supra, §IV.A.1) ont invité la direction du laboratoire CRISCO à me confier la responsabilité de la seconde thématique de recherche du laboratoire, dédiée à l’exploitation et à la création de ressources numériques pour la recherche en linguistique. Cette thématique fédère un très grand nombre de projets portés par les chercheurs et chercheuses du laboratoire, tel le Dictionnaire Électronique des Synonymes, le projet Verlaine sur le traitement automatique des textes versifiés, ou encore le [projet High-Tech](https://criscoht.unicaen.fr) sur l’annotation automatique de l’ancienne langue française. En qualité de responsable, je cherche à favoriser la discussion entre les différentes sous-équipes du projet, et j’organise des événements scientifiques pour assurer la diffusion des travaux de l’axe auprès de la communauté scientifique.

Compétences

linguistique diachronique, grammaire française, histoire du métalangage, linguistique de corpus, grammaire textuelle, syntaxe, grammaire du jeu vidéo

Publications

morgane-pica

Références classiques dans les coutumiers normands : domaines, modèles, citations

Morgane Pica , Mathieu Goux
Colloque de clôture du projet eGesta-Cornum intitulé : Lire les classiques en Normandie, Clara Auvray-Assayas; Benoît Roux; ERIAC UR 4705, Oct 2022, Rouen, France
Communication dans un congrès halshs-04130052v1

NLP Tools and the Norman Laws: equiping a corpus in long diachrony

Mathieu Goux , Morgane Pica
Romance Linguistic Seminar, ARC, Jan 2020, Cambridge, United Kingdom
Communication dans un congrès hal-02447017v1

Le projet ConDÉ : présentation. Les défis d’un corpus de textes en diachronie longue

Mathieu Goux , Morgane Pica
10e Journées Internationales de Linguistique de Corpus (JLC2019), Nov 2019, Grenoble, France
Communication dans un congrès hal-02447030v1