Accéder directement au contenu
RD

Richard Dufour

Enseignant-Chercheur en Informatique - Traitement automatique du langage et de la parole
1
Documents
Affiliations actuelles
  • 1088575
  • 100376
Identifiants chercheurs
Contact

Présentation

**<u>Update</u> : Depuis le 14/10/23, je suis de nouveau maître de conférences au LIA suite à l'annulation de mon poste de professeur des universités de Nantes Université considérant des manquements au niveau du jury de ce poste et de Nantes Université :** https://www.legifrance.gouv.fr/ceta/id/CETATEXT000048206377 --- ### Traitement automatique du langage et de la parole #### [Laboratoire Informatique d'Avignon (LIA)](http://lia.univ-avignon.fr) - [Équipe SLG](https://lia.univ-avignon.fr/thematiques-langage/) - [Avignon Université](http://univ-avignon.fr) #### [Laboratoire des Sciences du Numérique de Nantes (LS2N)](http://ls2n.fr) - [Équipe TALN](http://taln.ls2n.fr) - [Nantes Université](http://univ-nantes.fr) ### Thèmes de recherche - Traitement automatique de la langue écrite et parlée - Extraction d'information - Analyse des réseaux sociaux et Internet - Reconnaissance automatique de la parole ### Enseignements dispensés - Apprentissage automatique : business intelligence, innovation et recherche... - Algorithmie et programmation : architecture des ordinateurs, programmation C et C++, structure de données... - Modélisation orientée-objet : génie logiciel, langage UML, design patterns avancés, architecture des systèmes d'information... - Réseau et sécurité : web et réseaux, architectures orientées services, sécurité des cartes à puce... ### Responsabilités académiques et scientifiques - Depuis mai 2023 : Membre du conseil scientifique du [cluster FAME](https://fame.univ-nantes.fr) - Depuis novembre 2022 : Membre du conseil scientifique du [cluster FAISTOS](https://next-isite.fr/faistos/) - Depuis janvier 2022 : Responsable de l'[équipe TALN](http://taln.ls2n.fr) (Traitement Automatique du Langage Naturel) du [LS2N](http://ls2n.fr) avec Florian Boudin (Responsable adjoint) - [Nantes Université](http://univ-nantes.fr). - Avril 2020-Septembre 2021 : Coordinateur de l'axe scientifique [Langage et Cognition de l'Institut Carnot Cognition](http://www.institut-cognition.com). Co-coordination avec Nuria Gala (50 %). - Janvier 2020-Septembre 2021 : Responsable du Master Informatique parcours-type [Ingénierie du Logiciel de la Société Numérique (ILSEN)](https://ceri.univ-avignon.fr/formations/master-informatique/) d'[Avignon Université](http://univ-avignon.fr). - Septembre 2012-Septembre 2021 : Responsable de la Communication du [Centre d'Enseignement et de Recherche en Informatique (CERI)](https://ceri.univ-avignon.fr/) d'[Avignon Université](http://univ-avignon.fr). ### Résumé travaux de recherche Mes travaux de recherche ont débuté en reconnaissance automatique de la parole (RAP), en particulier sur le traitement de la parole spontanée. Cette thématique se retrouve dans le projet ANR EPAC, où mes travaux m'ont amené à m'intéresser à l'adaptation des modèles de RAP. J'ai également pu travailler sur l'extraction d'information à travers les systèmes de RAP, que l'on retrouve à la fois dans le projet ANR EPAC, pour la détection de la parole spontanée, mais également le projet ANR PERCOL, pour la reconnaissance et correction de noms propres. Le spectre de mes thématiques de recherche s'est ensuite élargi pour travailler à la fois sur des documents écrits et parlés, avec comme point central la problématique de la représentation des mots contenus dans les documents en vue de leur utilisation pour d'autres tâches. Mes travaux m'ont alors amené à travailler sur des représentations de documents de plus haut niveau que le simple niveau *mot*, que l'on retrouve en particulier dans le projet ANR SuMACC. La prise en compte de l'aspect temporel des mots et des documents a également fait partie de mes orientations scientifiques, que l'on retrouve dans le projet ANR ContNomina. Les problématiques en traitement du langage, intégrant une forte interdisciplinarité, ont pris une place de plus en plus importante dans les travaux de recherche dans lesquels je m'intègre depuis plusieurs années (projets GaFes, TheVoice et RePoGa). En particulier, ceux-ci ont fait émerger des problématiques d'évaluation originales, nécessitant la mise en place de cadres expérimentaux souvent inexistants (responsable du projet ANR DIETS). Nous avons donc oeuvré à la proposition de nouveaux cadres de travail dont la dimension sciences humaines a été un enjeu important, nous permettant également de proposer des approches originales comme par exemple pour l'exploration des réseaux sociaux numériques ou l'étude de la voix jouée. ### Outils open-source - **[DrBERT](https://huggingface.co/Dr-BERT/DrBERT-7GB)** (par [Yanis Labrak](https://qanastek.github.io), [Adrien Bazoge](https://www.univ-nantes.fr/adrien-bazoge) et al.) : un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique. **[https://drbert.univ-avignon.fr](https://drbert.univ-avignon.fr)** - **[Alert](https://github.com/CompNet/Alert)** (par [Noé Cécillon](https://cv.archives-ouvertes.fr/noe-cecillon)) : un outil pour la détection de messages abusifs dans des conversations en ligne au moyen de caractéristiques liées au contenu et au graphe conversationnel. - **[POET](https://huggingface.co/qanastek/pos-french)** (par [Yanis Labrak](https://qanastek.github.io)) : un outil de POS-tag (étiquetage morphosyntaxique) étendu pour le français. [Démo disponible](https://huggingface.co/spaces/qanastek/French-Part-Of-Speech-Tagging). ### Données diffusées - **[NACHOS](https://drbert.univ-avignon.fr)** (par [Yanis Labrak](https://qanastek.github.io)) : large corpus de données médicales (8 Go) collectées sur Internet et disponibles à des fins de recherche. - **[WAC](https://github.com/CompNet/WikiSynch)** (par [Noé Cécillon](https://cv.archives-ouvertes.fr/noe-cecillon)) : un corpus de conversations de Wikipedia pour la détection de messages abusifs dans des conversations. - **[ANTILLES](https://github.com/qanastek/ANTILLES)** (par [Yanis Labrak](https://qanastek.github.io)) : extension des POS tags (classes morphsyntaxiques) s'appuyant sur le corpus [UD\_French-GSD](https://universaldependencies.org/treebanks/fr_gsd/). ### Projets et Partenaires #### Porteur projet ANR - 2023-2027 : [Projet ANR MALADES](https://www.univ-nantes.fr/universite/vision-strategie-et-grands-projets/malades-adaptable-and-sovereign-large-language-models-for-the-french-medical-domain) : Grands modèles de langue adaptables et souverains pour le domaine médical français. Partenaires : Clinique des données (CHU de Nantes), LIA (Avignon Université), LIS (Aix-Marseille Université). - 2021-2024 : [Projet ANR DIETS](https://anr-diets.univ-avignon.fr) : Diagnostic automatique des erreurs des systèmes de transcription de parole end-to-end à partir de leur réception par les utilisateurs. Projet JCJC. Experts impliqués : Jane Wottawa - LIUM (Le Mans Université), Arnaud Rey - LPC (Aix-Marseille Université), Yannick Estève et Mickaël Rouvier - LIA (Avignon Université). #### Participation projets financés - 2023-2027 : [Projet CNRS-AID Naviterm](https://cnrs-naviterm.github.io) : Montée en compétence des chercheurs sur un domaine de recherche. - 2023-2027 : [Projet ANR Lexhnology](https://lexhnology.hypotheses.org) : Modélisation linguistique et computationnelle de la structure discursive des textes juridiques appliquée à l'apprentissage des langues. Partenaires : CRINI (Nantes Université - Porteur), ATILF (Université de Lorraine), LAIRDIL (Université de Toulouse). - 2018-2021 : Projet ANR The Voice : Etude de la voix de doublage. Partenaires : IRCAM (Porteur), Dubbing Brothers. - 2015-2018 : Projet ANR GaFes : Etude des usages via des données collectées sur Internet et ré-éditorialisation des contenus captés ou produits par les internautes. Partenaires : Centre Norbert Elias (Avignon Université), Syllabs, GECE. - 2013-2017 : Projet ANR ContNomina : Reconnaissance des noms propres et contextualisation des systèmes de reconnaissance de la parole. Partenaire : LORIA (Université de Lorraine). - 2013-2014 : Projet ANR SuMACC : Identification de concepts multimédias par patrons de collaboration. Partenaires : Eurecom, Syllabs, Wikio. - 2012-2014 : Projet ANR PERCOL : Recherche de personnes dans des flux audiovisuels. Partenaires : Orange Labs, LIF (Aix-Marseille Université), LILF (Université de Lille). - 2007-2010 : Projet ANR EPAC : Transcription automatique de la parole spontanée. Partenaires : LIUM (Le Mans Université), IRIT (Université de Toulouse), LI (Université de Tours), LIA (Avignon Université). #### Collaborations industrielles - [Valeuriad](https://www.valeuriad.fr) : Thèse de Xavier Pillet. Co-encadrement avec [Anastasia Volkova](https://avolkova.org/). - [Aday](https://aday.fr) (anciennement Européenne des Données (EDD)) : Thèse CIFRE de Mohamed Bouaziz. - [Orkis](https://www.orkis.com) : Thèse CIFRE de Killian Janod. - [Zenidoc](https://zenidoc.fr) : Alternance du Master de Yanis Labrak. #### Autres projets financés - 2021 : Projet interdisciplinaire MITO : Le Mythe d’un marché Immobilier Transparent grâce à l’Open data. Financé par la [structure Agorantic](https://agorantic.univ-avignon.fr) (fédération de recherche d'Avignon Université). Collaboration entre mathématiciens (LMA), géographes (ESPACE) et informatique (LIA). - 2020 : Projet interdisciplinaire RePoGa : Utilisation des sources d’information disponibles sur Internet pour comprendre les réseaux d’interaction des acteurs politiques d’un territoire ciblé. Financé par la [structure Agorantic](https://agorantic.univ-avignon.fr)structure Agorantic (fédération de recherche d'Avignon Université). Collaboration entre sciences politiques (LBNC) et informatique (LIA). #### Organisateur d'ateliers et campagnes d'évaluation - 5 juin 2023 : [Campagne d'évaluation DEFT 2023](https://deft2023.univ-avignon.fr) sur la détection des réponses correctes dans des questions à choix multiples sur des données médicales. - 5 juin 2023 : [Atelier ARTS (Analyse et la Recherche de Textes scientifiques)](https://arts2023.sciencesconf.org) qui se veut un lieu de rencontre et d’échange pour les chercheurs en Recherche d’Information (RI) et en Traitement Automatique des Langues (TAL) qui s’intéressent aux textes scientifiques. #### Participation à des campagnes d'évaluation - 2022 : [BioCreative VII LitCovid Track](https://biocreative.bioinformatics.udel.edu/tasks/biocreative-vii/track-5/) - 2022 : [DEFT'22 (Défi Fouille de Textes)](https://deft.lisn.upsaclay.fr/2022/) - 2018 : [MC2 Miltilingual cultural mining and retrieval](https://termwatch.es/talne/spip/?debut_articles=10) - 2016 : [DSTC 5](http://workshop.colips.org/dstc5/) - 2014 : [IWSLT'14](http://workshop2014.iwslt.org/) - 2013-2014 : [REPERE](http://www.defi-repere.fr/index.php?id=7&L=1) - 2013 : [DEFT'13 (Défi Fouille de Textes)](http://deft.limsi.fr/2013/index.php?id=1&lang=en) - 2013 : [RepLabs'13](http://www.limosine-project.eu/events/replab2013) - 2013 : [MediaEval'13](http://www.multimediaeval.org/mediaeval2013/) ### Encadrement doctoral et scientifique #### Thèses en cours - **Julien Aubert-Béduchaud** (2023-...). Extraction d'information pour l'acces aux connaissances scientifiques. Co-encadrement avec Florian Boudin (40 %) et Béatrice Daille (30 %) - **Xavier Pillet** (2023-...). [La sobriété numérique des modèles en Traitement Automatique du Langage : compromis entre performance et ressources](https://www.theses.fr/s364606). Co-encadrement avec Anastasia Volkova (50 %) - **Leane Jourdan** (2022-...). [Approches neuronales pour la modélisation et l'analyse de la structure argumentative des articles de recherche](https://www.theses.fr/s359477). Co-encadrement avec Nicolas Hernandez (50 %) et Florian Boudin (30 %) - **Yanis Labrak** (2022-...). [Traitement de la parole adapté au domaine médical](https://www.theses.fr/s379228). Co-encadrement avec Mickaël Rouvier (50 %) - **Thibault Bañeras Roux** (2021-...). [Analyse automatique des erreurs des systèmes de reconnaissance automatique de la parole par la réception des utilisateurs finaux](https://www.theses.fr/s321701). Projet ANR DIETS. Co-encadrement avec Jane Wottawa (33 %) et Mickaël Rouvier (33 %) - **Arthur Amalvy** (2021-...). [Traitement du langage et modélisation de relations pour la représentation unifiée de documents narratifs](https://www.theses.fr/s379155). Bourse ministérielle. Co-encadrement avec Vincent Labatut (50 %) #### Thèses soutenues - **Noé Cécillon** (2019-2023). [Combinaison des graphes et du texte pour la modélisation de conversations: Application à la détection d'abus en ligne](https://www.theses.fr/s379175). Bourse ministérielle. Co-encadrement avec Vincent Labatut (50 %) - **Mathias Quillot** (2018-2022). [Un premier pas vers la caractérisation de l’information véhiculée par les voix actées](https://www.theses.fr/2022AVIG0109). Bourse de thèse du projet ANR The Voice. Co-encadrement avec Jean-François Bonastre (50 %) - **Adrien Gresse** (2015-2020). [L'art de la voix : caractériser l’information vocale dans un choix artistique](https://hal.inria.fr/tel-02938152/). Thèse financée par la Fondation d'Avignon Université soutenue le 6 février 2020. Co-encadrement avec Vincent Labatut (30%) et Jean-François Bonastre (40 %) - **Mohamed Bouaziz** (2013-2017). [Réseaux de neurones récurrents pour la classification de séquences dans des flux audiovisuels parallèles](https://tel.archives-ouvertes.fr/tel-01774242). Thèse CIFRE avec l'entreprise EDD soutenue le 6 décembre 2017. Co-encadrement avec Mohamed Morchid (30%) et Georges Linarès (40 %) - **Killian Janod** (2013-2017). [La représentation des documents par réseaux de neurones pour la compréhension de documents parlés](/tel-01824741/). Thèse CIFRE avec l'entreprise Orkis soutenue le 27 novembre 2017. Co-encadrement avec Mohamed Morchid (30%) et Georges Linarès (40 %) - **Mohamed Morchid** (2011-2014). [Représentations robustes de documents bruités dans des espaces homogènes](https://tel.archives-ouvertes.fr/tel-01202157). Thèse financée par le projet ANR SuMACC et soutenue le 25 novembre 2014. Co-encadrement avec Georges Linarès (50 %). #### Stagiaires recherche - **Mohammed Hmitouch** - Master 2 (6 mois - février à juillet 2024). Approches semi-supervisées pour la récupération des déterminants sociaux de santé dans un entrepôt de données hospitalier. Co-encadrement avec Pacôme Constant dit Beaufils (50 %), CHU de Nantes - **Mamadou Ciré Diallo** - Master 2 (6 mois - février à juillet 2023). Portage et adaptation de modèles de langue ouverts sur une application d’aide à l’organisation de conférences multilingues. Co-encadrement avec Colin de la Higuera (50 %) - **Rima Boubekeur** - Master 2 (5 mois - mars à juillet 2022). Génération automatique de hashtags pour des messsages textuels courts issus de Twitter. Co-encadrement avec Florian Boudin (50 %) - **Noé Cécillon** - Master 2 (6 mois - février à août 2019). Exploration de caractéristiques d’embeddings de graphes pour la détection de messages abusifs. Co-encadrement avec Vincent Labatut (50 %) - **Adrien Gresse** - Master 2 (6 mois - février à août 2015). Recommandation de musiques de films. Co-encadrement avec Georges Linarès (50 %) - **Mathias Quillot** - Licence 2 et 3 (3 mois en 2014/2015). Réalisation d'un démonstrateur pour le projet ANR ContNomina. Co-encadrement avec Georges Linarès (50 %) #### Alternants recherche - **Quentin Raymondaud** - Master 2 (2021-2022). Explicabilité de réseaux de neurones profonds en traitement de la parole. Co-encadrement avec Mickaël Rouvier (50 %) - **Yanis Labrak** - Master 1 et 2 (2020-2022). Traitement du langage pour l'analyse de comptes-rendus médicaux. Travaux réalisés dans le cadre de la collaboration industrielle avec l’entreprise Zenidoc. - **Louis Aracil** - Master (2020-2021). Outils pour l’analyse de l’e-réputation d’hôtels. Co- encadrement avec Yannick Estève (50 %). Travaux réalisés dans le cadre de la collaboration industrielle avec l’entreprise Aha Concepts at Home Abroad. - **Mathias Quillot** - Master 2 (2015-2017). Conception et réalisation de l'observatoire des festivals dans la cadre du projet ANR GaFes. Début de travaux de recherche en collaboration avec des sociologues du projet sur la réception de contenus numériques par les publics de festivals. Co-encadrement avec Georges Linarès (50 %) ### Diffusion et responsabilités scientifiques - Coordinateur de l’axe scientifique Langage &amp; Cognition de l’Institut Carnot Cognition (avril 2020-septembre 2021), s’agissant d’un des 4 axes scientifiques structurant l’institut composé de 22 laboratoires. En particulier, cet axe implique 7 laboratoires de recherche, pour environ 130 chercheurs. Co-coordination avec Nuria Gala (50 %) - Membre élu suppléant du conseil d'administration de l'Association Francophone de la Communication Parlée (AFCP) pour les mandats 2013-2015, 2015-2017 et 2021-2024. - Membre élu du conseil scientifique du Laboratoire Informatique d'Avignon (LIA) mars 2014 - septembre 2021. Participation régulière aux réunions ainsi qu'aux décisions du laboratoire. - Relectures : IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) depuis 2010, ISCA InterSpeech (depuis 2010), IEEE EUSIPCO (depuis 2013), IEEE Signal Processing Letters (2013), IEEE/ACM Transactions on Audio, Speech, and Language Processing (2015), IEEE ASRU (depuis 2017), ACM Transactions on Knowledge Discovery from Data (2018), IEEE Access (2019), IEEE SLT (2020) Journées d'Études sur la Parole (JEP) (depuis 2010). - Participation au comité de programme et comité scientifique de la conférence JEP 2014 au Mans (France). - Sociétés savantes : membre ISCA, IEEE, AFCP. ### Professeur des Universités au [LS2N](http://ls2n.fr) (2021-2023) De septembre 2021 au 14 octobre 2023, j'ai été professeur des universités au Laboratoire des Sciences du Numérique de Nantes (LS2N) au sein de l'équipe TALN. Mon poste a été annulé par le conseil d'état suite à des manquements de la part du jury ainsi que de Nantes Université : https://www.legifrance.gouv.fr/ceta/id/CETATEXT000048206377. Pendant ces années, j'ai été responsable de l'équipe TALN, fonction que je continue à assurer. Mes centres d'intérêts actuels se sont principalement concentrés sur l'évaluation de systèmes de reconnaissance automatique de la parole ainsi que sur la modélisation du langage et la constitution de corpus. J'a notamment travaillé sur les modèles de langue masqués pour le domaine de la santé ([DrBERT](https://drbert.univ-avignon.fr)) ainsi que sur les grands modèles de langue (Large Language Models - LLM) avec le [projet ANR MALADES](https://www.univ-nantes.fr/universite/vision-strategie-et-grands-projets/malades-grands-modeles-de-langue-adaptables-et-souverains-pour-le-domaine-medical-francais) dont je suis le porteur. De façon plus large, je participe activement aux projets ANR MALADES, DIETS et Lexhnology, ainsi que le projet CNRS-AID Naviterm. ### Maître de Conférences au [LIA](http://lia.univ-avignon.fr) (2012-2021) De septembre 2012 au 1er septembre 2021, j'ai été maître de conférences au sein du Laboratoire Informatique d'Avignon (LIA). Mon profil initial, plutôt orienté vers la reconnaissance de la parole et l'extraction d'information dans les flux audio, évolue, d'une manière plus globale, vers le traitement automatique du langage. Mes centres d'intérêts actuels sont ainsi concentrés sur la reconnaissance de la parole, et notamment l'intégration de la théorie des possibilités (thèse de K. Janod) dans ces problématiques (mesures de confiance, modèles acoustiques...), sur la compréhension et l'indexation de la parole dans un contexte multimédia (projets ANR SuMACC, ContNomina, Percol… et thèse de M. Morchid), la délinéarisation de flux vidéos (thèse de M. Bouaziz), ou encore l'extraction d'information dans les réseaux sociaux (travaux autour de Twitter durant la campagne d'évaluation RepLab, ainsi que des travaux de thèse avec M. Morchid sur la caractérisation du phénomène de retweet). Je suis également impliqué dans différentes projets financés par l'Agence Nationale de la Recherche (ANR) ainsi que dans différentes campagnes d'évaluation. ### Post-Doctorat à [Orange Labs](https://www.orange.com/) (2011-2012) De juin 2011 à juin 2012, j'ai été post-doctorant au sein de l'entreprise Orange Labs, à Lannion. J'ai travaillé principalement sur la détection, la caractérisation et la correction d'erreurs dans les transcriptions automatiques. L'objectif de ces travaux de recherche était de retrouver les régions d'erreurs (erreurs consécutives) des transcriptions en sortie des systèmes de reconnaissance de la parole ainsi que de les catégoriser afin de mieux comprendre la nature de l'erreur. Ainsi, la nature de ces erreurs peut être diverse : erreurs de noms de personnes, de noms propres, ou encore dues au phénomène de l'homophonie. Dans la continuité de ces travaux de détection, nos travaux se sont orientés ensuite vers la correction des erreurs de noms de personnes dans les transcriptions automatiques, avec un lien direct avec le défi REPERE. Les erreurs sur ces noms ont un impact direct, par exemple, dans une problématique d'indexation des documents. Nous avons donc cherché à les corriger automatiquement en utilisant la détection des régions d'erreurs précédemment proposée. Nous avons appliqué une technique de correction au niveau phonétique. En effet, les mots mal transcrits fournis par un système de transcription peuvent être très proches phonétiquement du nom des personnes que nous devions retrouver. Le principe de cette approche est de comparer la séquence phonétique de la région d'erreurs avec l'ensemble des séquences phonétiques des noms de personnes contenues dans un dictionnaire. Le nom de personnes le plus proche de la séquence phonétique de la région d'erreurs est alors choisi comme correction. Par exemple, le nom Sébastien Chabal ("s ei b a s t i in ch a b a l") est le plus proche phonétiquement de la région d'erreurs avec la séquence phonétique "s ei b a t i in ch a r a d e" (c'est bah tiens charade). ### Séjour de Recherche à [M\*Modal 3M](https://www.3m.com/3M/en_US/health-information-systems-us/create-time-to-care/clinician-solutions/speech-recognition/fluency-direct/) (2010) J'ai eu l'occasion d'effectuer un séjour de recherche de 4 mois (juin à octobre 2010) dans l'entreprise M\*Modal à Pittsburgh (Etats-Unis). Cette entreprise a pour activité principale la transcription parfaite de rapports médicaux. Mon travail s'est porté sur la problématique de la phonétisation automatique des mots du dictionnaire de prononciation du système de transcription de l'entreprise. Un des enjeux a été de proposer des mesures de confiance pour chaque phonétisation automatique proposée par l'outil de Grapheme-To-Phoneme. Cette mesure de confiance a pour utilité principale de guider les corrections manuelles de ces phonétisations : les correcteurs humains se focalisent en priorité sur les mots étant très mal phonétisés automatiquement (mesure de confiance faible). Dans la continuité de ces travaux, j'ai également proposé une solution permettant de choisir automatiquement la ou les meilleures prononciations automatiques d'un mot en s'aidant des documents audio. ### Attaché Temporaire de Recherche au [LIUM](http://lium.univ-lemans.fr) (2010-2011) D'octobre 2010 à juin 2011, j'ai été Attaché Temporaire d'Enseignement et de Recherche (ATER) à mi-temps au Laboratoire d'Informatique de le Mans Université (LIUM). J'ai notamment étudié la possibilité d'appliquer le détecteur de type de parole afin de caractériser les documents multimédias, particulièrement sur la problématique de la reconnaissance des rôles de locuteurs. Les premiers travaux réalisés ont cherché à mettre en lumière le lien existant entre la spontanéité de la parole et le rôle d'un locuteur dans une émission. Pour ce faire, une étude précise a été menée afin de quantifier un type de parole par rapport à un rôle de locuteur ou à un type d'émission. En effet, nous voulions vérifier expérimentalement, par exemple, qu'un journaliste tend à préparer son discours, alors qu'une personne interviewée aurait tendance à avoir un discours moins structuré et moins fluide, donc une parole plus spontanée. Pour mener à bien cette étude, un corpus de 100 heures d'émissions radiophoniques, annoté manuellement en rôles de locuteurs et types d'émissions, a été utilisé (corpus fourni dans la cadre du projet EPAC), sur lequel j'ai appliqué le détecteur de type de parole développé durant ma thèse. La seconde partie de mes travaux a alors cherché à reconnaître automatiquement le rôle des locuteurs dans des émissions radiophoniques avec l'utilisation des caractéristiques issues de mes travaux sur la détection de la parole spontanée. Nous voulions donc démontrer qu'il était possible de proposer un système de détection de rôles alternatif à ceux existants en nous appuyant sur notre système de détection du type de parole. Les résultats obtenus ont permis de montrer qu'une reconnaissance des rôles était possible au moyen de cette approche : 74,4% des locuteurs ont été associés avec leur rôle correct. ### Doctorat en Informatique (2007-2010) #### Transcription automatique de la parole spontanée Soutenue le 1er décembre 2010 à Le Mans Université. Manuscrit disponible en ligne : <https://tel.archives-ouvertes.fr/tel-00595465/document> *Composition du Jury :* *Présidente* Martine ADDA-DECKER (LPP/CNRS - Université de Paris 3) *Rapporteurs* Guillaume GRAVIER (IRISA/CNRS - Université de Rennes 1) Denis JOUVET (LORIA/INRIA - Université de Nancy) *Directeurs* Paul DELÉGLISE (LIUM - Le Mans Université) Yannick ESTÈVE (LIUM - Le Mans Université) #### Résumé de thèse Les systèmes de Reconnaissance Automatique de la Parole (RAP) atteignent actuellement des performances suffisantes pour être intégrés dans diverses applications (dialogue homme-machine, recherche d'information, indexation automatique...). Cependant, dans le cadre de la reconnaissance automatique de la parole continue à grand vocabulaire, que l'on utilise par exemple pour transcrire des émissions radiophoniques d'information, la qualité des transcriptions varie selon le type de parole contenu dans les documents. En effet, les systèmes de RAP ont beaucoup plus de facilité à transcrire de la parole préparée, proche d'un texte lu, que de la parole spontanée, caractérisée par de nombreuses spécificités (disfluences, agrammaticalité, baisse de la fluidité de la parole...). Le travail de cette thèse vise le traitement de la parole spontanée et s'inscrit dans le cadre du projet EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la PArole Conversationnelle). L'objectif principal est de proposer des solutions pour améliorer les performances des systèmes de RAP sur ce type de parole. Nous avons choisi d'aborder, dans notre travail, la parole spontanée en tant qu'objet d'étude particulier nécessitant des traitements spécifiques. Ainsi, dans un premier temps, nous proposons un outil de détection automatique de la parole spontanée, basé sur les spécificités de ce type de parole. Cet outil est très important puisqu'il nous permet, dans un deuxième temps, de proposer une approche non-supervisée d'adaptation des modèles acoustiques et des modèles de langage du système de RAP à la parole spontanée, en sélectionnant automatiquement les segments contenant ce type de parole. La transcription résultant de cette adaptation propose des hypothèses de reconnaissance différentes de celles fournies par le système de base. La combinaison de ces deux propositions de transcription permet d'observer une réduction significative du taux d'erreur-mot. Ce besoin de solutions spécifiques a finalement orienté une partie de notre travail vers la correction d'un problème particulièrement présent en français : l'homophonie. Nous cherchons alors à corriger les transcriptions, fournies par un système de RAP, au moyen d'une méthode proposant des solutions spécifiques à certains problèmes particuliers de l'homophonie. L'approche se focalise sur la correction de certaines erreurs, auxquelles une solution particulière est proposée. Cette méthode, en post-traitement des systèmes de RAP, corrige certains mots et classes de mots homophones, indépendamment du système de RAP utilisé. ### Habilitation à Diriger des Recherches - HDR (2020) #### Traitement automatique du langage : Études et apports aux frontières de l’interdisciplinarité Soutenue le 8 décembre 2020 à Avignon Université. Manuscrit disponible en ligne : <https://hal.science/tel-03076867/document> *Composition du Jury :* *Rapporteurs* Philippe LANGLAIS (DIRO - Université de Montréal) Sophie ROSSET (LIMSI - Université Paris-Saclay) Pascale SEBILLOT (IRISA - Université de Rennes 1) *Examinateurs* Jean-François BONASTRE (LIA - Avignon Université) Yannick ESTEVE (LIA - Avignon Université) Emmanuel ETHIS (INSEAC, CNAM - Guingamp) Georges LINARES (LIA - Avignon Université) Emmanuel MORIN (LS2N - Université de Nantes) #### Résumé HDR Le traitement automatique du langage naturel (TALN) est un vaste domaine de recherche intégrant de nombreuses thématiques scientifiques (reconnaissance automatique de la parole, indexation automatique de documents, traduction automatique, synthèse vocale...). Grâce aux avancées obtenues au fil des dernières décennies dans chacune de ces thématiques, de nombreux outils et services ont pris vie hors des laboratoires de recherche pour atteindre le tissu socio-économique, et plus généralement le grand public, avec en fer de lance les assistants vocaux intelligents. Malgré ces grandes avancées, le TALN reste un domaine de recherche très actif, avec de nombreuses problématiques scientifiques ouvertes, considérant le fait que le langage, tout comme les usages de la société, ne sont pas figés mais en constante évolution. Ce manuscrit propose un panorama des différents travaux de recherche auxquels j'ai pu participer ces dernières années, principalement en tant que maître de conférences au LIA, mettant alors en perspective l'évolution de mes travaux, qui m'ont conduit à travailler en collaboration avec d'autres disciplines scientifiques pour l'avancée du domaine du TALN. Ces derniers travaux sont notamment au centre de mes perspectives de recherche. La première partie du manuscrit est consacrée à une des problématiques historiques, à savoir la représentation du contenu écrit et parlé. Nous présentons nos travaux sur la robustesse des représentations face au langage, en prenant en considération le contexte des documents, ainsi que l'utilisation et la proposition de représentations latentes pour la classification de documents. Nous voyons ensuite, dans la deuxième partie, certains des travaux que nous avons menés sur la performance et l'évaluation en traitement du langage, allant de l'analyse et la caractérisation des erreurs de reconnaissance automatique de la parole, à leur correction. La troisième partie montre l'évolution de mes activités de recherche, qui se sont alors orientées vers des problématiques interdisciplinaires pour le traitement du langage, avec nos travaux sur l'exploration des réseaux sociaux pour l'analyse d'événements, la détection de messages abusifs, et enfin le doublage vocal et la recommandation de voix. La dernière partie résume mes activités de recherche, précisant les projets dans lesquels je me suis intégré, les différents encadrements d'étudiants auxquels j'ai pu participer, et mon implication dans le rayonnement et la vulgarisation scientifiques. Enfin, je termine ce manuscrit par une synthèse de ces différents travaux, me permettant de dresser une esquisse des activités de recherche futures dans lesquelles je souhaite m'impliquer à court, mais également à long terme, s'orientant assez largement vers des travaux interdisciplinaires.
### Speech and Language processing #### [Computer Science Lab of Avignon (LIA)](http://lia.univ-avignon.fr) - [SLG team](https://lia.univ-avignon.fr/thematiques-langage/) - [Avignon University](http://univ-avignon.fr) #### [Computer Science Lab of Nantes (LS2N)](http://ls2n.fr) - [NLP/TALN team](http://taln.ls2n.fr) - [Nantes Université](http://univ-nantes.fr) --- ### Research topics - Natural language processing - Language Modeling - Social network analysis - Speech recognition ### Summary My research work began in automatic speech recognition (ASR), in particular on the processing of spontaneous speech. This theme is found in the ANR EPAC project, where my work led me to take an interest in adapting ASR models. I was also able to work on information extraction through the ASR systems, which can be found in the ANR EPAC project, for the detection of spontaneous speech, but also in the ANR PERCOL project, for recognition and correction of proper names. The spectrum of my research topics then widened on both written and spoken documents, with, as a central point, the problem of the representation of words contained in documents with a view to their use for other tasks. My work then led me to work on document representations of a higher level than the simple word level, which can be found in particular in the ANR SuMACC project. Taking into account the temporal aspect of words and documents has also been part of my scientific orientations, which can be found in the ANR ContNomina project. The issues in language processing, integrating a strong interdisciplinarity, have taken an increasingly important place in the research work in which I have been involved for several years (GaFes, TheVoice and RePoGa projects). In particular, these have given rise to original evaluation issues, requiring the setting up of often non-existent experimental frameworks (manager of the ANR DIETS project). We therefore worked on the proposal of new working frameworks in which the human sciences dimension was an important issue, also allowing us to offer original approaches such as for example for the exploration of digital social networks or the study of the played voice. ### Academic and scientific responsibilities - Since November 2022: Member of the Scientific Council of [FAISTOS Cluster](https://next-isite.fr/faistos/). - Since January 2022: Co-Head of the [NLP (Natural Language Processing) team](http://taln.ls2n.fr) with Florian Boudin. - April 2020-September 2021: Coordinator of the Language and Cognition scientific axis of the Carnot Cognition Institute. Co-coordination with Nuria Gala (50%). - January 2020-September 2021: Head of the Computer Science Master's degree in Digital Society Software Engineering (ILSEN) at Avignon University. - September 2012-September 2021: Head of Communication for the Center for Education and Research in Computer Science (CERI) at Avignon University. ### Projects, partners and evaluation campaigns #### Responsible of a financed project - 2023-2027: [ANR MALADES](https://www.univ-nantes.fr/universite/vision-strategie-et-grands-projets/malades-adaptable-and-sovereign-large-language-models-for-the-french-medical-domain) : Adaptable and sovereign large language models (LLM) for the French medical field. Partners: Health data warehouse (Nantes Hospital), LIA (Avignon University), LIS (Aix-Marseille University). - 2021-2024: [ANR DIETS](https://anr-diets.univ-avignon.fr): Automatic diagnosis of errors of end-to-end speech transcription systems from users perspective. Experts involved: Jane Wottawa - LIUM (Le Mans University), Arnaud Rey - LPC (Aix-Marseille University), Yannick Estève and Mickaël Rouvier - LIA (Avignon University). #### Participation in financed projects - 2023-2027 : [CNRS-AID Naviterm](https://cnrs-naviterm.github.io) : Terminological navigation for rapid and personalized skill development in a research area. - 2023-2027 : [ANR Lexhnology](https://lexhnology.hypotheses.org) : Linguistic and computational modeling of the discursive structure of legal texts applied to language learning. Partners: CRINI (Nantes University), ATILF (University of Lorraine), LAIRDIL (University of Toulouse). - 2018-2021: ANR The Voice: Study of dubbing voices. Partners: IRCAM, Dubbing Brothers. - 2015-2018: ANR GaFes: Study of uses via data collected on the Internet and re-editorialization of content captured or produced by Internet users. Partners: Centre Norbert Elias, Syllabs, GECE. - 2013-2017: ANR ContNomina: Identification of multimedia concepts. Partners: Eurecom, Syllabs, Wikio. - 2013-2014: ANR SuMACC: Identification de concepts multimédias par patrons de collaboration. Partenaires : Eurecom, Syllabs, Wikio. - 2012-2014: ANR PERCOL: Person identification in audiovisual streams. Partners: Orange Labs, LIF (Aix-Marseille University), LILF (University of Lille). - 2007-2010: ANR EPAC: Automatic transcription of spontaneous speech. Partners: LIUM (Le Mans University), IRIT (University of Toulouse), LI (University of Tours), LIA (University of Avignon). #### Industrial collaborations - Orkis: Ph.D. thesis of Killian Janod. - Aday (formerly Européenne des Données (EDD)): Ph.D. thesis of Mohamed Bouaziz. - Zenidoc: Master in computer science of Yanis Labrak. #### Evaluation campaigns participation - 2022 : [BioCreative VII LitCovid Track](https://biocreative.bioinformatics.udel.edu/tasks/biocreative-vii/track-5/) - 2022 : [DEFT'22 (Défi Fouille de Textes](https://deft.lisn.upsaclay.fr/2022/) - 2018 : [MC2 Miltilingual cultural mining and retrieval](https://termwatch.es/talne/spip/?debut_articles=10) - 2016: [DSTC 5](http://workshop.colips.org/dstc5/) - 2014: [IWSLT'14](http://workshop2014.iwslt.org/) - 2013-2014: [REPERE](http://www.defi-repere.fr/index.php?id=7&L=1) - 2013: [DEFT'13 (Défi Fouille de Textes)](http://deft.limsi.fr/2013/index.php?id=1&lang=en) - 2013: [RepLabs'13](http://www.limosine-project.eu/events/replab2013) - 2013: [MediaEval'13](http://www.multimediaeval.org/mediaeval2013/) ### Scientific supervision #### Current Ph.D. thesis students - **Julien Aubert-Béduchaud** (2023-...). Information extraction for accessing scientific knowledge. Co-supervised with Florian Boudin (40%) et Béatrice Daille (30%) - **Xavier Pillet** (2023-...). The numerical sobriety of models in Natural Language Processing: compromise between performance and resources. Co-supervised with Anastasia Volkova (50%) - **Léane Jourdan** (2022-...). Neural approches for modeling and analyzing the argumentative structure of research articles. Co-supervised with Nicolas Hernandez (40%) and Florian Boudin (30%) - **Yanis Labrak** (2022-...). Speech processing for medical domain. Co-supervised with Mickaël Rouvier (50%) - **Thibault Bañeras Roux** (2021-...). Automatic analysis of errors in automatic speech recognition systems from end-users reception. ANR DIETS Project. Co-supervised with Jane Wottawa (33%) and Mickaël Rouvier (33%) - **Arthur Amalvy** (2021-...). Language processing and relationship modeling for the unified representation of narrative documents. Co-supervised with Vincent Labatut (50%) #### Past Ph.D. thesis students - **Noé Cécillon** (2019-2023). Combination of content and structure by representation learning: application to the analysis of textual documents. Co-supervised with Vincent Labatut (50%) - **Mathias Quillot** (2018-2022). A first step towards the characterization of the information conveyed by acted voices. Co-supervised with Jean-François Bonastre (50%) - **Adrien Gresse** (2015-2020). The art of the voice: characterizing the vocal information in an artistic choice. Co-supervised with Vincent Labatut (30%) and Jean-François Bonastre (40 %) - **Mohamed Bouaziz** (2013-2017). Recurrent neural networks for sequence classification in parallel audiovisual streams. Co-supervised with Mohamed Morchid (30%) and Georges Linarès (40 %) - **Killian Janod** (2013-2017). The representation of documents by neural networks for the comprehension of spoken documents. Co-supervised with Mohamed Morchid (30%) and Georges Linarès (40 %) - **Mohamed Morchid** (2011-2014). Robust representations of noisy documents in homogeneous spaces. Co-supervised with Georges Linarès (50 %) #### Master Interns - **Mohammed Hmitouch** - Master 2 (6 month - February to July 2024). Semi-supervised approaches for retrieving social determinants of health in a hospital data warehouse. Co-encadrement avec Pacôme Constant dit Beaufils (50 %), Nantes Hospital - **Mamadou Ciré Diallo** - Master 2 (6 months - February to July 2023). Porting and adaptation of open language models on a support application for the organization of multilingual conferences. Co-supervised with Colin de la Higuera (50%) - **Rima Boubekeur** - Master 2 (5 months - March to July 2022). Automatic generation of hashtags for short text messages from Twitter. Co-supervised with Florian Boudin (50%) - **Quentin Raymondaud** - Master 2 (2021-2022). Explainability of deep neural networks in speech processing. Co-supervised with Mickaël Rouvier (50%) - **Yanis Labrak** - Master 1 and 2 (2020-2022). Language processing for the analysis of medical reports. Work carried out within the framework of industrial collaboration with the company Zenidoc. - **Louis Aracil** - Master 1 (2020-2021). Tools for the analysis of the e-reputation of hotels. Co-supervised with Yannick Estève (50%). Work carried out as part of the industrial collaboration with the company Aha Concepts at Home Abroad. - **Noé Cécillon** - Master 2 (6 months - February to August 2019). Exploring characteristics of graph embeddings for the detection of abusive messages. Co-supervised with Vincent Labatut (50 %) - **Adrien Gresse** - Master 2 (6 months - February to August 2015). Recommendation of movie music. Co-supervised with Georges Linarès (50 %) - **Mathias Quillot** - Master 2 (Alternating student 2015-2017). Conception and realization of the observatory of festivals as part of the ANR project GaFes. Co-supervised with Georges Linarès (50 %) - **Mathias Quillot** - Licence 2 et 3 (3 months - 2014/2015). Demonstrator for the project ANR ContNomina. Co-supervised with Georges Linarès (50 %) ### Open source tools - **[DrBERT](https://huggingface.co/Dr-BERT/DrBERT-7GB)** (by [Yanis Labrak](/search/index/q/*/authIdHal_s/yanis-labrak), [Adrien Bazoge](https://www.univ-nantes.fr/adrien-bazoge) et al.) : A robust pre-trained language model in French for biomedical and clinical domains. [https://drbert.univ-avignon.fr](https://drbert.univ-avignon.fr) - **[Alert](https://github.com/CompNet/Alert)** (by [Noé Cécillon](https://cv.archives-ouvertes.fr/noe-cecillon?langChosen=fr)): a tool for the detection of abusive messages in online conversations using characteristics related to the content and the conversational graph. - [**POET**](https://huggingface.co/qanastek/pos-french) (by [Yanis Labrak](/search/index/q/*/authIdHal_s/yanis-labrak)): an extended POS tagging tool for French. [Available demo](https://huggingface.co/spaces/qanastek/French-Part-Of-Speech-Tagging). ### Open corpus - **[ANTILLES](https://github.com/qanastek/ANTILLES)** (by [Yanis Labrak](/search/index/q/*/authIdHal_s/yanis-labrak)): an open French linguistically enriched part-of-speech corpus based on [UD\_French-GSD](https://universaldependencies.org/treebanks/fr_gsd/index.html). - **[WAC](https://github.com/CompNet/WikiSynch)** (by [Noé Cécillon](https://cv.archives-ouvertes.fr/noe-cecillon?langChosen=fr)): a Wikipedia conversation corpus for detecting abusive messages in conversations. ### Full professor at LS2N - NLP/TALN team - Nantes University (since 2021) ### Associate professor at LIA - Avignon University (2012-2021) From September 2012 to September 2021, I am an associate professor at the Computer Science Laboratory of Avignon (LIA) in France. My research interests include automatic speech recognition, natural language processing and information extraction. I am particularly interested in issues related to the automatic recognition of person names in speech transcriptions and their diachronic aspect, as well as the problematic of the evaluation of speech recognition system performance in an application context. I am also involved in various projects funded by the French National Research Agency (ANR) and in different evaluation campaigns. ### Post-doctoral researcher at [Orange Labs](https://www.orange.com/) (2011-2012) From June 2011 to June 2012, I was a post-doctoral research at Orange Labs in Lannion (France). I mainly worked on the detection, characterization and correction of speech recognition errors. The objective of this research was to find the error regions (i.e. consecutive errors) contained in automatic transcriptions, and then to categorize them in order to better understand the nature of the error. Thus, the nature of these errors can be various: errors on person names, proper names, or due to the phenomenon of homophony. In the continuity of these works around error detection, we proposed a solution to correct these person name errors in the automatic transcriptions. This work has a direct link with the project défi REPERE. Errors on these person names could have a direct impact, for example, in the context of document indexing. We chose to automatically correct these errors using the error region detection previously described. We applied a correction approach at the phonetic level. Indeed, the wrongly transcribed words could be very phonetically closed to the person name that should be initially found. We propose a solution that compares the phonetic sequence of a targeted error region with all the phonetic sequences of person names contained in a dictionary. The person name with the closest phonetic sequence is chosen as the correction. For example, the person name Sébastien Chabal ("s ei b a s t i in ch a b a l") has the closest phonetic sequence to the error region "s ei b a t i in ch a r a d e" (c'est bah tiens charade). ### Research intern at [M\*Modal 3M](https://www.3m.com/3M/en_US/health-information-systems-us/create-time-to-care/clinician-solutions/speech-recognition/fluency-direct/) (2010) I had the opportunity to do a 4-month research internship (June to October 2010) at M\*Modal in Pittsburgh (USA). The major activity of this company is to provide a perfect transcription of medical reports. I mainly worked on the problematic of the automatic word phonetization contained in the dictionary of the company multilingual ASR system. I proposed a strategy to estimate confidence measures for each automatic phonetization proposed by the Grapheme-To-Phoneme tool. This confidence score has for objective to guide the manual correction of these automatic phonetizations: the human correctors focus in priority on the words having a very bad automatic phonetization (low confidence score). I also proposed a solution that allows to automatically choose the n-best automatic pronunciations of a word using audio documents. ### Assistant professor at LIUM (2010-2011) From October 2010 to June 2011, I was an assistant professor at the Computer Science Laboratory (LIUM) of the University of Le Mans (France). I mainly worked on the possibility to apply the automatic spontaneous speech detection system, proposed during my Ph.D. thesis, to characterize multimedia documents, and particularly for the speaker role recognition problem. The initial study seek to highlight the link between speech spontaneity and the role of a speaker in a show. Indeed, out initial intuition was that, for example, a journalist has a tendency to prepare his discourse, while an interviewee should mainly have a less structured and fluent talk (and so a more prepared speech). For this study, we used a 100-hours radio broadcast corpus which was manually annotated in speaker roles and type of shows (corpus made in the context of the EPAC project). I then applied the automatic type of speech detection system proposed during my Ph.D. thesis. The second part of my part concerned the automatic recognition of speaker roles in radio broadcast shows using the features already extracted to detect spontaneous speech. We wanted to demonstrate that it was possible to obtain an alternative speaker role recognition system to those already proposed using our type of speech detection system. Results obtained showed that a speaker role recognition was possible with this approach: 74.4% of the speakers have been associated with their correct role. ### Ph.D. in Computer science at LIUM (2007-2010) #### Automatic transcription of spontaneous speech Defended the 1st December 2010 at University of Le Mans (France). Thesis manuscript is available inline (in French) : <https://tel.archives-ouvertes.fr/tel-00595465/document> *Thesis committee:* *President* Martine ADDA-DECKER (LPP/CNRS - Université de Paris 3) *Members* Guillaume GRAVIER (IRISA/CNRS - Université de Rennes 1) Denis JOUVET (LORIA/INRIA - Université de Nancy) *Advisors* Paul DELÉGLISE (LIUM - Université du Maine) Yannick ESTÈVE (LIUM - Université du Maine) #### Thesis abstract Automatic speech recognition (ASR) systems already reach a sufficient level of performance to be integrated in various applications (human-machine dialogue, information extraction, automatic indexing…). Nonetheless, in the context of large vocabulary continuous speech recognition (LVCSR), the transcription quality may vary depending the type of speech used in the documents. Indeed, ASR systems are performant when dealing with prepared speech, close to a text read, while the have much more difficulty when transcribing spontaneous speech, characterized by various specificities (disfluencies, ungrammaticality, decreased speech fluency…). The work of this thesis concerns the treatment of spontaneous speech, which takes part in the EPAC project context. The main objective is to propose ways to improve the performance of ASR systems on this type of speech. In our work, we chose to address spontaneous speech as a special study object requiring specific treatments. Thus, in a first step, we propose a tool to automatically detect spontaneous speech, based on this type of speech specificities. This proposed system is very important because it allows us, in a second step, to propose a semi-supervised adaptation of acoustic and language models of the ASR system approach to spontaneous speech. Transcriptions resulting from this adaptation offer recognition hypotheses different from those provided by the "classic" system. A significant reduction in terms of word error rate has been observed using the combination of the two systems (classic and adapted). The need for specific solutions finally oriented part of our work toward correcting a particularly linguistic problem: the homophony. We then seek to correct the transcripts provided by an ASR system, using a method offering specific solutions to specific homophony problems. The proposed method, in a post-processing step, corrects some homophonic word errors, regardless of the ASR system used. ### Hability to supervise researches (French diploma) - HDR (2020) #### Natual Language Processing: Studies and contributions at the frontiers of interdisciplinarity *HDR committee:* Jean-François BONASTRE (LIA - Avignon University) Yannick ESTEVE (LIA - Avignon University) Emmanuel ETHIS (INSEAC, CNAM - Guingamp) Philippe LANGLAIS (DIRO - University of Montreal) Georges LINARES (LIA - Avignon University) Emmanuel MORIN (LS2N - University of Nantes) Sophie ROSSET (LIMSI - University Paris-Saclay) Pascale SEBILLOT (IRISA - University of Rennes 1) #### Abstract Natural language processing (NLP) is a vast field of research integrating many scientific themes (automatic speech recognition, automatic document indexing, machine translation, speech synthesis, etc.). This manuscript offers an overview of the various research works in which I have been able to participate in recent years, putting into perspective the evolution of my work, which has led me to work in collaboration with other scientific disciplines for the advancement of the NLP domain. The first part of the manuscript is devoted to one of the historical issues, namely the representation of written and spoken content. We then see, in the second part, some of the works we have carried out on performance and evaluation in language processing, ranging from the analysis and characterization of automatic speech recognition errors, to their correction. The third part shows the evolution of my research activities, which then turned towards interdisciplinary issues for language processing, with our work on the exploration of social networks for the analysis of events, the detection of abusive messages, and finally voice dubbing and voice recommendation. This last work has notably enabled collaborations with researchers in sociology, as well as in complex networks.

Publications

adrien-gresse
1072643
Image document

La voix actée : pratiques, enjeux, applications

Mathias Quillot , Lauriane Guillou , Adrien Gresse , Rafaël Ferro , Raphaël Röth
6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.525-533
Communication dans un congrès hal-02798582v3