Production year

Researcher identifiers

  • IdHAL : servan
Number of documents

1

Christophe Servan


Qui suis-je ?

Chercheur en Traitement Automatique des Langues (NLP) chez Qwant Research, le moteur de recherche français et européen, mes principaux centres d’intérêt en recherche sont la Traduction Automatique Statistique (TAS) de la Parole, le Traitement Automatique des Langues Naturelles (TALN), l’Apprentissage Automatique appliqué au TALN.

Je m'intéresse à la traduction de la parole et plus particulièrement aux méthodes d'apprentissage automatique et aux méthodes d'évaluations pour la traduction de la parole.

Actuellement, mes recherches se concentrent sur l’utilisation des modèles fondés sur l'apprentissage profond (Deep Learning) et plus particulièrement l'utilisation des représentations distribuées de mots (Word Embeddings) pour le TALN. 

 

Short Bio

J’ai obtenu un Master (2005) puis un Doctorat (2008) en informatique, spécialité Traitement Automatique de la Langue Naturelle Écrite et Orale à l’Université d’Avignon. J’ai travaillé 1 an, en 2009, au CEA-LIST en tant que chercheur sur le TALN en général. En 2010, j’ai été recruté 3 ans comme chercheur post-doctorant en Traduction Automatique Statistique (TAS) à l’Université du Maine (Le Mans) dans l’équipe Speech and Language Technology. J’ai poursuivi mes recherches en TAS sur l’adaptation au domaine en 2013 au Xerox Research Centre Europe comme Research Scientist, dans un cadre international (la langue de travail au XRCE étant l'Anglais) pour rejoindre en 2015, j’ai le GETALP à l'université de Grenoble. Après 18 mois chez Systran en 2016, j'ai rejoins Qwant Research en septembre 2018 pour continuer mes recherches sur les réseaux de neurones profonds et partager mon expérience en apprentissage automatique pour le TALN dans un cadre dynamique et applicatif. 

 

Recherche

Thématiques de Recherche  

  • Traduction Automatique Statistique (SMT) de la Parole et du texte
  • Compréhension de la langue écrite et de la parole (NLU/SLU)
  • Apprentissage Automatique pour le TAP et le TALN (ML4ASR & NLP)
  • Reconnaissance Automatique de la Parole (ASR)
  • Traitement Automatique des Langues Naturelles (NLP)
  • Méthodes d'évaluations
  • Mesures de Confiance (Confidence Estimation)
  • Adaptation au Domaine
  • Réseaux de Neurones Profonds (DNN) 
  • Représentation de mots dans un espace continu (word embeddings)

Traduction Automatique Statistique de la parole et du texte

  • Génération automatique de paire de segments. Utilisant une terminologie spécifique, j’ai proposé de l’insérer dans le modèle de traduction en y ajoutant un contexte. Ce contexte est extrapolé à partir des données existantes dans le modèle de traduction. Travaux effectués dans le cadre du projet européen TransLectures.
  • Adaptation au domaine/document. À travers différentes approches classiques, j’ai étudié la possibilité d’adapter les modèles de traduction et de language dans le cadre de la traduction d’un document écrit ou oral. Travaux eectués dans le cadre des projets européens MateCAT & TransLectures.
  • Mise-à-jour automatique de modèles de traduction. Dans le cadre d’une traduction assistée par ordinateur, j’ai exploré une approche permettant la mise-à-jour du modèle de traduction à partir de données post-éditée par des traducteurs professionels. Travaux eectués dans le cadre du projet européen MateCAT.
  • Alignement d’expressions idiomatiques et de mots composés. Utilisation de la combinaisons de l’analyse syntaxique, d’informations lexicales et d’approche statistique an d’améliorer les dictionnaires bilingues. Eectué dans le cadre du projet ANR WebCrossling.

Apprentissage Automatique pour le TALN 

  • Réseaux de Neurones Profond pour la TAS. J’explore différentes méthodes pour l’estimation de scores de confiance à travers les Réseaux de Neurones Profonds. Ces travaux font suite à mes recherches sur la mise-à-jour des modèles de traduction.
  • Estimation de paramètres avec le Modèle Transférable de Croyance. J’ai exploré une méthode originale d’estimation de paramètres du modèle de traduction. Je m’intéresse aux différentes méthodes permettant l’amélioration des modèles de traduction.
  • Optimisation Multi-Critère. Utilisation de différentes métriques en même temps lors du processus d’optimisation de poids de paramètres d’un système de traduction statistique. Effectué dans le cadre du projet de la DARPA, GALE.

Compréhension de la parole et systèmes de dialogues 

  • Thèse de Doctorat : Apprentissage Automatique et Compréhension de la Parole dans le cadre d’un Dialogue Homme-Machine Téléphonique à Initiative Mixte. J’ai exploré la problématique de la compréhension de la parole à travers des approches statistiques dans le contexte d’un dialogue puis de coupler plus efficacement la compréhension et la transcription de la parole dans le cadre d’une réservation d’hôtel. Financé par le projet Technolangue/Evalda/MEDIA.
  • Génération de réponse pour un système de dialogue. Utilisant un analyseur morpho-syntaxique profond, j’ai proposé une approche permettant l’extraction de patrons contenant des informations syntaxiques pour la génération de texte.
  • Compréhension de la parole multilingue. Coupler la compréhension de la parole et la traduction automatique statistique dans le cadre du projet Européen EU LUNA.
  • Classication et routage d’appel téléphonique. Etude d’un prototypage rapide d’un système de classication et de routage d’appel combinant des approches issues de la compréhension de la parole et de l’adaptation au domaine. Effectué dans lecadre d’une étude pour le département de Vaucluse, transposition du site Vos droits et démarches .
  • Consultant expert en Systèmes de Dialogue. Lors d'un projet interne chez Xerox, j'ai conseillé les chercheurs et les responsables de projets sur le prototypage et la réalisation de systèmes de dialogues. Cela inclu un Etat de l'Art et une étude approfondie des débouchés de ce type de système.

 

Responsabilités

Dans les plupart des projets auxquels j'ai participé, mon implication s'est matérialisée par une participation active à :

  • des réunions de travail avec les membres des consortium,
  • de communications vers les instances de contrôle (principalement présentations & rédaction de workpackage)
  • de la proposition de projets
  • des travaux collaboratifs, j'ai notamment initié deux articles communs entre plusieurs partenaires d'un consortium pour les pojets TransLectures et MateCAT. Ce dernier article a été réécrit pour pour être publié en revue.

Participation aux projets

En outre, j'ai été responsable de workpackages dans les projets :

  • OpenNMT (Systran)
  • PAPYRUS (DGA)
  • KEHATH (ANR)
  • TransLectures (EU)
  • MateCAT (EU)
  • PEA TRAD (DGA)
  • Technolangue/Evalda/Media

et participé aux projets :

  • DARPA GALE (DARPA - USA)
  • EuroMatrixPlus (EU)
  • WebCrossLing (ANR) 
  • LUNA (EU)

Encadrement 

J'encadre des étudiants en stage de Master, mais également ponctuellement, des étudiants en thèse (pour un projet ou une publication). Actuellement, j'oriente les travaux de recherche de Tien LE ainsi que deux étudiants de Master 2 Recherche au LIG (GETALP).

 

Outils

  • METEOR-E : une extention de la métrique METEOR incluant les Word Embeddings (https://github.com/cservan/METEOR-E)
  • LIG-WCE : J'ai suppervisé la finalisation et le packaging de l'outil pour les mesures de confiance du GETALP  du LIG (https://github.com/besacier/WCE-LIG)
  • TERcpp : un outil pour mesurer le score de Translation Edit Rate (TER) en C++ pour la TAS. Il est utilisé dans Moses et dans Travatar (https://github.com/cservan/tercpp)
  • TERcpp-E : extention de TERcpp utilisant les Word Embeddings permettant également d'estimer un WER augmenté avec les Embeddings, WER-E (https://github.com/cservan/tercpp-embeddings)
  • Simple Similarity : Un outil de recherche d’information pour faire un simple tf-idf ou, au choix, une mesure bm25 afin de mesurer la distance en deux documents ou phrase avec la mesure cosine, qui peut être combinée à une option de vectorisation. Codé en C++ (https://sourceforge.net/projects/cpp-similarity/)
  • Faisant partie de l’équipe de développeur de Moses, ma principale contribution est la mise en place de la première version d’optimisation de poids de paramètres multi-critère (à l’aide de plusieurs métriques en même temps) (https://github.com/moses-smt/mosesdecoder)

 

Publications


Driss Matrouf   

Conference papers1 document

  • Loïc Barrault, Christophe Servan, Driss Matrouf, Georges Linarès, Renato de Mori. Frame-Based Acoustic Feature Integration for Speech Understanding. IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008., Mar 2008, Las Vegas, NV,, United States. pp.4997-5000, ⟨10.1109/ICASSP.2008.4518780⟩. ⟨hal-00424663⟩