Identifiants chercheur

  • IdHAL : servan
Nombre de documents

27

Christophe Servan


Qui suis-je ?

Je suis chercheur-ingénieur en Traitement Automatique des Langues (NLP) chez Systran, le pionnier de la traduction automatique. Mes principaux centres d’intérêt en recherche sont la Traduction Automatique Statistique (TAS) de la Parole, le Traitement Automatique des Langues Naturelles (TALN), l’Apprentissage Automatique appliqué au TALN.

Je m'intéresse à la traduction de la parole et plus particulièrement aux méthodes d'apprentissage automatique et aux méthodes d'évaluations pour la traduction de la parole.

Actuellement, mes recherches se concentrent sur l’utilisation des modèles fondés sur l'apprentissage profond (Deep Learning) et plus particulièrement l'utilisation des représentations distribuées de mots (Word Embeddings) pour la TA de Parole et sur les mesures de confiance pour la TA et la parole. 

 

Short Bio

J’ai obtenu un Master (2005) puis un Doctorat (2008) en informatique, spécialité Traitement Automatique de la Langue Naturelle Écrite et Orale à l’Université d’Avignon. J’ai travaillé 1 an, en 2009, au CEA-LIST en tant que chercheur sur le TALN en général. En 2010, j’ai été recruté 3 ans comme chercheur post-doctorant en Traduction Automatique Statistique (TAS) à l’Université du Maine (Le Mans) dans l’équipe Speech and Language Technology. J’ai poursuivi mes recherches en TAS sur l’adaptation au domaine en 2013 au Xerox Research Centre Europe comme Research Scientist, dans un cadre international (la langue de travail au XRCE étant l'Anglais) pour rejoindre en 2015, j’ai le GETALP à l'université de Grenoble. Enfin, j'ai rejoins Systran en septembre 2016 pour continuer mes recherches sur les réseaux de neurones profonds et partager mon expérience en apprentissage automatique pour le TALN dans un cadre dynamique et applicatif. 

 

Recherche

Thématiques de Recherche  

  • Traduction Automatique Statistique (SMT) de la Parole et du texte
  • Compréhension de la langue écrite et de la parole (NLU/SLU)
  • Apprentissage Automatique pour le TAP et le TALN (ML4ASR & NLP)
  • Reconnaissance Automatique de la Parole (ASR)
  • Traitement Automatique des Langues Naturelles (NLP)
  • Méthodes d'évaluations
  • Mesures de Confiance (Confidence Estimation)
  • Adaptation au Domaine
  • Réseaux de Neurones Profonds (DNN) 
  • Représentation de mots dans un espace continu (word embeddings)

Traduction Automatique Statistique de la parole et du texte

  • Génération automatique de paire de segments. Utilisant une terminologie spécifique, j’ai proposé de l’insérer dans le modèle de traduction en y ajoutant un contexte. Ce contexte est extrapolé à partir des données existantes dans le modèle de traduction. Travaux effectués dans le cadre du projet européen TransLectures.
  • Adaptation au domaine/document. À travers différentes approches classiques, j’ai étudié la possibilité d’adapter les modèles de traduction et de language dans le cadre de la traduction d’un document écrit ou oral. Travaux eectués dans le cadre des projets européens MateCAT & TransLectures.
  • Mise-à-jour automatique de modèles de traduction. Dans le cadre d’une traduction assistée par ordinateur, j’ai exploré une approche permettant la mise-à-jour du modèle de traduction à partir de données post-éditée par des traducteurs professionels. Travaux eectués dans le cadre du projet européen MateCAT.
  • Alignement d’expressions idiomatiques et de mots composés. Utilisation de la combinaisons de l’analyse syntaxique, d’informations lexicales et d’approche statistique an d’améliorer les dictionnaires bilingues. Eectué dans le cadre du projet ANR WebCrossling.

Apprentissage Automatique pour le TALN 

  • Réseaux de Neurones Profond pour la TAS. J’explore différentes méthodes pour l’estimation de scores de confiance à travers les Réseaux de Neurones Profonds. Ces travaux font suite à mes recherches sur la mise-à-jour des modèles de traduction.
  • Estimation de paramètres avec le Modèle Transférable de Croyance. J’ai exploré une méthode originale d’estimation de paramètres du modèle de traduction. Je m’intéresse aux différentes méthodes permettant l’amélioration des modèles de traduction.
  • Optimisation Multi-Critère. Utilisation de différentes métriques en même temps lors du processus d’optimisation de poids de paramètres d’un système de traduction statistique. Effectué dans le cadre du projet de la DARPA, GALE.

Compréhension de la parole et systèmes de dialogues 

  • Thèse de Doctorat : Apprentissage Automatique et Compréhension de la Parole dans le cadre d’un Dialogue Homme-Machine Téléphonique à Initiative Mixte. J’ai exploré la problématique de la compréhension de la parole à travers des approches statistiques dans le contexte d’un dialogue puis de coupler plus efficacement la compréhension et la transcription de la parole dans le cadre d’une réservation d’hôtel. Financé par le projet Technolangue/Evalda/MEDIA.
  • Génération de réponse pour un système de dialogue. Utilisant un analyseur morpho-syntaxique profond, j’ai proposé une approche permettant l’extraction de patrons contenant des informations syntaxiques pour la génération de texte.
  • Compréhension de la parole multilingue. Coupler la compréhension de la parole et la traduction automatique statistique dans le cadre du projet Européen EU LUNA.
  • Classication et routage d’appel téléphonique. Etude d’un prototypage rapide d’un système de classication et de routage d’appel combinant des approches issues de la compréhension de la parole et de l’adaptation au domaine. Effectué dans lecadre d’une étude pour le département de Vaucluse, transposition du site Vos droits et démarches .
  • Consultant expert en Systèmes de Dialogue. Lors d'un projet interne chez Xerox, j'ai conseillé les chercheurs et les responsables de projets sur le prototypage et la réalisation de systèmes de dialogues. Cela inclu un Etat de l'Art et une étude approfondie des débouchés de ce type de système.

 

Responsabilités

Dans les plupart des projets auxquels j'ai participé, mon implication s'est matérialisée par une participation active à :

  • des réunions de travail avec les membres des consortium,
  • de communications vers les instances de contrôle (principalement présentations & rédaction de workpackage)
  • de la proposition de projets
  • des travaux collaboratifs, j'ai notamment initié deux articles communs entre plusieurs partenaires d'un consortium pour les pojets TransLectures et MateCAT. Ce dernier article a été réécrit pour pour être publié en revue.

Participation aux projets

En outre, j'ai été responsable de workpackages dans les projets :

  • OpenNMT (Systran)
  • PAPYRUS (DGA)
  • KEHATH (ANR)
  • TransLectures (EU)
  • MateCAT (EU)
  • PEA TRAD (DGA)
  • Technolangue/Evalda/Media

et participé aux projets :

  • DARPA GALE (DARPA - USA)
  • EuroMatrixPlus (EU)
  • WebCrossLing (ANR) 
  • LUNA (EU)

Encadrement 

J'encadre des étudiants en stage de Master, mais également ponctuellement, des étudiants en thèse (pour un projet ou une publication). Actuellement, j'oriente les travaux de recherche de Tien LE ainsi que deux étudiants de Master 2 Recherche au LIG (GETALP).

 

Outils

  • METEOR-E : une extention de la métrique METEOR incluant les Word Embeddings (https://github.com/cservan/METEOR-E)
  • LIG-WCE : J'ai suppervisé la finalisation et le packaging de l'outil pour les mesures de confiance du GETALP  du LIG (https://github.com/besacier/WCE-LIG)
  • TERcpp : un outil pour mesurer le score de Translation Edit Rate (TER) en C++ pour la TAS. Il est utilisé dans Moses et dans Travatar (https://github.com/cservan/tercpp)
  • TERcpp-E : extention de TERcpp utilisant les Word Embeddings permettant également d'estimer un WER augmenté avec les Embeddings, WER-E (https://github.com/cservan/tercpp-embeddings)
  • Simple Similarity : Un outil de recherche d’information pour faire un simple tf-idf ou, au choix, une mesure bm25 afin de mesurer la distance en deux documents ou phrase avec la mesure cosine, qui peut être combinée à une option de vectorisation. Codé en C++ (https://sourceforge.net/projects/cpp-similarity/)
  • Faisant partie de l’équipe de développeur de Moses, ma principale contribution est la mise en place de la première version d’optimisation de poids de paramètres multi-critère (à l’aide de plusieurs métriques en même temps) (https://github.com/moses-smt/mosesdecoder)

 

Publications


Article dans une revue2 documents

  • Mauro Cettolo, Nicola Bertoldi, Marcello Federico, Holger Schwenk, Loïc Barrault, et al.. Translation project adaptation for MT-enhanced computer assisted translation. Machine Translation, Springer Verlag, 2014, Machine Translation Journal, 28, pp.127. 〈10.1007/s10590-014-9152-1〉. 〈hal-01157893〉
  • Christophe Servan, Holger Schwenk. Optimising Multiple Metrics with MERT. The Prague Bulletin of Mathematical Linguistics, 2011, pp.109. 〈hal-01157949〉

Communication dans un congrès25 documents

  • Christophe Servan, Alexandre Bérard, Zied Elloumi, Hervé Blanchon, Laurent Besacier. Word2Vec vs DBnary: Augmenting METEOR using Vector Representations or Lexical Resources?. COLING 2016, Dec 2016, Osaka, Japan. 26th International Conference on Computational Linguistics (COLING 2016), 2016. 〈hal-01376948〉
  • Ngoc-Tien Le, Christophe Servan, Benjamin Lecouteux, Laurent Besacier. Better Evaluation of ASR in Speech Translation Context Using Word Embeddings. Interspeech 2016, Sep 2016, San-Francisco, United States. Interspeech 2016 proceedings. 〈hal-01350102〉
  • Alexandre Bérard, Olivier Pietquin, Laurent Besacier, Christophe Servan. Listen and Translate: A Proof of Concept for End-to-End Speech-to-Text Translation. NIPS Workshop on end-to-end learning for speech and audio processing, Dec 2016, Barcelona, Spain. 2016. 〈hal-01408086〉
  • Christophe Servan, Zied Elloumi, Hervé Blanchon, Laurent Besacier. Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique. TALN 2016, Jul 2016, Paris, France. Actes de la conférence conjointe JEP-TALN-RECITAL. 〈hal-01350101〉
  • Christophe Servan, Ngoc-Tien Le, Ngoc Quang Luong, Benjamin Lecouteux, Laurent Besacier. An Open Source Toolkit for Word-level Confidence Estimation in Machine Translation. The 12th International Workshop on Spoken Language Translation (IWSLT'15), Dec 2015, Da Nang, Vietnam. 2015, 〈http://workshop2015.iwslt.org/〉. 〈hal-01244477〉
  • Christophe Servan, Marc Dymetman. Adaptation par enrichissement terminologique en traduction automatique statistique fondée sur la génération et le filtrage de bi-segments virtuels. 22ème Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France. 〈hal-01157850〉
  • Joern Wuebker, Hermann Ney, Martínez-Villaronga Adrià, Adrià Giménez, Alfons Juan, et al.. Comparison of Data Selection Techniques for the Translation of Video Lectures. The eleventh biennial conference of the Association for Machine Translation in the Americas (AMTA-2014), Oct 2014, Vancouver, Canada. 〈hal-01157888〉
  • Mauro Cettolo, Christophe Servan, Nicola Bertoldi, Marcello Federico, Loïc Barrault, et al.. Issues in Incremental Adaptation of Statistical MT from Human Post-edits. MT Summit XIV Workshop on Post-editing Technology and Practice, Sep 2013, Nice, France. 〈hal-01158054〉
  • Christophe Servan, Petitrenaud Simon. Utilisation des fonctions de croyance pour l’estimation de paramètres en traduction automatique. La conférence conjointe JEP-TALN-RECITAL 2012, Jun 2012, Grenoble, France. 〈hal-01158101〉
  • Christophe Servan, Patrik Lambert, Anthony Rousseau, Holger Schwenk, Loïc Barrault. LIUM's SMT Machine Translation Systems for WMT 2012. The Seventh Workshop on Statistical Machine Translation (WMT12), Jun 2012, Montreal, Canada. 〈hal-01158083〉
  • Christophe Servan, Petitrenaud Simon. Calculation of phrase probabilities for Statistical Machine Translation by using belief functions. The 24th International Conference on Computational Linguistics (COLING 2012), Dec 2012, Mumbai, India. 〈hal-01158098〉
  • Holger Schwenk, Patrik Lambert, Loïc Barrault, Christophe Servan, Haithem Afli, et al.. LIUM's SMT Machine Translation Systems for WMT 2011. The Sixth workshop on Statistical Machine Translation, Jul 2011, Edinburgh, United Kingdom. 〈hal-01158072〉
  • Patrik Lambert, Holger Schwenk, Christophe Servan, Sadaf Abdul-Rauf. Investigations on Translation Model Adaptation Using Monolingual Data. Sixth Workshop on Statistical Machine Translation, Jul 2011, Edinburgh, United Kingdom. pp.284-293, 2011. 〈hal-00625481〉
  • Christophe Servan, Nathalie Camelin, Christian Raymond, Frédéric Béchet, Renato De Mori. On the Use of Machine Translation for Spoken Language Understanding Portability. IEEE International Conference on Acoustics, Speech, and Signal Processing, Mar 2010, Dallas, Texas, United States. pp.5330 - 5333, 2010, 〈http://ieeexplore.ieee.org/iel5/5487364/5494886/05494960.pdf〉. 〈10.1109/ICASSP.2010.5494960〉. 〈inria-00523967〉
  • Nasredine Semmar, Christophe Servan, Gaël De Chalendar, Benoît Le Ny, Jean-Jacques Bouzaglou. A Hybrid Word Alignment Approach to Improve Translation Lexicons with Compound Words and Idiomatic Expressions. The 32nd Translating and the Computer Conference - ASLIB, Nov 2010, London, United Kingdom. 〈hal-01158113〉
  • Christophe Servan, Nasredine Semmar. A Hybrid Approach for Machine Translation Based on Cross-language Information Retrieval. The International Workshop on Spoken Language Translation (IWSLT 2010), Dec 2010, Paris, France. 〈hal-01158549〉
  • Loïc Barrault, Christophe Servan, Driss Matrouf, Georges Linarès, Renato De Mori. Frame-Based Acoustic Feature Integration for Speech Understanding. IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008., Mar 2008, Las Vegas, NV,, United States. pp.4997-5000, 2008, 〈10.1109/ICASSP.2008.4518780〉. 〈hal-00424663〉
  • Frédéric Duvert, Marie-Jean Meurs, Christophe Servan, Frédéric Béchet, Fabrice Lefèvre, et al.. Semantic composition process in a speech understanding system. The 2008 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Mar 2008, Las Vegas, United States. 2008, 〈10.1109/ICASSP.2008.4518788〉. 〈hal-01158578〉
  • Christophe Servan, Frederic Bechet. Fast call-classification system development without in-domain training data. The proceedings of the International Conference on Speech and Language Processing (ICSLP) Interspeech 2008, Sep 2008, Brisbane, Australia. 〈hal-01158650〉
  • Frédéric Duvert, Marie-Jean Meurs, Christophe Servan, Frédéric Béchet, Fabrice Lefèvre, et al.. Composition sémantique pour la compréhension de la parole dans un cadre de dialogue. Les 27e Journées d’Etudes sur la Parole (JEP), Jun 2008, Avignon, France. 〈hal-01159983〉
  • Christophe Servan. Utilisation des transducteurs dans le décodage conceptuel : application au corpus MEDIA. MajecSTIC, Nov 2006, Lorient, France. 〈hal-00480199〉
  • Christophe Servan, Christian Raymond, Frédéric Béchet, Pascal Nocera. Conceptual decoding from word lattices: application to the spoken dialogue corpus MEDIA. The Ninth International Conference on Spoken Language Processing (Interspeech 2006 - ICSLP), Sep 2006, Pittsburgh, United States. 〈hal-01160181〉
  • Christophe Servan, Christian Raymond, Frédéric Béchet, Pascal Nocera. Décodage conceptuel à partir de graphes de mots sur le corpus de dialogue Homme-Machine MEDIA. Les XXVIes Journées d'Étude sur la Parole (JEP 2006), Jun 2006, Dinard, France. 〈hal-01160185〉
  • H Bonneau-Maynard, C Ayache, F Bechet, Alexandre Denis, A Kuhn, et al.. Results of the French Evalda-Media evaluation campaign for literal understanding. The fifth international conference on Language Resources and Evaluation (LREC 2006), May 2006, Genes, Italy. 〈hal-01160167〉
  • Christophe Servan, Frédéric Béchet. Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA. La 13ème édition de la conférence sur le Traitement Automatique des Langues Naturelles (TALN 2006), Apr 2006, Louvain, Belgium. 〈hal-01160173〉