Accéder directement au contenu

Christophe Servan

2
Documents
Identifiants chercheurs

Présentation

Qui suis-je ? ------------- Actuellement Mis à Disposition au sein de l'équipe ILES du Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), CNRS, à Orsay, je suis également responsable scientifique et chercheur en Traitement Automatique des Langues (NLP) chez Qwant, le moteur de recherche français et européen. Mes principaux centres d’intérêt en recherche sont l’Apprentissage Automatique appliqué au TAL, la Compréhension de la Langue dans le cadre d'un système de dialogue ou de Recherche d'Information, la Traduction Automatique Statistique (TAS) de la Parole, et plus généralement le Traitement Automatique des Langues (TAL). Actuellement, mes recherches se concentrent sur l'utilisabilité des modèles fondés sur l'apprentissage profond (Deep Learning) et plus particulièrement l'utilisation des modèles Transformer pour la compréhension dans le cadre d'un système de question-réponse. Depuis 2020, j'assure la présidence de l'ATALA, l'association francophone pour le Traitement Automatique des Langues (<https://www.atala.org>). Short Bio --------- Christophe Servan est actuellement Chercheur Mis à Disposition au sein de l'équipe ILES du Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), CNRS, à Orsay, par QWANT dans le cadre du programme France Relance. Auparavant, il a obtenu un Doctorat (2008) en informatique, spécialité Traitement Automatique de la Langue Naturelle Écrite et Orale à l’Université d’Avignon. Il a travaillé 1 an, en 2009, au CEA-LIST en tant que chercheur sur le TALN en général. En 2010, il fut recruté 3 ans comme chercheur post-doctorant en Traduction Automatique Statistique (TAS) à l’Université du Maine (Le Mans) dans l’équipe Speech and Language Technology. Il a poursuivi mes recherches en TAS sur l’adaptation au domaine en 2013 au Xerox Research Centre Europe comme Research Scientist, dans un cadre international (la langue de travail au XRCE étant l'Anglais) pour rejoindre en 2015, le GETALP à l'université de Grenoble. Après 18 mois chez Systran en 2016, il rejoint Qwant Research en janvier 2018 pour continuer mes recherches sur les réseaux de neurones profonds et partager mon expérience en apprentissage automatique pour le TALN dans un cadre dynamique et applicatif. Recherche --------- ### Thématiques de Recherche - **Apprentissage Automatique pour le TAP et le TAL (ML4NLP)** - **Compréhension de la langue (NLU/SLU)** - **Systèmes de dialogue** - **Systèmes de Recherche d'Information** - **Réseaux de Neurones Profonds (DNN)** - **Représentation de mots dans un espace continu (word embeddings)** - **Traduction Automatique Statistique (SMT)** - **Méthodes d'évaluations** - **Mesures de Confiance (Confidence Estimation)** - **Adaptation au Domaine** ### Apprentissage Automatique pour le TALN - **Utilisabilité des modèles Neuronnaux pour le TAL.** Exploration et création de modèles de type Transformer pour le TAL &amp; les systèmes de Question-Réponse - **Réseaux de Neurones Profond pour la TAS**. Exploration de différentes méthodes pour l’estimation de scores de confiance à travers les Réseaux de Neurones Profonds. Ces travaux font suite à mes recherches sur la mise-à-jour des modèles de traduction. - **Estimation de paramètres avec le Modèle Transférable de Croyance**. J’ai exploré une méthode originale d’estimation de paramètres du modèle de traduction. Je m’intéresse aux différentes méthodes permettant l’amélioration des modèles de traduction. - **Optimisation Multi-Critère**. Utilisation de différentes métriques en même temps lors du processus d’optimisation de poids de paramètres d’un système de traduction statistique. Effectué dans le cadre du projet de la DARPA, GALE. ### Compréhension de la parole et systèmes de dialogues - ****Thèse de Doctorat :** ***Apprentissage Automatique et Compréhension de la Parole dans le cadre d’un Dialogue Homme-Machine Téléphonique à Initiative Mixte***.** J’ai exploré la problématique de la compréhension de la parole à travers des approches statistiques dans le contexte d’un dialogue puis de coupler plus efficacement la compréhension et la transcription de la parole dans le cadre d’une réservation d’hôtel. Financé par le projet Technolangue/Evalda/MEDIA. - **Génération de réponse pour un système de dialogue**. Utilisant un analyseur morpho-syntaxique profond, j’ai proposé une approche permettant l’extraction de patrons contenant des informations syntaxiques pour la génération de texte. - **Compréhension de la parole multilingue**. Coupler la compréhension de la parole et la traduction automatique statistique dans le cadre du projet Européen EU LUNA. - **Classication et routage d’appel téléphonique**. Etude d’un prototypage rapide d’un système de classication et de routage d’appel combinant des approches issues de la compréhension de la parole et de l’adaptation au domaine. Effectué dans lecadre d’une étude pour le département de Vaucluse, transposition du site Vos droits et démarches . - **Consultant expert en Systèmes de Dialogue.** Lors d'un projet interne chez Xerox, j'ai conseillé les chercheurs et les responsables de projets sur le prototypage et la réalisation de systèmes de dialogues. Cela inclu un Etat de l'Art et une étude approfondie des débouchés de ce type de système. ### Traduction Automatique Statistique de la parole et du texte - **Génération automatique de paire de segments**. Utilisant une terminologie spécifique, j’ai proposé de l’insérer dans le modèle de traduction en y ajoutant un contexte. Ce contexte est extrapolé à partir des données existantes dans le modèle de traduction. Travaux effectués dans le cadre du projet européen TransLectures. - **Adaptation au domaine/document**. À travers différentes approches classiques, j’ai étudié la possibilité d’adapter les modèles de traduction et de language dans le cadre de la traduction d’un document écrit ou oral. Travaux eectués dans le cadre des projets européens MateCAT &amp; TransLectures. - **Mise-à-jour automatique de modèles de traduction**. Dans le cadre d’une traduction assistée par ordinateur, j’ai exploré une approche permettant la mise-à-jour du modèle de traduction à partir de données post-éditée par des traducteurs professionels. Travaux eectués dans le cadre du projet européen MateCAT. - **Alignement d’expressions idiomatiques et de mots composés**. Utilisation de la combinaisons de l’analyse syntaxique, d’informations lexicales et d’approche statistique an d’améliorer les dictionnaires bilingues. Eectué dans le cadre du projet ANR WebCrossling. Responsabilités --------------- Dans les plupart des projets auxquels j'ai participé, mon implication s'est matérialisée par une participation active à : - des **réunions** de travail avec les membres des consortium, - de **communications** vers les instances de contrôle (principalement **présentations** &amp; **rédaction** de workpackage) - de la **proposition** de projets - des **travaux collaboratifs**, j'ai notamment initié deux articles communs entre plusieurs partenaires d'un consortium pour les pojets TransLectures et MateCAT. Ce dernier article a été réécrit pour pour être publié en revue. ### Participation aux projets **Responsable des projets** pour Qwant: - PIA ANSWER (**consortium leader**) - H2020 AI4EU - H2020 SocialTruth - PIA MOSS - ANR TextToKids - ANR KodiCare En outre, j'ai été **responsable de workpackages** dans les projets : - OpenNMT (Systran) - PAPYRUS (DGA) - KEHATH (ANR) - TransLectures (EU) - MateCAT (EU) - PEA TRAD (DGA) - Technolangue/Evalda/Media et participé aux projets : - DARPA GALE (DARPA - USA) - EuroMatrixPlus (EU) - WebCrossLing (ANR) - LUNA (EU) ### Encadrement J'encadre des étudiants en stage de Master, mais également ponctuellement, des étudiants en thèse (pour un projet ou une publication). J'ai orienté les travaux de recherche doctoraux de Tien LE (GETAP), Alexandre, Frédéric BLAIN, AlexandreBERARD, ainsi que deux étudiants de Master 2 Recherche au LIG (GETALP), 5 étudiants de M2 à QWANT. Actuelle, je co-encadre la thèse de Oralie CATTAN, doctorant chez QWANT et à Paris-Orsay au LISN. Outils ------ - ****FrALBERT :** un modèle de type BERT léger pour le français (<https://huggingface.co/qwant/fralbert-base>)** - **METEOR-E :** une extention de la métrique METEOR incluant les Word Embeddings (<https://github.com/cservan/METEOR-E>) - **LIG-WCE** : J'ai suppervisé la finalisation et le packaging de l'outil pour les mesures de confiance du GETALP du LIG (<https://github.com/besacier/WCE-LIG>) - **TERcpp** : un outil pour mesurer le score de Translation Edit Rate (TER) en C++ pour la TAS. Il est utilisé dans Moses et dans Travatar (<https://github.com/cservan/tercpp>) - **TERcpp-E** : extention de TERcpp utilisant les Word Embeddings permettant également d'estimer un WER augmenté avec les Embeddings, **WER-E** (<https://github.com/cservan/tercpp-embeddings>) - **Simple Similarity** : Un outil de recherche d’information pour faire un simple tf-idf ou, au choix, une mesure bm25 afin de mesurer la distance en deux documents ou phrase avec la mesure cosine, qui peut être combinée à une option de vectorisation. Codé en C++ (<https://sourceforge.net/projects/cpp-similarity/>) - Faisant partie de l’équipe de développeur de **Moses**, ma principale contribution est la mise en place de la première version d’optimisation de poids de paramètres multi-critère (à l’aide de plusieurs métriques en même temps) (<https://github.com/moses-smt/mosesdecoder>) - Publications ------------
Qui suis-je ? ------------- Actuellement Mis à Disposition au sein de l'équipe ILES du Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), CNRS, à Orsay, je suis également responsable scientifique et chercheur en Traitement Automatique des Langues (NLP) chez Qwant, le moteur de recherche français et européen. Mes principaux centres d’intérêt en recherche sont l’Apprentissage Automatique appliqué au TAL, la Compréhension de la Langue dans le cadre d'un système de dialogue ou de Recherche d'Information, la Traduction Automatique Statistique (TAS) de la Parole, et plus généralement le Traitement Automatique des Langues (TAL). Actuellement, mes recherches se concentrent sur l'utilisabilité des modèles fondés sur l'apprentissage profond (Deep Learning) et plus particulièrement l'utilisation des modèles Transformer pour la compréhension dans le cadre d'un système de question-réponse. Depuis 2020, j'assure la présidence de l'ATALA, l'association francophone pour le Traitement Automatique des Langues (<https://www.atala.org>). Short Bio --------- Christophe Servan est actuellement Chercheur Mis à Disposition au sein de l'équipe ILES du Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), CNRS, à Orsay, par QWANT dans le cadre du programme France Relance Auparavant, il a obtenu un Doctorat (2008) en informatique, spécialité Traitement Automatique de la Langue Naturelle Écrite et Orale à l’Université d’Avignon. Il a travaillé 1 an, en 2009, au CEA-LIST en tant que chercheur sur le TALN en général. En 2010, il fut recruté 3 ans comme chercheur post-doctorant en Traduction Automatique Statistique (TAS) à l’Université du Maine (Le Mans) dans l’équipe Speech and Language Technology. Il a poursuivi mes recherches en TAS sur l’adaptation au domaine en 2013 au Xerox Research Centre Europe comme Research Scientist, dans un cadre international (la langue de travail au XRCE étant l'Anglais) pour rejoindre en 2015, le GETALP à l'université de Grenoble. Après 18 mois chez Systran en 2016, il rejoint Qwant Research en janvier 2018 pour continuer mes recherches sur les réseaux de neurones profonds et partager mon expérience en apprentissage automatique pour le TALN dans un cadre dynamique et applicatif. Recherche --------- ### Thématiques de Recherche - **Apprentissage Automatique pour le TAP et le TAL (ML4NLP)** - **Compréhension de la langue (NLU/SLU)** - **Systèmes de dialogue** - **Systèmes de Recherche d'Information** - **Réseaux de Neurones Profonds (DNN)** - **Représentation de mots dans un espace continu (word embeddings)** - **Traduction Automatique Statistique (SMT)** - **Méthodes d'évaluations** - **Mesures de Confiance (Confidence Estimation)** - **Adaptation au Domaine** ### Apprentissage Automatique pour le TALN - **Utilisabilité des modèles Neuronnaux pour le TAL.** Exploration et création de modèles de type Transformer pour le TAL &amp; les systèmes de Question-Réponse - **Réseaux de Neurones Profond pour la TAS**. Exploration de différentes méthodes pour l’estimation de scores de confiance à travers les Réseaux de Neurones Profonds. Ces travaux font suite à mes recherches sur la mise-à-jour des modèles de traduction. - **Estimation de paramètres avec le Modèle Transférable de Croyance**. J’ai exploré une méthode originale d’estimation de paramètres du modèle de traduction. Je m’intéresse aux différentes méthodes permettant l’amélioration des modèles de traduction. - **Optimisation Multi-Critère**. Utilisation de différentes métriques en même temps lors du processus d’optimisation de poids de paramètres d’un système de traduction statistique. Effectué dans le cadre du projet de la DARPA, GALE. ### Compréhension de la parole et systèmes de dialogues - ****Thèse de Doctorat :** ***Apprentissage Automatique et Compréhension de la Parole dans le cadre d’un Dialogue Homme-Machine Téléphonique à Initiative Mixte***.** J’ai exploré la problématique de la compréhension de la parole à travers des approches statistiques dans le contexte d’un dialogue puis de coupler plus efficacement la compréhension et la transcription de la parole dans le cadre d’une réservation d’hôtel. Financé par le projet Technolangue/Evalda/MEDIA. - **Génération de réponse pour un système de dialogue**. Utilisant un analyseur morpho-syntaxique profond, j’ai proposé une approche permettant l’extraction de patrons contenant des informations syntaxiques pour la génération de texte. - **Compréhension de la parole multilingue**. Coupler la compréhension de la parole et la traduction automatique statistique dans le cadre du projet Européen EU LUNA. - **Classication et routage d’appel téléphonique**. Etude d’un prototypage rapide d’un système de classication et de routage d’appel combinant des approches issues de la compréhension de la parole et de l’adaptation au domaine. Effectué dans lecadre d’une étude pour le département de Vaucluse, transposition du site Vos droits et démarches . - **Consultant expert en Systèmes de Dialogue.** Lors d'un projet interne chez Xerox, j'ai conseillé les chercheurs et les responsables de projets sur le prototypage et la réalisation de systèmes de dialogues. Cela inclu un Etat de l'Art et une étude approfondie des débouchés de ce type de système. ### Traduction Automatique Statistique de la parole et du texte - **Génération automatique de paire de segments**. Utilisant une terminologie spécifique, j’ai proposé de l’insérer dans le modèle de traduction en y ajoutant un contexte. Ce contexte est extrapolé à partir des données existantes dans le modèle de traduction. Travaux effectués dans le cadre du projet européen TransLectures. - **Adaptation au domaine/document**. À travers différentes approches classiques, j’ai étudié la possibilité d’adapter les modèles de traduction et de language dans le cadre de la traduction d’un document écrit ou oral. Travaux eectués dans le cadre des projets européens MateCAT &amp; TransLectures. - **Mise-à-jour automatique de modèles de traduction**. Dans le cadre d’une traduction assistée par ordinateur, j’ai exploré une approche permettant la mise-à-jour du modèle de traduction à partir de données post-éditée par des traducteurs professionels. Travaux eectués dans le cadre du projet européen MateCAT. - **Alignement d’expressions idiomatiques et de mots composés**. Utilisation de la combinaisons de l’analyse syntaxique, d’informations lexicales et d’approche statistique an d’améliorer les dictionnaires bilingues. Eectué dans le cadre du projet ANR WebCrossling. Responsabilités --------------- Dans les plupart des projets auxquels j'ai participé, mon implication s'est matérialisée par une participation active à : - des **réunions** de travail avec les membres des consortium, - de **communications** vers les instances de contrôle (principalement **présentations** &amp; **rédaction** de workpackage) - de la **proposition** de projets - des **travaux collaboratifs**, j'ai notamment initié deux articles communs entre plusieurs partenaires d'un consortium pour les pojets TransLectures et MateCAT. Ce dernier article a été réécrit pour pour être publié en revue. ### Participation aux projets **Responsable des projets** pour Qwant: - PIA ANSWER (**consortium leader**) - H2020 AI4EU - H2020 SocialTruth - PIA MOSS - ANR TextToKids - ANR KodiCare En outre, j'ai été **responsable de workpackages** dans les projets : - OpenNMT (Systran) - PAPYRUS (DGA) - KEHATH (ANR) - TransLectures (EU) - MateCAT (EU) - PEA TRAD (DGA) - Technolangue/Evalda/Media et participé aux projets : - DARPA GALE (DARPA - USA) - EuroMatrixPlus (EU) - WebCrossLing (ANR) - LUNA (EU) ### Encadrement J'encadre des étudiants en stage de Master, mais également ponctuellement, des étudiants en thèse (pour un projet ou une publication). J'ai orienté les travaux de recherche doctoraux de Tien LE (GETAP), Alexandre, Frédéric BLAIN, AlexandreBERARD, ainsi que deux étudiants de Master 2 Recherche au LIG (GETALP), 5 étudiants de M2 à QWANT. Actuelle, je co-encadre la thèse de Oralie CATTAN, doctorant chez QWANT et à Paris-Orsay au LISN. Outils ------ - ****FrALBERT :** un modèle de type BERT léger pour le français (<https://huggingface.co/qwant/fralbert-base>)** - **METEOR-E :** une extention de la métrique METEOR incluant les Word Embeddings (<https://github.com/cservan/METEOR-E>) - **LIG-WCE** : J'ai suppervisé la finalisation et le packaging de l'outil pour les mesures de confiance du GETALP du LIG (<https://github.com/besacier/WCE-LIG>) - **TERcpp** : un outil pour mesurer le score de Translation Edit Rate (TER) en C++ pour la TAS. Il est utilisé dans Moses et dans Travatar (<https://github.com/cservan/tercpp>) - **TERcpp-E** : extention de TERcpp utilisant les Word Embeddings permettant également d'estimer un WER augmenté avec les Embeddings, **WER-E** (<https://github.com/cservan/tercpp-embeddings>) - **Simple Similarity** : Un outil de recherche d’information pour faire un simple tf-idf ou, au choix, une mesure bm25 afin de mesurer la distance en deux documents ou phrase avec la mesure cosine, qui peut être combinée à une option de vectorisation. Codé en C++ (<https://sourceforge.net/projects/cpp-similarity/>) - Faisant partie de l’équipe de développeur de **Moses**, ma principale contribution est la mise en place de la première version d’optimisation de poids de paramètres multi-critère (à l’aide de plusieurs métriques en même temps) (<https://github.com/moses-smt/mosesdecoder>) - Publications ------------

Publications

880460
loicbarrault
Image document

LIUM's SMT Machine Translation Systems for WMT 2012

Christophe Servan , Patrik Lambert , Anthony Rousseau , Holger Schwenk , Loïc Barrault
The Seventh Workshop on Statistical Machine Translation (WMT12), Jun 2012, Montreal, Canada
Communication dans un congrès hal-01158083v1
Image document

LIUM's SMT Machine Translation Systems for WMT 2011

Holger Schwenk , Patrik Lambert , Loïc Barrault , Christophe Servan , Haithem Afli
The Sixth workshop on Statistical Machine Translation, Jul 2011, Edinburgh, United Kingdom
Communication dans un congrès hal-01158072v1