Thibault Bañeras-Roux

Documents

Présentation

français
anglais

**Doctorant en Informatique** ----------------------------- ###### Alias : Thibault Roux / Thibault Bañeras Roux / TB Roux / T. Roux / thibault-roux / Thibault B. Roux ### *Analyse automatique des erreurs des systèmes de reconnaissance automatique de la parole par la réception des utilisateurs finaux* ### **Résumé** Mes travaux portent en particulier sur la perception des erreurs dans le domaine de la Reconnaissance Automatique de la Parole (RAP). Je m'intéresse particulièrement aux métriques d'évaluations alternatives au taux d'erreur mot (WER, en anglais Word Error Rate) et à l'importance des mots pour la compréhension. Je souhaite également observer les particularités que peuvent avoir les différents systèmes comme les modèles que l'on appelle classique (HMMs, architecture en cascade, ...) avec les modèles End-to-end (Deep Learning, CTC, ...). Précédemment, mes travaux portaient également sur des méthodes d'évaluations mais sur l'évaluation des embeddings cross-lingues. **Mots-clés :** TAL, reconnaissance automatique de la parole, métriques, end-to-end, Speechbrain, Kaldi, embeddings cross-lingues, perception, intelligence artificielle, wav2vec, sémantique. ### **Affiliations** - [Laboratoire des Sciences du Numérique de Nantes (LS2N)](https://www.ls2n.fr/) - [Équipe TALN](https://www.ls2n.fr/equipe/taln/) - Université de Nantes - [Laboratoire d'Informatique d'Avignon (LIA)](https://lia.univ-avignon.fr/) - Équipe SLG - Université d'Avignon ### **Encadrants** - [Richard Dufour](https://cv.archives-ouvertes.fr/richard-dufour/authIdHal_s/glinares), directeur (33%) - LS2N (Nantes Université) - [Jane Wottawa](http://perso.univ-lemans.fr/~jwottawa/), encadrante (33 %) - LIUM (Le Mans Université) - [Mickaël Rouvier](http://www.mickael-rouvier.fr/voxceleb.html), encadrant (33 %) - LIA (Avignon Université) ### **Financement** - [Projet ANR DIETS](https://anr-diets.univ-avignon.fr/) (JCJC) ### **Réseaux sociaux** - [LinkedIn](https://www.linkedin.com/in/thibault-ba%C3%B1eras-roux-700aa21b0/) - [Twitter](https://twitter.com/BanerasRoux) - [GScholar](https://scholar.google.com/citations?user=U9hOejUAAAAJ) - [Github](https://github.com/thibault-roux) ### **Enseignements** - Applications Mobiles (2022) - Structures des Ordinateurs (2022) - Systèmes d'Exploitation (2022) ### **CV** - **Doctorat** - En cours (2021-...) - LS2N/LIA - Analyse automatique des erreurs des systèmes de reconnaissance automatique de la parole par la réception des utilisateurs finaux - **Stage de fin de Master** - [Laboratoire d'Informatique et Systèmes (LIS)](https://www.lis-lab.fr/) - [Équipe TALEP](https://talep.lis-lab.fr/) - Évaluation d'embeddings monolingues et cross-lingues et développement d'une méthode de visualisation pour observer d'éventuels clusters de POS. - [Carlos Ramisch](https://pageperso.lis-lab.fr/~carlos.ramisch/), Manon Scholivet - **Master 2 (M2) - Intelligence Artificielle et Apprentissage Automatique (IAAA)** - Aix-Marseille Université - 2020-2021 - **Master 1 (M1) - Artificial Intelligence** - Uppsala University - 2019-2020 - **Stage de fin de Licence** - [Laboratoire de la Parole et du Langage (LPL)](https://www.lpl-aix.fr/) - 2019 - Enrichissement du comportement non-verbal d'un patient virtuel autonome pour améliorer la crédibilité dans une interaction humain-machine en réalité virtuelle. - [Magalie Ochs](https://pageperso.lis-lab.fr/magalie.ochs/), [Philippe Blache](http://www2.lpl-aix.fr/~blache/) - **Licence Informatique** - Aix-Marseille Université - 2016-2019 ### **Autres** - Contributeur au groupe des [Jeunes Chercheurs en Parole (JCeP)](https://jcparole.github.io/) - Suppléant des Language Meeting du LIA.

**PhD Candidate** ----------------- ###### Alias : Thibault Roux / Thibault Bañeras Roux / TB Roux / T. Roux / thibault-roux / Thibault B. Roux ### *Automatic analysis of errors in automatic speech recognition systems from end-users reception* ### **Summary** My work focuses on error perception in Automatic Speech Recognition (ASR). I am particularly interested in alternative evaluation metrics to the Word Error Rate (WER) and the importance of words for comprehension. I am also interested in observing the peculiarities that different systems can have, such as the classical models (HMMs, cascade architecture, ...) with the end-to-end models (Deep Learning, CTC, ...). Previously, my work also focused on evaluation methods but on the evaluation of cross-lingual embeddings. **Keywords:** NLP, Automatic Speech Recognition, metrics, end-to-end, Speechbrain, Kaldi, cross-lingual embeddings, perception, artificial intelligence, wav2vec, semantic. ### **Affiliations** - [Laboratoire des Sciences du Numérique de Nantes (LS2N)](https://www.ls2n.fr/) - [Team TALN](https://www.ls2n.fr/equipe/taln/) - Nantes University - [Laboratoire d'Informatique d'Avignon (LIA)](https://lia.univ-avignon.fr/) - Team SLG - Avignon University ### **Supervisors** - [Richard Dufour](https://cv.archives-ouvertes.fr/richard-dufour/authIdHal_s/glinares), thesis director (33%) - LS2N (Nantes University) - [Jane Wottawa](http://perso.univ-lemans.fr/~jwottawa/), supervisor (33 %) - LIUM (Le Mans University) - [Mickaël Rouvier](http://www.mickael-rouvier.fr/voxceleb.html), supervisor (33 %) - LIA (Avignon University) ### **Founding** - [ANR Project DIETS](https://anr-diets.univ-avignon.fr/) (JCJC) ### **Social Networks** - [LinkedIn](https://www.linkedin.com/in/thibault-ba%C3%B1eras-roux-700aa21b0/) - [Twitter](https://twitter.com/BanerasRoux) - [GScholar](https://scholar.google.com/citations?user=U9hOejUAAAAJ) - [Github](https://github.com/thibault-roux) ### **Teaching** - Mobiles App (2022) - Computers Structure (2022) - Operating Systems (2022) ### **CV** - **PhD** - In progress (2021-...) - LS2N/LIA - Automatic analysis of errors in automatic speech recognition systems from end-users reception - **Master's thesis** - [Laboratoire d'Informatique et Systèmes (LIS)](https://www.lis-lab.fr/) - [Language Team](https://talep.lis-lab.fr/) - Evaluation of monolingual and cross-lingual embeddings and development of a visualization method to observe possible POS clusters. - [Carlos Ramisch](https://pageperso.lis-lab.fr/~carlos.ramisch/), Manon Scholivet - **Master 2 (M2) - Artificial Intelligence & Machine Learning** - Aix-Marseille University - 2020-2021 - **Master 1 (M1) - Artificial Intelligence** - Uppsala University - 2019-2020 - **Bachelor's thesis** - [Laboratoire de la Parole et du Langage (LPL)](https://www.lpl-aix.fr/) - 2019 - Enriching the non-verbal behavior of an autonomous virtual patient to improve believability in a human-machine interaction in virtual reality. - [Magalie Ochs](https://pageperso.lis-lab.fr/magalie.ochs/), [Philippe Blache](http://www2.lpl-aix.fr/~blache/) - **Bachelor in Computer Science** - Aix-Marseille University - 2016-2019

Publications

	HATS : Un jeu de données intégrant la perception humaine appliquée à l'évaluation des métriques de transcription de la parole Thibault Bañeras-Roux , Jane Wottawa , Mickael Rouvier , Teva Merlin , Richard Dufour 18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.10-18 Communication dans un congrès hal-04130218v1
	HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics Thibault Bañeras-Roux , Jane Wottawa , Mickael Rouvier , Teva Merlin , Richard Dufour Text, Speech and Dialogue 2023 - Interspeech Satellite, Faculty of Applied Sciences University of West Bohemia Plzeň (Pilsen); NTIS P2 Research Center University of West Bohemia Plzeň (Pilsen); Faculty of Informatics Masaryk University Brno, Sep 2023, Plzeň (Pilsen), Czech Republic Communication dans un congrès hal-04125590v1
	Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition Thibault Bañeras Roux , Mickael Rouvier , Jane Wottawa , Richard Dufour Interspeech, Sep 2022, Incheon, South Korea Communication dans un congrès hal-03712735v2
	Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole Thibault Bañeras Roux , Mickael Rouvier , Jane Wottawa , Richard Dufour 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France Communication dans un congrès hal-03688029v2

Thibault Bañeras-Roux

Présentation

Publications

HATS : Un jeu de données intégrant la perception humaine appliquée à l'évaluation des métriques de transcription de la parole

HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole