Accéder directement au contenu

Thibault Bañeras-Roux

4
Documents

Présentation

**Doctorant en Informatique** ----------------------------- ###### Alias : Thibault Roux / Thibault Bañeras Roux / TB Roux / T. Roux / thibault-roux / Thibault B. Roux ### *Analyse automatique des erreurs des systèmes de reconnaissance automatique de la parole par la réception des utilisateurs finaux* ### **Résumé** Mes travaux portent en particulier sur la perception des erreurs dans le domaine de la Reconnaissance Automatique de la Parole (RAP). Je m'intéresse particulièrement aux métriques d'évaluations alternatives au taux d'erreur mot (WER, en anglais Word Error Rate) et à l'importance des mots pour la compréhension. Je souhaite également observer les particularités que peuvent avoir les différents systèmes comme les modèles que l'on appelle classique (HMMs, architecture en cascade, ...) avec les modèles End-to-end (Deep Learning, CTC, ...). Précédemment, mes travaux portaient également sur des méthodes d'évaluations mais sur l'évaluation des embeddings cross-lingues. **Mots-clés :** TAL, reconnaissance automatique de la parole, métriques, end-to-end, Speechbrain, Kaldi, embeddings cross-lingues, perception, intelligence artificielle, wav2vec, sémantique. ### **Affiliations** - [Laboratoire des Sciences du Numérique de Nantes (LS2N)](https://www.ls2n.fr/) - [Équipe TALN](https://www.ls2n.fr/equipe/taln/) - Université de Nantes - [Laboratoire d'Informatique d'Avignon (LIA)](https://lia.univ-avignon.fr/) - Équipe SLG - Université d'Avignon ### **Encadrants** - [Richard Dufour](https://cv.archives-ouvertes.fr/richard-dufour/authIdHal_s/glinares), directeur (33%) - LS2N (Nantes Université) - [Jane Wottawa](http://perso.univ-lemans.fr/~jwottawa/), encadrante (33 %) - LIUM (Le Mans Université) - [Mickaël Rouvier](http://www.mickael-rouvier.fr/voxceleb.html), encadrant (33 %) - LIA (Avignon Université) ### **Financement** - [Projet ANR DIETS](https://anr-diets.univ-avignon.fr/) (JCJC) ### **Réseaux sociaux** - [LinkedIn](https://www.linkedin.com/in/thibault-ba%C3%B1eras-roux-700aa21b0/) - [Twitter](https://twitter.com/BanerasRoux) - [GScholar](https://scholar.google.com/citations?user=U9hOejUAAAAJ) - [Github](https://github.com/thibault-roux) ### **Enseignements** - Applications Mobiles (2022) - Structures des Ordinateurs (2022) - Systèmes d'Exploitation (2022) ### **CV** - **Doctorat** - En cours (2021-...) - LS2N/LIA - Analyse automatique des erreurs des systèmes de reconnaissance automatique de la parole par la réception des utilisateurs finaux - **Stage de fin de Master** - [Laboratoire d'Informatique et Systèmes (LIS)](https://www.lis-lab.fr/) - [Équipe TALEP](https://talep.lis-lab.fr/) - Évaluation d'embeddings monolingues et cross-lingues et développement d'une méthode de visualisation pour observer d'éventuels clusters de POS. - [Carlos Ramisch](https://pageperso.lis-lab.fr/~carlos.ramisch/), Manon Scholivet - **Master 2 (M2) - Intelligence Artificielle et Apprentissage Automatique (IAAA)** - Aix-Marseille Université - 2020-2021 - **Master 1 (M1) - Artificial Intelligence** - Uppsala University - 2019-2020 - **Stage de fin de Licence** - [Laboratoire de la Parole et du Langage (LPL)](https://www.lpl-aix.fr/) - 2019 - Enrichissement du comportement non-verbal d'un patient virtuel autonome pour améliorer la crédibilité dans une interaction humain-machine en réalité virtuelle. - [Magalie Ochs](https://pageperso.lis-lab.fr/magalie.ochs/), [Philippe Blache](http://www2.lpl-aix.fr/~blache/) - **Licence Informatique** - Aix-Marseille Université - 2016-2019 ### **Autres** - Contributeur au groupe des [Jeunes Chercheurs en Parole (JCeP)](https://jcparole.github.io/) - Suppléant des Language Meeting du LIA.
**PhD Candidate** ----------------- ###### Alias : Thibault Roux / Thibault Bañeras Roux / TB Roux / T. Roux / thibault-roux / Thibault B. Roux ### *Automatic analysis of errors in automatic speech recognition systems from end-users reception* ### **Summary** My work focuses on error perception in Automatic Speech Recognition (ASR). I am particularly interested in alternative evaluation metrics to the Word Error Rate (WER) and the importance of words for comprehension. I am also interested in observing the peculiarities that different systems can have, such as the classical models (HMMs, cascade architecture, ...) with the end-to-end models (Deep Learning, CTC, ...). Previously, my work also focused on evaluation methods but on the evaluation of cross-lingual embeddings. **Keywords:** NLP, Automatic Speech Recognition, metrics, end-to-end, Speechbrain, Kaldi, cross-lingual embeddings, perception, artificial intelligence, wav2vec, semantic. ### **Affiliations** - [Laboratoire des Sciences du Numérique de Nantes (LS2N)](https://www.ls2n.fr/) - [Team TALN](https://www.ls2n.fr/equipe/taln/) - Nantes University - [Laboratoire d'Informatique d'Avignon (LIA)](https://lia.univ-avignon.fr/) - Team SLG - Avignon University ### **Supervisors** - [Richard Dufour](https://cv.archives-ouvertes.fr/richard-dufour/authIdHal_s/glinares), thesis director (33%) - LS2N (Nantes University) - [Jane Wottawa](http://perso.univ-lemans.fr/~jwottawa/), supervisor (33 %) - LIUM (Le Mans University) - [Mickaël Rouvier](http://www.mickael-rouvier.fr/voxceleb.html), supervisor (33 %) - LIA (Avignon University) ### **Founding** - [ANR Project DIETS](https://anr-diets.univ-avignon.fr/) (JCJC) ### **Social Networks** - [LinkedIn](https://www.linkedin.com/in/thibault-ba%C3%B1eras-roux-700aa21b0/) - [Twitter](https://twitter.com/BanerasRoux) - [GScholar](https://scholar.google.com/citations?user=U9hOejUAAAAJ) - [Github](https://github.com/thibault-roux) ### **Teaching** - Mobiles App (2022) - Computers Structure (2022) - Operating Systems (2022) ### **CV** - **PhD** - In progress (2021-...) - LS2N/LIA - Automatic analysis of errors in automatic speech recognition systems from end-users reception - **Master's thesis** - [Laboratoire d'Informatique et Systèmes (LIS)](https://www.lis-lab.fr/) - [Language Team](https://talep.lis-lab.fr/) - Evaluation of monolingual and cross-lingual embeddings and development of a visualization method to observe possible POS clusters. - [Carlos Ramisch](https://pageperso.lis-lab.fr/~carlos.ramisch/), Manon Scholivet - **Master 2 (M2) - Artificial Intelligence & Machine Learning** - Aix-Marseille University - 2020-2021 - **Master 1 (M1) - Artificial Intelligence** - Uppsala University - 2019-2020 - **Bachelor's thesis** - [Laboratoire de la Parole et du Langage (LPL)](https://www.lpl-aix.fr/) - 2019 - Enriching the non-verbal behavior of an autonomous virtual patient to improve believability in a human-machine interaction in virtual reality. - [Magalie Ochs](https://pageperso.lis-lab.fr/magalie.ochs/), [Philippe Blache](http://www2.lpl-aix.fr/~blache/) - **Bachelor in Computer Science** - Aix-Marseille University - 2016-2019

Publications

Image document

HATS : Un jeu de données intégrant la perception humaine appliquée à l'évaluation des métriques de transcription de la parole

Thibault Bañeras-Roux , Jane Wottawa , Mickael Rouvier , Teva Merlin , Richard Dufour
18e Conférence en Recherche d'Information et Applications -- 16e Rencontres Jeunes Chercheurs en RI -- 30e Conférence sur le Traitement Automatique des Langues Naturelles -- 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2023, Paris, France. pp.10-18
Communication dans un congrès hal-04130218v1
Image document

HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

Thibault Bañeras-Roux , Jane Wottawa , Mickael Rouvier , Teva Merlin , Richard Dufour
Text, Speech and Dialogue 2023 - Interspeech Satellite, Faculty of Applied Sciences University of West Bohemia Plzeň (Pilsen); NTIS P2 Research Center University of West Bohemia Plzeň (Pilsen); Faculty of Informatics Masaryk University Brno, Sep 2023, Plzeň (Pilsen), Czech Republic
Communication dans un congrès hal-04125590v1
Image document

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

Thibault Bañeras Roux , Mickael Rouvier , Jane Wottawa , Richard Dufour
Interspeech, Sep 2022, Incheon, South Korea
Communication dans un congrès hal-03712735v2
Image document

Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole

Thibault Bañeras Roux , Mickael Rouvier , Jane Wottawa , Richard Dufour
29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France
Communication dans un congrès hal-03688029v2