Accéder directement au contenu

Thibault Clérice

Junior Fellow, IA Appliquée aux SHS
80%
Libre accès
49
Documents
Identifiants chercheurs
Contact
Site web
  • https://github.com/ponteineptique

Présentation

Points d'intérêt ---------------- - **Analyse computationnelle du** **latin** classique et tardif - **Apprentissage profond** et chaînes de **numérisation** de textes - **Standards** et méthodes de partage des données - **Ingénierie** pour les sciences humaines: bonnes pratiques, contrôle qualité Diplômes -------- - **Thèse** *Dire la sexualité en latin classique et tardif : une étude lexicographique par « apprentissage profond »*, sous la direction de Christian Nicolas à l'université de Lyon 3 - **Master** "Technologies Numériques Appliquées à l'Histoire", École des Chartes et King's College of London - **Licence** Lettres Classiques, Sorbonne Activités professionnelles -------------------------- | | Employeur | Poste | | -- | -- | -- | | 2023- | INRIA | Starting Research Position | | 2023 | Paris Sciences Lettres | Junior Fellow en Intelligence Artificielle appliquées aux Sciences Humaines et Sociales | | 2022 | École nationale des chartes | Post-doctorant sur projet CREMMALab, centré sur l'acquisition de textes manuscrits médiévaux | | 2017-2022 | École nationale des chartes | Responsable pédagogique du master Technologies Numériques Appliquées à l’Histoire, équivalence MCF | | 2014-2017 | Leipzig Universität | *Wissenschaftlicher Mitarbeiter* (Ingénieur) reponsable de l'infrastructure de Perseus 5 et https://Capitains.org | | 2014-2017 | Freelance | https://Syriaca.org et https://Perseids.org | | 2015 | Leipzig Universität | Enseignant à l’université d’été, « “Culture & Technology” - The European Summer University in Digital Humanities » | | 2013-2014 | King's College London | *Research developer,* Centre for e-Research, Digital Humanities Department: projet EHRIs (https://portal.ehri.eu) et DASISH| | 2006-2013 | Divers | Développeur en freelance ou sous-contrat avec de multiples entreprises ou institutions publiques | Projets ---- - *HTRomance*, co-porteur avec Alix Chagué, 2023, Datalab de la Bibliothèque Nationale de France. L’objectif du projet HTRomance est d’évaluer et d’améliorer les techniques de reconnaissance d’écritures manuscrites (HTR) des manuscrits littéraires en latin et langues romanes, du XIème au XIXème siècle. - *CREMMA* [[Lien](https://www.pamir.fr/projets-soutenus/cremma/)], co-rédacteur et -organisateur. Le projet Consortium Reconnaissance d’Écriture Manuscrite des Matériaux Anciens (CREMMA) vise la création d’un service de mise à disposition de ressources serveur pour favoriser l’accès à la reconnaissance d’écriture manuscrite (REM). Bourses et Prix --------------- - 2022 Commanded Paper à la Computational Humanities Research 2022 (*[Ground-truth Free Evaluation of HTR on Old French and Latin Medieval Literary Manuscripts](https://hal-enc.archives-ouvertes.fr/hal-03828529)*) - 2019 Prix [Paul Fortier](https://adho.org/awards/paul-fortier-prize), Conférence DH2019 Utrecht, avec Ariane Pinche et Jean-Baptiste Camps (*[Stylometry for Noisy Medieval Data: Evaluating Paul Meyer's Hagiographic Hypothesis.](https://hal.science/hal-02182737)*). - 2013-2014 Bourse pour la Goettingen’s Summer School “DARIAH-DE International Digital Humanities Summer School” - 2013 Bourse “Soutien aux acteurs de la recherche en humanités numériques” pour DH2014 Participation à des projets ---------------------- - Membre fondateur et co-éditeur de [HTR-United](https://htr-united.github.io/) - Membre du conseil scientifique du *Consortium pour la Reconnaissance d’Écriture Manuscrite des Matériaux Anciens*. - Membre de l’Editorial Board de [Digital Classicist](https://www.digitalclassicist.org/). - Co‑directeur du projet [Perseids](https://perseids.org) - Membre du Comité [Patrimoin](https://www.iesf.fr/752_p_50361/comite-patrimoine.html) de la Société des Ingénieurs et Scientifiques de France. - Membre de l’Advisory Board d’[Alpheios.net](https://Alpheios.net). - Membre fondateur du comité technique de la spécification [Distributed Text Services](https://w3id.org/dts). - Membre du projet [Eurykleia](https://eurykleia.hypotheses.org) **Passé** - (2014–2016) Membre du groupe de travail Outil et savoir faire de l’association francophone des humanités numériques Humanistica . - (2015) **Visible Words / Mots Visibles** Coopération transatlantique combinant recherche et formation en épigraphie. Déplacement sur le terrain en 2015 à Thasos (Grèce). Conseils technologiques et support pédagogique - (2013) *Cerch Spring Seminars*

Compétences

Humanités Numériques Deep Learning Humanités Computationnelles Acquisition automatique du texte Traitement automatique des langues (TAL/NLP) HTR / OCR Ingénierie des données Standard et encodage dans les humanités numériques Latin Histoire Romaine

Publications

Image document

You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine

Thibault Clérice
Journal of Data Mining and Digital Humanities, 2023, Historical Documents and.., ⟨10.46298/jdmdh.9806⟩
Article dans une revue hal-03723208v4
Image document

CREMMA Medii Aevi: Literary manuscript text recognition in Latin

Thibault Clérice , Malamatenia Vlachou-Efstathiou , Alix Chagué
Journal of Open Humanities Data, 2023, 9, pp.4. ⟨10.5334/johd.97⟩
Article dans une revue hal-03828353v5
Image document

Artificial colorization of digitized microfilms: a preliminary study

Thibault Clérice , Ariane Pinche
Journal of Data Mining and Digital Humanities, 2023, 2022 (Towards a Digital Ecosystem:..), ⟨10.46298/jdmdh.8454⟩
Article dans une revue hal-03335326v3
Image document

Distributed Text Services (DTS): a Community-built API to Publish and Consume Text Collections as Linked Data

Bridget Almas , Hugh Cayless , Thibault Clérice , Vincent Jolivet , Pietro Maria Liuzzo
Journal of the Text Encoding Initiative, 2023, Rolling Issue, pp.1-26. ⟨10.4000/jtei.4352⟩
Article dans une revue hal-03183886v2
Image document

OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more)

Simon Gabay , Thibault Clérice , Christian Reul
Journal of Data Mining and Digital Humanities, 2023, 2023, ⟨10.46298/jdmdh.6492⟩
Article dans une revue hal-02577236v2
Image document

Antiquité tardive et littératures latines : corpus et perspectives numériques

Thibault Clérice
Κοινωνία = Koinōnia, 2022, 46, pp.207-215
Article dans une revue hal-03943557v1
Image document

Corpus and Models for Lemmatisation and POS-tagging of Classical French Theatre

Jean-Baptiste Camps , Simon Gabay , Paul Fièvre , Thibault Clérice , Florian Cafiero
Journal of Data Mining and Digital Humanities, 2021, ⟨10.46298/jdmdh.6485⟩
Article dans une revue halshs-02591388v2
Image document

Noisy medieval data, from digitized manuscript to stylometric analysis: Evaluating Paul Meyer’s hagiographic hypothesis

Jean-Baptiste Camps , Thibault Clérice , Ariane Pinche
Digital Scholarship in the Humanities, 2021, 36 (Supplement 2), pp.ii49-ii71. ⟨10.1093/llc/fqab033⟩
Article dans une revue halshs-03044086v2
Image document

Evaluating Deep Learning Methods for Word Segmentation of Scripta Continua Texts in Old French and Latin

Thibault Clérice
Journal of Data Mining and Digital Humanities, 2020, 2020, ⟨10.46298/jdmdh.5581⟩
Article dans une revue hal-02154122v2
Image document

Continuous Integration and Unit Testing of Digital Editions

Bridget Almas , Thibault Clérice
Digital Humanities Quarterly, 2018, 11 (4)
Article dans une revue hal-01709868v1
Image document

CapiTainS Toolkit, Digital Editing and Data Reuse

Thibault Clérice
Médiévales, 2017, 73 (73), pp.115 - 131. ⟨10.4000/medievales.8211⟩
Article dans une revue hal-02892280v1
Image document

CATMuS-Medieval: Consistent Approaches to Transcribing ManuScripts

Ariane Pinche , Thibault Clérice , Alix Chagué , Jean-Baptiste Camps , Malamatenia Vlachou-Efstathiou
DH2024, ADHO, Aug 2024, Washington DC, United States
Communication dans un congrès hal-04346939v1
Image document

Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts

Thibault Clérice
Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL), May 2024, Torino, Italy
Communication dans un congrès hal-04214375v3
Image document

Layout Analysis Dataset with SegmOnto

Thibault Clérice , Juliette Janes , Hugo Scheithauer , Sarah Bénière , Laurent Romary
DH2024 - Annual conference of the Alliance of Digital Humanities Organizations, ADHO, Aug 2024, Washington DC, United States
Communication dans un congrès hal-04513725v1
Image document

Make Love or War? Monitoring the Thematic Evolution of Medieval French Narratives

Jean-Baptiste Camps , Nicolas Baumard , Pierre-Carl Langlais , Olivier Morin , Thibault Clérice
Computational Humanities Research (CHR 2023), Dec 2023, Paris, France
Communication dans un congrès hal-04250657v1

Lemmatisation et classification sémantique dans un corpus latin en diachronie longue

Thibault Clérice
Séminaires ALMAnaCH, Rachel Bawden, Feb 2023, Paris, France
Communication dans un congrès hal-04004344v1
Image document

"I'm here to fight for ground truth": HTR-United, a solution towards a common for HTR training data

Alix Chagué , Thibault Clérice
Digital Humanities 2023: Collaboration as Opportunity, Alliance of Digital Humanities Organizations; University of Graz, Jul 2023, Graz, Austria
Communication dans un congrès hal-04094233v1
Image document

Manu McFrench, from zero to hero: impact of using a generic handwriting recognition model for smaller datasets

Alix Chagué , Thibault Clérice , Jade Norindr , Maxime Humeau , Baudoin Davoury
Digital Humanities 2023: Collaboration as Opportunity, Alliance of Digital Humanities Organizations; University of Graz, Jul 2023, Graz, Austria
Communication dans un congrès hal-04094241v1
Image document

Synthetic lines from historical manuscripts: an experiment using GAN and style transfer

Chahan Vidal-Gorène , Jean-Baptiste Camps , Thibault Clérice
Visual Processing of Digital Manuscripts: Workflows, Pipelines, Best Practices. ICIAP 2023 Workshops. ICIAP 2023., Sep 2023, Udine, Italy
Communication dans un congrès hal-04178550v2
Image document

Twenty-One* Pseudo-Chrysostoms and more: authorship verification in the patristic world

Thibault Clérice , Anthony Glaise
Computational Humanities Research Conference 2023, Dec 2023, Paris, France
Communication dans un congrès hal-04211176v2
Image document

Workshop HTR-United: metadata, quality control and sharing process for HTR training data

Thibault Clérice , Alix Chagué , Hugo Scheithauer
DH 2023 - Digital Humanities Conference: Collaboration as Opportunity, Alliance of Digital Humanities Organizations; University of Graz, Jul 2023, Graz, Austria
Communication dans un congrès hal-04094235v1

Artificial colorization of digitized microfilms : a preliminary study

Ariane Pinche , Thibault Clérice
International Medieval Congress, Jul 2022, Leeds, United Kingdom
Communication dans un congrès hal-03719494v1
Image document

Building infrastructure for annotating medieval, classical and pre-orthographic languages: the Pyrrha ecosystem

Thibault Clérice , Vincent Jolivet , Julien Pilla
Digital Humanities 2022 (DH2022), Jul 2022, Tokyo, Japan
Communication dans un congrès hal-03606756v1
Image document

Lemmatisation de l’ancien français : Présentation du modèle et des outils de l’École des chartes

Frédéric Duval , Lucence Ing , Jean-Baptiste Camps , Naomi Kanaoka , Ariane Pinche
XXXe Congrès International de Linguistique et de Philologie Romanes, Société de linguistique romane, Jul 2022, La Laguna, Tenerife, Espagne. pp.1001-1012, ⟨10.46277/SLR.18.2023.1001-1012⟩
Communication dans un congrès hal-04013381v1
Image document

Sharing HTR datasets with standardized metadata: the HTR-United initiative

Alix Chagué , Thibault Clérice
Documents anciens et reconnaissance automatique des écritures manuscrites, CREMMALab, Jun 2022, Paris, France
Communication dans un congrès hal-03703989v1
Image document

Ground-truth Free Evaluation of HTR on Old French and Latin Medieval Literary Manuscripts

Thibault Clérice
Computational Humanities Research Conference (CHR) 2022, Dec 2022, Antwerp, Belgium
Communication dans un congrès hal-03828529v1
Image document

"Don't worry, it's just noise": quantifying the impact of files treated as single textual units when they are really collections

Thibault Clérice
Workshop on Natural Language Processing for Digital Humanities (NLP4DH), NLP Association of India (NLPAI), Dec 2021, NIT Silchar, India. pp.95-105
Communication dans un congrès hal-03481620v1

Lemmatiser des textes et corriger l'annotation grâcè a l'apprentissage profond avec Pyrrha

Thibault Clérice , Matthias Gille Levenson , Lucence Ing , Ariane Pinche , Simon Gabay
Humanistica 2021, Humanistica, May 2021, Rennes, France
Communication dans un congrès hal-03224112v1
Image document

Introducing Citation Structures

Hugh Cayless , Thibault Clérice , Jonathan Robie
Balisage: The Markup Conference 2021, Aug 2021, Washington, United States. ⟨10.4242/BalisageVol26.Cayless01⟩
Communication dans un congrès hal-04262751v1
Image document

HTR-United : Mutualisons la vérité de terrain !

Alix Chagué , Thibault Clérice , Laurent Romary
DHNord2021 - Publier, partager, réutiliser les données de la recherche : les data papers et leurs enjeux, MESHS, Nov 2021, Lille, France
Communication dans un congrès hal-03398740v1
Image document

The BIR database – Identifying typographic emphasis in list-like historical documents

Anna Scius Bertrand , Simon Gabay , Ljudmila Petkovic , Juliette Janes , Caroline Corbières
HIP@ICDAR21 - The 6th International Workshop on Historical Document Imaging and Processing, Sep 2021, Lausanne, Switzerland. ⟨10.1145/3476887.3476913⟩
Communication dans un congrès hal-03355683v1
Image document

Standardizing linguistic data: method and tools for annotating (pre-orthographic) French

Simon Gabay , Thibault Clérice , Jean-Baptiste Camps , Jean-Baptiste Tanguy , Matthias Gille-Levenson
Proceedings of the 2nd International Digital Tools & Uses Congress (DTUC '20), Oct 2020, Hammamet, Tunisia. ⟨10.1145/3423603.3423996⟩
Communication dans un congrès hal-03018381v1

Deep learning et humanités : entre score et application

Thibault Clérice
Machine learning, données textuelles et recherche en sciences humaines et sociales, Mariane Reboul; Jean-Philippe Magué; Pierre Borgnat, Nov 2019, Lyon, France
Communication dans un congrès hal-02379455v1

Présentation du protocole de partage de texte Distributed Texts Services (DTS)

Thibault Clérice , Vincent Jolivet
Conférence ADEMEC, ADEMEC - Ecole nationale des chartes, Feb 2019, Paris, France
Communication dans un congrès hal-04087571v1
Image document

Stylometry for Noisy Medieval Data: Evaluating Paul Meyer’s Hagiographic Hypothesis

Ariane Pinche , Jean-Baptiste Camps , Thibault Clérice
Digital Humanities Conference 2019 - DH2019, ADHO; Utrecht University, Jul 2019, Utrecht, Netherlands
Communication dans un congrès hal-02182737v1

From File Interoperability to Service Interoperability : The Distributed Text Services

Thibault Clérice , Bridget Almas , Hugh Cayless , Vincent Jolivet , Emmanuelle Morlock
TEI 2018, Sep 2018, Tokyo, Japan
Communication dans un congrès hal-02196659v1

Deucalion et Pyrrha: Environnement pour la lemmatisation et la postcorrection à l'École des chartes

Thibault Clérice
Text Encoding: Latinists looking for new synergies, Nov 2018, Liège, Belgique
Communication dans un congrès halshs-02488858v1

Capitains : Challenges for the generalization and adoption of open source software

Bridget Almas , Thibault Clérice , Matt Munson
Digital Classicist London, Jun 2018, Londres, France
Communication dans un congrès hal-01814742v1
Image document

APIs in Digital Humanities: The Infrastructural Turn

Toma Tasovac , Adrien Barbaresi , Thibault Clérice , Jennifer Edmond , Natalia Ermolaev
Digital Humanities 2016, Jul 2016, Cracovie, Poland. pp.93-96
Communication dans un congrès hal-01348706v1
Image document

Unit testing, integration and deployment : dealing with diversity, interoperability and sustainability of digital corpora

Thibault Clérice , Bridget Almas , Marie-Claire Beaulieu , Stella Dee
TEI Conference and Members' Meeting, Text Encoding Initiative, Oct 2015, Lyon, France
Communication dans un congrès hal-04271323v1

Network analysis and distant reading: The Cicero’s Network

Anthony Glaise , Thibault Clérice
The Connected Past, Apr 2014, Paris, France
Communication dans un congrès hal-04527010v1
Image document

Qualitative Analysis of Semantic Language Models

Thibault Clérice , Matthew Munson
David Hamidović; Claire Clivaz; Sarah Bowen. Ancient Manuscripts in Digital Culture, 3, BRILL, pp.87-114, 2019, Digital Biblical Studies, 978-90-04-39929-7. ⟨10.1163/9789004399297_007⟩
Chapitre d'ouvrage hal-02196654v1