Skip to Main content
Number of documents

51

CV HAL Gaël Lejeune (STIH, Sorbonne Université)


Pour des informations complètes, mon site personnel : http://lejeunegael.fr/


Journal articles7 documents

  • Emmanuel Giguet, Gaël Lejeune. Daniel at the FinSBD-2 Task: Extracting List and Sentence Boundaries from PDF Documents, a model-driven approach to PDF document analysis. Proceedings of the Second Workshop on Financial Technology and Natural Language Processing, 2021, pp.67-74. ⟨hal-02927304⟩
  • Karine Abiven, Gaël Lejeune, Jean-Baptiste Tanguy. « Exploiter un corpus de données textuelles sans post-traitement : l’écriture burlesque de la Fronde ». Humanités numériques, Bruxelles: Humanistica, 2021. ⟨hal-03500616⟩
  • Adrien Barbaresi, Gaël Lejeune. Out-of-the-Box and Into the Ditch? Multilingual Evaluation of Generic Text Extraction Tools. Language Resources and Evaluation Conference (LREC 2020), 2020, pp.5-13. ⟨hal-02732851⟩
  • Karine Abiven, Gaël Lejeune. Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité. Recherche d’Information, Document et Web Sémantique, ISTE OpenScience, 2019, 2 (1), ⟨10.21494/ISTE.OP.2019.0335⟩. ⟨hal-02467535⟩
  • Gaël Lejeune, Lichao Zhu. A New Proposal for Evaluating Web Page Cleaning Tools. Computación y sistemas, Instituto Politécnico Nacional IPN Centro de Investigación en Computación, 2018, ⟨10.13053/CyS-22-4-3062⟩. ⟨hal-02467732⟩
  • Gaël Lejeune, Romain Brixtel, Antoine Doucet, Nadine Lucas. Multilingual Event Extraction for Epidemic Detection. Artificial Intelligence in Medicine, Elsevier, 2015, 65 (2), pp.131--143. ⟨10.1016/j.artmed.2015.06.005⟩. ⟨hal-01294127⟩
  • Gaël Lejeune, Romain Brixtel, Christine Durieux. Vers une approche « rhétorique » en TAL : application à la veille épidémiologique multilingue. Revue SEPTET, Anagrammes, 2013, [13 p.]. ⟨hal-01074771⟩

Conference papers39 documents

  • Ibtihel Ben Ltaifa, Toufik Boubehziz, Andrea Briglia, Corina Chutaux, Yoann Dupont, et al.. Stylo@DEFT2022 : Notation automatique de copies d’étudiant·e·s par combinaisons de méthodes de similarité. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.11-22. ⟨hal-03703281⟩
  • Caroline Koudoro-Parfait, Gaël Lejeune, Richy Buth. Reconnaissance d'entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.45-55. ⟨hal-03701476⟩
  • Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune, et al.. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources. Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France. pp.345-354. ⟨hal-03701516⟩
  • Adrien Barbaresi, Emmanuel Giguet, Gaël Lejeune. X-COTE – Extraction de Contenus Textuels du Web. TALN-RECITAL 2021, Jun 2021, Lille, France. ⟨hal-03382641⟩
  • Emmanuel Giguet, Gaël Lejeune. Daniel@FinTOC-2021: Taking Advantage of Images and Vectorial Shapes in Native PDF Document Analysis. 3rd Financial Narrative Processing Workshop, Sep 2021, Lancaster, United Kingdom. pp.70-74. ⟨hal-03744586⟩
  • Emmanuel Giguet, Gaël Lejeune, Jean-Baptiste Tanguy. Daniel@FinTOC’2 Shared Task: Title Detection and Structure Extraction. 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation @COLING’2020, Dec 2020, Barcelone, Spain. ⟨hal-03024867⟩
  • Nhu Khoa Nguyen, Emanuela Boroş, Gaël Lejeune, Antoine Doucet. Impact Analysis of Document Digitization on Event Extraction. 4th Workshop on Natural Language for Artificial Intelligence (NL4AI 2020) co-located with the 19th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2020), Nov 2020, Virtual, Italy. pp.17-28. ⟨hal-03026148⟩
  • Gaël Lejeune, Hugo Jeaningros. Sociologie de l'Informatique et Informatique de la Sociologie. Journée d'Etudes Sociologie et Informatique (SIBON), Jan 2020, Paris, France. ⟨hal-02570351⟩
  • Anaëlle Baledent, Nicolas Hiebel, Gaël Lejeune. Dating Ancient texts: an Approach for Noisy French Documents. Language Resources and Evaluation Conference (LREC) 2020, May 2020, Marseille, France. ⟨hal-02571633⟩
  • Dhaou Ghoul, Gaël Lejeune. Voting Classifier vs Deep learning method in Arabic Dialect Identification. : Proceedings of the Fifth Arabic Natural Language Processing Workshop, COLING 2020, Dec 2020, Barcelone, Spain. ⟨hal-03089957⟩
  • Pedro Javier Ortiz Suárez, Yoann Dupont, Gaël Lejeune, Tian Tian. SinNer@Clef-Hipe2020 : Sinful adaptation of SotA models for Named Entity Recognition in French and German. CLEF 2020 Working Notes. Working Notes of CLEF 2020 - Conference and Labs of the Evaluation Forum, Sep 2020, Thessaloniki / Virtual, Greece. ⟨hal-02984746⟩
  • Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Gaël Lejeune, Adam Jatowt, et al.. Multilingual Epidemiological Text Classification: A Comparative Study. COLING, International Conference on Computational Linguistics, Dec 2020, Barcelone, Spain. pp.6172-6183, ⟨10.18653/v1/2020.coling-main.543⟩. ⟨hal-03089807⟩
  • Davide Buscaldi, Ghazi Felhi, Dhaou Ghoul, Josepth Le Roux, Gaël Lejeune, et al.. Calcul de similarité entre phrases : quelles mesures et quels descripteurs ?. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes, 2020, Nancy, France. pp.14-25. ⟨hal-02784738v3⟩
  • Adrien Barbaresi, Gaël Lejeune. Que recèlent les données textuelles issues du web ?. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL), 2020, Nancy, France. pp.19-28. ⟨hal-02750223v3⟩
  • Dhaou Ghoul, Gaël Lejeune. MICHAEL: Mining Character-level Patterns for Arabic Dialect Identification (MADAR Challenge). Proceedings of the Fourth Arabic Natural Language Processing Workshop, Aug 2019, Florence, France. pp.229-233, ⟨10.18653/v1/W19-4627⟩. ⟨hal-02467486⟩
  • Davide Buscaldi, Dhaou Ghoul, Joseph Le Roux, Gaël Lejeune. Indexation et appariements de documents cliniques pour le Deft 2019. TALN -Défi Fouille de Textes (DEFT) 2019, Jul 2019, Toulouse, France. ⟨hal-02467526⟩
  • Anaëlle Baledent, Gaël Lejeune. Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas. Phraséologie et stylistique de la langue littéraire, Mar 2019, Erlangen, Allemagne. ⟨hal-02939782⟩
  • Emmanuel Giguet, Gaël Lejeune. Daniel@FinTOC-2019 Shared Task : TOC Extraction and Title Detection. The Second Financial Narrative Processing Workshop (FNP 2019), Sep 2019, Turku, Finland. pp.63-68. ⟨hal-02303131⟩
  • Gaël Lejeune, Lichao Zhu. Analyse Diachronique de Corpus : le cas du poker. Journées d'Analyse statistique des Données Textuelles (JADT) 2018, Jun 2018, Rome, Italie. ⟨hal-02467662⟩
  • Davide Buscaldi, Joseph Le Roux, Gaël Lejeune. Modèles en Caractères pour la Détection de Polarité dans les Tweets. Atelier DEFT 2018, May 2018, Rennes, France. ⟨hal-01988907⟩
  • Gaël Lejeune, Emmanuel Cartier. Character Based Pattern Mining for Neology Detection. Proceedings of the First Workshop on Subword and Character Level Models in NLP, Sep 2017, Copenhagen, France. pp.25-30, ⟨10.18653/v1/W17-4103⟩. ⟨hal-02467738⟩
  • Davide Buscaldi, Aude Grezka, Gaël Lejeune. Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017. 24e Conférence sur le Traitement Automatique des Langues Naturelles (TALN) : Analyse d'opinion et langage figuratif dans des tweets, Jun 2017, Orléans, France. pp. 65-76. ⟨hal-02362125⟩
  • Béatrice Daille, Evelyne Jacquey, Gaël Lejeune, Luis Felipe Melo, Yannick Toussaint. Ambiguity Diagnosis for Terms in Digital Humanities. Language Resources and Evaluation Conference, May 2016, Portorož, Slovenia. ⟨hal-01423650⟩
  • Gaël Lejeune, François Rioult, Bruno Crémilleux. Highlighting Psychological Features for Predicting Child Interjections During Story Telling. INTERSPEECH 2016, Aug 2016, San Francisco, United States. ⟨10.21437/Interspeech.2016-527⟩. ⟨hal-01639793⟩
  • Gaël Lejeune. Intrinsic and Extrinsic Evalution of Web Page Cleaning. International Symposium on Web Algorithms, Jun 2016, Deauville, France. ⟨hal-01639799⟩
  • Gaël Lejeune, Frédéric Dumonceaux. A stylometric approach for opinion mining. Traitement Automatique des Langues Naturelles 2015, DEFT, Jun 2015, caen, France. ⟨hal-01170000⟩
  • Gaël Lejeune, Romain Brixtel, Charlotte Lecluze. Évaluation intrinsèque et extrinsèque du nettoyage de pages Web. Traitement Automatique des Langues Naturelles 2015, Jun 2015, Caen, France. ⟨hal-01170005⟩
  • Gaël Lejeune, Béatrice Daille. Towards diagnosing ambiguity of candidate terms. Traitement Automatique des Langues Naturelles 2015, Jun 2015, Caen, France. ⟨hal-01169996⟩
  • Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet. Apports de l'analyse automatique multilingue pour la veille épidémiologique. Journées internationales d’Analyse statistique des Données Textuelles, Jun 2014, Paris, France. ⟨hal-01075057⟩
  • Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet, Nadine Lucas. Added-Value of Automatic Multilingual Text Analysis for Epidemic Surveillance. 14th Conference on Artificial Intelligence in Medicine, May 2013, Murcia, Spain. pp.284 - 294, ⟨10.1007/978-3-642-38326-7_40⟩. ⟨hal-01074535⟩
  • Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet, Nadine Lucas. DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance. 20ème conférence du Traitement Automatique du Langage Naturel 2013 (TALN 2013), Jun 2013, Sables d'Olonne, France. p.787-788. ⟨hal-01074881⟩
  • Charlotte Lecluze, Romain Brixtel, Loïs Rigouste, Emmanuel Giguet, Régis Clouard, et al.. Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue. 20ème conférence du Traitement Automatique du Langage Naturel 2013 (TALN 2013), Jun 2013, Sables d'Olonne, France. ⟨hal-01074950⟩
  • Romain Brixtel, Gaël Lejeune, Antoine Doucet, Nadine Lucas. Any Language Early Detection of Epidemic Diseases from Web News Streams. Healthcare Informatics (ICHI), 2013 IEEE International Conference on, Sep 2013, philadelphie, United States. pp.159 - 168, ⟨10.1109/ICHI.2013.94⟩. ⟨hal-01073195⟩
  • Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune, Gaël Dias. Détection de mots-clés par approches au grain caractère et au grain mot. TALN 2012, Jun 2012, Grenoble, France. pp.41-48. ⟨hal-01073775⟩
  • Gaël Lejeune, Christine Durieux. Pour une approche cibliste en TAL : le cas de l'analyse automatique de la presse. Colloque international : Rhétorique et Traduction, Jan 2012, Orléans, France. ⟨hal-01071938⟩
  • Gaël Lejeune, Romain Brixtel, Emmanuel Giguet. Deft 2011: appariements de résumés et d'articles scientifiques fondés sur des distributions de chaînes de caractères. TALN 2011, Jun 2011, Montpellier, France. pp.53-64. ⟨hal-01070769⟩
  • Gaël Lejeune, Nadine Lucas, Antoine Doucet. Tentative d'approche multilingue en extraction d'information. JADT Journées internationales d'Analyse statistique des Données Textuelles, Jun 2010, rome, Italie. pp.1259-1267. ⟨hal-01067147⟩
  • Gaël Lejeune, Antoine Doucet, Roman Yangarber, Nadine Lucas. Filtering news for epidemic surveillance: towards processing more languages with fewer resources. 4th International worshop on cross-lingual information access CLIA 2010, Aug 2010, Pekin, China. 8 p. ⟨hal-01067156⟩
  • Gaël Lejeune. Structure patterns in Information Extraction: a multilingual solution?. Advances in Methods of Information and Communication Technology, May 2009, Petrozavodsk, Russia. pp.105-111. ⟨hal-00605691⟩

Poster communications1 document

  • Lichao Zhu, Gaël Lejeune. Digital ou Numérique : un phénomène d'emprunt au cœur de la start-up nation ?. Journées de Linguistique de Corpus (JLC) 2019, Nov 2019, Grenoble, France. ⟨hal-02571641⟩

Book sections3 documents

  • Anaëlle Baledent, Gaël Lejeune. Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style. Phraséologie et stylistique de la langue littéraire Phraseology and Stylistics of Literary Language, Peter Lang, 2020, ⟨10.3726/b17628⟩. ⟨hal-03089956⟩
  • Gaël Lejeune, Romain Brixtel, Antoine Doucet, Nadine Lucas. DAnIEL: Language Independent Character-Based News Surveillance. Isahara, Hitoshi and Kanzaki, Kyoko. Advances in Natural Language Processing: 8th International Conference on NLP, JapTAL 2012, Springer, pp.64-75, 2012, 978-3-642-33982-0. ⟨10.1007/978-3-642-33983-7_7⟩. ⟨hal-01071903⟩
  • Gaël Lejeune, Mohamed Hatmi, Antoine Doucet, Silja Huttunen, Nadine Lucas. A proposal for a multilingual epidemic surveillance system. User Centric Media, Springer, pp 343-348, 2010, Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, ⟨10.1007/978-3-642-12630-7_43⟩. ⟨hal-01067792⟩

Reports1 document

  • Laurene L'Hermite, Idmhand Fatiha, Stéphanie Dord-Crouslé, Karine Abiven, Gaël Lejeune, et al.. Plans de Gestion de Données des projets membres du consortium CAHIER. [Rapport de recherche] CAHIER - Consortium CAHIER. 2021, 100 p. ⟨hal-03465075⟩