Accéder directement au contenu

Pedro Ortiz Suarez

Chercheur à l'équipe de Speech and Language Technology à DFKI GmbH Berlin.
2
Documents
Affiliations actuelles
  • 1143775
  • 258630
Identifiants chercheurs
Contact
Site web
  • https://portizs.eu
  • https://portizs.eu

Présentation

I'm a researcher at the [Speech and Language Technology Team](https://www.dfki.de/en/web/research/research-departments/speech-and-language-technology) at [DFKI GmbH](https://www.dfki.de/en/web) Berlin. I am interested in [large corpora](https://oscar-corpus.com) for training language models, specially for under resourced languages and historical languages. I am interested in tasks such as Name Entity Recognition (NER), Dependency Parsing and Part-of-Speech tagging, Machine Translation and Document structuration.
Je suis chercheur à l'[équipe de Speech and Language Technology](https://www.dfki.de/en/web/research/research-departments/speech-and-language-technology) à [DFKI GmbH](https://www.dfki.de/en/web) Berlin. Je m'intéresse aux grands corpus pour l'entraînement de modèles de langue, en particulier pour les langues peu-dotées et les langues historiques. Je suis intéressé par des tâches telles que la reconnaissance d'entités nommées (NER), l'analyse syntaxique, l'étiquetage morpho-syntaxique, la traduction automatique et la structuration de documents.

Domaines de recherche


Publications

julien-abadji
Image document

Towards a Cleaner Document-Oriented Multilingual Crawled Corpus

Julien Abadji , Pedro Ortiz Suarez , Laurent Romary , Benoît Sagot
Thirteenth Language Resources and Evaluation Conference - LREC 2022, Jun 2022, Marseille, France
Communication dans un congrès hal-03536361v1
Image document

Ungoliant: An Optimized Pipeline for the Generation of a Very Large-Scale Multilingual Web Corpus

Julien Abadji , Pedro Javier Ortiz Suárez , Laurent Romary , Benoît Sagot
CMLC 2021 - 9th Workshop on Challenges in the Management of Large Corpora, Jul 2021, Limerick / Virtual, Ireland. ⟨10.14618/ids-pub-10468⟩
Communication dans un congrès hal-03301590v1