Number of documents

45

Fabrice issac


Mon positionnement naturellement à l’intersection de la linguistique et des techniques liées au numérique guide mon activité de recherche. Il s’agit d’une démarche épistémologique et trans-disciplinaire dont la langue ou le langage en sont la pierre de touche. Le dénominateur commun de mes différents travaux, qui peut être constaté au travers de mes différentes productions, tant des publications que des
développements, est la notion de ressource. Ces dernières années les notions d’usage et de diachronie ont été au centre de mes préoccupations ; en témoigne mon implication dans le projet Créalscience (naissance du vocabulaire scientifique au moyen âge) et le réseau UDPN (Usage des patrimoines numérisés). Depuis 2016 je développe un axe lié au domaine de la santé publique, celui-ci étant en partie dû au travail de thèse entreprit par Mme Haroutunian. Les problématiques que je développe concernent (i) l’accès aux publications scientifiques (ii) l’analyse du discours sur la médecine dans les réseaux sociaux et plus généralement sur le web (iii) plus globalement, cette démarche s’inscrit dans le cadre des humanités médicales.

Lexique

Le mot est pensé jusqu’au 18 e siècle comme l’unité élémentaire linguistique porteuse de sens et c’est le passage du manuscrit à l’imprimerie qui consacre la notion de mot. Connue de la plupart des locuteurs elle est intuitivement perçue comme une unité élémentaire, supposée atomique, de la langue au sein d’une phrase. L’histoire des notions linguistiques montre que le mot est incontournable dans la modélisation des langues, même si cette notion préscientifique a, de tout temps, donné lieu à des attaques
et à des tentatives de remplacement par d’autres notions à la définition plus précise (signe, morphème, lexème, monème, lexie, unité lexicale). Les premiers traitements sur des ressources numériques consistent à identifier les mots à partir d’un flux de caractères, ce n’est que lorsque cette étape est terminée que d’autres traitements peuvent être envisagés. Cette notion du mot, je l’aborde sous différents angles :

1. La morphologie : j’ai présenté un modèle de représentation de la flexion proposant un formalisme de transformation sous forme de règles couplé à une description permettant la structuration de celles-ci. Je distingue deux niveaux : (i) comment, à partir d’une forme initiale, il est possible d’arriver à une forme dérivée ? (ii) comment organiser les règles pour les regrouper efficacement de manière à éviter la redondance qui, du strict point de vue de la gestion, est source d’erreurs ? ; Cette dissociation permet de rendre compte de la nature fonctionnelle / relationnelle de la morphologie dans un cadre théorique réalisationnel Ce même formalisme peut aussi être utilisé en analyse pour identifier la nature de certains néologismes.
2. Le figement : Le figement est un phénomène très complexe, très répandu et pour lequel il existe une abondante littérature tant pour son étude que pour sa description J’ai abordé cette notion en cherchant à répondre à deux questions : comment les représenter en tant que ressource numérique, comme dans le formalisme des grammaires d’arbres adjoints, et comment les identifier ? Je me suis inspiré pour le premier point à la fois des grammaires d’unification et du modèle morphologique décrit supra ; le second point fait intervenir un ensemble de tests syntaxiques, sémantiques (inspiré par les travaux de Zellig S. Harris) et quantitatif afin d’exhiber un ensemble de candidats. Cette stratégie a aussi été utilisée afin de procéder à un alignement de termes dans le cadre de corpus bilingues.


Ressources

Élaborer une ressource linguistique morphologique est une tâche complexe qui dépasse la réalisation proprement dite du modèle. La constitution de la ressource elle-même est une activité toute différente et nécessite une connaissance parfaite à la fois du modèle formel et du modèle linguistiques. Pour les différentes expérimentations auxquelles j’ai procédé, j’ai donc fait appel à des informateurs ; dans ce cas précis, faire appel à un locuteur natif ne suffit pas et c’est un linguiste natif qui tient le rôle d’informateur avec toutes les difficultés de communications inhérentes à ce type d’interactions. Le travail réalisé sur l’ancien français l’a été en collaboration avec Xavier-Laurent Salvador tout d’abord dans l’objectif de constituer une ressource puis dans le cadre de l’ANR Créalscience. L’étude des verbes arabes s’est faite quant à elle en collaboration avec plusieurs collègues arabisants des universités de La Manouba et de Sousse. L’étude du polonais s’est faite en collaboration avec Alicja Hajok de l’université de Cracovie.


Entrepots de données

De nombreux projets dans les humanités ont des objectifs de numérisation. Si les enjeux techniques afférents semblent résolues, il n’en est pas de même concernant les questions de pérennité, d’accessibilité et plus généralement d’usage. J’ai participé, et je participe, à différents projets dont l’enjeu final est la mise à disposition de données patrimoniales.

— Projet GORDES : Le projet GORDES (Groupe d’Observation et de Recherches sur les Documents Epistolaires du Seizième siècle), est un projet d’Histoire Moderne centré sur l’étude des premières guerres de religion en France, entre 1565 et 1576. Il repose sur la mise en valeur des 31 tomes de la série « K » appartenant au fonds d’archives du Château de Chantilly. Cette série est composée de 7 018 lettres reçues par Bertrand-Raimbaud de Simiane, baron de Gordes, lieutenant général du roi en Dauphiné entre 1565 et 1578.

— Dictionnaire Créalscience : Regroupant des préoccupations anciennes, la morphologie en synchronie et en diachronie, et nouvelles, la dictionnairique le projet Crealscience à pour objectif la rédaction d’un lexique du XIIe-XVe siècle ; il s’agit d’un poste d’observation pour une recherche sur la genèse d’une terminologie en français. Ce programme qui réunit un grand nombre de spécialistes – médiévistes, historiens des sciences et de la langues, linguistes, lexicographes – a permis de développer un grand nombre de problématiques liées à ces domaines et a permis d’en faire émerger de nouveaux. En effet, à une problématique purement dictionnairique se greffe la nécessité pour le lecteur moderne d’un dictionnaire notionnel. Outre ma participation en tant que rédacteur / correcteur de fiches, de la définition de la micro structure et des choix à effectuer concernant les contenus, j’ai mené une réflexion sur la problématique de l’accès des savoirs anciens pour un public moderne. En effet, indépendamment des compétences du lecteur en ancien français et dans un des domaines des sciences concernés, l’information inconnue doit être accessible. J’ai donc développé une chaîne de traitements tirant partie des contraintes rédactionnelles pour créer un ensemble de graphes permettant de naviguer de manière onomasiologique dans le dictionnaire.

Logiciels (instruments pour le linguiste)

Mes projets de recherche m’ont conduit à développer un certain nombre d’outils prototypes afin de tester ou de valider certaines hypothèses. L’ensemble de ces productions représente un travail important et certainement utile à la communauté (même si une tâche 9d’empaquetage nécessaire à une diffusion plus large reste à faire). Les applications / bibliothèques sont développées en Python et sont publiées de manière informelle sous licence GPL3. Les différents logiciels peuvent être téléchargés à cette adresse : http://apps.bombadil.fr).


— Télanaute : Ce logiciel est un aspirateur web qui a la particularité d’effectuer un téléchargement ciblé. Il est possible de définir un certain nombre de critères, méta-linguistiques et / ou linguistiques, afin de constituer un corpus répondant à un besoin spécifique.
— Proteus : Implémentation du modèle de flexion (cf. infra) développé en vue de résoudre un certain nombre de problèmes liés à l’analyse et la génération morphologique.
— Corpindex : Une bibliothèque très complète et surtout évolutive et paramétrable pour la manipulation de très gros corpus. Cette bibliothèque a été utilisée pour notamment développer un étiqueteur morphosyntaxique pour le français basé sur des règles écrites manuellement, un outil d’alignement d’expressions sur des bi-texte, un moteur de recherche linguistique (un site démonstration de faisabilité sur un corpus de faible taille – environ 12 millions de mots étiquetés, soit 150 romans – peut être consulté à cette adresse http://zenodote.bombadil.fr).

Corpus

— Corpus DH : Le corpus Droits de l’homme est une ressource de référence en matière d’information juridique électronique. Il est constitué de 28 conventions en deux ou trois langues et suit les recommandations TEI.
— DFSM : Le Dictionnaire de Français Scientifique Médiéval, élaboré dans le cadre du programme ANR Créalscience, a pour ambition de donner un inventaire des créations terminologiques dès le XIIe siècle et jusqu’au XVe siècle. Le di


Journal articles11 documents

  • Fabrice Issac, Xavier-Laurent Salvador, Marco Fasciolo. Herméneutique des similarités dans le DFSM : une expérience. Diachroniques, 2017, pp.49--76. ⟨hal-01915789⟩
  • Fabrice Issac. Outils et instruments pour la dictionnairique. Le français moderne, 2016, 1. ⟨hal-01915790⟩
  • Fabrice Issac. Ressources morphologiques. Études de linguistique appliquée : revue de didactologie des langues-cultures, Klincksieck (Didier Erudition jusqu'en 2003), 2015, 4 (180). ⟨hal-01915792⟩
  • Fabrice Issac. Cybernéologisme : Quelques outils informatiques pour l'identification et le traitement des néologismes sur le web. Langage, 2011, à paraître. ⟨halshs-00619059⟩
  • Emmanuel Cartier, Fabrice Issac. Mot et traitement automatique des langues. Le Français Moderne - Revue de linguistique Française, CILF (conseil international de la langue française), 2009, 77 (1), pp.145-160. ⟨halshs-00410912⟩
  • Fabrice Issac. Place des ressources lexicales dans l'étiquetage morphosyntaxique. L'information grammaticale, Peeters Publishers, 2009, 122, pp.10-18. ⟨10.2143/IG.122.0.2042571⟩. ⟨halshs-00419511⟩
  • Pierre-André Buvet, Fabrice Issac. TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs. Verbum ex machina., 2006, pp. 856-867. ⟨hal-00680256⟩
  • Christine Chodkiewicz, Fabrice Issac, Bénédicte Pincemin. Le corpus "Droits de l'Homme" du LLI. Texto ! Textes et Cultures, Institut Ferdinand de Saussure, 2005, 10 (2), ⟨http://www.revue-texto.net/1996-2007/Corpus/Publications/Signalements.html#Droits⟩. ⟨hal-01915796⟩
  • Christophe Fouqueré, Fabrice Issac. Corpus issus du web : constitution et analyse informationnelle. Revue Québécoise de Linguistique, 2003, 32, n1, pp 111-134. ⟨hal-00084471⟩
  • Olivier Hû, Fabrice Issac. Formalism for evaluation: feedback on learner knowledge representation. Computer Assisted Language Learning, Taylor & Francis (Routledge), 2002, 15 (2), pp.183--199. ⟨hal-01915798⟩
  • Fabrice Issac, Thierry Hamon, Christophe Fouqueré, Lorne Bouchard, Louisette Emirkanian. Extraction informatique de données sur le web. DistanceS, Téluq/UQÀM, 2001, 5 (2), pp.195--209. ⟨hal-01915799⟩

Conference papers25 documents

  • Fabrice Issac, Cécile Le Cornec Rochelois. What Terms to Express the Categories of Natural Sciences in the Dictionary of Medieval Scientific French?. Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference, 2015, Unknown, Unknown Region. ⟨hal-01915791⟩
  • Sascha Diwersy, Fabrice Issac, Sylvain Loiseau, Céline Poudat. Le Corpus numérisé de la Presse francophone - un outil pour l'analyse à dominante inductive de la variation en français. Δια ii : les variations diasystémiques et leurs interdépendances, Nov 2012, Copenhague, Danemark. pp.101-120. ⟨halshs-00772030⟩
  • Fabrice Issac. A framework for representing lexical resources. COLING-2010, Aug 2010, China. pp.8. ⟨halshs-00619062⟩
  • Fabrice Issac, Xavier-Laurent Salvador. Modèles théoriques inductifs et propositions d'applications aux donnés textuelles de l'ancien français. JADT2010, Jun 2010, France. pp.12. ⟨halshs-00619071⟩
  • Fabrice Issac. Outils et méthode de constitution de dictionnaire de formes figées. JADT2010, Jun 2010, Italie. pp.12. ⟨halshs-00619069⟩
  • Pierre-André Buvet, Emmanuel Cartier, Fabrice Issac, Michel Mathieu-Colas, Salah Mejri, et al.. Morfetik, ressource lexicale pour le TAL. TALN 2009, Jun 2009, Senlis, France. pp.1-10. ⟨halshs-00739036⟩
  • Fabrice Issac, Soundous Ben Hariz Ouenniche. Telanaute : un outil de veille lexicale. CINEO2008, May 2008, Espagne. pp.1165-1173. ⟨halshs-00619066⟩
  • Fabrice Issac. Yet Another Web Crawler. Web As Corpus 2007, Sep 2007, Louvain-la-Neuve, Belgium. pp.57-68. ⟨halshs-00410974⟩
  • Pierre-André Buvet, Emmanuel Cartier, Fabrice Issac, Salah Mejri. Dictionnaires électroniques et étiquetage syntactico-sémantique. TALN 2007, Jun 2007, Toulouse, France. pp.239-248. ⟨halshs-00168405⟩
  • Bénédicte Pincemin, Fabrice Issac, Marc Chanove, Michel Mathieu-Colas. Concordanciers : Thème et variations. 8es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2006), Apr 2006, Besançon, France. pp.773-784. ⟨halshs-00154100⟩
  • Fabrice Issac, Isabel Uzcanga Vivar. Didactique et informatisation de l'intercompréhension plurilingue. Plurilinguisme et conscience linguistique : quelles articulations ? 8e Congrès international ALA, (2-5 juillet 2006), Jul 2006, Le Mans, France. ⟨halshs-00153996⟩
  • Pierre-André Buvet, Fabrice Issac. TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs. TALN 2006, 2006, Louvain, Belgique. pp.856-867. ⟨halshs-00153902⟩
  • Pierre-André Buvet, Fabrice Issac, Olivier Hû. L'apprentissage de l'écriture : du traitement de texte aux outils d'aide à l'écriture. Aide la rédaction - Apports du Traitement Automatique des langues, Journée ATALA, Jun 2006, Paris, France. ⟨halshs-00154007⟩
  • Marc Chanove, Fabrice Issac. TELANAUTE : une architecture pour la constitution de corpus à partir du Web. Articuler les traitements sur corpus, Journée ATALA, Feb 2005, Paris, France. ⟨halshs-00154753⟩
  • Fabrice Issac, Gaston Gross. Apport de la linguistique pour des outils de type "dictionnaire actif" et "aide à la rédaction". Multimédia, internet et études françaises II, 2004, Unknown, Unknown Region. ⟨hal-01915797⟩
  • Louisette Emirkanian, Christophe Fouqueré, Fabrice Issac. Corpus issus du Web : analyse des pertinences thématique et informationnelle. 2004, pp.390-398. ⟨hal-00084477⟩
  • Fabrice Issac, Olivier Hû. A Description Formalism for Complex Questionnaires. Intelligent Tutoring Systems, 2000, Unknown, Unknown Region. pp.654. ⟨hal-01915800⟩
  • Fabrice Issac. Une famille d'algorithmes de désambiguisation pour des formalismes lexicalisés. Actes de la 5e Conférence Annuelle sur le Traitement Automatique des Langues Naturelles (TALN-98), 1998, Paris, Unknown Region. ⟨hal-01915803⟩
  • Fabrice Issac. A Standard Representation Framework for TAG. Proceedings of the fourth International Workshop on Tree Adjoining Grammars and Related Frameworks (TAG+4), 1998, University of Pennsylvania, Philadelphia, Pennsylvania, Unknown Region. ⟨hal-01915802⟩
  • Thierry Selva, Fabrice Issac, Thierry Chanier, Christophe Fouqueré. Lexical comprehension and production in Alexia system. Language Teaching and Language Technology, Apr 1997, Groningen, Netherlands. ⟨edutice-00180329⟩
  • Thierry Selva, Fabrice Issac. Représentation et utilisation de connaissances dans un système d'aide à l'apprentissage lexical. 2e Colloque Jeunes Chercheurs en Sciences Cognitives, Jun 1996, Giens, France. pp.192-201. ⟨edutice-00000630⟩
  • Fabrice Issac. Lexical and syntactic database in a learning system. UCIS'96 (International Seminar on Using Complex Information Systems), 1996, Poitiers, France. ⟨hal-01915805⟩
  • Thierry Chanier, Christophe Fouqueré, Fabrice Issac. \AlexiA : a computer based environment for french foreign language lexical learning. AI-ED95, 1995, Washington, Unknown Region. pp.570. ⟨hal-01915806⟩
  • Thierry Chanier, Christophe Fouqueré, Fabrice Issac. \AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde. EIAO'95, 1995, Cachan, Unknown Region. pp.79--90. ⟨hal-01915807⟩
  • Thierry Chanier, Nathalie Cointe, Christophe Fouqueré, Fabrice Issac. Acquisition des expressions lexicales en langue seconde : environnement informatique et modélisation. Colloque International ``La Locution : entre lexique, syntaxe et pragmatique. Identification en corpus, traitement, apprentissage'', 1994, Saint-Cloud, Unknown Region. ⟨hal-01915808⟩

Books2 documents

  • Fabrice Issac, Xavier-Laurent Salvador. Un dictionnaires de termes, apports du numérique. Bord de l'eau, A paraître, Martine Beugnet, Baptiste Bohet. ⟨hal-01915167⟩
  • Fabrice Issac, Benoit Habert, Cécile Fabre. De l'écrit au numérique. 1998. ⟨hal-01915152⟩

Book sections7 documents

  • Fabrice Issac. Linguistique et informatique~: une linguistique 2.0 ?. Linguistique et .., Peter Lang, 2018. ⟨hal-01915788⟩
  • Fabrice Issac. Représenter les relations entre les mots. La phrasologie entre langues et cultures~: structures, fonctionnements, discours, Peter Lang, pp.213--228, 2013. ⟨hal-01915794⟩
  • Fabrice Issac. Traduction assisté par concordance bilingue. Masseau, Paola and Huerta, Pedro Mogorrón and Hernández, Daniel Gallego. Fraseolog\'ia, Opacidad y Traducción, Peter Lang GmbH, pp.263--280, 2013. ⟨hal-01915795⟩
  • Fabrice Issac. Figement et informatique. Jean-Claude Anscombre et Salah Mejri. Étude sur le figement : la parole entravée, Champion, pp.419-437, 2011. ⟨halshs-00619056⟩
  • Fabrice Issac, Christophe Fouqueré. A bottom-up TAG parser: application to foreign language lexical learning. Abeillé, Anne and Rambow, Owen. Tree Adjoining Grammars: Formalisms, Linguistic analysis and Processing, CSLI, pp.427--443, 2000. ⟨hal-01915801⟩
  • Thierry Chanier, Fabrice Issac, Christophe Fouqueré. ALEXIA : Un environnement d'aide à l'apprentissage lexical du françaislangue seconde. Fiala P., Lafon P., Piguet M-P. La locution : entre syntaxe et pragmatique, INALF-Klincksieck, pp.105-118, 1997, http://www.klincksieck.com/accueil.html. ⟨edutice-00000631⟩
  • Thierry Chanier, Christophe Fouqueré, Fabrice Issac. \AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde. Fiala, Pierre and Lafon, Pierre and Piguet, Marie-France. La locution : entre lexique syntaxe et pragmatique, Klincksieck, pp.105--118, 1997. ⟨hal-01915804⟩