Fabrice ISSAC

Documents

Présentation

Mon positionnement naturellement à l’intersection de la linguistique et des techniques liées au numérique guide mon activité de recherche. Il s’agit d’une démarche épistémologique et trans-disciplinaire dont la langue ou le langage en sont la pierre de touche. Le dénominateur commun de mes différents travaux, qui peut être constaté au travers de mes différentes productions, tant des publications que des développements, est la notion de ressource. Ces dernières années les notions d’usage et de diachronie ont été au centre de mes préoccupations ; en témoigne mon implication dans le projet Créalscience (naissance du vocabulaire scientifique au moyen âge) et le réseau UDPN (Usage des patrimoines numérisés). Depuis 2016 je développe un axe lié au domaine de la santé publique, celui-ci étant en partie dû au travail de thèse entreprit par Mme Haroutunian. Les problématiques que je développe concernent (i) l’accès aux publications scientifiques (ii) l’analyse du discours sur la médecine dans les réseaux sociaux et plus généralement sur le web (iii) plus globalement, cette démarche s’inscrit dans le cadre des humanités médicales. ### Lexique Le mot est pensé jusqu’au 18 e siècle comme l’unité élémentaire linguistique porteuse de sens et c’est le passage du manuscrit à l’imprimerie qui consacre la notion de mot. Connue de la plupart des locuteurs elle est intuitivement perçue comme une unité élémentaire, supposée atomique, de la langue au sein d’une phrase. L’histoire des notions linguistiques montre que le mot est incontournable dans la modélisation des langues, même si cette notion préscientifique a, de tout temps, donné lieu à des attaques et à des tentatives de remplacement par d’autres notions à la définition plus précise (signe, morphème, lexème, monème, lexie, unité lexicale). Les premiers traitements sur des ressources numériques consistent à identifier les mots à partir d’un flux de caractères, ce n’est que lorsque cette étape est terminée que d’autres traitements peuvent être envisagés. Cette notion du mot, je l’aborde sous différents angles : 1\. La morphologie : j’ai présenté un modèle de représentation de la flexion proposant un formalisme de transformation sous forme de règles couplé à une description permettant la structuration de celles-ci. Je distingue deux niveaux : (i) comment, à partir d’une forme initiale, il est possible d’arriver à une forme dérivée ? (ii) comment organiser les règles pour les regrouper efficacement de manière à éviter la redondance qui, du strict point de vue de la gestion, est source d’erreurs ? ; Cette dissociation permet de rendre compte de la nature fonctionnelle / relationnelle de la morphologie dans un cadre théorique réalisationnel Ce même formalisme peut aussi être utilisé en analyse pour identifier la nature de certains néologismes. 2\. Le figement : Le figement est un phénomène très complexe, très répandu et pour lequel il existe une abondante littérature tant pour son étude que pour sa description J’ai abordé cette notion en cherchant à répondre à deux questions : comment les représenter en tant que ressource numérique, comme dans le formalisme des grammaires d’arbres adjoints, et comment les identifier ? Je me suis inspiré pour le premier point à la fois des grammaires d’unification et du modèle morphologique décrit supra ; le second point fait intervenir un ensemble de tests syntaxiques, sémantiques (inspiré par les travaux de Zellig S. Harris) et quantitatif afin d’exhiber un ensemble de candidats. Cette stratégie a aussi été utilisée afin de procéder à un alignement de termes dans le cadre de corpus bilingues. ### Ressources Élaborer une ressource linguistique morphologique est une tâche complexe qui dépasse la réalisation proprement dite du modèle. La constitution de la ressource elle-même est une activité toute différente et nécessite une connaissance parfaite à la fois du modèle formel et du modèle linguistiques. Pour les différentes expérimentations auxquelles j’ai procédé, j’ai donc fait appel à des informateurs ; dans ce cas précis, faire appel à un locuteur natif ne suffit pas et c’est un linguiste natif qui tient le rôle d’informateur avec toutes les difficultés de communications inhérentes à ce type d’interactions. Le travail réalisé sur l’ancien français l’a été en collaboration avec Xavier-Laurent Salvador tout d’abord dans l’objectif de constituer une ressource puis dans le cadre de l’ANR Créalscience. L’étude des verbes arabes s’est faite quant à elle en collaboration avec plusieurs collègues arabisants des universités de La Manouba et de Sousse. L’étude du polonais s’est faite en collaboration avec Alicja Hajok de l’université de Cracovie. ### Entrepots de données De nombreux projets dans les humanités ont des objectifs de numérisation. Si les enjeux techniques afférents semblent résolues, il n’en est pas de même concernant les questions de pérennité, d’accessibilité et plus généralement d’usage. J’ai participé, et je participe, à différents projets dont l’enjeu final est la mise à disposition de données patrimoniales. — Projet GORDES : Le projet GORDES (Groupe d’Observation et de Recherches sur les Documents Epistolaires du Seizième siècle), est un projet d’Histoire Moderne centré sur l’étude des premières guerres de religion en France, entre 1565 et 1576. Il repose sur la mise en valeur des 31 tomes de la série « K » appartenant au fonds d’archives du Château de Chantilly. Cette série est composée de 7 018 lettres reçues par Bertrand-Raimbaud de Simiane, baron de Gordes, lieutenant général du roi en Dauphiné entre 1565 et 1578. — Dictionnaire Créalscience : Regroupant des préoccupations anciennes, la morphologie en synchronie et en diachronie, et nouvelles, la dictionnairique le projet Crealscience à pour objectif la rédaction d’un lexique du XIIe-XVe siècle ; il s’agit d’un poste d’observation pour une recherche sur la genèse d’une terminologie en français. Ce programme qui réunit un grand nombre de spécialistes – médiévistes, historiens des sciences et de la langues, linguistes, lexicographes – a permis de développer un grand nombre de problématiques liées à ces domaines et a permis d’en faire émerger de nouveaux. En effet, à une problématique purement dictionnairique se greffe la nécessité pour le lecteur moderne d’un dictionnaire notionnel. Outre ma participation en tant que rédacteur / correcteur de fiches, de la définition de la micro structure et des choix à effectuer concernant les contenus, j’ai mené une réflexion sur la problématique de l’accès des savoirs anciens pour un public moderne. En effet, indépendamment des compétences du lecteur en ancien français et dans un des domaines des sciences concernés, l’information inconnue doit être accessible. J’ai donc développé une chaîne de traitements tirant partie des contraintes rédactionnelles pour créer un ensemble de graphes permettant de naviguer de manière onomasiologique dans le dictionnaire. ### Logiciels (instruments pour le linguiste) Mes projets de recherche m’ont conduit à développer un certain nombre d’outils prototypes afin de tester ou de valider certaines hypothèses. L’ensemble de ces productions représente un travail important et certainement utile à la communauté (même si une tâche 9d’empaquetage nécessaire à une diffusion plus large reste à faire). Les applications / bibliothèques sont développées en Python et sont publiées de manière informelle sous licence GPL3. Les différents logiciels peuvent être téléchargés à cette adresse : http://apps.bombadil.fr). — Télanaute : Ce logiciel est un aspirateur web qui a la particularité d’effectuer un téléchargement ciblé. Il est possible de définir un certain nombre de critères, méta-linguistiques et / ou linguistiques, afin de constituer un corpus répondant à un besoin spécifique. — Proteus : Implémentation du modèle de flexion (cf. infra) développé en vue de résoudre un certain nombre de problèmes liés à l’analyse et la génération morphologique. — Corpindex : Une bibliothèque très complète et surtout évolutive et paramétrable pour la manipulation de très gros corpus. Cette bibliothèque a été utilisée pour notamment développer un étiqueteur morphosyntaxique pour le français basé sur des règles écrites manuellement, un outil d’alignement d’expressions sur des bi-texte, un moteur de recherche linguistique (un site démonstration de faisabilité sur un corpus de faible taille – environ 12 millions de mots étiquetés, soit 150 romans – peut être consulté à cette adresse http://zenodote.bombadil.fr). ### Corpus — Corpus DH : Le corpus Droits de l’homme est une ressource de référence en matière d’information juridique électronique. Il est constitué de 28 conventions en deux ou trois langues et suit les recommandations TEI. — DFSM : Le Dictionnaire de Français Scientifique Médiéval, élaboré dans le cadre du programme ANR Créalscience, a pour ambition de donner un inventaire des créations terminologiques dès le XIIe siècle et jusqu’au XVe siècle. Le di

Publications

	Herméneutique des similarités dans le DFSM : une expérience Fabrice Issac , Xavier-Laurent Salvador , Marco Fasciolo Diachroniques, 2017, 7, pp.49--76 Article dans une revue hal-01915789v1
	Outils et instruments pour la dictionnairique Fabrice Issac Le Français Moderne - Revue de linguistique Française, 2016, 1 Article dans une revue hal-01915790v1
	Ressources morphologiques Fabrice Issac Études de linguistique appliquée : revue de didactologie des langues-cultures et de lexiculturologie, 2015, 4 (180) Article dans une revue hal-01915792v1
	Cybernéologisme : Quelques outils informatiques pour l'identification et le traitement des néologismes sur le web Fabrice Issac Langage, 2011, à paraître Article dans une revue halshs-00619059v1
	Mot et traitement automatique des langues Emmanuel Cartier , Fabrice Issac Le Français Moderne - Revue de linguistique Française, 2009, 77 (1), pp.145-160 Article dans une revue halshs-00410912v1
	Place des ressources lexicales dans l'étiquetage morphosyntaxique Fabrice Issac L'information grammaticale, 2009, 122, pp.10-18. ⟨10.2143/IG.122.0.2042571⟩ Article dans une revue halshs-00419511v1
	TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs Pierre-André Buvet , Fabrice Issac Verbum ex machina., 2006, 2, pp. 856-867 Article dans une revue hal-00680256v1
	Le corpus "Droits de l'Homme" du LLI Christine Chodkiewicz , Fabrice Issac , Bénédicte Pincemin Texto ! Textes et Cultures, 2005, 10 (2) Article dans une revue hal-01915796v1
	Corpus issus du web : constitution et analyse informationnelle Christophe Fouqueré , Fabrice Issac Revue Québécoise de Linguistique, 2003, 32, n1, pp 111-134 Article dans une revue hal-00084471v1
	Formalism for evaluation: feedback on learner knowledge representation Olivier Hû , Fabrice Issac Computer Assisted Language Learning, 2002, 15 (2), pp.183--199 Article dans une revue hal-01915798v1
	Extraction informatique de données sur le web Fabrice Issac , Thierry Hamon , Christophe Fouqueré , Lorne Bouchard , Louisette Emirkanian DistanceS, 2001, 5 (2), pp.195--209 Article dans une revue hal-01915799v1

	What Terms to Express the Categories of Natural Sciences in the Dictionary of Medieval Scientific French? Fabrice Issac , Cécile Le Cornec Rochelois Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference, 2015, Unknown, Unknown Region Communication dans un congrès hal-01915791v1
	Le Corpus numérisé de la Presse francophone - un outil pour l'analyse à dominante inductive de la variation en français Sascha Diwersy , Fabrice Issac , Sylvain Loiseau , Céline Poudat Δια ii : les variations diasystémiques et leurs interdépendances, Nov 2012, Copenhague, Danemark. pp.101-120 Communication dans un congrès halshs-00772030v1
	Outils et méthode de constitution de dictionnaire de formes figées Fabrice Issac JADT2010, Jun 2010, Italie. pp.12 Communication dans un congrès halshs-00619069v1
	A framework for representing lexical resources Fabrice Issac COLING-2010, Aug 2010, China. pp.8 Communication dans un congrès halshs-00619062v1
	Modèles théoriques inductifs et propositions d'applications aux donnés textuelles de l'ancien français Fabrice Issac , Xavier-Laurent Salvador JADT2010, Jun 2010, France. pp.12 Communication dans un congrès halshs-00619071v1
	Morfetik, ressource lexicale pour le TAL Pierre-André Buvet , Emmanuel Cartier , Fabrice Issac , Michel Mathieu-Colas , Salah Mejri TALN 2009, Jun 2009, Senlis, France. pp.1-10 Communication dans un congrès halshs-00739036v1
	Telanaute : un outil de veille lexicale Fabrice Issac , Soundous Ben Hariz Ouenniche CINEO2008, May 2008, Espagne. pp.1165-1173 Communication dans un congrès halshs-00619066v1
	Dictionnaires électroniques et étiquetage syntactico-sémantique Pierre-André Buvet , Emmanuel Cartier , Fabrice Issac , Salah Mejri TALN 2007, Jun 2007, Toulouse, France. pp.239-248 Communication dans un congrès halshs-00168405v1
	Yet Another Web Crawler Fabrice Issac Web As Corpus 2007, Sep 2007, Louvain-la-Neuve, Belgium. pp.57-68 Communication dans un congrès halshs-00410974v1
	Didactique et informatisation de l'intercompréhension plurilingue Fabrice Issac , Isabel Uzcanga Vivar Plurilinguisme et conscience linguistique : quelles articulations ? 8e Congrès international ALA, (2-5 juillet 2006), Jul 2006, Le Mans, France Communication dans un congrès halshs-00153996v1
	TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs Pierre-André Buvet , Fabrice Issac TALN 2006, 2006, Louvain, Belgique. pp.856-867 Communication dans un congrès halshs-00153902v1
	Concordanciers : Thème et variations Bénédicte Pincemin , Fabrice Issac , Marc Chanove , Michel Mathieu-Colas 8es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2006), Apr 2006, Besançon, France. pp.773-784 Communication dans un congrès halshs-00154100v1
	L'apprentissage de l'écriture : du traitement de texte aux outils d'aide à l'écriture Pierre-André Buvet , Fabrice Issac , Olivier Hû Aide la rédaction - Apports du Traitement Automatique des langues, Journée ATALA, Jun 2006, Paris, France Communication dans un congrès halshs-00154007v1
	TELANAUTE : une architecture pour la constitution de corpus à partir du Web Marc Chanove , Fabrice Issac Articuler les traitements sur corpus, Journée ATALA, Feb 2005, Paris, France Communication dans un congrès halshs-00154753v1
	Corpus issus du Web : analyse des pertinences thématique et informationnelle Louisette Emirkanian , Christophe Fouqueré , Fabrice Issac 2004, pp.390-398 Communication dans un congrès hal-00084477v1
	Apport de la linguistique pour des outils de type "dictionnaire actif" et "aide à la rédaction" Fabrice Issac , Gaston Gross Multimédia, internet et études françaises II, 2004, Unknown, Unknown Region Communication dans un congrès hal-01915797v1
	A Description Formalism for Complex Questionnaires Fabrice Issac , Olivier Hû Intelligent Tutoring Systems, 2000, Unknown, Unknown Region. pp.654 Communication dans un congrès hal-01915800v1
	A Standard Representation Framework for TAG Fabrice Issac Proceedings of the fourth International Workshop on Tree Adjoining Grammars and Related Frameworks (TAG+4), 1998, University of Pennsylvania, Philadelphia, Pennsylvania, Unknown Region Communication dans un congrès hal-01915802v1
	Une famille d'algorithmes de désambiguisation pour des formalismes lexicalisés Fabrice Issac Actes de la 5e Conférence Annuelle sur le Traitement Automatique des Langues Naturelles (TALN-98), 1998, Paris, Unknown Region Communication dans un congrès hal-01915803v1
	Lexical comprehension and production in Alexia system Thierry Selva , Fabrice Issac , Thierry Chanier , Christophe Fouqueré Language Teaching and Language Technology, Apr 1997, Groningen, Netherlands Communication dans un congrès edutice-00180329v1
	Lexical and syntactic database in a learning system Fabrice Issac UCIS'96 (International Seminar on Using Complex Information Systems), 1996, Poitiers, France Communication dans un congrès hal-01915805v1
	Représentation et utilisation de connaissances dans un système d'aide à l'apprentissage lexical Thierry Selva , Fabrice Issac 2e Colloque Jeunes Chercheurs en Sciences Cognitives, Jun 1996, Giens, France. pp.192-201 Communication dans un congrès edutice-00000630v1
	\AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde Thierry Chanier , Christophe Fouqueré , Fabrice Issac EIAO'95, 1995, Cachan, Unknown Region. pp.79--90 Communication dans un congrès hal-01915807v1
	\AlexiA : a computer based environment for french foreign language lexical learning Thierry Chanier , Christophe Fouqueré , Fabrice Issac AI-ED95, 1995, Washington, Unknown Region. pp.570 Communication dans un congrès hal-01915806v1
	Acquisition des expressions lexicales en langue seconde : environnement informatique et modélisation Thierry Chanier , Nathalie Cointe , Christophe Fouqueré , Fabrice Issac Colloque International ``La Locution : entre lexique, syntaxe et pragmatique. Identification en corpus, traitement, apprentissage'', 1994, Saint-Cloud, Unknown Region Communication dans un congrès hal-01915808v1

	Un dictionnaires de termes, apports du numérique Fabrice Issac , Xavier-Laurent Salvador Bord de l'eau, inPress, Martine Beugnet, Baptiste Bohet Ouvrages hal-01915167v1
	De l'écrit au numérique Fabrice Issac , Benoit Habert , Cécile Fabre 1998 Ouvrages hal-01915152v1

	Linguistique et informatique~: une linguistique 2.0 ? Fabrice Issac Linguistique et .., Peter Lang, 2018 Chapitre d'ouvrage hal-01915788v1
	Traduction assisté par concordance bilingue Fabrice Issac Masseau, Paola and Huerta, Pedro Mogorrón and Hernández, Daniel Gallego. Fraseolog\'ia, Opacidad y Traducción, Peter Lang GmbH, pp.263--280, 2013 Chapitre d'ouvrage hal-01915795v1
	Représenter les relations entre les mots Fabrice Issac La phrasologie entre langues et cultures~: structures, fonctionnements, discours, Peter Lang, pp.213--228, 2013 Chapitre d'ouvrage hal-01915794v1
	Figement et informatique Fabrice Issac Jean-Claude Anscombre et Salah Mejri. Étude sur le figement : la parole entravée, Champion, pp.419-437, 2011 Chapitre d'ouvrage halshs-00619056v1
	A bottom-up TAG parser: application to foreign language lexical learning Fabrice Issac , Christophe Fouqueré Abeillé, Anne and Rambow, Owen. Tree Adjoining Grammars: Formalisms, Linguistic analysis and Processing, CSLI, pp.427--443, 2000 Chapitre d'ouvrage hal-01915801v1
	ALEXIA : Un environnement d'aide à l'apprentissage lexical du françaislangue seconde Thierry Chanier , Fabrice Issac , Christophe Fouqueré Fiala P., Lafon P., Piguet M-P. La locution : entre syntaxe et pragmatique, INALF-Klincksieck, pp.105-118, 1997, http://www.klincksieck.com/accueil.html Chapitre d'ouvrage edutice-00000631v1
	\AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde Thierry Chanier , Christophe Fouqueré , Fabrice Issac Fiala, Pierre and Lafon, Pierre and Piguet, Marie-France. La locution : entre lexique syntaxe et pragmatique, Klincksieck, pp.105--118, 1997 Chapitre d'ouvrage hal-01915804v1

Fabrice ISSAC

Présentation

Publications

Herméneutique des similarités dans le DFSM : une expérience

Outils et instruments pour la dictionnairique

Ressources morphologiques

Cybernéologisme : Quelques outils informatiques pour l'identification et le traitement des néologismes sur le web

Mot et traitement automatique des langues

Place des ressources lexicales dans l'étiquetage morphosyntaxique

TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs

Le corpus "Droits de l'Homme" du LLI

Corpus issus du web : constitution et analyse informationnelle

Formalism for evaluation: feedback on learner knowledge representation

Extraction informatique de données sur le web

What Terms to Express the Categories of Natural Sciences in the Dictionary of Medieval Scientific French?

Le Corpus numérisé de la Presse francophone - un outil pour l'analyse à dominante inductive de la variation en français

Outils et méthode de constitution de dictionnaire de formes figées

A framework for representing lexical resources

Modèles théoriques inductifs et propositions d'applications aux donnés textuelles de l'ancien français

Morfetik, ressource lexicale pour le TAL

Telanaute : un outil de veille lexicale

Dictionnaires électroniques et étiquetage syntactico-sémantique

Yet Another Web Crawler

Didactique et informatisation de l'intercompréhension plurilingue

TAEMA : Traitement Automatique de l'Ecriture de Mots Affectifs

Concordanciers : Thème et variations

L'apprentissage de l'écriture : du traitement de texte aux outils d'aide à l'écriture

TELANAUTE : une architecture pour la constitution de corpus à partir du Web

Corpus issus du Web : analyse des pertinences thématique et informationnelle

Apport de la linguistique pour des outils de type "dictionnaire actif" et "aide à la rédaction"

A Description Formalism for Complex Questionnaires

A Standard Representation Framework for TAG

Une famille d'algorithmes de désambiguisation pour des formalismes lexicalisés

Lexical comprehension and production in Alexia system

Lexical and syntactic database in a learning system

Représentation et utilisation de connaissances dans un système d'aide à l'apprentissage lexical

\AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde

\AlexiA : a computer based environment for french foreign language lexical learning

Acquisition des expressions lexicales en langue seconde : environnement informatique et modélisation

Un dictionnaires de termes, apports du numérique

De l'écrit au numérique

Linguistique et informatique~: une linguistique 2.0 ?

Traduction assisté par concordance bilingue

Représenter les relations entre les mots

Figement et informatique

A bottom-up TAG parser: application to foreign language lexical learning

ALEXIA : Un environnement d'aide à l'apprentissage lexical du françaislangue seconde

\AlexiA : un environnement d'aide à l'apprentissage lexical du français langue seconde