Activités de recherche

Présentation générale

Thématique principale

Dans les domaines de la linguistique computationnelle et du Traitement Automatique des Langues (TAL), nos travaux portent avant tout sur l'analyse sémantique des structures du discours, c'est-à-dire des procédés argumentatifs qui s'y manifestent et procèdent à la structuration de l'information véhiculée. Fondamentalement rhétorique, notre approche vise à identifier, à modéliser, à interpréter et à représenter la structure et le sens de dispositifs organisationnels locaux et globaux assurant la cohérence discursive.

Thématiques associées

Nos travaux sur les structures discursives nous ont conduit à étudier les modalités de leur exploration outillée sur corpus, et notamment celle de leur annotation manuelle et automatique. Des travaux plus généraux sur l'annotation en linguistique de corpus et sur la mesure de la fiabilité des données annotées ont pris racine dans ce cadre. Par nature très pluri-disciplinaires, notre parcours et nos travaux nous ont par ailleurs conduit à prendre une part active à la promotion du mouvement des Humanités Numériques et à sa représentation à l'université de Caen.

Mots-clés

Linguistique computationnelle, Traitement Automatique des Langues, Analyse du discours, Rhétorique, Argumentation, Annotation en linguistique de corpus, Mesure d'accord inter-annotateur, Fouille de texte, Humanités Numériques

Principales orientations actuelles

Annotation et mesure de fiabilité des données annotées (depuis 2009)

Dans la continuité du projet ANR Annodis et en collaboration étroite avec Yann Mathet, et pour répondre en particulier aux besoins spécifiques à la linguistique du discours, nous avons prolongé nos développements sur la plate-forme d'annotation et d'exploration de corpus Glozz et travaillé à sa diffusion dans la communauté. Confrontés à la nécessité d'évaluer la qualité des données annotées et à la difficulté de la tâche au niveau discours, où les annotateurs doivent souvent non seulement catégoriser des objets mais aussi déterminer leur positionnement dans le texte (tâche dite d'unitizing), nous avons été amenés à interroger plus généralement la signification des mesures d'accord usuelles, à proposer une méthdologie permettant d'étudier et de comparer le comportement de ces mesures, et enfin à proposer une nouvelle mesure, la mesure γ (gamma), l'une des rares mesures permettant la mesure d'accord pour des tâches combinées de catégorisation et d'unitizing.

Structuration et analyse des données pour les Humanités Numériques (depuis 2009)

Si notre objet d'étude principal et notre parcours académique nous placent naturellement dans une position fortement pluri-disciplinaire, à la croisée des sciences du numérique et des sciences du langage, nous avons choisi de participer activement, plus généralement, à l'émergence et à la promotion, dans les structures auxquelles nous appartenons, sur un plan à la fois pédagogique et scientifique, du mouvement des Humanités Numériques, dont les contours, les moyens et les objectifs demeurent encore largement à définir. Cela nous a notamment conduit à intégrer, dès la création de celui-ci en 2009, le comité de pilotage du Pôle Document Numérique de la MRSH de l'université de Caen, à rejoindre dès 2015 le comité de pilotage du CPER Numnie (2015-2020), puis à participer, dans ce cadre, à la constitution de la commission STIC-SHS du GREYC en 2015, commission devenue groupe de recherche transversal SN/SHS, groupe dont nous assurons désormais la coordination. Notre participation, dans ce cadre, à différents projets pluri-disciplinaires articulant méthodes numériques et travaux en philosophie, en droit, en psychologie, en littérature ou encore en archéologie va dans le sens de cette construction progressive d'un environnement favorable à l'émergence de concepts, de méthodes et d'outils propres à des Humanités Numériques trop souvent réduites à l'usage par les Humanités d'outils théoriques et techniques pensés hors de leur cadre.

Hybridation des méthodes de TAL et de Data Mining pour l'exploration du texte (depuis 2006)

Nos travaux consacrés à l'analyse des données textuelles, en particulier au niveau discursif, nous ont certes d'abord conduit à étudier la possibilité de décrire formellement les structures étudiées, à proposer un formalisme reposant sur le paradigme des contraintes pour procéder à cette description, et à rendre possible la projection sur corpus de telles descriptions en vue d'identifier les occurrences des phénomènes linguistiques recherchés. Toutefois, nous avons aussi progressivement été conduit à envisager l'exploitation de méthodes de Data Mining et leur combinaison à des méthodes de TAL, pour améliorer nos capacités d'exploration des données textuelles et en particulier des données textuelles annotées, avec l'objectif d'automatiser, ne serait-ce que partiellement, la découverte de règles pouvant décrire les phénomènes étudiés. Sur ce terrain, nous visons en particulier la représentation des données textuelles enrichies par des graphes et l'exploitation de méthodes de fouille de graphe pour la découverte de régularités dans les données. Notre intégration à l'équipe CoDaG du GREYC est notamment le résultat de cette orientation.

Antoine Widlöcher