talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques

Bruno Oberle

Résumé : Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d’autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu’elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d’anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L’article présente l’élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.

Mots clés : expression référentielle, coréférence, détection automatique de la coréférence, entité nommée.