talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers une identification automatique du chiasme de mots

Marie Dubremetz

Résumé : Cette recherche porte sur le chiasme de mots : figure de style jouant sur la réversion (ex. « Bonnet blanc, blanc bonnet »). Elle place le chiasme dans la problématique de sa reconnaissance automatique : qu’est-ce qui le définit et comment un ordinateur peut le trouver ? Nous apportons une description formelle du phénomène. Puis nous procédons à la constitution d’une liste d’exemples contextualisés qui nous sert au test des hypothèses. Nous montrons ainsi que l’ajout de contraintes formelles (contrôle de la ponctuation et omission des mots vides) pénalise très peu le rappel et augmente significativement la précision de la détection. Nous montrons aussi que la lemmatisation occasionne peu d’erreurs pour le travail d’extraction mais qu’il n’en est pas de même pour la racinisation. Enfin nous mettons en évidence que l’utilisation d’un thésaurus apporte quelques résultats pertinents.

Abstract : This article summarises the study of the rhetorical figure “chiasmus” (e.g : “Quitters never win and winners never quit.”). We address the problem of its computational identification. How can a computer identify this automatically ? For this purpose this article will provide a formal description of the phenomenon. First, we put together an annotated text for testing our hypothesis. At the end we demonstrate that the use of stopword lists and the identification of the punctuation improve the precision of the results with very little impact on the recall. We discover also that using lemmatization improves the results but stemming doesn’t. Finally we see that a French thesaurus provided us with good results on the most elaborate form of chiasmus.

Mots clés : chiasme, rhétorique, antimétabole, figure de style

Keywords : chiasmus, rhetoric, antimetabole, stylistic device