talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels

Julien Bezançon, Gaël Lejeune

Résumé : Cet article propose une première approche permettant la reconnaissance automatique de défigements linguistiques dans un corpus de tweets. Les recherches portant sur le domaine du figement ont gagné en popularité depuis quelques décennies. De nombreux travaux dérivés de cette notion sont également apparus, portant sur le phénomène corollaire du défigement. Alors que les linguistes essayent de décrypter les modes de construction de ces exemples de créativité lexicale, peu de travaux de recherche en TAL s'y sont intéressés. La problématique qu'offre le cas du défigement est pourtant intéressante~: des outils informatiques peuvent-ils être en mesure de reconnaître automatiquement un défigement ? Nous présentons ici une méthodologie basée sur des alignements de séquences réalisés sur diverses couches d'informations linguistiques. Cette méthodologie permet l'isolement de potentiels défigements au sein d'un corpus de tweets. Nous expérimentons ensuite une méthode de tri par similarité des défigements potentiels isolés.

Mots clés : Figement linguistique, Expression Figées, Défigement, Alignement, Similarité