talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Pour un étiquetage automatique des séquences verbales figées : état de l’art et approche transformationnelle

Aurélie Joseph

Résumé : Cet article présente une approche permettant de reconnaitre automatiquement dans un texte des séquences verbales figées (casser sa pipe, briser la glace, prendre en compte) à partir d’une ressource. Cette ressource décrit chaque séquence en termes de possibilités et de restrictions transformationnelles. En effet, les séquences figées ne le sont pas complètement et nécessitent une description exhaustive afin de ne pas extraire seulement les formes canoniques. Dans un premier temps nous aborderons les approches traditionnelles permettant d’extraire des séquences phraséologiques. Par la suite, nous expliquerons comment est constituée notre ressource et comment celle-ci est utilisée pour un traitement automatique.

Abstract : This article presents a resource-based method aiming at automatically recognizing fixed verbal sequences in French (i.e casser sa pipe, briser la glace, prendre en compte) inside a text. This resource describes each sequence from the view-point of transformational possibilities and restrictions. Fixed sequences are not totally fixed and an exhaustive description is necessary to not only extract canonical forms. We will first describe some transformational approaches that are able to extract phraseological sequences. The building of the resource will be then addressed followed by our approach to automatically recognize fixed sequences in corpora.

Mots clés : séquences verbales figées, reconnaissance automatique, étiquetage, transformations linguistiques, ressources électroniques

Keywords : fixed verbal sequences, automatic recognition, tagging, linguistical transformations, electronic resources