talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction et représentation des constructions à verbe support en espagnol

Sandra Milena Castellanos Páez

Résumé : Le traitement informatique de constructions à verbe support (prendre une photo, faire une présentation) est une tâche difficile en TAL. Cela est également vrai en espagnol, où ces constructions sont fréquentes dans les textes, mais ne font pas souvent partie des lexiques exploitables par une machine. Notre objectif est d'extraire des constructions à verbe support à partir d’un très grand corpus de l'espagnol. Nous peaufinons un ensemble de motifs morphosyntaxiques fondés sur un grand nombre de verbe support possibles. Ensuite, nous filtrons cette liste en utilisant des seuils et des mesures d'association. Bien que tout à fait classique, cette méthode permet l'extraction de nombreuses expressions de bonne qualité. À l’avenir, nous souhaitons étudier les représentations sémantiques de ces constructions dans des lexiques multilingues.

Abstract : The computational treatment of support verb constructions (take a picture, make a presentation) is a challenging task in NLP. This is also true in Spanish, where these constructions are frequent in texts, but not frequently included in machine-readable lexicons. Our goal is to extract support verb constructions from a very large corpus of Spanish. We fine-tune a set of morpho-syntactic patterns based on a large set of possible support verbs. Then, we filter this list using thresholds and association measures. While quite standard, this methodology allows the extraction of many good-quality expressions. As future work, we would like to investigate semantic representations for these constructions in multilingual lexicons.

Mots clés : Expressions à verbe support, extraction, corpus, expressions polylexicales

Keywords : Support verb expressions, extraction, corpus, multiword expressions