talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

BiTermEx Un prototype d'extraction de mots composés à partir de documents comparables via la méthode compositionnelle

Emmanuel Planas

Résumé : Nous décrivons BiTermEx, un prototype d'expérimentation de l'extraction de terminologie bilingue de mots composés, à partir de documents comparables, via la méthode compositionnelle. Nous expliquons la variation morphologique et la combinaison des constituants lexicaux des termes composés. Cette permet une précision TOP1 de 92% et 97,5% en français anglais, et de 94% en français japonais pour l'alignement de termes composés (textes scientifiques et de vulgarisation scientifique).

Abstract : We describe BiTermEx, a prototype for extracting multiword terms from comparable corpora, using the compositional method. We focus on morphology-based variations of multiword constituents and their recombinaison. We experimented our approach on scientific and popular science corpora. We record TOP1 precisions of 92% and 97,5% on French to English alignments and 94% on French to Japanese.

Mots clés : extraction terminologique, prototype, terminologie bilingue, documents comparables, méthode compositionnelle, mots composés, corpus

Keywords : term extraction, prototype, bilingual terminology, comparable documents, compositional method, multiword terms, corpus