talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition de concepts bilingues à partir du Web

Olivier Collin, Émmanuelle Pétrier

Résumé : Nous montrons une utilisation du Web, corpus multilingue de grande taille, pour effectuer une acquisition supervisée de concepts bilingue français/anglais. Cette acquisition utilise comme point initial un verbe français. Nous apparions ensuite des phrases provenant des deux langues à partir de couples de noms propres possédant la même forme dans les deux langues. Cet appariement automatique mais sommaire ne garantit pas l’alignement des phrases. Nous montrons qu’il nous permet cependant d’extraire des termes français et anglais équivalents dans leur contexte d’utilisation. Ces termes constituent des ressources multilingues particulièrement adaptées au Web, notamment pour les applications question réponse « crosslingue ».

Abstract : This article describes a way of using the Web as a huge multilingual corpus to perform supervised acquisition of bilingual French/English concepts. Such acquisition is initialized with a French verb. Sentences expressed in both languages are then matched by using couples of proper nouns which are unchanged in these two languages. Such matching is automatic, highly succinct, but does not prevent sentences from being wrongly aligned. However, we show that it makes it possible to extract French and English terms that are equivalent in their context of use. These terms constitute multilingual resources that are particularly adapted to the Web, especially for cross-lingual question answering.

Mots clés : acquisition, concepts bilingue, alignement superficiel, Web

Keywords : acquisition, bilingual concepts, shallow alignment, Web