talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Webaffix : un outil d’acquisition morphologique dérivationnelle à partir du Web

Ludovic Tanguy, Nabil Hathout

Résumé : L’article présente Webaffix, un outil d’acquisition de couples de lexèmes morphologiquement apparentés à partir du Web. La méthode utilisé est inductive et indépendante des langues particulières. Webaffix (1) utilise un moteur de recherche pour collecter des formes candidates qui contiennent un suffixe graphémique donné, (2) prédit les bases potentielles de ces candidats et (3) recherche sur le Web des cooccurrences des candidats et de leurs bases prédites. L’outil a été utilisé pour enrichir Verbaction, un lexique de liens entre verbes et noms d’action ou d’événement correspondants. L’article inclut une évaluation des liens morphologiques acquis.

Abstract : This paper presents Webaffix, a tool for finding pairs of morphologically related words on the Web. The method used is inductive and language-independent. Using theWWWas a corpus, the Webaffix tool detects the occurrences of new derived lexemes based on a given graphemic suffix, proposes a base lexeme, and then performs a compatibility test on the word pairs produced, using the Web again, but as a source of cooccurrences. The resulting pairs of words are used to enrich the Verbaction lexical database, which contains French verbs and their related nominals. The results are described and evaluated.

Mots clés : Morphologie dérivationnelle, ressource lexicale, Web comme corpus, analogie

Keywords : Derivational morphology, lexical resource, Web as corpus, analogy