talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage de relations morphologiques en corpus

Pierre Zweigenbaum, Fadila Hadouche, Natalia Grabar

Résumé : Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85–91 % et un rappel modéré de 32–34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.

Abstract : We propose a method to learn derivational morphological relations from a corpus. It relies on corpus cooccurrence of formally similar words, with additional filtering on the form of derived words. It is implemented and tested on a medical corpus. The relations obtained before filtering have an average precision of 75.6% at rank 5000 (150-word window). A detailed examination of derived adjectives for a sample of 633 anatomy nouns shows a good precision of 85–91% and a moderate recall of 32–34%. We discuss these results and propose directions for improvement.

Mots clés : Morphologie, apprentissage, corpus, langue de spécialité, médecine

Keywords : Morphology, learning, corpus, specialized language, medicine