talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage de relations prédicat-argument pour l'extraction d'information à partir de textes conversationnels

Narjès Boufaden, Guy Lapalme

Résumé : Nous présentons les résultats de notre approche d’apprentissage de relations prédicat-argument dans le but de générer des patrons d’extraction pour des textes conversationnels. Notre approche s’effectue en trois étapes incluant la segmentation linguistique des textes pour définir des unités linguistiques à l’instar de la phrase pour les textes bien formés tels que les dépêches journalistiques. Cette étape prend en considération la dimension discursive importante dans ces types de textes. La deuxième étape effectue la résolution des anaphores pronominales en position de sujet. Cela tient compte d’une particularité importante des textes conversationnels : la pronominalisation du thème. Nous montrons que la résolution d’un sous ensemble d’anaphores pronominales améliore l’apprentissage des patrons d’extraction. La troisième utilise des modèles de Markov pour modéliser les séquences de classes de mots et leurs rôles pour un ensemble de relations données. Notre approche expérimentée sur des transcriptions de conversations téléphoniques dans le domaine de la recherche et sauvetage identifie les patrons d’extraction avec un F-score moyen de 73,75 %.

Abstract : We present the results of our approach for the learning of patterns for information extraction from conversational texts. Our three step approach is based on a linguistic segmentation stage that defines units suitable for the pattern learning process. Anaphora resolution helps to identify more relevant relations hidden by the pronominalization of the topic. This stage precedes the pattern learning stage, which is based on Markov models that include wild card states designed to handle edited words and null transitions to handle omissions. We tested our approach on manually transcribed telephone conversations in the domain of maritime search and rescue, and succeeded in identifying extraction patterns with an F-score of 73.75 %.

Mots clés : Apprentissage de relations prédicat-argument, extraction d’information

Keywords : Learning predicat-argument relations, information extraction