talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses

Florence Duclaye, Olivier Collin, François Yvon

Résumé : Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.

Abstract : In this paper, we present a nearly unsupervised learning methodology for automatically extracting paraphrases from theWeb. Starting with one single instance of a pair (predicate,arguments), a corpus is incrementally built by sampling the Web. Sampling stages alternate with filteringstages, during which implausible paraphrases are filtered out using an EM-based unsupervised clustering procedure. This learning machinery is built on top of an existing questionanswering system and the learnt paraphrases will eventually be used to improve its recall. We focus here on the learning aspect of this system and report preliminary results.

Mots clés : Questions-Réponses, Apprentissage Automatique, Acquisition de Paraphrase

Keywords : Question Answering, Machine Learning, Paraphrase extraction