talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Sélection de réponses à des questions dans un corpus Web par validation

Arnaud Grappy, Brigitte Grau, Mathieu-Henri Falco, Anne-Laure Ligozat, Isabelle Robba, Anne Vilnat

Résumé : Les systèmes de questions réponses recherchent la réponse à une question posée en langue naturelle dans un ensemble de documents. Les collectionsWeb diffèrent des articles de journaux de par leurs structures et leur style. Pour tenir compte de ces spécificités nous avons développé un système fondé sur une approche robuste de validation où des réponses candidates sont extraites à partir de courts passages textuels puis ordonnées par apprentissage. Les résultats montrent une amélioration du MRR (Mean Reciprocal Rank) de 48% par rapport à la baseline.

Abstract : Question answering systems look for the answer of a question given in natural language in a large collection of documents. Web documents have a structure and a style different from those of newspaper articles. We developed a QA system based on an answer validation process able to handle Web specificity. Large number of candidate answers are extracted from short passages in order to be validated according to question and passage characteristics. The validation module is based on a machine learning approach.We show that our system outperforms a baseline by up to 48% in MRR (Mean Reciprocal Rank).

Mots clés : systèmes de questions réponses, validation de réponses, analyse de documents Web

Keywords : question-answering system, answer validation, Web document analysis