talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers une prédiction automatique de la difficulté d’une question en langue naturelle

Laurianne Sitbon, Jens Grivolla, Laurent Gillard, Patrice Bellot, Philippe Blache

Résumé : Nous proposons et testons deux méthodes de prédiction de la capacité d’un système à répondre à une question factuelle. Une telle prédiciton permet de déterminer si l’on doit initier un dialogue afin de préciser ou de reformuler la question posée par l’utilisateur. La première approche que nous proposons est une adaptation d’une méthode de prédiction dans le domaine de la recherche documentaire, basée soit sur des machines à vecteurs supports (SVM) soit sur des arbres de décision, avec des critères tels que le contenu des questions ou des documents, et des mesures de cohésion entre les documents ou passages de documents d’où sont extraits les réponses. L’autre approche vise à utiliser le type de réponse attendue pour décider de la capacité du système à répondre. Les deux approches ont été testées sur les données de la campagne Technolangue EQUER des systèmes de questions-réponses en français. L’approche à base de SVM est celle qui obtient les meilleurs résultats. Elle permet de distinguer au mieux les questions faciles, celles auxquelles notre système apporte une bonne réponse, des questions difficiles, celles restées sans réponses ou auxquelles le système a répondu de manière incorrecte. A l’opposé on montre que pour notre système, le type de réponse attendue (personnes, quantités, lieux...) n’est pas un facteur déterminant pour la difficulté d’une question.

Abstract : This paper presents two methods for automatically predicting the ability for a question answering system to automatically reply to a factoid question. The context of this prediction is the determination of the need to initiate a dialog with the user in order to focus or reformulate the question. The first method is an adaptation of a document retrieval prediction system based on SVM and decision trees. The features involved include question or document text, and cohesion measures between documents or extracts from which the answer is extracted. The second method uses only expected answer type to predict the answer validity. Both methods have been evaluated with data from the participation of our QA engine in the Technolangue EQUER campaign. On the one hand, the SVM based method leads to the best results. It correctly determines which are easy questions, namely, those to which our system gives the right answer, and which are hard questions, those to which our system gives bad or no answer. On the other hand, we show that for our system, the expected answer type (proper nouns, numbers, locations ...) is not a determining factor in defining question hardness.

Mots clés : questions-réponses, prédiction de la difficulté, SVM, arbres de décision

Keywords : question-answering, difficulty prediction, SVM, decision trees