talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Génération de question à partir d'analyse sémantique pour l'adaptation non supervisée de modèles de compréhension de documents

Elie Antoine, Jeremy Auguste, Frederic Bechet, Géraldine Damnati

Résumé : La génération automatique de questions à partir de textes peut permettre d’obtenir des corpus d’apprentissage pour des modèles de compréhension de documents de type question/réponse sur des textes. Si cette tâche de génération est désormais appréhendée par des modèles de type séquence-àséquence basés sur de grands modèles de langage pré-entraînés, le choix des segments réponses à partir desquels seront générées les questions est l’un des principaux aspects différenciant les méthodes de génération de corpus de question/réponse. Nous proposons dans cette étude d’exploiter l’analyse sémantique de textes pour sélectionner des réponses plausibles et enrichir le processus de génération par des traits sémantiques génériques. Les questions générées sont évaluées dans leur capacité à être utilisées pour entraîner un modèle de question-réponse sur un nouveau corpus d’archives numérisées.

Mots clés : Génération de questions, Compréhension de documents, Question/Réponse, Huma- nités numériques.