talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Study of Multilingual Propositioners : Formalisation, Evaluation and Interpretability

Luc Pommeret, Thomas Gerald, Christophe Servan, Sahar Ghannay, Patrick Paroubek, Sophie Rosset

Abstract : Les propositions atomiques sont de plus en plus utilisées en traitement automatique des langues (TAL) et en recherche d’information (RI), sans qu'il y ait accord sur une définition formelle. Nous proposons un cadre théorique basé sur la théorie de l’information sémantique de Carnap et Bar‑Hillel, montrant qu’une proposition atomique correspond exactement à une clause en forme normale conjonctive. Nous entraînons $\texttt{MPropositionneur-V2}$, un propositionneur multilingue distillé de $\texttt{Qwen3‑72B}$ à $\texttt{Qwen3‑0.6B}$, doté d’un algorithme récursif favorisant l’atomicité des sorties. Notre modèle dépasse celui de Chen (2024), tout en étant plus petit et multilingue. Nous l’évaluons sur trois tâches (extraction de triplets, recherche d’information, évaluation de résumés). Il améliore le rappel des relations, dépasse la granularité des phrases et passages en RI, et est cinq fois plus rapide sur SummEval, avec de meilleurs scores de cohérence et de pertinence.

Keywords : propositions atomiques, RAG, évaluation de résumé, extraction de relations, recherche d'information, propositionneur