talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Supervision faible pour la classification des relations discursives

Maachou Khalil, Chloé Braud, Philippe Muller

Résumé : L'identification des relations discursives est importante pour comprendre les liens sémantiques qui structurent un texte, mais cette tâche souffre d'un manque de données qui limite les performances. D'un autre côté, de nombreux corpus discursifs existent : les divergences entre les projets d'annotation empêchent cependant de combiner directement ces jeux de données à l'entraînement. Nous proposons de résoudre ce problème en exploitant le cadre de la supervision faible, dont l'objectif est de générer des annotations à partir de sources variées, comme des heuristiques ou des modèles pré-entraînés. Ces annotations bruitées et partielles sont ensuite combinées pour entraîner un modèle sur la tâche. En combinant cette méthode avec des stratégies permettant de gérer les différences dans les jeux d'étiquettes, nous démontrons qu'il est possible d'obtenir des performances proches d'un système entièrement supervisé en s'appuyant sur une très petite partie des données d'origine, ouvrant ainsi des perspectives d'amélioration pour des domaines ou des langages à faibles ressources.

Mots clés : relation de discours, supervision faible, apprentissage avec peu de données