talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une approche hybride pour la segmentation automatique de documents juridiques

Filipo Studzinski Perotto, Fadila Taleb, Eric Trupin, Maryvonne Holzem, Laurent Vercouter, Jacques Labiche, Youssouf Saidali

Résumé : Cet article 1 propose une approche hybride pour la segmentation de documents basée sur l’agrégation de différentes solutions. Divers algorithmes de segmentation peuvent être utilisés dans le système, ce qui permet la combinaison de stratégies multiples (spécifiques au domaine, supervisées et nonsupervisées). Un ensemble de documents étiquetés, segmentés au préalable et représentatif du domaine ciblé, doit être fourni pour être utilisé comme ensemble d’entraînement pour l’apprentissage des méthodes supervisées, et aussi comme ensemble de test pour l’évaluation de la performance de chaque méthode, ce qui déterminera leur poids lors de la phase d’agrégation. L’approche proposée présente de bonnes performances dans un scénario expérimental issu d’un corpus extrait du domaine juridique.

Mots clés : segmentation linéaire automatique de texte.