talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

ROBO, an edit distance for sentence comparison Application to automatic summarization

Aurélien Bossard, Christophe Rodrigues

Résumé : Dans cet article, nous proposons une mesure de distance entre phrases fondée sur la distance de Levenshtein, doublement pondérée par la fréquence des mots et par le type d'opération réalisée. Nous l'évaluons au sein d'un système de résumé automatique dont la méthode de calcul est volontairement limitée à une approche fondée sur la similarité entre phrases. Nous sommes donc ainsi en mesure d'évaluer indirectement la performance de cette nouvelle mesure de distance.

Abstract : We here propose a sentence edit distance metric, ROBO, based on Levenshtein distance. This metric distance is weighted by words frequency and operation type. We apply ROBO on an automatic summarization system whose sentence selection metrics are on purpose restricted to sentence similarity approaches. ROBO performance can then be evaluated indirectly.

Mots clés : résumé automatique, similarité sémantique, distance d'édition

Keywords : automatic summarization, semantic similarity, edit distance