Comment évaluer les algorithmes de segmentation automatique ? Essai de construction d’un matériel de référence.
Yves Bestgen, Sophie Piérard
Résumé : L’objectif de cette recherche est d’évaluer l’efficacité d’algorithmes lors de l’identification des ruptures thématiques dans des textes. Pour ce faire, 32 articles de journaux ont été segmentés par des groupes de 15 juges. L’analyse de leurs réponses indique que chaque juge, pris individuellement, est peu fiable contrairement à l’indice global de segmentation, qui peut être dérivé des réponses de l’ensemble des juges. Si les deux algorithmes testés sont capables de retrouver le début des articles lorsque ceux-ci sont concaténés, ils échouent dans la détection des changements de thème perçus par la majorité des juges. Il faut toutefois noter que les juges, pris individuellement, sont eux-mêmes inefficaces dans l’identification des changements de thème. Dans la conclusion, nous évaluons différentes explications du faible niveau de performance observé.
Abstract : The objective of this research is to evaluate the efficacy of algorithms in identifying thematic breaks in texts. With this aim, 32 newspaper articles were segmented by groups of 15 judges. The analysis of their answers indicates that each judge, taken individually, is not very reliable, unlike the global index of segmentation derived from all the judges. If two algorithms tested are able to find the beginning of the articles when those are concatenated, they fail in the detection of the changes of topic perceived by the majority of the judges. It should however be noted that the judges, taken individually, are themselves largely ineffective in the identification of the changes of topic. In conclusion, we examine various explanations for the low level of performance observed.
Mots clés : segmentation automatique, évaluation, accord interjuges
Keywords : automatic segmentation, evaluation, interrater agreement