talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse automatique vs analyse interactive : un cercle vertueux pour la voyellation, l’étiquetage et la lemmatisation de l’arabe

Fathi Debili, Zied Ben Tahar, Emna Souissi

Résumé : Comment produire de façon massive des textes annotés dans des conditions d’efficacité, de reproductibilité et de coût optimales ? Plutôt que de corriger les sorties d’analyse automatique moyennant des outils d’éditions éventuellement dédiés, ainsi qu’il estcommunément préconisé, nous proposons de recourir à des outils d’analyse interactive où la correction manuelle est au fur et à mesure prise en compte par l’analyse automatique. Posant le problème de l’évaluation de ces outils interactifs et du rendement de leur ergonomie linguistique, et proposant pour cela une métrique fondée sur le calcul du coût qu’exigent ces corrections exprimé en nombre de manipulations (frappe au clavier, clic de souris, etc.), nous montrons, au travers d’un protocole expérimental simple orienté vers la voyellation, l’étiquetage et la lemmatisation de l’arabe, que paradoxalement, les meilleures performances interactives d’un système ne sont pas toujours corrélées à ses meilleures performances automatiques. Autrement dit, que le comportement linguistique automatique le plus performant n’est pas toujours celui qui assure, dès lors qu’il y a contributions manuelles, le meilleur rendement interactif.

Abstract : How can we massively produce annotated texts, with optimal efficiency, reproducibility and cost? Rather than correcting the output of automatic analysis by means of possibly dedicated tools, as is currently suggested, we find it more advisable to use interactive tools for analysis, where manual editing is fed in real time into automatic analysis. We address the issue of evaluating these tools, along with their performance in terms of linguistic ergonomy, and propose a metric for calculating the cost of editing as a number of keystrokes and mouse clicks. We show, by way of a simple protocol addressing Arabic vowellation, tagging and lemmatization, that, surprisingly, the best interactive performance of a system is not always correlated to its best automatic performance. In other words, the most performing automatic linguistic behavior of a system is not always yielding the best interactive behavior, when manual editing is involved.

Mots clés : analyse automatique vs interactive, annotation séquentielle, parallèle, voyellation, lemmatisation, étiquetage de l’arabe, métrique pour l’évaluation de l’analyse interactive

Keywords : automatic versus interactive analysis of Arabic, proposal of metrics for evaluating the interactive analysis, design and implementation of software for interactive vowellation, lemmatisation and POS-tagging of Arabic, evaluation