talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation de mesures d'association pour les bigrammes et les trigrammes au moyen du test exact de Fisher

Yves Bestgen

Résumé : Pour déterminer si certaines mesures d’association lexicale fréquemment employées en TAL attribuent des scores élevés à des n-grammes que le hasard aurait pu produire aussi souvent qu’observé, nous avons utilisé une extension du test exact de Fisher à des séquences de plus de deux mots. Les analyses ont porté sur un corpus de quatre millions de mots d’anglais conversationnel extrait du BNC. Les résultats, basés sur la courbe précision-rappel et sur la précision moyenne, montrent que le LL-simple est extrêmement efficace. IM3 est plus efficace que les autres mesures basées sur les tests d’hypothèse et atteint même un niveau de performance presque égal à LL-simple pour les trigrammes.

Mots clés : Mesures d’association lexicale ; N-grammes de mots ; LL-simple ; IM3.