talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage automatique d'un chunker pour le français

Isabelle Tellier, Denys Duchier, Iris Eshkol, Arnaud Courmet, Mathieu Martinet

Résumé : Nous décrivons dans cet article comment nous avons procédé pour apprendre automatiquement un chunker à partir du French Tree Bank, en utilisant les CRF (Conditional Random Fields). Nous avons réalisé diverses expériences, pour reconnaître soit l’ensemble de tous les chunks possibles, soit les seuls groupes nominaux simples. Nous évaluons le chunker obtenu aussi bien de manière interne (sur le French Tree Bank lui-même) qu’externe (sur un corpus distinct transcrit de l’oral), afin de mesurer sa robustesse.

Abstract : We describe in this paper how to automatically learn a chunker for French, from the French Tree Bank and CRFs (Conditional Random Fields). We did several experiments, either to recognize every possible kind of chunks, or to focus on simple nominal phrases only. We evaluate the obtained chunker on internal data (i.e. also extracted from the French Tree Bank) as well as on external (i.e from a distinct corpus) ones, to measure its robustness.

Mots clés : chunking, apprentissage automatique, French Tree Bank, CRF

Keywords : chunking, Machine Learning, French Tree Bank, CRF