talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une approche linguistique et statistique pour l'analyse de l'information en corpus

Yannick Toussaint, Fiammetta Namer, Béatrice Daille, Christian Jacquemin, Jean Royauté, Nabil Hathout

Résumé : Cet article présente une chaîne de traitement automatique réalisée dans le cadre du projet ILIAD (Informatique Linguistique et Infométrie pour l'Analyse de grands fonds Docu-mentaires) du GIS Sciences de la Cognition. Cette chaˆine est dédiée à l'analyse de l'infor-mation à partir de corpus de textes de très grand volume, en franc¸ais. Elle est expérimentée sur un corpus de 2,5 Mb et a conduit à la création de 50 classes de termes. Ces classes sont construites sur la base de la cooccurrence des termes et représentent des connaissances du do-maine. Les différentes étapes de la chaˆine associent des méthodes linguistiques informatiques et des méthodes statistiques : pré-traitement des textes, étiquetage, morphologie, terminologie et analyse des documents. Pour chacune d'entre elles, nous présentons les méthodes, les outils ainsi que leur evaluation.