Une approche linguistique et statistique pour l'analyse de l'information en corpus
Yannick Toussaint, Fiammetta Namer, Béatrice Daille, Christian Jacquemin, Jean Royauté, Nabil Hathout
Résumé : Cet article présente une chaîne de traitement automatique réalisée dans le cadre du projet ILIAD (Informatique Linguistique et Infométrie pour l'Analyse de grands fonds Docu-mentaires) du GIS Sciences de la Cognition. Cette chaˆine est dédiée à l'analyse de l'infor-mation à partir de corpus de textes de très grand volume, en franc¸ais. Elle est expérimentée sur un corpus de 2,5 Mb et a conduit à la création de 50 classes de termes. Ces classes sont construites sur la base de la cooccurrence des termes et représentent des connaissances du do-maine. Les différentes étapes de la chaˆine associent des méthodes linguistiques informatiques et des méthodes statistiques : pré-traitement des textes, étiquetage, morphologie, terminologie et analyse des documents. Pour chacune d'entre elles, nous présentons les méthodes, les outils ainsi que leur evaluation.