Extraction et classification automatique de matériaux textuels pour la création de tests de langue
Murielle Marchand
Résumé : Nous présentons l’état de développement d’un outil d’extraction et de classification automatique de phrases pour la création de tests de langue. Cet outil de TAL est conçu pour, dans un premier temps, localiser et extraire de larges corpus en ligne du matériel textuel (phrases) possédant des propriétés linguistiques bien spécifiques. Il permet, dans un deuxième temps, de classifier automatiquement ces phrases-candidates d’après le type d’erreurs qu’elles sont en mesure de contenir. Le développement de cet outil s’inscrit dans un contexte d’optimalisation du processus de production d’items pour les tests d’évaluation. Pour répondre aux exigences croissantes de production, les industries de développement de tests de compétences doivent être capable de développer rapidement de grandes quantités de tests. De plus, pour des raisons de sécurité, les items doivent être continuellement remplacés, ce qui crée un besoin d’approvisionnement constant. Ces exigences de production et révision sont, pour ces organisations, coûteuses en temps et en personnel. Les bénéfices à retirer du développement et de l’implantation d’un outil capable d’automatiser la majeure partie du processus de production de ces items sont par conséquents considérables.
Abstract : We present here the state of development of an automatic sentence extractor and classificator for use in the creation of language tests. This NLP tool has been designed to, in a first instance, automatically locate and extract from designated on-line databases candidate source sentences meeting specific linguistic criteria and, in a second instance, to classify those sentences according to the specific types of errors they are capable of supporting. The development of this NLP tool is couched in the context and goals of automated item models instantiating for educational assessment. To meet increasing testing demands, assessment industries must be able to quickly produce large number of tests and regularly replace the items to prevent lapses in test security. The high number of items that must be continuously ‘retired’ and replaced creates a great need for continuous item supply. Those high production and revision demands, apart from being timeconsuming, are also costly. The development and implementation of a NLP tool capable of automating the bulk of the processing involved in instantiating the test item models is thus of considerable benefit to educational testing organisations.
Mots clés : Automates à états finis, analyse de corpus, extraction automatique de phrases, classification automatique de phrases, INTEX
Keywords : Finite-state automaton, corpus analysis, automatic sentence extraction, automatic sentence classification, INTEX