Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe
Jacques Vergne
Résumé : Nous présentons une méthode d'analyse descendante et calculatoire. La démarche d'analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d'opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d'une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l'exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l'efficacité.
Abstract : We present a method for top-down and calculatory parsing. The prototype we present is top-down from the document to the clause, through the sentence. Its inputs are documents in English, French, Italian, Spanish, or German. It tokenises sentences into clauses, and computes subject-verb links inside clauses. It is calculatory, as it executes few operations on data. It uses very few resources (about 200 words or locutions per natural language), and the sentence processing size is about 60 Kb Perl, including lexical resources. This method takes place in the frame of more general researches of the "Groupe Syntaxe et Ingénierie Multilingue du GREYC" into exploring minimal and multilingual solutions, close fitted to a given task, exploiting few deep linguistic properties, presuming that genericity implies efficiency.
Mots clés : analyse syntaxique, analyse descendante, analyse calculatoire, corpus multilingues
Keywords : top-down parsing, calculatory parsing, multilingual corpora