Extension dynamique de lexiques morphologiques pour le français à partir d’un flux textuel
Benoît Sagot, Damien Nouvel, Virginie Mouilleron, Marion Baranes
Résumé : L’incomplétude lexicale est un problème récurrent lorsque l’on cherche à traiter le langage naturel dans sa variabilité. Effectivement, il semble aujourd’hui nécessaire de vérifier et compléter régulièrement les lexiques utilisés par les applications qui analysent d’importants volumes de textes. Ceci est plus particulièrement vrai pour les flux textuels en temps réel. Dans ce contexte, notre article présente des solutions dédiées au traitement des mots inconnus d’un lexique. Nous faisons une étude des néologismes (linguistique et sur corpus) et détaillons la mise en oeuvre de modules d’analyse dédiés à leur détection et à l’inférence d’informations (forme de citation, catégorie et classe flexionnelle) à leur sujet. Nous y montrons que nous sommes en mesure, grâce notamment à des modules d’analyse des dérivés et des composés, de proposer en temps réel des entrées pour ajout aux lexiques avec une bonne précision.
Abstract : Lexical incompleteness is a recurring problem when dealing with natural language and its variability. It seems indeed necessary today to regularly validate and extend lexica used by tools processing large amounts of textual data. This is even more true when processing real-time text flows. In this context, our paper introduces techniques aimed at addressing words unknown to a lexicon. We first study neology (from a theoretic and corpus-based point of view) and describe the modules we have developed for detecting them and inferring information about them (lemma, category, inflectional class). We show that we are able, using among others modules for analyzing derived and compound neologisms, to generate lexical entries candidates in real-time and with a good precision.
Mots clés : Néologismes, analyse morphologique, lexiques dynamiques
Keywords : Neologisms, Morphological Analysis, Dynamic Lexica