talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Densidées : calcul automatique de la densité des idées dans un corpus oral

Hyeran Lee, Philippe Gambette, Elsa Maillé, Constance Thuillier

Résumé : La densité des idées, qui correspond au ratio entre le nombre de propositions sémantiques et le nombre de mots dans un texte reflète la qualité informative des propositions langagières d’un texte. L'apparition de la maladie d'Alzheimer a été reliée à une dégradation de la densité des idées, ce qui explique l'intérêt pour un calcul automatique de cette mesure. Nous proposons une méthode basée sur un étiquetage morphosyntaxique et des règles d'ajustement, inspirée du logiciel CPIDR. Cette méthode a été validée sur un corpus de quarante entretiens oraux transcrits et obtient de meilleurs résultats pour le français que CPIDR pour l’anglais. Elle est implémentée dans le logiciel libre Densidées disponible sur http://code.google.com/p/densidees.

Abstract : Idea density, which is the ratio of semantic propositions divided by the number of words in a text, reflects the informative quality of the sentences of a text. A decreasing idea density has been identified as one of the symptoms of Alzheimer’s disease, which explains the interest in an automatic calculation of idea density. We propose a method based on part-of-speech tagging followed by adjustment rules inspired from the CPIDR software. This method was validated on a corpus of 40 transcribed conversations in French and obtains better results in French than CPIDR in English. It is implemented in the free software Densidées available at http://code.google.com/p/densidees.

Mots clés : densité des idées, analyse prédicative, étiquetage sémantique, psycholinguistique

Keywords : idea density, propositional analysis, semantic tagging, psycholinguistics