Peut-on retrouver votre âge à partir de la transcription de votre parole ?
Vanessa Gaudray Bouju, Mahamdi Menel, Iris Eshkol-Taravella, Angèle Barbedette
Résumé : L'identification et la classification des groupes sociaux à partir du langage constitue une préoccupation sociolinguistique majeure. Dans cet article, nous présentons une recherche de classification des locuteurs basée sur leur âge. Pour ce faire, nous exploitons un corpus de données du français oral, où chaque locuteur est associé à des métadonnées, dont son âge au moment de l'enregistrement. Notre objectif est de développer des méthodes d'apprentissage automatique capables de prédire la tranche d'âge d'un locuteur à partir de son discours transcrit de l'oral, allant de l'apprentissage supervisé à l'ingénierie de prompts sur des grands modèles de langage. Cette tâche n'est pas seulement un défi technique, elle soulève également des questions fondamentales sur la nature de la variation linguistique et sur les liens entre le langage et la société. En effet, en identifiant les corrélations entre certains traits linguistiques et l'âge, notre projet contribue à enrichir notre compréhension des mécanismes sous-jacents à la variation du langage et à ses implications dans la construction de l'identité sociale. Son autre apport est de questionner les traits linguistiques classiquement imputés à une tranche d'âge afin de montrer leurs limites.
Mots clés : âge, sociolinguistique, classification, traits linguistiques, LLM