Vers un benchmark pour une évaluation robuste de la catégorisation de contenus audiovisuels transcrits
Abdelkrim Beloued
Résumé : La catégorisation thématique des contenus audiovisuels constitue un enjeu central pour l'analyse des tendances éditoriales et l'exploration de grands corpus d'archives. Contrairement au texte écrit, pour lequel de nombreux frameworks et benchmarks existent, les contenus audiovisuels, et en particulier leurs transcriptions, disposent de peu de ressources dédiées, notamment en français. Dans cet article, nous proposons un benchmark en français adapté à cette tâche. Il repose sur un jeu de données issu de contenus audiovisuels transcrits et vise à évaluer les performances de modèles de langue, qu'ils soient génératifs ou discriminatifs. Nous décrivons une méthodologie de curation permettant de produire plusieurs variantes du jeu de données ainsi que différents niveaux de qualité, afin d'analyser le comportement des modèles face à des données de fiabilité variable. Les expérimentations menées évaluent à la fois la qualité du jeu de données, les méthodes de construction utilisées et les performances des modèles avant et après fine-tuning. Ce travail contribue ainsi à combler le manque de ressources d'évaluation pour la catégorisation de contenus audiovisuels en français.
Mots clés : Classification thématique,Catégorisation,Contenu audiovisuel,Transcription,Jeu de données,Benchmark,Évaluation,Modèle de langue,LLM