talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un journalisme augmenté par une IA souveraine — L'expérience Ouest-France

Victor Klötzer, Thomas Girault, Michel Le Nouy, Julien Perron, Cédric Jézéquel, Laurent Amsaleg

Résumé : Cet article présente les travaux menés par le groupe de presse SIPA Ouest-France, pour la valorisation de son patrimoine éditorial. L'objectif est d'explorer comment l'intelligence artificielle, le traitement automatique des langues, les modèles de langue et les techniques de génération augmentée par récupération, peuvent répondre au besoin quotidien des journalistes et des lecteurs : celui de s’informer. Nous décrivons l'implémentation de ces technologies pour la mise en œuvre d’assistants conversationnels, confrontés à la réalité d’indexer un patrimoine historique composé de plus de 110 millions de contenus hétérogènes. Les premiers défis relèvent de contraintes industrielles, de souveraineté et de viabilité économique. Notre collaboration avec l’IRISA au sein du laboratoire commun Synapses fait apparaitre que nombre de nos difficultés rencontrées sont encore de véritables verrous scientifiques, notamment ceux concernant l’entraînement, l’explicabilité et la robustesse des modèles utilisés.

Mots clés : ['LLM', 'RAG', 'Base de connaissances', 'Classification', 'EN', 'Agent conversationnel']