talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

COLaF : Corpus et Outils pour les Langues de France et variétés de français

Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nédey, Vincent Colotte, Mostafa Sadeghi

Résumé : Nous présentons COLaF, un projet dédié à la collecte et au développement d'outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d'outils de TAL adaptés à ces langues, comme des outils pour l'annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.

Mots clés : Français Langues régionales Langues d’outre-mer Langues non territoriales Langue des signes française Langues peu dotées Corpus Normalisation Open source