talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Sur les limites de l'identification par l'humain de textes générés automatiquement

Nadége Alavoine, Maximin Coavoux, Emmanuelle Esperança-Rodier, Romane Gallienne, Carlos-Emiliano González-Gallardo, Jérôme Goulian, Jose G Moreno, Aurélie Névéol, Didier Schwab, Vincent Segonne, Johanna Simoens

Résumé : La génération de textes neuronaux fait l'objet d'une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$\cdot$e rédacteurice humain$\cdot$e même quand l'évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d'identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l'ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu'ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l'humain.

Mots clés : identification humaine,génération de texte avec des modèles neuronaux,ChatGPT