talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un LLM pour guide : une approche d'extraction non supervisée de relations économiques dans les documents administratifs français.

Thomas Sebbag, Solen Quiniou, Emmanuel Morin

Résumé : L’efficacité de l’extraction de relations (ER) à partir de textes non structurés est essentielle, en particulier lorsque les relations cibles ne sont pas connues à l'avance. Dans cet état d'imprévu permanent, il est possible d’exploiter les grands modèles de langue (LLM) pour accomplir cette tâche. Dans cet article, nous présentons une approche où un LLM joue le rôle de guide pour l’identification de relations économiques afin d’accompagner des experts métier. Cette méthodologie innovante, fondée sur le regroupement de phrases et l’utilisation d’un LLM, permet d’identifier des relations économiques jusque-là inconnues dans des documents administratifs français. Elle répond au défi consistant à extraire des connaissances exploitables sans disposer d’étiquettes de relations prédéfinies. Nous évaluons notre approche sur des jeux de données d’extraction de relations en français et en anglais, en démontrant une précision et un rappel élevés dans la détection de relations inconnues. Nos résultats suggèrent que les méthodes combinant le regroupement et les LLM peuvent découvrir et catégoriser efficacement des relations économiques, avec des applications potentielles sur des corpus d'entreprises.

Mots clés : document administratif, LLM, extraction relations ouvertes, identification de relations, économie