Application de Transformers multimodaux à l'extraction d'informations des documents de sondage des sols
Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme, David Pitaval
Résumé : L'extraction d'information de documents complexes est un domaine de recherche qui bénéficie d'une très grande attention tant dans la littérature, que dans l'industrie dans le cadre de la digitalisation des données. Les Transformers et leurs adaptations ont très largement contribué à faire progresser cette recherche en s'appuyant sur des modèles de langue qui ont introduit une compréhension sémantique de l'organisation de la structure des documents. Les coupes de sondage sont des documents industriels complexes et riches en informations, pour lesquels aucune solution d'extraction d'informations n'avait été proposée. Nous montrons les limites des approches de bout-en-bout par des expérimentations avec le modèle DONUT. Comme alternative, nous proposons une chaîne de traitement hybride reposant sur le fine-tuning de Transformers multimodaux et des algorithmes heuristiques. Nous comparons deux architectures de Transformers multimodaux pré-entrainés : BROS et LayoutLMv3.
Mots clés : Extraction d'informations de documents, Transformers multimodaux, Algorithme d'annotation, Méthodes de bout-en-bout