talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Effacement de dimensions de similarité textuelle pour l’exploration de collections de rapports d’incidents aéronautiques

Nikola Tulechki, Ludovic Tanguy

Résumé : Cet article étudie le lien entre la similarité textuelle et une classification extrinsèque dans des collections de rapports d’incidents aéronautiques. Nous cherchons à compléter les stratégies d’analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu’ils ne reflètent pas l’organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau.

Abstract : In this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.

Mots clés : similarité textuelle, classification de documents, corpus spécialisé

Keywords : textual simliarity, document classification, specialised corpora