talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction d’information de documents textuels associés à des contenus audiovisuels

Estelle Le Roux

Résumé : L’indexation audiovisuelle, indispensable pour l’archivage et l’exploitation des documents, se révèle être un processus délicat, notamment à cause de la multiplicité de significations qui peuvent être attachées aux images. Nous proposons dans cette communication une méthode d’instanciation de ”patrons d’indexation” à partir d’un corpus d’articles de journaux écrits. Cette méthode repose sur un processus ”d’amorçage hiérachisé”, qui permet de trouver de nouveaux termes à partir de termes connus dans leur voisinage et de leurs relations taxinomiques sous forme d’ontologie.

Abstract : Audiovisual indexation, essential for filing and using documents, is a difficult process notably because of the multiplicity of meanings which can be associated to the pictures. We propose a method of instanciation of ”indexation patterns” from a corpus of articles from newspapers. This method is based on a ”hierarchical bootstrapping” which can find new terms from known terms in their neighbourhood and from an ontology.

Mots clés : Amorce, Extraction d’information, Ontologie, Patron d’indexation

Keywords : Bootstrapping, Indexation patterns, Information extraction, Ontology