Extraction d’information de documents textuels associés à des contenus audiovisuels
Estelle Le Roux
Résumé : L’indexation audiovisuelle, indispensable pour l’archivage et l’exploitation des documents, se révèle être un processus délicat, notamment à cause de la multiplicité de significations qui peuvent être attachées aux images. Nous proposons dans cette communication une méthode d’instanciation de ”patrons d’indexation” à partir d’un corpus d’articles de journaux écrits. Cette méthode repose sur un processus ”d’amorçage hiérachisé”, qui permet de trouver de nouveaux termes à partir de termes connus dans leur voisinage et de leurs relations taxinomiques sous forme d’ontologie.
Abstract : Audiovisual indexation, essential for filing and using documents, is a difficult process notably because of the multiplicity of meanings which can be associated to the pictures. We propose a method of instanciation of ”indexation patterns” from a corpus of articles from newspapers. This method is based on a ”hierarchical bootstrapping” which can find new terms from known terms in their neighbourhood and from an ontology.
Mots clés : Amorce, Extraction d’information, Ontologie, Patron d’indexation
Keywords : Bootstrapping, Indexation patterns, Information extraction, Ontology