talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Repérage de citations, classification des styles de discours rapporté et identification des constituants citationnels en écrits journalistiques

Fabien Poulard, Thierry Waszak, Nicolas Hernandez, Patrice Bellot

Résumé : Dans le contexte de la recherche de plagiat, le repérage de citations et de ses constituants est primordial puisqu’il peut amener à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d’écrits journalistiques français a été manuellement annoté pour nous servir de base d’apprentissage et de test.

Abstract : In the application context of reported content, that includes plagiarism and impact of textual information searched, citations finding and its fundamentals is essential as it may help estimating legal value of a citation (with or without specifying original source). We propose here a comparison between automatic methods for finding up those elements and we quantitatively evaluate them. A French journalistic corpus has been manually annotated to be used as learning base and for testing.

Mots clés : détection de citations, classification des styles de discours rapporté, identification du locuteur, techniques par apprentissage et base de règles, écrits journalistiques

Keywords : detection of citations, reported speech style classification, source identification, machine learning and rules-based techniques, news corpus