talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Porting a Summarizer to the French Language

Rémi Bois, Johannes Leveling, Lorraine Goeuriot, Gareth J. F. Jones, Liadh Kelly

Résumé : Nous présentons dans cet article l’adaptation de l’outil de résumé automatique REZIME à la langue française. REZIME est un outil de résumé automatique mono-document destiné au domaine médical et s’appuyant sur des critères statistiques, syntaxiques et lexicaux pour extraire les phrases les plus pertinentes. Nous décrivons dans cet article le système REZIME tel qu’il a été conçu et les différentes étapes de son adaptation à la langue française. Les performances de l’outil adapté au français sont mesurées et comparées à celle de la version anglaise. Les résultats montrent que l’adaptation au français ne dégrade pas les performances de REZIME, qui donne des résultats équivalents dans les deux langues.

Abstract : We describe the porting of the English language REZIME text summarizer to the French language. REZIME is a single-document summarizer particularly focused on summarization of medical documents. Summaries are created by extracting key sentences from the original document. The sentence selection employs machine learning techniques, using statistical, syntactic and lexical features which are computed based on specialized language resources. The REZIME system was initially developed for English documents. In this paper we present the summarizer architecture, and describe the steps required to adapt it to the French language. The summarizer performance is evaluated for English and French datasets. Results show that the adaptation to French results in system performance comparable to the initial English system.

Mots clés : Résumé automatique, multilangue, domaine médical

Keywords : single-document summarization, multilingual, medical domain