talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Repérage et analyse de la reformulation paraphrastique dans les corpus oraux

Iris Eshkol-Taravella, Natalia Grabar

Résumé : Notre travail porte sur la détection automatique de la reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformulation paraphrastique et des spécificités de l’oral. L’annotation manuelle effectuée par deux annotateurs permet d’obtenir une description fine et multidimensionnelle des données de référence. Une méthode automatique est proposée afin de décider si les tours de parole comportent ou ne comportent pas des reformulations paraphrastiques. Les résultats obtenus montrent jusqu’à 66,4 % de précision. L’analyse de l’annotation manuelle indique qu’il existe peu de segments paraphrastiques avec des modifications morphologiques (flexion, dérivation ou composition) ou de segments qui montrent l’équivalence syntaxique.

Abstract : Our work addresses the automatic detection of paraphrastic rephrasing in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. Manual annotation performed by two annotators provides fine-grained and multi-dimensional description of the reference data. Automatic method is proposed in order to decide whether sentences contain or not the paraphrases. The obtained results show up to 66.4% precision. The analysis of the manual annotations indicates that there are few cases in which paraphrastic segments show morphological modifications (inflection, derivation or compounding) or syntactic equivalence.

Mots clés : Paraphrase, reformulation, corpus oral, marqueurs de reformulation paraphrastique

Keywords : Paraphrase, reformulation, spoken corpus, markers of paraphrastic rephrasing