talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers un apprentissage en TALN dépendant du type de Texte

Gabriel Illouz

Résumé : Dans cet article, nous présentons la problématique de l’hétérogénéité des données textuelles et la possibilité d’utiliser cette dernière pour améliorer les traitements automatiques du langage naturel. Cette hypothèse a été abordée dans (Biber, 1993) et a donné lieu à une première vérification empirique dans (Sekine, 1998). Cette vérification a pour limite de ne s’adapter qu’à des textes dont le type est explicitement marqué. Dans le cadre de textes tout venant, nous proposons une méthode pour induire des types de textes, apprendre des traitements spécifiques à ces types puis, de façon itérative, en améliorer les performances.

Mots clés : annotation morpho-syntaxique, type de texte, linguistique de corpus, apprentissage, classification