talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Intérêt des modèles de caractères pour la détection d'événements

Emanuela Boros, Romaric Besançon, Olivier Ferret, Brigitte Grau

Résumé : Cet article aborde la tâche de détection d’événements, visant à identifier et catégoriser les mentions d’événements dans les textes. Une des difficultés de cette tâche est le problème des mentions d’événements correspondant à des mots mal orthographiés, très spécifiques ou hors vocabulaire. Pour analyser l’impact de leur prise en compte par le biais de modèles de caractères, nous proposons d’intégrer des plongements de caractères, qui peuvent capturer des informations morphologiques et de forme sur les mots, à un modèle convolutif pour la détection d’événements. Plus précisément, nous évaluons deux stratégies pour réaliser une telle intégration et montrons qu’une approche de fusion tardive surpasse à la fois une approche de fusion précoce et des modèles intégrant des informations sur les caractères ou les sous-mots tels que ELMo ou BERT.

Mots clés : Extraction d’information, événements, plongements lexicaux.