Segmentation de textes arabes basée sur l’analyse contextuelle des signes de ponctuations et de certaines particules

Lamia Hadrich Belguith, Leila Baccour, Mourad Ghassan

Résumé : Nous proposons dans cet article une approche de segmentation de textes arabes non voyellés basée sur une analyse contextuelle des signes de ponctuations et de certaines particules, tels que les conjonctions de coordination. Nous présentons ensuite notre système STAr, un segmenteur de textes arabes basé sur l'approche proposée. STAr accepte en entrée un texte arabe en format txt et génère en sortie un texte segmenté en paragraphes et en phrases.

Abstract : We propose in this paper an approach to segment non-vowelled Arabic texts. Our approach is based on a contextual analysis of the punctuation marks and a list of particles, such as the coordination conjunctions. Then, we present our system STAr, a tokenizer based on the proposed approach. The STAr input is an Arabic text (in .txt format) and its output is a segmented text into paragraphs and sentences.

Mots clés : Segmenteur de textes arabes, segmentation en phrases, exploration contextuelle, expressions rationnelles

Keywords : Arabic text tokenizer, sentence tokenization, contextual exploration, regular expressions