talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identifying Genres of Web Pages

Marina Santini

Résumé : Dans cet article nous présentons un modèle déductif-inductif pour l’identification des typologies textuelles et des genres dans les pages Web. Dans ce modèle, les typologies textuelles sont déduites en utilisant une forme modifiée du théorème de Bayes, tandis que les genres sont dérivés au moyen de simples règles « si-alors ». Étant donné que le système des genres sur le Web est complexe et que les pages Web sont plus imprévisibles et individualisées que les documents traditionnels, nous proposons cette approche déductive-inductive comme une alternative aux méthodes statistiques supervisées et non-supervisées. En effet, le modèle déductif-inductif permet une classification qui peut s’accommoder des genres non complètement standardisés. Il est aussi plus respectueux à l’égard de la vraie nature de la page Web, qui est en fait mixte et ne correspond presque jamais à un type idéal ou à un prototype précis, mais présente plutôt un mélange de genres, ou pas de genre du tout. L’évaluation de ce modèle reste un problème à résoudre.

Abstract : In this paper, we present an inferential model for text type and genre identification of Web pages, where text types are inferred using a modified form of Bayes’ theorem, and genres are derived using a few simple if-then rules. As the genre system on the Web is a complex phenomenon, and Web pages are usually more unpredictable and individualized than paper documents, we propose this approach as an alternative to unsupervised and supervised techniques. The inferential model allows a classification that can accommodate genres that are not entirely standardized, and is more capable of reading a Web page, which is mixed, rarely corresponding to an ideal type and often showing a mixture of genres or no genre at all. A proper evaluation of such a model remains an open issue.

Mots clés : genre, typologies textuelles, pages Web, modèle déductif-inductif, identification automatique, théorème de Bayes

Keywords : genre, text types, Web pages, inferential model, automatic identification, Bayes’ theorem