talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Mesure de l’alternance entre préfixes pour la génération en traduction automatique

Bruno Cartoni

Résumé : La génération de néologismes construits pose des problèmes dans un système de traduction automatique, notamment au moment de la sélection du préfixe dans les formations préfixées, quand certains préfixes paraissent pouvoir alterner. Nous proposons une étude « extensive », qui vise à rechercher dans de larges ressources textuelles (l’Internet) des formes préfixées générées automatiquement, dans le but d’individualiser les paramètres qui favorisent l’un des préfixes ou qui, au contraire, permettent cette alternance. La volatilité de cette ressource textuelle nécessite certaines précautions dans la méthodologie de décompte des données extraites.

Abstract : Generating constructed neologisms in a machine translation system is confronted to the issue of selecting the right affixes, especially when some affixes can be used alternately. We propose here an “extensive” study that looks into large textual data collections (web) for prefixed forms that have been automatically generated, in order to find out parameters that allow the use of both prefixes or, on the contrary, that prevent one or the other prefixation. The volatility of web resources requires methodological precautions, especially in data counting.

Mots clés : morphologie, traduction automatique, génération, néologisme, études empiriques

Keywords : morphology, machine translation, generation, neologism, empirical studies