Distinguer les termes des collocations : étude sur corpus du patron <Adjectif – Nom> en anglais médical
François Maniez
Résumé : Un bon nombre des applications de traitement automatique des langues qui ont pour domaine les langues de spécialité sont des outils d’extraction terminologique. Elles se concentrent donc naturellement sur l’identification des groupes nominaux et des groupes prépositionnels ou prémodificateurs qui leur sont associés. En nous fondant sur un corpus composé d’articles de recherche médicale de langue anglaise, nous proposons un modèle d’extraction phraséologique semi-automatisée. Afin de distinguer, dans le cas des expressions de patron syntaxique <Adjectif – Nom>, les termes de la langue médicale des simples collocations, nous nous sommes livré au repérage des adjectifs entrant en cooccurrence avec les adverbes. Cette méthode, qui permet l’élimination de la plupart des adjectifs relationnels, s’avère efficace en termes de précision. L’amélioration de son rappel nécessite toutefois l’utilisation de corpus de grande taille ayant subi un étiquetage morpho-syntaxique préalable.
Abstract : Many of the Natural Language Processing applications that deal with sublanguages are terminological extraction tools. They consequently tend to focus on the identification of noun and prepositional clauses and their modifiers. Using a corpus of English medical research articles, we suggest a semi-automatic phraseological extraction system. In order to separate terms from collocations within the category that fits the <Adjective – Noun> pattern, we experiment with the approach that consists in extracting adjectives that co-occur with adverbs. This method, which makes it possible to eliminate most relative adjectives, proves to provide good precision. However, the use of a larger POS-tagged corpus will be necessary in order to improve the method’s recall.
Mots clés : Termes, collocations, adjectifs, noms, corpus, anglais de spécialité
Keywords : Terms, collocations, adjectives, nouns, corpus, English for Specific Purposes