@inproceedings{Daille-Barreaux-Boudin-Bougouin-Cram-Hazem:DEFT:2016,
    author = "Daille, B\'eatrice and Barreaux, Sabine and Boudin, Florian and Bougouin, Adrien and Cram, Damien and Hazem, Amir",
    title = "Indexation d'articles scientifiques Pr\'esentation et r\'esultats du d\'efi fouille de textes DEFT 2016",
    booktitle = "Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016. Volume 8 : DEFT",
    month = "7",
    year = "2016",
    address = "Paris, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "1-12",
    note = "Automatic indexing of scientific papers",
    abstract = "Nous pr\'esentons la campagne 2016 du d\'efi fouille de textes (DEFT), qui pour sa douzi\`eme \'edition a propos\'e aux participants de travailler sur la probl\'ematique de l'indexation de documents scientifiques. La t\^ache a consist\'e \`a indexer \`a l'aide de mots-cl\'es des notices bibliographiques, en fran\c{c}ais, dans quatre domaines de sp\'ecialit\'e (linguistique, sciences de l'information, arch\'eologie et chimie) et dont l'indexation de r\'ef\'erence a \'et\'e r\'ealis\'ee par des indexeurs professionnels. Les r\'esultats ont \'et\'e \'evalu\'es avec les mesures de pr\'ecision, rappel, et f1-mesure, calcul\'es avec une macro-moyenne.",
    keywords = {fran\c{c}ais ; interpr\'etation s\'emantique ; conjonction ; expression linguistique ; concept linguistique ; relation syntaxique ; cause. Congr\`es de l'ABF : les publics des biblioth\`eques  Sciences de l'info.  Le cinquante-troisi\`eme congr\`es annuel de l'Association des biblioth\'ecaires de France (ABF) s'est d\'eroul\'e \`a Nantes du 8 au 10 juin 2007. Centr\'e sur le th\`eme des publics, il a notamment permis de m\'editer les r\'esultats de diverses enqu\^etes aupr\`es des usagers, d'examiner de nouvelles formes de partenariats et d'innovations technologiques permettant aux biblioth\`eques de conqu\'erir de nouveaux publics, et montr\'e des exemples convaincants d'ouverture et d'''hybridation'', conditions du d\'eveloppement et de la fid\'elisation de ces publics. Mots-cl\'es : r\^ole professionnel ; \'evolution ; biblioth\`eque ; politique biblioth\`eque ; \'etude utilisateur ; besoin de l'utilisateur ; partenariat ; web 2.0 ; centre culturel.  \'Etude pr\'eliminaire de la c\'eramique non tourn\'ee micac\'ee du bas Languedoc occidental : typologie, chronologie et aire de diffusion  Arch\'eologie  L'\'etude pr\'esente une vari\'et\'e de c\'eramique non tourn\'ee dont la typologie et l'analyse des d\'ecors permettent de l'identifier facilement. La nature de l'argile enrichie de mica donne un aspect paillet\'e \`a la p\^ate sur laquelle le d\'ecor effectu\'e selon la m\'ethode du brunissoir appara{\^\i}t en traits brillant sur fond mat. Cette premi\`ere approche se fonde sur deux s\'eries issues de fouilles anciennes men\'ees sur les oppidums du Cayla \`a Mailhac (Aude) et de Mourrel-Ferrat \`a Olonzac (H\'erault). La carte de r\'epartition fait \'etat d'\'echanges ou de commerce \`a l'\'echelon macror\'egional rarement mis en \'evidence pour de la c\'eramique non tourn\'ee. S'il est difficile de statuer sur l'origine des d\'ecors, il semble que la production s'ins\`ere dans une ambiance celtisante. La chronologie de cette production se situe dans le deuxi\`eme \^age du Fer. La fourchette propos\'ee entre la fin du IVe et la fin du IIe s. av. J.-C. reste encore \`a pr\'eciser. Mots-cl\'es : distribution ; mourrel-ferrat ; olonzac ; le cayla ; mailhac ; micass\'e ; c\'eramique non-tourn\'ee ; celtes ; production ; echange ; commerce ; cartographie ; habitat ; oppidum ; site fortifi\'e ; fouille ancienne ; identification ; d\'ecor ; analyse ; r\'epartition ; diffusion ; chronologie ; typologie ; c\'eramique ; \'etude du mat\'eriel ; h\'erault ; aude ; france ; europe ; la t\`ene ; age du fer. R\'eaction entre solvant et esp\`eces interm\'ediaires apparues lors de l'\'electror\'eduction-acylation de la fluor\'enone et de la fluor\'enone-anil dans l'ac\'etonitrile  Chimie  \'Etude du comportement des diff\'erents acylates de fluor\'enols-9 vis-\`a-vis des anions CH2 CN (\'electrog\'en\'er\'es par r\'eduction de l'azobenz\`ene en son dianion dans l'ac\'etonitrile). R\'eduction de la fluor\'enone dans l'ac\'etonitrile en pr\'esence de chlorures d'acides ou d'anhydrides Mots-cl\'es : r\'eduction chimique ; acylation ; r\'eaction \'electrochimique ; ac\'etonitrile ; compos\'e aromatique ; compos\'e tricyclique ; c\'etone ; c\'etimine ; effet solvant ; effet milieu ; radical libre organique anionique ; m\'ecanisme r\'eaction ; nitrile ; hydroxynitrile ; compos\'e satur\'e ; compos\'e aliphatique ; anhydride organique ; fluor\'enone ; fluor\'enone,ph\'enylimine ; fluor\'enol-9,acylate ; fluor\`enepropiononitrile-9(hydroxy-9) ; bifluor\'enyle-9,9pdiol-9,9p ; fluor\`ene 9:↵-ac\'etonitrile ; butyrique acide(chloro-4) chlorure.  Figure 1: Exemple de notices Termith pour chaque domaine. Les mots-cl\'es soulign\'es occurrent dans la notice. 4  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT Nous avons aussi fourni une version analys\'ee linguistiquement du corpus o\`u nous avons appliqu\'e les traitements linguistiques suivants : {\textbullet} segmentation en phrases par l'outil P UNKT S ENTENCE T OKENIZER disponible avec la librairie Python NLTK (Bird et al., 2009) {\textbullet} segmentation en mots par l'outil B ONSAI du B ONSAI PCFG-LA PARSER 31 {\textbullet} \'etiquetage syntaxique r\'ealis\'e par MElt (Denis \\& Sagot, 2009). Cette mise \`a disposition visait \`a encourager les participants \`a utiliser ces corpus analys\'es plut\^ot que leurs propres outils afin d'\'evaluer plut\^ot les algorithmes d'indexation que les traitements du TALN.  2.2  R\'ef\'erentiels  Les r\'ef\'erentiels correspondent aux vocabulaires contr\^ol\'es utilis\'es pour l'indexation des bases de donn\'ees bibliographiques de l'INIST-CNRS. Le vocabulaire contr\^ol\'e est une liste de mots-cl\'es possibles dans un domaine de sp\'ecialit\'e. Cette liste est plus ou moins structur\'ee en fonction des domaines. Les mots-cl\'es sont mis en relations s'ils sont associ\'es \`a un m\^eme concept (par exemple, ''nom compos\'e'' et ''substantif compos\'e'' en linguistique) ou si l'un est l'hyperonyme de l'autre, c'est-\`a-dire plus g\'en\'erique (par exemple ''allemand'' par rapport \`a ''haut-allemand'' et ''bas-allemand''). En d\'efinissant le langage documentaire \`a utiliser pour indexer les documents du m\^eme domaine, le vocabulaire contr\^ol\'e contribue \`a la conformit\'e et \`a l'homog\'en\'eit\'e de l'indexation. Il n'assure cependant pas l'exhaustivit\'e et doit \^etre mis \`a jour r\'eguli\`erement, soit par une veille terminologique, soit au fur et \`a mesure des indexations manuelles, pour int\'egrer les nouveaux concepts. Pour le d\'efi, certains domaines ont fait l'objet d'un regroupement de vocabulaires afin de se rapprocher de la couverture du corpus de notices, par exemple, en arch\'eologie, regroupement de deux vocabulaires (MA - MH), en linguistique, regroupement de trois vocabulaires (ML - MC - MS) et en chimie, regroupement de deux vocabulaires (MX - M3). D'autres vocabulaires sont quant \`a eux inclus dans un seul vocabulaire tr\`es multidisciplinaire (MX), c'est le cas pour les sciences de l'information et la chimie. Le d\'etail des regroupements de vocabulaires est donn\'e dans le tableau 2. Les vocabulaires contr\^ol\'es ou r\'ef\'erentiels, associ\'es \`a chaque domaine de sp\'ecialit\'e ont \'et\'e fournis au format SKOS (Simple Knowledge Organization System). La figure 2 montre un extrait de th\'esaurus dans ce format. Les entr\'ees du th\'esaurus sont les balises Concept. Chaque concept poss\`ede un identifiant de concept (l'attribut RDF : ABOUT), une sous-balise PREF L ABEL donnant l'\'etiquette principale du concept (le terme pr\'ef\'erentiel), et \'eventuellement une ou plusieurs sous-balises ALT L ABEL donnant les \'etiquettes alternatives du concept (les synonymes ou les anciens pr\'ef\'erentiels). Comme stipul\'e dans la sp\'ecification SKOS, les concepts peuvent \'egalement poss\'eder des sous-balises indiquant des relations s\'emantiques entre eux. Par exemple, la balise BROADER renvoie vers un concept g\'en\'erique. La balise RELATED renvoie vers un concept associ\'e. La documentation des balises s\'emantiques du format SKOS est donn\'ee par la section 8 des sp\'ecifications SKOS2 . 1 https://raweb.inria.fr/rapportsactivite/RA2011/alpage/uid47.html  2 https://www.w3.org/TR/2009/REC-skos-reference-20090818/\\#semantic-relations  5  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT  \ensuremath{<} r d f : RDF xmlns : r d f = '' h t t p : / / www. w3 . o r g / 1 9 9 9 / 0 2 / 2 2 r d f s y n t a x n s \\# '' xmlns : dc = '' h t t p : / / p u r l . o r g / dc / e l e m e n t s / 1 . 1 '' xmlns : r d f s = '' h t t p : / / www. w3 . o r g / 2 0 0 0 / 0 1 / r d f schema \\# '' xmlns : owl= '' h t t p : / / www. w3 . o r g / 2 0 0 2 / 0 7 / owl \\# '' xmlns : d c t = '' h t t p : / / p u r l . o r g / dc / t e r m s / '' xmlns = '' h t t p : / / www. w3 . o r g / 2 0 0 4 / 0 2 / s k o s / c o r e \\# '' \ensuremath{>} \ensuremath{<}owl : O n t o l o g y \ensuremath{>} \ensuremath{<}dct : t i t l e \ensuremath{>} C o n t r o l l e d v o c a b u l a r y e x t r a c t e d from INIST CNRS d a t a b a s e \ensuremath{<}/ dct : t i t l e \ensuremath{>} \ensuremath{<}dct : rightsHolder \ensuremath{>} INIST CNRS ( I n s t i t u t de l ' I n f o r m a t i o n S c i e n t i f i q u e e t T e c h n i q u e C e n t r e N a t i o n a l de l a R e c h e r c h e s c i e n t i f i q u e ) \ensuremath{<}/ dct : rightsHolder \ensuremath{>} \ensuremath{<} d c t : d a t e C o p y r i g h t e d \ensuremath{>} F e b r u a r y 1 4 , 2016 \ensuremath{<} / d c t : d a t e C o p y r i g h t e d \ensuremath{>} \ensuremath{<} d c t : l i c e n s e r d f : a b o u t = '' h t t p : / / c r e a t i v e c o m m o n s . o r g / l i c e n s e s / by / 4 . 0 / '' \ensuremath{>} \ensuremath{<}p\ensuremath{>} The C r e a t i v e Commons A t t r i b u t i o n 4 . 0 I n t e r n a t i o n a l L i c e n s e a p p l i e s t o t h i s document . \ensuremath{<} / p\ensuremath{>} \ensuremath{<}p\ensuremath{>} Any r e u s e o f t h i s r e s o u r c e s h o u l d a t t r i b u t e i t s c o n t e n t t o \ensuremath{<}q\ensuremath{>}INIST CNRS\ensuremath{<} / q\ensuremath{>} \ensuremath{<} / p\ensuremath{>} \ensuremath{<}/ dct : license \ensuremath{>} \ensuremath{<} / owl : O n t o l o g y \ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97563 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>}Abandon de s i t e \ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97565 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>} A b e i l l e \ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97566 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>} A b r i \ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97567 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>}Acad \'e mie\ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97569 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>} A c i e r \ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} \ensuremath{<} C o n c e p t r d f : a b o u t = '' h t t p : / / www. i n i s t . f r / b a s e v o c / a r c h e o l o g i e \\# ma\\_97570 '' \ensuremath{>} \ensuremath{<} p r e f L a b e l xml : l a n g = '' f r '' \ensuremath{>} O b j e t en a c i e r \ensuremath{<} / p r e f L a b e l \ensuremath{>} \ensuremath{<} a l t L a b e l xml : l a n g = '' f r '' \ensuremath{>} A c i e r o b j e t \ensuremath{<} / a l t L a b e l \ensuremath{>} \ensuremath{<} / Concept\ensuremath{>} ... \ensuremath{<} / r d f : RDF\ensuremath{>}  Figure 2: Extrait de th\'esaurus au format SKOS  6  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT  3  T\^ache propos\'ee  La t\^ache consiste \`a fournir pour une notice bibliographique (titre + r\'esum\'e) les mots-cl\'es la caract\'erisant au mieux. Cette t\^ache simule l'indexation r\'ealis\'ee par un professionnel, qui s'appuie sur des r\'ef\'erentiels (des thesaurus), et \'eventuellement compl\`ete la liste issue des r\'ef\'erentiels par des mots-cl\'es apparaissant ou non dans la notice. Les donn\'ees porteront sur quatre domaines de sp\'ecialit\'e (linguistique, sciences de l'information, arch\'eologie et chimie). L'indexation de r\'ef\'erence a \'et\'e revue dans le cadre du projet TermiTH3 .  4  \'Evaluation  Les mesures qui ont \'et\'e retenues pour l'\'evaluation 2016 sont les mesures de pr\'ecision, rappel, et f1-mesure (Manning \\& Sch\"utze, 1999), calcul\'ees avec une macro-moyenne. Ce sont ces mesures qui ont \'et\'e utilis\'ees pour la piste 5 de la campagne SemEval-2010 (Kim et al., 2010). La pr\'ecision (P) capture la capacit\'e d'une m\'ethode \`a minimiser les erreurs. Inversement, le rappel (R) mesure la capacit\'e de la m\'ethode \`a fournir le plus possible de mots-cl\'es corrects. Quant \`a la f-mesure (F), elle est un compromis entre pr\'ecision et rappel, c'est-\`a-dire la capacit\'e de la m\'ethode \`a extraire un maximum de mots-cl\'es corrects tout en faisant un minimum d'erreurs.  P(d) =  \\#NB MOTS - CL\'ES EXTRAITS CORRECTS(d) \\#NB MOTS - CL\'ES EXTRAITS(d)  (1)  R(d) =  \\#NB MOTS - CL\'ES EXTRAITS CORRECTS(d) \\#NB MOTS - CL\'ES DE R\'EF\'ERENCE(d)  (2)  F(d) = 2 ⇥  P(d)R(d) P(d) + R(d)  (3)  Pour comparer les mots-cl\'es fournis par les participants \`a la r\'ef\'erence, nous avons utilis\'e l'\'egalit\'e stricte sur les mots-cl\'es. Afin de ne pas biaiser l'\'evaluation par rapport \`a une ontologie particuli\`ere, nous avons d\'ecid\'e de ne pas recourir \`a l'emploi d'une distance s\'emantique qui permettrait par exemple de s'apercevoir que recherche d'information est plus proche de fouille de donn\'ees que d'algorithmique, ni de prendre en compte les recouvrements partiels de mots-cl\'es comme ayant une certaine validit\'e pour \'eviter de r\'ecompenser un syst\`eme qui retournerait fouilles arch\'eologiques alors que la bonne r\'eponse est fouille de donn\'ees. Bien entendu, ce choix a pour r\'esultat que, par exemple, l'identification d'un hyponyme d'un mot-cl\'e au lieu du mot-cl\'e sera consid\'er\'ee comme aussi fausse que l'identification de n'importe quel autre mot. En revanche, nous acceptons les variantes flexionnelles. Les r\'esultats officiels de la campagne ont \'et\'e \'etablis sur la seule performance en f-mesure en macromoyenne. Pour chaque m\'ethode, les r\'esultats de l'\'evaluation sont donn\'es par : 3 http://www.atilf.fr/ressources/termith/  7  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT  P  P(d) N P R(d) R = 100 ⇥ d N P F(d) F = 100 ⇥ d N P = 100 ⇥  5  d  (4) (5) (6) (7)  R\'esultats  Un appel \`a participation a \'et\'e lanc\'e le 15 janvier 2016 sur les principales listes du traitement automatique des langues. Huit \'equipes se sont inscrites et cinq \'equipes ont particip\'e aux tests. Ces \'equipes sont les suivantes : LIMSI Laboratoire d'Informatique pour la M\'ecanique et les Sciences de l'Ing\'enieur : Thierry Hamon LINA Laboratoire d'Informatique de Nantes Atlantique, Universit\'e de Nantes : Adrien, Bougouin, Florian Boudin et B\'eatrice Daille LIPN Laboratoire d'Informatique de Paris Nord, Universit\'e Paris 13 : Ha{\"\i}fa Zargayouna et Davide Buscaldi EBSI \'Ecole de Biblioth\'economie et des Sciences de l'Information, Universit\'e de Montr\'eal : Dominic Forest, Jean-Fran\c{c}ois Chartier et Olivier Lacombe EX EN S A SAS eXenSa4 : Morgane Marchand Les corpus d'apprentissage ont \'et\'e diffus\'es le 2 mars 2016 aux participants, avec le script d'\'evaluation que nous avons utilis\'e pour calculer les scores finaux5 . Les participants ont b\'en\'efici\'e de six semaines pour \'elaborer sur les jeux d'apprentissage un maximum de trois m\'ethodes d'extraction m1, m2 et m3. Pour la phase de test, les \'equipes participantes ont chacune dispos\'e d'une plage de trois jours choisie selon leurs disponibilit\'es dans la semaine du 11 au 17 avril 2016. Les jeux de test leur ont \'et\'e fournis individuellement par le comit\'e d'organisation au d\'ebut de cette p\'eriode et les participants ont retourn\'e dans un d\'elai de 72h les mots-cl\'es extraits par chacune de leurs trois m\'ethodes et pour chacun des quatre corpus. Ce sont donc douze fichiers de r\'esultats que chaque participant \'etait autoris\'e \`a produire. Pour chaque corpus, seule la meilleure m\'ethode en f-score de chaque \'equipe a \'et\'e retenue (cf. section 5.2). Le tableau 3 illustre la difficult\'e de la t\^ache en produisant la moyenne des f-score des meilleures m\'ethodes de chaque \'equipe. Le f-score g\'en\'eral moyen est de 25, 03 \\%. 4 http://www.exensa.com/  5 Bien que ce script ait fait l'objet entre-temps d'une l\'eg\`ere modification pour corriger un probl\`eme avec le corpus '' linguistique''  8  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT Moy(Pr\'ec.) 24.92  Moy(Rap.) 30.40  Moy(f-score) 25.03  Table 3: Pr\'ecision, rappel et f-score moyens des meilleures m\'ethodes de chaque \'equipe.  Rang 1er 2i\`eme 3i\`eme 4i\`eme 4i\`eme  \'Equipe candidate eXenSa EBSI LINA LIMSI LIPN  Points 18 16 12 7 7  Table 4: Classement g\'en\'eral de DEFT2016  5.1  Classement g\'en\'eral  L'\'equipe candidate qui arrive en t\^ete du concours DEFT2016 est l'\'equipe eXenSa. 5.1.1  Classement g\'en\'eral des \'equipes candidates  Le classement g\'en\'eral des \'equipes est obtenu en ne retenant pour chaque corpus et pour chaque \'equipe candidate que la meilleure m\'ethode en f-score. Ces classements sont publi\'es en section 5.2. Pour chaque corpus, 5 points sont attribu\'es \`a l'\'equipe qui arrive en t\^ete, puis 4 \`a la deuxi\`eme, et ainsi de suite. Le total des points donne le classement g\'en\'eral est donn\'e par le tableau 4. 5.1.2  Classement g\'en\'eral des m\'ethodes  Le classement g\'en\'eral des m\'ethodes (cf. tableau 5) donne le positionnement global de chaque m\'ethode candidate. Le score de chaque m\'ethode est obtenu en effectuant une moyenne des quatre valeurs de f-score obtenues pour chacun des quatre corpus. Nous pouvons aussi observer la faible performance des m\'ethodes d'extraction de mots-cl\'es avec une f-mesure moyenne de 25 \\%. Ceci peut s'expliquer par l'\'evaluation automatique stricte qui n'accepte pas les correspondances partielles (p. ex. articles et articles de recherche qui en contexte r\'ef\`erent au m\^eme concept.  5.2  Classement f-score par corpus  Les classements sp\'ecifiques \`a chacun des quatre corpus : Linguistique (tableau 6), Sciences-info (tableau 7), Arch\'eologie (tableau 8) et Chimie (tableau 9) sont produits en ne retenant que la meilleure m\'ethode en f-score de chaque \'equipe candidate. Les scores obtenus par les m\'ethodes montrent des \'ecarts \'elev\'es entre les domaines : l'arch\'eologie appara{\^\i}t comme le domaine le plus facile \`a indexer, la chimie le plus difficile, les sciences de l'information et la linguistique entre ces deux bornes. Ce constat avait d\'ej\`a \'et\'e fait par Bougouin et al. (2014) , il est confirm\'e par l'ensemble des m\'ethodes. 9  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT  Rang 1ier 2i\`eme 3i\`eme 4i\`eme 5i\`eme 6i\`eme 7i\`eme 8i\`eme 9i\`eme 10i\`eme 11i\`eme 12i\`eme 13i\`eme  M\'ethode Moy(Pr\'ec.) exensa-m1 28.24 ebsi-m2 27.44 ebsi-m1 27.73 ebsi-m3 25.78 lina-m3 30.00 lina-m1 28.39 limsi-m2 25.75 limsi-m1 24.31 limsi-m3 25.24 lipn-m3 13.28 lina-m2 22.21 lipn-m1 16.67 lipn-m2 14.12  Moy(Rap.) Moy(F-mesure) 34.37 29.30 33.05 29.13 32.24 28.88 30.85 27.28 24.67 26.01 23.53 24.71 20.23 21.65 21.88 21.42 19.79 21.20 39.66 19.04 17.79 18.91 21.59 17.12 24.03 17.11  Table 5: Classement exhaustif de toutes m\'ethodes propos\'ees par tous les participants \\# 1. 2. 3. 4. 5.  Candidat ebsi-m2 exensa-m1 lina-m3 lipn-m2 limsi-m2  Pr\'ec. 30.26 23.28 23.16 13.98 15.67  Rap. 34.16 32.73 25.85 30.81 16.10  F-mesure 31.75 26.30 24.19 19.07 15.63  Points 5 4 3 2 1  Table 6: Linguistique \\# 1. 2. 3. 4. 5.  Candidat ebsi-m1 exensa-m1 lina-m3 lipn-m2 limsi-m2  Pr\'ec. 31.03 21.26 21.93 11.72 13.83  Rap. 28.23 30.32 21.83 23.54 12.01  F-mesure 28.98 23.86 21.45 15.34 12.49  Points 5 4 3 2 1  Table 7: Sciences-info \\# 1. 2. 3. 4. 5.  Candidat exensa-m1 limsi-m3 lina-m3 ebsi-m2 lipn-m1  Pr\'ec. 43.48 55.26 53.77 30.77 33.93  Rap. 52.71 38.03 33.46 43.24 31.25  F-mesure 45.59 43.26 40.11 34.96 30.75  Table 8: Arch\'eologie 10  Points 5 4 3 2 1  Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016, volume 8 : DEFT \\# 1. 2. 3. 4. 5.  Candidat exensa-m1 ebsi-m2 lina-m3 lipn-m3 limsi-m2  Pr\'ec. 24.92 19.67 21.15 10.88 18.19  Rap. 21.73 25.07 17.54 30.25 14.90  F-mesure 21.46 21.07 18.28 15.31 15.29  Points 5 4 3 2 1  Table 9: Chimie  6  Conclusion  L'indexation d'articles scientifiques est une t\^ache ancienne au carrefour de la recherche d'information et du traitement automatique des langues. L'objectif de ce d\'efi \'etait de simuler l'indexation r\'ealis\'ee par des indexeurs professionnels qui s'appuient sur des th\'esaurus du domaine de sp\'ecialit\'e et sur la notice de l'article. Quatre domaines de sp\'ecialit\'e ont \'et\'e exp\'eriment\'es : linguistique, sciences de l'information, arch\'eologie et chimie. Malgr\'e son anciennet\'e, l'indexation d'articles scientifiques reste une t\^ache difficile, la f-mesure moyenne \'etant de 25,3 \\%. De plus, il existe des \'ecarts \'elev\'es entre les domaines : l'arch\'eologie appara{\^\i}t comme le domaine le plus facile \`a indexer, la chimie le plus difficile. L'am\'elioration de la t\^ache d'indexation devra sans doute passer par l'exploitation du texte plein, ce qui pourra constituer une nouvelle \'edition du d\'efi DEFT d'indexation d'articles scientifiques.  Remerciements Ce travail a b\'en\'efici\'e d'une aide de l'Agence Nationale de la Recherche portant la r\'ef\'erence (ANR-12-CORD-0029).  R\'ef\'erences B IRD S., K LEIN E. \\& L OPER E. (2009). Natural Language Processing with Python. O'Reilly Media. B OUGOUIN A., B OUDIN F. \\& D AILLE B. (2014). Influence des domaines de sp\'ecialit\'e dans l'extraction de termes-cl\'es. In Actes de la 21e conf\'erence sur le Traitement Automatique des Langues Naturelles, p. 13-24, Marseille, France: Association pour le Traitement Automatique des Langues. D ENIS P. \\& S AGOT B. (2009). Coupling an Annotated Corpus and a Morphosyntactic Lexicon for State-of-the-Art POS Tagging with Less Human Effort. In Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation (PACLIC), p. 110-119, Hong Kong: City University of Hong Kong. K IM S. N., M EDELYAN O., K AN M.-Y. \\& B ALDWIN T. (2010). SemEval-2010 task 5: Automatic},
    url = "http://talnarchives.atala.org/ateliers/2016/DEFT/1.pdf"
}
