29 novembre 2006
Technolangue.net
Campagne d'Evaluation de Systèmes d'Acquisition de Ressources terminologiques
|
||||||||||||||||
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA) |
|
|||||||||||||||
|
||||||||||||||||
Résumé | ||||||||||||||||
La campagne d'évaluation CESART s'inscrit dans la suite de la campagne évaluation d'outils d'acquisition de ressources terminologiques à partir de corpus écrits (ARC A3), entrepris dans le cadre des Actions de Recherche Concertées (ARCs) de l'AUF – Agence Universitaire de la Francophonie (ex-AUPELF-UREF). Dans CESART, il s'agit de repartir de l'expérience acquise dans le cadre de l'ARC A3 de la campagne AUF. Les systèmes évalués dans ce projet couvrent plus d'une catégorie dans le mode d'acquisition de ressources terminologiques; ont été examinés des extracteurs de terminologie et des extracteurs de relations sémantiques. L'évaluation est double. Elle porte sur les compétences de l'expertise humaine pour une évaluation manuelle et le développement d'un nouvel outil pour l'évaluation automatique avec des raffinements dans les métriques employées, ainsi que l'intégration de nouvelles fonctionnalités.
|
||||||||||||||||
Résultats | ||||||||||||||||
LE PACKAGE D’EVALUATION CESART EST DESORMAIS DISPONIBLE AUPRES D’ELRA :
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESART. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système. |
||||||||||||||||
A l'origine, trois tâches ont été prévues : l'extraction des termes pour la construction d'un référentiel terminologique ; l'extraction des termes pour l'indexation contrôlée et l'extraction des relations sémantiques. Faute de participants à la tâche d'extraction des termes pour l'indexation contrôlée, la campagne d'évaluation s'est déroulée en deux tâches :
Pour la tâche d’extraction des termes, l’évaluation a été effectuée sur le corpus médical (Santé Canada). Les précisions des systèmes participants sont calculées selon les différents degrés de pertinence cités ci-dessus et sur les 1 000 premiers candidats termes extraits. La comparaison entre les systèmes s’avère difficile, puisque les systèmes ont renvoyés un grand nombre de candidats termes. On observe une forte disparité entre les résultats, si l’on considère le nombre de termes renvoyés. Il faut relativiser l’importance des résultats puisque les systèmes n’ont pas renvoyé le même nombre de candidats termes. Les résultats, en moyenne, restent très modestes. Selon l’évaluation stricte (degré de pertinence le plus élevé), le meilleur système obtient 28,8% de précision (soit 288 bonnes réponses sur 1000) contre moins de 11% pour les 3 autres systèmes. Moins le degré de pertinence est élevé, meilleurs sont les résultats (jusqu’à 52% de précision pour l’un des systèmes). Pour la tâche d’extraction des relations synonymiques, un seul système participant a été évalué sur le corpus médical. L’évaluation a été effectuée sur l’échantillon représentatif de la sortie de SYNOTERM. Seulement 4% des termes ont été jugés pertinents. Cet échantillon a été établi en fonction de la distribution des fréquences des termes dans le corpus. 102 synonymes jugés pertinents, sur l’échantillon de 2115 renvoyés.
|
||||||||||||||||
Ressources
Trois corpus en français des domaines spécialisés ont été construits : un corpus médical, un corpus du domaine de l’éducation, et un corpus politique. Les deux premiers ont été utilisés comme corpus de test, tandis que le troisième (corpus politique) a été utilisé comme corpus de masquage. Le corpus médical est composé des pages web provenant du site Santé Canada (http://www.hc-sc.gc.ca/index_f.html). Le corpus du domaine de l’éducation contient des articles provenant de la revue de pédagogie et de recherche en éducation SPIRAL. Le corpus politique est composé des textes tirés du Journal Officiel de l’Union Européenne. En fonction des sources des corpus, différents traitements ont été effectués concernant le nettoyage et la remise en format. Les corpus sont encodés en UTF-8 et en XML. Ils sont disponibles en deux versions dont l’une pour DOS et l’autre pour UNIX. Le tableau ci-dessous présente quelques statistiques concernant les corpus pour l’évaluation :
Deux listes référentielles ont été construites à partir des deux terminologies du domaine spécialisé. La liste des termes médicaux est basée sur la terminologie provenant de l’équipe CISMeF (www.chu-rouen.fr/terminologiecismef). Cette liste contient 22 861 entrées. Pour le domaine de l’éducation, la liste référentielle est basée sur le thésaurus Motbis (www.cndp.fr/motbis) et composée de 36 081 entrées.
|
||||||||||||||||
Publications | ||||||||||||||||
|
||||||||||||||||
|
|
Dates du projet |
Date de début : 4 décembre 2002 Date de fin : mars 2006 |