29 novembre 2006
Technolangue.net
Campagne d'Evaluation de Systèmes de Traduction Automatique (for Machine Translation Evaluation Campaign)
|
||||||||||||||||||||||||||||
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA) |
|
|||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||
Résumé | ||||||||||||||||||||||||||||
Le projet CESTA vise à utiliser et mettre en valeur l’expérience des participants dans le domaine de l’évaluation de la traduction automatique (MT Eval Workshop – MT Summit – Conférence LREC 2002) pour organiser une campagne d’évaluation de technologies de traduction automatique. La méthodologie ainsi que les protocoles d'évaluation seront élaborés conjointement et de manière concertée par les différents partenaires. Le point de départ du projet est un mode d’évaluation développé à travers l’expérience d’évaluation des systèmes de traduction automatique menée par Anthony Hartley (Leeds) et Martin Rajman (EPFL). L’objectif principal de CESTA est de démontrer la validité de ce protocole dans un cadre d’évaluation étendu à de plus nombreux systèmes, ainsi que de l'améliorer en recueillant les réflexions des différents experts et industriels du consortium, réunis au sein du conseil scientifique. Un versant du protocole se base sur une évaluation manuelle par une expertise humaine (en employant des métriques proposées par Anthony Hartley et Martin Rajman). Puis d’autres métriques seront introduites, pour comparer les méthodes d’évaluation automatique des systèmes (métrique 3AD de ILSI/CERSATES de Lille 3, protocole BLEU/NIST, etc.) Le mode global de l'évaluation dans le projet CESTA est fondé sur le principe de la boîte noire mais renseignée par des informations précises sur les prétraitements employés par les systèmes. |
||||||||||||||||||||||||||||
Résultats | ||||||||||||||||||||||||||||
LE PACKAGE D’EVALUATION CESTA EST DESORMAIS DISPONIBLE AUPRES D’ELRA :
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESTA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système. |
||||||||||||||||||||||||||||
(pdf, 99 pages, 1028Ko) Les résultats ont été discutés au cours d'un atelier final et publié dans le rapport ci-dessus. L’évaluation humaine a permis de mettre en évidence la proximité de S2 avec la référence humaine (afin de conserver l’anonymat, nous parlons des systèmes S1 à S6). Les systèmes S1, S3 et S4 sont quant à eux assez proches les uns des autres. Le système S3 arrive toutefois en seconde position suivi du système S1, puis S4. Le système S5 est très éloigné des scores de ce groupe. Les résultats du système S6 sont assez bons, même si la référence humaine est largement au-dessus. Les résultats surprenants de S2 (supérieur à la référence humaine pour l’adéquation) sont en cours d’étude, puisqu’il s’est avéré qu’ont été inclus certains fichiers du corpus de test de Santé Canada pour l’entraînement du système. En ce qui concerne les métriques automatiques, les mesures statistiques (BLEU, NIST, WNM) obtiennent de relativement bons résultats, puisqu’ils sont en deçà de ceux de la première campagne. Toutefois, les corrélations sont d’un niveau acceptable, meilleures pour l’adéquation que pour la fluidité. On retrouve avec ces métriques la structure de l’évaluation humaine, avec le système S2 largement au-dessus, un groupe de trois systèmes assez proches (S1, S3, S4), et un dernier système plus loin (S5). Le classement est légèrement différent. Les résultats obtenus pour la métrique BLEU et les deux scores humains sont résumés ci-dessous :
Compte tenu des résultats obtenus lors de la première campagne pour les mesures à base de connaissances (X-Score, D-Score), ceux de la seconde campagne sont assez surprenants : la corrélation avec les jugements humains est très basse, bien que ce soit déjà le cas pour le D-Score lors de la première campagne. Une explication plausible pour le X-Score, est la réutilisation du corpus d’entraînement (de la métrique) de la première campagne pour celle-ci. Nous planifions de refaire un corpus d’entraînement ayant un modèle basé sur le domaine de la santé. Un package d’évaluation regroupant les deux campagnes d’évaluation sera rendu disponible via ELDA. |
||||||||||||||||||||||||||||
Publications |
||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||
|
|
Dates du projet |
Date de début : 4 décembre 2002 Date de fin : mars 2006 |