04. EVALDA - CESTA

29 novembre 2006

Technolangue.net

Campagne d'Evaluation de Systèmes de Traduction Automatique (for Machine Translation Evaluation Campaign)

Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Khalid Choukri, choukri@elda.org
Olivier Hamon, hamon@elda.org

Université Lille 3:
Widad Mustafa El Hadi, mustafa@univ-lille3.fr
Page du projet sur le site elda.org

Résumé | Résultats | Publications | Partenaires | Dates du projet

Résumé

Le projet CESTA vise à utiliser et mettre en valeur l’expérience des participants dans le domaine de l’évaluation de la traduction automatique (MT Eval Workshop – MT Summit – Conférence LREC 2002) pour organiser une campagne d’évaluation de technologies de traduction automatique. La méthodologie ainsi que les protocoles d'évaluation seront élaborés conjointement et de manière concertée par les différents partenaires.

Le point de départ du projet est un mode d’évaluation développé à travers l’expérience d’évaluation des systèmes de traduction automatique menée par Anthony Hartley (Leeds) et Martin Rajman (EPFL). L’objectif principal de CESTA est de démontrer la validité de ce protocole dans un cadre d’évaluation étendu à de plus nombreux systèmes, ainsi que de l'améliorer en recueillant les réflexions des différents experts et industriels du consortium, réunis au sein du conseil scientifique. Un versant du protocole se base sur une évaluation manuelle par une expertise humaine (en employant des métriques proposées par Anthony Hartley et Martin Rajman). Puis d’autres métriques seront introduites, pour comparer les méthodes d’évaluation automatique des systèmes (métrique 3AD de ILSI/CERSATES de Lille 3, protocole BLEU/NIST, etc.)

Le mode global de l'évaluation dans le projet CESTA est fondé sur le principe de la boîte noire mais renseignée par des informations précises sur les prétraitements employés par les systèmes.

Résultats

LE PACKAGE D’EVALUATION CESTA EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

Package d’évaluation CESTA (référence ELRA-E0020)

Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation CESTA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système.

Rapport final CESTA
(pdf, 99 pages, 1028Ko)

Les résultats ont été discutés au cours d'un atelier final et publié dans le rapport ci-dessus.

L’évaluation humaine a permis de mettre en évidence la proximité de S2 avec la référence humaine (afin de conserver l’anonymat, nous parlons des systèmes S1 à S6). Les systèmes S1, S3 et S4 sont quant à eux assez proches les uns des autres. Le système S3 arrive toutefois en seconde position suivi du système S1, puis S4. Le système S5 est très éloigné des scores de ce groupe. Les résultats du système S6 sont assez bons, même si la référence humaine est largement au-dessus. Les résultats surprenants de S2 (supérieur à la référence humaine pour l’adéquation) sont en cours d’étude, puisqu’il s’est avéré qu’ont été inclus certains fichiers du corpus de test de Santé Canada pour l’entraînement du système.

En ce qui concerne les métriques automatiques, les mesures statistiques (BLEU, NIST, WNM) obtiennent de relativement bons résultats, puisqu’ils sont en deçà de ceux de la première campagne. Toutefois, les corrélations sont d’un niveau acceptable, meilleures pour l’adéquation que pour la fluidité. On retrouve avec ces métriques la structure de l’évaluation humaine, avec le système S2 largement au-dessus, un groupe de trois systèmes assez proches (S1, S3, S4), et un dernier système plus loin (S5). Le classement est légèrement différent. Les résultats obtenus pour la métrique BLEU et les deux scores humains sont résumés ci-dessous :

Systèmes	BLEU	Fluidité	Adéquation
System 1-EN	37.8	54.7	59.6
System 2-EN	89.6	82.1	88.2
System 3-EN	38.4	57.5	60.9
System 4-EN	39.8	54.3	55.7
System 5-EN	33.9	32.0	46.0
System 1-AR	42.3	51.9	42.6

Compte tenu des résultats obtenus lors de la première campagne pour les mesures à base de connaissances (X-Score, D-Score), ceux de la seconde campagne sont assez surprenants : la corrélation avec les jugements humains est très basse, bien que ce soit déjà le cas pour le D-Score lors de la première campagne. Une explication plausible pour le X-Score, est la réutilisation du corpus d’entraînement (de la métrique) de la première campagne pour celle-ci. Nous planifions de refaire un corpus d’entraînement ayant un modèle basé sur le domaine de la santé.

Un package d’évaluation regroupant les deux campagnes d’évaluation sera rendu disponible via ELDA.

Publications

O. HAMON, M. RAJMAN (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160

O. HAMON, A. POPESCU-BELIS., K. CHOUKRI, M. DABBADIE, A. HARTLEY, W. MUSTAFA EL HADI, M. RAJMAN, I. TIMIMI, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184

S. SURCIN, O. HAMON, A. HARTLEY, M. RAJMAN, A. POPESCU-BELIS, W. MUSTAFA EL HADI, I. TIMIMI, M. DABBADIE, K. CHOUKRI, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.

M. DABBADIE, W. MUSTAFA EL HADI, I. TIMIMI, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual n° 65 volume 15, issue 5, p. 10-11.

V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

W. MUSTAFA EL HADI, M. DABBADIE, I. TIMIMI, M. RAJMAN, P. LANGLAIS, A. HARTLEY, A. POPESCU-BELIS (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Genova, Switzerland, August 2004.

W. MUSTAFA EL HADI, M. DABBADIE, I. TIMIMI, “Terminological Enrichment for non-Interactive MT Evaluation”. In: Proceedings of the 3rd international Conference on Language Resources and Evaluation (LREC 2002), Las Palmas de Gran Canarias, May 2002, p.1878-1884.

Partenaires du projet

Université de Lille 3, IDIS/CESARTES
BP 149
F-59653 Villeneuve d'Ascq Cedex
http://www.univ-lille3.fr/fr/recherche/equipes-recherche/geriico/

Ecole Polytechnique Fédérale de Lausanne, LIA
Bât. INR
CH-1015 Lausanne
Suisse
liawww.epfl.ch

Université of Leeds
Centre for Translation Studies
Woodhouse Lane
LEEDS LS2 9JT
UK
www.leeds.ac.uk

Responsable du projet

Khalid Choukri
ELDA - 55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mail : choukri@elda.org

Widad Mustafa El Hadi
CERSATES - Université de Lille III - BP 149 - F - 59 653 Villeneuve d'Ascq Cedex
Tel : 03 20 41 68 15 ; Fax : 03 20 41 63 61
Mail : mustafa@univ-lille3.fr

Olivier Hamon
ELDA - 55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mail : hamon@elda.org

Dates du projet

Date de début : 4 décembre 2002
Date de fin : mars 2006