Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Plate-forme EVALDA

EVALDA - ARCADE II

EVALDA - CESART

EVALDA - CESTA

EVALDA - ESTER

EVALDA - EQUER

EVALDA - MEDIA

EVALDA - EVASY

EVALDA - EASY

AGILE - ALIZÉ

AGILE - OURAL

AGILE - TILT

AGILE - WATSON

ATONANT

CARMEL

EurADiC

NEOLOGOS

NomsPropres

NORMALANGUE - RNIL

NORMALANGUE - Technovox

Technolangue.Net

Normes & Standard

Enjeux

Instances

Imprimer cet article

EVALDA - CESTA

mercredi 29 novembre 2006

Campagne d'Evaluation de Syst�mes de Traduction Automatique (for Machine Translation Evaluation Campaign)

Th�me de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Contact

Khalid Choukri, choukri@elda.org
Olivier Hamon, hamon@elda.org

Université Lille 3:
Widad Mustafa El Hadi, mustafa@univ-lille3.fr
Page du projet sur le site elda.org

R�sum� | R�sultats | Publications | Partenaires | Dates du projet

R�sum�

Le projet CESTA vise à utiliser et mettre en valeur l’expérience des participants dans le domaine de l’évaluation de la traduction automatique (MT Eval Workshop – MT Summit – Conférence LREC 2002) pour organiser une campagne d’évaluation de technologies de traduction automatique. La méthodologie ainsi que les protocoles d'évaluation seront élaborés conjointement et de manière concertée par les différents partenaires.

Le point de départ du projet est un mode d’évaluation développé à travers l’expérience d’évaluation des systèmes de traduction automatique menée par Anthony Hartley (Leeds) et Martin Rajman (EPFL). L’objectif principal de CESTA est de démontrer la validité de ce protocole dans un cadre d’évaluation étendu à de plus nombreux systèmes, ainsi que de l'améliorer en recueillant les réflexions des différents experts et industriels du consortium, réunis au sein du conseil scientifique. Un versant du protocole se base sur une évaluation manuelle par une expertise humaine (en employant des métriques proposées par Anthony Hartley et Martin Rajman). Puis d’autres métriques seront introduites, pour comparer les méthodes d’évaluation automatique des systèmes (métrique 3AD de ILSI/CERSATES de Lille 3, protocole BLEU/NIST, etc.)

Le mode global de l'évaluation dans le projet CESTA est fondé sur le principe de la boîte noire mais renseignée par des informations précises sur les prétraitements employés par les systèmes.

R�sultats

LE PACKAGE D’EVALUATION CESTA EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

Package d’évaluation CESTA (référence ELRA-E0020)

Ce package comprend l’ensemble des données utilis�es lors de la campagne d’évaluation CESTA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce � package � d’évaluation est de permettre � tout acteur externe de pouvoir évaluer son propre système.

Rapport final CESTA
(pdf, 99 pages, 1028Ko)

Les résultats ont été discut�s au cours d'un atelier final et publi� dans le rapport ci-dessus.

L’évaluation humaine a permis de mettre en évidence la proximité de S2 avec la référence humaine (afin de conserver l’anonymat, nous parlons des systèmes S1 à S6). Les systèmes S1, S3 et S4 sont quant à eux assez proches les uns des autres. Le système S3 arrive toutefois en seconde position suivi du système S1, puis S4. Le système S5 est très éloigné des scores de ce groupe. Les résultats du système S6 sont assez bons, même si la référence humaine est largement au-dessus. Les résultats surprenants de S2 (supérieur à la référence humaine pour l’adéquation) sont en cours d’étude, puisqu’il s’est avéré qu’ont été inclus certains fichiers du corpus de test de Santé Canada pour l’entraînement du système.

En ce qui concerne les métriques automatiques, les mesures statistiques (BLEU, NIST, WNM) obtiennent de relativement bons résultats, puisqu’ils sont en deçà de ceux de la première campagne. Toutefois, les corrélations sont d’un niveau acceptable, meilleures pour l’adéquation que pour la fluidité. On retrouve avec ces métriques la structure de l’évaluation humaine, avec le système S2 largement au-dessus, un groupe de trois systèmes assez proches (S1, S3, S4), et un dernier système plus loin (S5). Le classement est légèrement différent. Les résultats obtenus pour la métrique BLEU et les deux scores humains sont résumés ci-dessous :

Systèmes	BLEU	Fluidité	Adéquation
System 1-EN	37.8	54.7	59.6
System 2-EN	89.6	82.1	88.2
System 3-EN	38.4	57.5	60.9
System 4-EN	39.8	54.3	55.7
System 5-EN	33.9	32.0	46.0
System 1-AR	42.3	51.9	42.6

Compte tenu des résultats obtenus lors de la première campagne pour les mesures à base de connaissances (X-Score, D-Score), ceux de la seconde campagne sont assez surprenants : la corrélation avec les jugements humains est très basse, bien que ce soit déjà le cas pour le D-Score lors de la première campagne. Une explication plausible pour le X-Score, est la réutilisation du corpus d’entraînement (de la métrique) de la première campagne pour celle-ci. Nous planifions de refaire un corpus d’entraînement ayant un modèle basé sur le domaine de la santé.

Un package d’évaluation regroupant les deux campagnes d’évaluation sera rendu disponible via ELDA.

Publications

O. HAMON, M. RAJMAN (2006). “X-Score: Automatic Evaluation of Machine Translation Grammaticality”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.155-160

O. HAMON, A. POPESCU-BELIS., K. CHOUKRI, M. DABBADIE, A. HARTLEY, W. MUSTAFA EL HADI, M. RAJMAN, I. TIMIMI, (2006). “CESTA: First Conclusions of the Technolanguage MT Evaluation Campaign”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.179-184

S. SURCIN, O. HAMON, A. HARTLEY, M. RAJMAN, A. POPESCU-BELIS, W. MUSTAFA EL HADI, I. TIMIMI, M. DABBADIE, K. CHOUKRI, (2005), “Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign #1”. In Proceedings of MT Summit X, Phuket, Thailand, September 2005, p. 117-124.

M. DABBADIE, W. MUSTAFA EL HADI, I. TIMIMI, (2004), “CESTA, The first European Machine Translation Evaluation Campaign”. In Multilingual n° 65 volume 15, issue 5, p. 10-11.

V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

W. MUSTAFA EL HADI, M. DABBADIE, I. TIMIMI, M. RAJMAN, P. LANGLAIS, A. HARTLEY, A. POPESCU-BELIS (2004), “Work-in-Progress project report: CESTA Machine Translation Evaluation Campaign”. In Proceedings of COLING' 2004, Genova, Switzerland, August 2004.

W. MUSTAFA EL HADI, M. DABBADIE, I. TIMIMI, “Terminological Enrichment for non-Interactive MT Evaluation”. In: Proceedings of the 3rd international Conference on Language Resources and Evaluation (LREC 2002), Las Palmas de Gran Canarias, May 2002, p.1878-1884.

Partenaires du projet

Université de Lille 3, IDIS/CESARTES
BP 149
F-59653 Villeneuve d'Ascq Cedex
http://www.univ-lille3.fr/fr/recherche/equipes-recherche/geriico/

Ecole Polytechnique Fédérale de Lausanne, LIA
Bât. INR
CH-1015 Lausanne
Suisse
liawww.epfl.ch

Université of Leeds
Centre for Translation Studies
Woodhouse Lane
LEEDS LS2 9JT
UK
www.leeds.ac.uk

Responsable du projet

Khalid Choukri
ELDA - 55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mail : choukri@elda.org

Widad Mustafa El Hadi
CERSATES - Université de Lille III - BP 149 - F - 59 653 Villeneuve d'Ascq Cedex
Tel : 03 20 41 68 15 ; Fax : 03 20 41 63 61
Mail : mustafa@univ-lille3.fr

Olivier Hamon
ELDA - 55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mail : hamon@elda.org

Dates du projet

Date de d�but : 4 décembre 2002
Date de fin : mars 2006