07. EVALDA - MEDIA

1er décembre 2006

Technolangue.net

Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue

Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA)

Contact

Djamel Mostefa, mostefa@elda.org

Page du projet sur le site elda.org

Résumé | Résultats | Publications | Partenaires | Dates du projet

Résumé

L’objectif de ce projet est de définir et de tester une méthodologie d’évaluation de la compréhension des systèmes de dialogue.

Nous proposons de mettre en place un paradigme d’évaluation fondé sur la définition et l’utilisation de batteries de tests issues de corpus réels et sur une représentation sémantique et des métriques communes. Ce paradigme devrait permettre de diagnostiquer les capacités de compréhension hors contexte et en contexte des systèmes de dialogue. Une campagne d’évaluation des systèmes des différents participants sera menée pour valider le paradigme et les représentations sur une même tâche de demande de renseignements.

Résultats

LE PACKAGE D’EVALUATION MEDIA EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

Package d’évaluation MEDIA (référence ELRA-E0024)

Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation MEDIA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

L’évaluation hors contexte s’est déroulée en juin 2005 sur un ensemble de test de 3000 énoncés. Chaque participant a pu adapter son modèle de traitement à partir d’un corpus d’entraînement de 11000 énoncés. Chaque segment sémantique est représenté par un triplet (mode, nom de l’attribut, valeur de l’attribut). Le mode étant positif pour une affirmation ou négatif pour une négation, le nom de l’attribut ou concept représente l’objet en question (réservation, localisation, etc.) et la valeur correspond à la valeur du concept en question.

La tâche consista à produire l’annotation sémantique hors contexte du dialogue de chacun des 3000 énoncés de test.

La métrique utilisée est le taux d’erreurs de segments. Les taux d’erreur furent calculés en mode complet mais également en mode relâché ou les concepts furent regroupés en classe de concepts (réservation-hôtel & réservation).

Le tableau ci-dessous présente les résultats obtenus pour les 5 systèmes participants sur la base du taux d’erreurs de compréhension (le meilleur score correspond au taux d’erreur le plus bas).

	Evaluation complète	Evaluation relâchée
LIA	36.4	24.1
LIMSI-1	23.8	21.6
LIMSI-2	23.2	19.6
LORIA	28.9	24.6
VALORIA	30.6	27.6

Il est important de souligner que les systèmes statistiques s’entraînant sur la base de large corpus obtiennent de meilleurs résultats que les autres. C’est le cas du système du LIMSI-2, construit sur un modèle stochastique, qui a obtenu de meilleurs résultats que les autres. Pour les systèmes à base de règles, la majeure partie des erreurs n’est pas seulement due à des erreurs de compréhension, mais aussi à une mauvaise projection (ou traduction) dans le format d’évaluation attendu.

Ressources :

Le corpus de 1250 dialogues homme-machine a été annoté en actes de dialogues et en segments sémantiques hors et en contexte de dialogue durant cette troisième année. Le corpus de test (200 dialogues) a été annoté en méta annotations afin de procéder à une étude diagnostique des sorties des systèmes. Ces méta annotations comprennent des annotations de phénomènes liés à l’oral tels les répétitions, les auto-corrections, les incises, etc.

Des outils d’annotation et d’évaluation ont été développés. L’outil d’annotation a été modifié pour produire des annotations en contexte tandis que des outils d’évaluation hors contexte et en contexte ont été développés. Ceux-ci implémentent différentes métriques (précision/rappel, distance de Levensthein) et plusieurs modalités de calcul en implémentant des levées de contraintes sur les paramètres des triplets (mode, attribut, valeur).

Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :

Guide d’annotation hors contexte
Guide d’annotation de la référence
Guide d’annotations des actes de dialogue
Guide d’annotations en contexte
Guide de méta annotation

Publications

A. DENIS, G. PITEL, M. QUIGNARD, “A model of grouping for plural and ordinal references”. In Proceedings of ESSLLI 2006, Malaga, Spain. (à paraître)

A. DENIS, G. PITEL, M. QUIGNARD, “Resolution of Referents Groupings in Practical Dialogues”. In: Proceedings of SIGDial 2006, Sydney, Australia. (à paraître)

H. BONNEAU-MAYNARD, F. LEFEVRE, "Un modèle stochastique de compréhension de la parole à 2+1 niveaux". In : Actes des Journées d’Etude sur la Parole (JEP 2006), Dinard, France, juin 2006.

C. SERVAN, C. RAYMOND, F. BECHET, P. NOCERA, "Décodage conceptuel à partir de graphes de mots sur le corpus de dialogue Homme-Machine MEDIA", In : Actes des Journées d’Etude sur la Parole (JEP 2006), Dinard, France, juin 2006.

H. BONNEAU-MAYNARD, C. AYACHE, F. BECHET, A. DENIS, A. KUHN, F. LEFEVRE, D. MOSTEFA, M. QUIGNARD, S. ROSSET, C. SERVAN, and J. VILLANEAU. “Results of the French Evalda-Media evaluation campaign for literal understanding”. In : Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.2054-2059

D. BUHLER, W. MINKER, “Stochastic Spoken Natural Language Parsing in the Framework of the French MEDIA Evaluation Campaign”, In : Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.2084-2087.

A. DENIS, M. QUIGNARD, G. PITEL, “A Deep-Parsing Approach to Natural Language Understanding in Dialogue System: Results of a Corpus-Based Evaluation”. In: Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.339-344.

C. SERVAN, F. BECHET, "Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA". In : Actes des Ateliers de la 13^e Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN 2006), Leuven, Belgique, 10-13 Avril 2006.

H. BONNEAU-MAYNARD, F. LEFÈVRE, "A 2+1-LEVEL STOCHASTIC UNDERSTANDING MODEL". In: IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2005), Puerto-Rico, November 2005.

H. BONNEAU-MAYNARD, S. ROSSET, C. AYACHE, A. KUHN, D. MOSTEFA, “Semantic annotation of the French Media 1,250 dialog corpus”. In: Proceedings of the 9th European Conference on Speech Communication and Technology (InterSpeech 2005), Lisboa, Portugal, September 2005.

L. DEVILLERS, H. BONNEAU-MAYNARD, S. ROSSET, P. PAROUBEK, K. MCTAIT, D. MOSTEFA, K. CHOUKRI, L. CHARNAY, C. BOUSQUET, N. VIGOUROUX, F. BÉCHET, L. ROMARY, J.-Y. ANTOINE, J. VILLANEAU, M. VERGNES, J. GOULIAN, “The French MEDIA/EVALDA project : the evaluation of the understanding capability of Spoken Language Dialogue Systems”. In: Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.2131-2134

V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue: A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

H. BONNEAU-MAYNARD, K. MCTAIT, D. MOSTEFA, L. DEVILLERS, S. ROSSET, P.PAROUBEK, C. BOUSQUET, K. CHOUKRI, J. GOULIAN, J-Y ANTOINE, F. BECHET, O. BONTRON, L. CHARNAY, L. ROMARY, N.VERGNES, N. VIGOUROUX, “Constitution d'un corpus de dialogue oral pour l'évaluation automatique de la compréhension hors et en contexte du dialogue”. In : Actes des Journées d’Etude sur la Parole (JEP 2004), Fès, Maroc, avril 2004.

Partenaires du projet

ELDA
Vecsys
FT R&D
IRIT
LIA
LIMSI- TLP
LORIA
TELIP
VALORIA

Responsables du projet

Djamel Mostefa
ELDA
55-57, rue Brillat Savarin
75013 Paris
Tel. : 01 43 13 33 33 Fax : 01 43 13 33 30
Mél : mostefa@elda.org

Hélène Maynard
LIMSI-CNRS
BP 133
F-91403 ORSAY CEDEX
France
tél : 01 69 85 80 70 fax : 01 69 85 80 88
Mél : hbm@limsi.fr

Dates du projet

Date de début : 4 décembre 2002
Date de fin : 4 avril 2006