1er décembre 2006
Technolangue.net
Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue |
||||||||||||||||||
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA) |
|
|||||||||||||||||
|
||||||||||||||||||
Résumé | ||||||||||||||||||
L’objectif de ce projet est de définir et de tester une méthodologie d’évaluation de la compréhension des systèmes de dialogue. Nous proposons de mettre en place un paradigme d’évaluation fondé sur la définition et l’utilisation de batteries de tests issues de corpus réels et sur une représentation sémantique et des métriques communes. Ce paradigme devrait permettre de diagnostiquer les capacités de compréhension hors contexte et en contexte des systèmes de dialogue. Une campagne d’évaluation des systèmes des différents participants sera menée pour valider le paradigme et les représentations sur une même tâche de demande de renseignements.
|
||||||||||||||||||
Résultats | ||||||||||||||||||
LE PACKAGE D’EVALUATION MEDIA EST DESORMAIS DISPONIBLE AUPRES D’ELRA :
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation MEDIA. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne. L’évaluation hors contexte s’est déroulée en juin 2005 sur un ensemble de test de 3000 énoncés. Chaque participant a pu adapter son modèle de traitement à partir d’un corpus d’entraînement de 11000 énoncés. Chaque segment sémantique est représenté par un triplet (mode, nom de l’attribut, valeur de l’attribut). Le mode étant positif pour une affirmation ou négatif pour une négation, le nom de l’attribut ou concept représente l’objet en question (réservation, localisation, etc.) et la valeur correspond à la valeur du concept en question. La tâche consista à produire l’annotation sémantique hors contexte du dialogue de chacun des 3000 énoncés de test. La métrique utilisée est le taux d’erreurs de segments. Les taux d’erreur furent calculés en mode complet mais également en mode relâché ou les concepts furent regroupés en classe de concepts (réservation-hôtel & réservation). Le tableau ci-dessous présente les résultats obtenus pour les 5 systèmes participants sur la base du taux d’erreurs de compréhension (le meilleur score correspond au taux d’erreur le plus bas).
Il est important de souligner que les systèmes statistiques s’entraînant sur la base de large corpus obtiennent de meilleurs résultats que les autres. C’est le cas du système du LIMSI-2, construit sur un modèle stochastique, qui a obtenu de meilleurs résultats que les autres. Pour les systèmes à base de règles, la majeure partie des erreurs n’est pas seulement due à des erreurs de compréhension, mais aussi à une mauvaise projection (ou traduction) dans le format d’évaluation attendu. Ressources : Le corpus de 1250 dialogues homme-machine a été annoté en actes de dialogues et en segments sémantiques hors et en contexte de dialogue durant cette troisième année. Le corpus de test (200 dialogues) a été annoté en méta annotations afin de procéder à une étude diagnostique des sorties des systèmes. Ces méta annotations comprennent des annotations de phénomènes liés à l’oral tels les répétitions, les auto-corrections, les incises, etc. Des outils d’annotation et d’évaluation ont été développés. L’outil d’annotation a été modifié pour produire des annotations en contexte tandis que des outils d’évaluation hors contexte et en contexte ont été développés. Ceux-ci implémentent différentes métriques (précision/rappel, distance de Levensthein) et plusieurs modalités de calcul en implémentant des levées de contraintes sur les paramètres des triplets (mode, attribut, valeur). Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :
|
||||||||||||||||||
Publications |
||||||||||||||||||
|
||||||||||||||||||
|
|
Dates du projet |
Date de début : 4 décembre 2002 Date de fin : 4 avril 2006 |