30 novembre 2006
Technolangue.net
Thème de l'action : Evaluation des technologies linguistiques (projet EVALDA) |
|
||||||||||||
|
|||||||||||||
Résumé | |||||||||||||
Une longue tradition de campagnes d’évaluation des systèmes de traitement automatique du langage naturel existe aux Etats-Unis (campagnes DARPA sur la transcription et les détections d’entités, campagnes NIST sur la reconnaissance du locuteur). Celle-ci a permis de faire progresser l’état de l’art et de mettre à la disposition des acteurs du domaine des corpus de grande taille et des métriques d’évaluation fiables. En France, une première campagne d’évaluation pour la langue française a été menée dans le cadre de l’initiative AUPELF. La campagne ESTER s’inscrit dans la continuité de cette logique d’évaluation en mettant en place des protocoles et en produisant des corpus pour le français. La campagne d’évaluation ESTER vise à l’évaluation des systèmes de transcriptions d’émissions radiophoniques. Les transcriptions seront enrichies par un ensemble d’informations annexes, comme le découpage automatique en tours de paroles, le marquage des entités nommées, etc. L’évaluation de la qualité des informations annexes en plus de l’évaluation de la transcription orthographique permettra d’établir une référence des niveaux de performances actuels de chacune des composantes d’un système d’indexation, tout en donnant une idée des performances du système complet. L’organisation de la campagne passera par la mise en place d’un comité de pilotage, d’un comité scientifique et d’un site internet.
|
|||||||||||||
Résultats | |||||||||||||
LE PACKAGE D’EVALUATION ESTER EST DESORMAIS DISPONIBLE AUPRES D’ELRA :
Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ESTER. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne. Le corpus ESTER est un sous-ensemble du package d’évaluation ESTER. Ce corpus comprend l'ensemble des données utilisées lors de la campagne d’évaluation ESTER, à l'exclusion des données textuelles. |
|||||||||||||
Les résultats de l’évaluation ESTER sont répartis sur les trois classes de tâches mentionnées précédemment (transcription orthographique, segmentation et extraction d’informations). Les résultats détaillés sont présentés dans l’article publié à Interspeech 2005. Ci-dessous figurent quelques résultats. Transcription orthographique Huit laboratoires participèrent à la tâche de transcription orthographique. Le meilleur résultat fut obtenu par le LIMSI avec un taux d’erreurs de mots de 11.9%. Pour la tâche de transcription en temps réel, Vecsys Research obtint les meilleurs résultats avec un taux d’erreur de 16.8%. Segmentation Les tâches de segmentation se décomposent en segmentation en événements sonores, suivi de locuteurs et segmentation en locuteurs. Pour la segmentation en événements sonores où la tâche consiste à détecter les parties contenant de la musique (avec ou sans parole) d’une part et les parties comprenant de la parole (avec ou sans musique), sept laboratoires y participèrent. Les résultats sont bons pour la détection de parole avec un taux de F-mesure de 99.2% obtenu par le LIA. La détection de la musique est plus problématique notamment que le rapport signal bruit est faible. Le meilleur résultat de détection de musique fut également obtenu par le LIA avec un taux de F-mesure de 54.8%. La tâche de suivi de locuteur consiste à détecter les parties du document correspondant à un locuteur donné. Trois laboratoires participèrent à cette tâche et le meilleur résultat fut obtenu par l’IRISA avec un taux de F-Mesure de 84.3%. La segmentation en locuteurs consiste à segmenter le document en locuteurs et regrouper les parties parlées par le même locuteur. Parmi les quatre participants, le LIMSI obtint le meilleur résultat avec un taux d’erreur de 11.5%. Extraction d’information La tâche de détection d’entités nommées fut évaluée de façon plus exploratoire que les tâches précédentes. Le but était de mettre en place et tester un protocole d’évaluation plutôt que de mesurer les performances. Les systèmes devaient détecter huit classes d’entités (personne, lieu, date, organisation, entité géo-politique, montant, bâtiment et inconnu) à partir de la transcription automatique ou de la transcription manuelle. Le meilleur résultat des trois participants fut obtenu sur la transcription manuelle avec un taux d’erreurs de 22.3%.Ressources : Les ressources produites sont les mêmes que celles produites à la fin de la seconde année, à savoir 100 heures d’émissions transcrites orthographiquement et annotées en entités nommées et 1700 heures d’enregistrements d’émissions radiophoniques non transcrites. Néanmoins, l’évaluation officielle a permis de mettre à jour le corpus en analysant les sorties automatiques des systèmes et les transcriptions manuelles. Le dictionnaire d’équivalence a également été enrichi au terme de la phase d’adjudication. Le corpus de 100 heures de transcriptions inclue 1,2 millions de mots pour un vocabulaire de 37 000 mots. 74 082 occurrences d’entités nommées sont annotées pour un total de 15 152 entités différentes. Les ressources textuelles distribuées dans le cadre de la campagne ESTER reposent essentiellement sur les archives du journal Le Monde (ELRA-W0015) et du corpus des débats du Conseil européen (ELRA-W0023). Des guides et manuels ont été produits et sont fournis dans le package distribué par ELDA :
|
|||||||||||||
Publications |
|||||||||||||
|
|||||||||||||
|
|
Dates du projet |
Date de début : 4 décembre 2002 Date de fin : 4 avril 2006 |