26 octobre 2004
Technolangue.net
Corpus Aligné comme Ressource Multilingue pour l'Etude du Langage naturel
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Fiche du 26 octobre 2004
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Résumé | Objectifs | Mise en oeuvre et état de l'art | Organisation | Retombées | Avancement | Partenaires | Contacts
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Résumé | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Le projet CARMEL a pour objectif la constitution d'un corpus multilingue aligné couplé à un jeu d'outils d'exploration adapté.
Le corpus sera constitué d'une collection d'œuvres littéraires du XIXe siècle - récits de voyages - dans quatre langues européennes : français, anglais, espagnol et italien. Les textes, mis au format XML, seront enrichis par l'ajout d'annotations thématiques et sémantiques pour en faciliter l'exploitation et créer une ressource de référence pouvant servir lors de diverses campagnes d'évaluation. Les outils accompagnant le corpus permettront l'alignement de nouveaux textes ainsi que la visualisation de bi-textes et de leurs annotations. Le couplage des trois axes privilégiés - appariement multilingue, l'étiquetage sémantique et l'annotation thématique - devrait permettre un alignement multilingue plus fin, une désambiguïsation sémantique plus précise et une classification thématique plus robuste. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Objectifs | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mise en œuvre et état de l'art | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
S'il existe des bases textuelles de grande envergure dans le domaine littéraire (telles que FRANTEXT de l'INALF), les corpus bilingues alignés, ou bi-textes, sont assez rares, et a fortiori les multi-textes, impliquant plus de deux langues. Les corpus qui font référence dans le domaine n'en contiennent pas (tel le corpus JOC) ou très peu (15% du corpus BAF).
Le développement d'un corpus littéraire de grande taille, cohérent quant à sa définition, viendra combler cette lacune. Notons que le format d'annotation (XML) du corpus prendra en compte les différentes normes et recommandations applicables : Corpus Encoding Standard (CESAlign), Text Encoding Initiative, et standard Translation Memory Interchange (TMX). Aligner des textes parallèles consiste à déterminer, avec une granularité plus ou moins fine (paragraphe, phrase, mot), les zones équivalentes entre un texte et sa traduction. Les premières méthodes dédiées à l'alignement automatique sont apparues au début des années 90 et sont arrivées à maturité après une dizaine d'années de développement. Pour des corpus de traductions littérales les résultats des meilleurs systèmes avoisinent les 99% de précision et rappel au niveau phrastique. Pour d'autres corpus, la marge de progression est encore importante : il s'avère que les traductions de textes littéraires présentent plus de difficulté dans la mesure où l'interprétation du traducteur, nécessairement subjective, implique une certaine liberté formelle. Dans le projet, on aura recours au système d'Olivier Kraif (Kraif, 2001) utilisant une combinaison d'indices variés : longueurs de phrases, transfuges et cognats, distributions lexicales. La tâche de désambiguïsation sémantique d'un mot employé en contexte est une tâche particulièrement difficile si elle doit être réalisée de façon automatique. Des campagnes d'évaluation des systèmes automatiques de désambiguïsation sémantique (Senseval ou Romanseval) ont été récemment mises en place. Les résultats obtenus par les meilleurs systèmes varient entre 60% et 80% d'étiquetages « corrects » selon les mots testés ; ce qui montre qu'il y a encore beaucoup de progrès à faire avant de pouvoir utiliser de tels composants dans les systèmes de Recherche Documentaire ou de Traduction Assistée par Ordinateur. Les différents systèmes développés par le LIA (en coopération pour Senseval II avec Sinequa) sont fondés sur une approche reposant entre autres sur des arbres de classification sémantiques, et sur une classification des termes apparaissant dans le contexte à une position donnée. Cette approche met en jeu différents niveaux linguistiques et a permis au LIA d'obtenir, sur les données de Senseval I, des scores atteignant 85.7% de précision (et rappel) pour les noms et 72.8 % pour les verbes. La principale innovation que le LIA souhaite introduire dans son système consiste en la prise en compte de l'aspect multilingue du corpus. L'identification thématique s'appuiera à son tour sur la désambiguïsation fine des unités pertinentes. Par rétroaction, on pourra améliorer les résultats des appariements multilingues, certains paramètres étant susceptibles de dépendre de la typologie des segments textuels (description, dialogue, narration) et des thèmes abordés. Cette interrelation étroite entre sémantique lexicale, thème (considéré comme récurrence sémantique ou isotopie) et traduction constitue une tentative tout à fait originale dans le domaine, et n'est autre que la mise en œuvre du principe énoncé par Greimas, selon lequel la traduction est l'amorce d'une explicitation du sens. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Organisation | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Après une phase de préparation, le projet, qui a commencé en septembre 2003, se découpe en quatre phases :
La première phase permet d'éprouver les différents choix faits entre les partenaires à travers l'acquisition de premiers textes en anglais et de quelques traductions, l'alignement phrastique des traductions, la désambiguïsation sémantique de quelques unités, et la vérification manuelle d'une partie de ces annotations. Le corpus sera ensuite enrichi de nombreux textes écrits dans les quatre langues, et de leur traduction. L'alignement phrastique et lexical sera calculé automatiquement, puis vérifier manuellement ; les techniques d'alignement seront progressivement affinées. De même, l'étiquetage sémantique sera calculé automatiquement et révisé humainement, et les techniques utilisées seront progressivement améliorées et prendront en compte contexte multilingue et étiquette thématique. Un découpage en segments thématiques des œuvres sera effectué pour concevoir des outils de classification multilingues. La troisième phase permettra d'évaluer les résultats obtenus par les différents outils d'alignement, de désambiguïsation et de classification sur une partie du corpus réservée à cet effet. Divers réglages (ainsi qu'une correction des erreurs) pourront être faits à cette occasion. Parallèlement, une adaptation des outils linguistique sera faite par la société Sinequa, la dernière phase sera consacrée à la validation de ces outils et du corpus en termes d'utilisation culturelle et pédagogique puis à sa diffusion. Les différents livrables attendus sont le corpus CARMEL sous un format XML aligné à différents niveaux (phrases et certains mots), découpé thématiquement et annoté sémantiquement ; des outils standards d'alignement, ainsi qu'une interface de visualisation des bi-textes annotés; enfin un site développé autour du corpus servant de « vitrine » de démonstration et de diffusion. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Retombées du projet | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La ressource linguistique que constitue le corpus CARMEL est destinée à encourager l'apprentissage et la connaissance de la culture européenne et à favoriser la production d'un appareil critique sur le patrimoine littéraire et artistique de l'Europe du XIXe siècle, période particulièrement féconde et représentative.
De plus les outils standard d'alignement et de visualisation bi textes annotés seront utiles pour un certain nombre d'application du TALN, comme l'aide à la traduction. Le projet CARMEL permettra de mettre au point de nouvelles techniques d'alignement lexical et phrastique, de désambiguïsation sémantique et de classification thématique. Enfin, le corpus pourra servir de référence lors de campagnes d'évaluations. Le projet CARMEL apportera à la société Sinequa un élargissement de sa clientèle vers d'autres clients potentiels, dans le domaine culturel et pédagogique. Le produit final servira aussi de vitrine de référence pour le moteur XML, Intuition. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Etat d'avancement | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Comme résumé dans le tableau suivant, dix-neuf textes ont été numérisés et vérifiés par ACCE : onze textes de langue anglaise et huit de langue française ; quinze traductions de texte ont également été numérisées et vérifiées : dix traductions françaises, trois traductions anglaises et une traduction espagnole (d'un texte anglais) et trois traductions espagnoles (de textes français).
Neuf textes (ou traductions) en anglais ont été lemmatisés et annotés sémantiquement pour un jeu de cinq mots - begin (v), child (n), curious (a), live (v) et simple (a) -. La vérification manuelle d'une sélection de ces annotations est en cours. De même six textes ou traductions en français et la traduction espagnole sont lemmatisés. Enfin, l'alignement phrastique de six des traductions françaises, et de la traduction espagnole a été réalisé.
|