17 février 2006
Technolangue.net
Ressources linguistiques monolingues et bilingues français - arabe, anglais, allemand, italien, espagnol, grec (European Arabic Dictionaries and Corpora) |
|||||||||||||
Thème de l’action : Ressources linguistiques |
|
||||||||||||
|
|||||||||||||
Résumé | |||||||||||||
Les ressources linguistiques (dictionnaires et corpus) qu’il s’agit de mettre en forme et de développer (transcodage, reformatage, vérification et mise à jour, élaboration, ...) s’articulent autour du français pris comme « pivot ». Les ressources attendues sont les suivantes :
|
|||||||||||||
Résultats | |||||||||||||
Les ressources linguistiques suivantes ont été développées :
Un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …) Une analyse de mots inconnus a été réalisée sur différents types de corpus, document de presse, base de données sur l’eau et le tourisme durable, site web de la direction de la recherche technologique du CEA, retranscription de journaux télévisés, groupes de news. Le vocabulaire manquant a été ajouté. D’autre part ces listes d’erreurs ont permis de trouver des erreurs ou manques dans les tables de fléchissement. Ces tables ont été corrigées. Les tests d’analyse syntaxique ont permis de trouver des erreurs de catégories grammaticales attribuées aux mots. Ces erreurs ont été corrigées. LES DICTIONNAIRES MONOLINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA : Il contient environ 112 216 lemmes (694 673 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.
Il contient environ 171 713 lemmes (365 823 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.
Il contient environ 157 810 lemmes (17 634 834 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.
Il contient environ 83 952 lemmes (838 391 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.
Il contient environ 70 951 lemmes (557 204 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.
Tout comme pour les dictionnaires monolingues, un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …) . LES DICTIONNAIRES BILINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA : Il contient environ 243 539 couples de termes français-anglais, avec leur partie du discours.
Il contient environ 170 967 couples de termes français-allemand, avec leur partie du discours.
Il contient environ 102 941 couples de termes français-espagnol, avec leur partie du discours.
Il contient environ 116 587 couples de termes français-italien, avec leur partie du discours.
Un travail de contrôle a été réalisé par le laboratoire ICAR. Il a permis de dégager un ensemble de près de 900 entrées arabes erronées, dont 883 entrées non voyellées et 7 entrées partiellement voyellées. Les corrections nécessaires ont été effectuées. Les mesures de couverture pour les textes français ont été effectuées sur les corpus du Monde diplomatique (journalistiques donc) et 4 textes de l’Unesco (scientifiques et culturels) :
L’équipe responsable du projet a effectué une étude du besoin terminologique dans le domaine des sports. Cette étude, couvrant l’ensemble des catégories d’utilisateurs, a conduit à une refonte partielle de l’existant et à une réévaluation des options. Tous les choix effectués se fondent sur les résultats de cette étude du besoin, qui a notamment fait ressortir clairement l’impact des corpus ouverts (Internet) et des outils d’exploration sur la conception des dictionnaires et la conduite de l’activité terminographique. La base existante (anglais-français) a fait l’objet d’une révision et mise à niveau systématique avec les objectifs suivants : Les principes de formation des unités terminologiques étant modifiés pour tenir compte des progrès techniques, l’ensemble des entrées de la nomenclature a fait l’objet d’une révision systématique. Les équivalences ont été systématiquement vérifiées et corrigées (7 044 corrections ou ajustements). Dans un souci de rigueur scientifique (et de protection des droits) les sources et références exploitées pour chaque entrée du dictionnaire ont été systématiquement vérifiées (40 000 vérifications pour un total de 11 256 modifications). Afin de fournir un premier dictionnaire pour les Jeux olympiques 2004, un dictionnaire français-anglais-grec a été mis en ligne en mode consultation. Les résultats obtenus se présentent sous la forme de bases MS ACCESS. Il est prévu que ces bases soient mises en ligne par la société LCI-Maison du dictionnaire. Les bases constituées sont les suivantes :
La base multilingue anglais - français est destinée à la consultation sur l’Internet. Elle comporte une nomenclature de 37 500 pour l’anglais, le français, le grec, et l’arabe, 28 000 pour l’espagnol, 22 000 pour l’allemand et 10 000 pour le portugais. Les contenus sont, pour chaque langue : La base bilingue anglais français comporte 63 161 entrées avec, pour chaque langue. Elle est téléchargeable sur demande – pour un traçage des éventuels collaborateurs. Elle comporte : Les requêtes permettent la consultation sur : Les bases trilingue anglais - français + autre langue sont destinée au téléchargement libre. Elles comportent un nombre variable d’entrées complètes selon les langues avec, pour chaque langue : Les requêtes permettent la consultation sur : Le corpus comprend actuellement 55 paires de textes français arabe du Monde diplomatique. Les opérations de téléchargement, reformatage, élagage, etc., ont été effectuées manuellement. Le corpus arabe (étiqueté, voyellé et lemmatisé) contient les éléments suivants : L’étiquetage manuel de ce corpus a été utilisé dans le cadre d’une étude critique des règles de succession les plus couramment mises en œuvre dans les étiqueteurs grammaticaux (bi et tri-grammes). Ce travail a donné lieu à une publication (voir plus bas).
|
|||||||||||||
Publications |
|||||||||||||
|
|||||||||||||
|
|
Dates du projet |
Date de début : 1er septembre 2003
Date de fin : 1er septembre 2005 |