EurADiC

17 février 2006

Technolangue.net

Ressources linguistiques monolingues et bilingues français - arabe, anglais, allemand, italien, espagnol, grec (European Arabic Dictionaries and Corpora)

Thème de l’action : Ressources linguistiques

Contact

Christian Fluhr, christian.fluhr@cea.fr

Fathi Debili, fathi.debili@wanadoo.fr

Valérie Mapelli, mapelli@elda.org

Résumé | Résultats | Publications | Partenaires | Dates du projet

Résumé

Les ressources linguistiques (dictionnaires et corpus) qu’il s’agit de mettre en forme et de développer (transcodage, reformatage, vérification et mise à jour, élaboration, ...) s’articulent autour du français pris comme « pivot ». Les ressources attendues sont les suivantes :

Dictionnaires généraux monolingues d’au moins 80 000 lemmes en français, allemand, anglais, espagnol et italien
Dictionnaires généraux bilingues d’au moins 90 000 couples de mots en français-allemand, français-anglais, français-arabe, français-espagnol, français-italien
Enrichissement d’un dictionnaire de spécialité dans le domaine du sport en français, anglais, allemand, espagnol, grec et arabe
Corpus : Corpus parallèle non apparié d’environ 2x100 000 mots français-arabes avec partie arabe voyellée.

Résultats

Les ressources linguistiques suivantes ont été développées :

Dictionnaires monolingues français, anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
Dictionnaires bilingues français/anglais, espagnol, allemand, italien (désormais disponibles auprès d’ELRA, voir descriptions et liens ci-dessous)
Dictionnaire bilingue français/arabe
Dictionnaire des sports

Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais
Base bilingue anglais-français
Base trilingue anglais-français + autre langue

Corpus arabe

Dictionnaires monolingues français, anglais, espagnol, allemand, italien

Un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …)

Une analyse de mots inconnus a été réalisée sur différents types de corpus, document de presse, base de données sur l’eau et le tourisme durable, site web de la direction de la recherche technologique du CEA, retranscription de journaux télévisés, groupes de news.
Le dépouillement des listes de mots rejetés a permis de détecter un certain nombre d’erreurs. Ce travail est assez long du fait que la plupart des mots rejetés sont soit des fautes de frappe très nombreuses dans les sites web, soit des mots d’une autre langue, soit des noms propres.

Le vocabulaire manquant a été ajouté. D’autre part ces listes d’erreurs ont permis de trouver des erreurs ou manques dans les tables de fléchissement. Ces tables ont été corrigées.

Les tests d’analyse syntaxique ont permis de trouver des erreurs de catégories grammaticales attribuées aux mots. Ces erreurs ont été corrigées.

LES DICTIONNAIRES MONOLINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :

SCIPER-FR-EURADIC Dictionnaire monolingue français (référence ELRA-L0049)

Il contient environ 112 216 lemmes (694 673 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.

SCIPER-AN-EURADIC Dictionnaire monolingue anglais (référence ELRA-L0050)

Il contient environ 171 713 lemmes (365 823 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.

SCIPER-AL-EURADIC Dictionnaire monolingue allemand (référence ELRA-L0051)

Il contient environ 157 810 lemmes (17 634 834 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.

SCIPER-ES-EURADIC Dictionnaire monolingue espagnol (référence ELRA-L0052)

Il contient environ 83 952 lemmes (838 391 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.

SCIPER-IT-EURADIC Dictionnaire monolingue italien (référence ELRA-L0053)

Il contient environ 70 951 lemmes (557 204 formes fléchies), avec leur partie du discours complétée par des informations flexionnelles.

Dictionnaires bilingues français/anglais, espagnol, allemand, italien

Tout comme pour les dictionnaires monolingues, un travail systématique d’ajout et de contrôle a permis de compléter le vocabulaire à partir de nouveaux dictionnaires, à partir d’un travail systématique du CEA sur les listes de mots dites fermées ou semi fermées (prépositions, articles, pronoms, unités de mesures, prénoms, …) .

LES DICTIONNAIRES BILINGUES SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :

SCI-FRAN-EURADIC Dictionnaire bilingue français-anglais (référence ELRA-M0033)

Il contient environ 243 539 couples de termes français-anglais, avec leur partie du discours.

SCI-FRAL-EURADIC Dictionnaire bilingue français-allemand (référence ELRA-M0034)

Il contient environ 170 967 couples de termes français-allemand, avec leur partie du discours.

SCI-FRES-EURADIC Dictionnaire bilingue français-espagnol (référence ELRA-M0035)

Il contient environ 102 941 couples de termes français-espagnol, avec leur partie du discours.

SCI-FRIT-EURADIC Dictionnaire bilingue français-italien(référence ELRA-M0036)

Il contient environ 116 587 couples de termes français-italien, avec leur partie du discours.

Dictionnaire bilingue français/ arabe

Un travail de contrôle a été réalisé par le laboratoire ICAR. Il a permis de dégager un ensemble de près de 900 entrées arabes erronées, dont 883 entrées non voyellées et 7 entrées partiellement voyellées. Les corrections nécessaires ont été effectuées.

Les mesures de couverture pour les textes français ont été effectuées sur les corpus du Monde diplomatique (journalistiques donc) et 4 textes de l’Unesco (scientifiques et culturels) :

Le Monde Diplomatique

Textes de l’Unesco

Comptages avec répétitions et sans ponctuation

Nombre de mots du texte :

Nombre de mots reconnus dans le texte

Nombre de lemmes

Nombres de traductions reconnues pour ces lemmes

Couverture du dictionnaire (Français Arabe)

Comptage sans répétition et sans ponctuation

Nombre de mots du texte (sans répétition)

Nombre de mots reconnus dans le texte

Nombre de lemmes

Nombre de traductions reconnues pour ces lemmes

Couverture du dictionnaire (Français Arabe)

93568 Mots

87596 Mots

101683

92235

90,70%

12618 Mots

10750 Mots

12780

11373

89,99 %

6646 Mots

6511 Mots

7627

6846

90 %

1955 Mots

1866 Mots

2265

2044

90,24 %

Dictionnaire des sports

L’équipe responsable du projet a effectué une étude du besoin terminologique dans le domaine des sports. Cette étude, couvrant l’ensemble des catégories d’utilisateurs, a conduit à une refonte partielle de l’existant et à une réévaluation des options. Tous les choix effectués se fondent sur les résultats de cette étude du besoin, qui a notamment fait ressortir clairement l’impact des corpus ouverts (Internet) et des outils d’exploration sur la conception des dictionnaires et la conduite de l’activité terminographique.

La base existante (anglais-français) a fait l’objet d’une révision et mise à niveau systématique avec les objectifs suivants :

Vérifications orthographiques
Contrôle de la formation des termes

Les principes de formation des unités terminologiques étant modifiés pour tenir compte des progrès techniques, l’ensemble des entrées de la nomenclature a fait l’objet d’une révision systématique.

Contrôle d’adéquation des équivalences

Les équivalences ont été systématiquement vérifiées et corrigées (7 044 corrections ou ajustements).

Vérification des sources

Dans un souci de rigueur scientifique (et de protection des droits) les sources et références exploitées pour chaque entrée du dictionnaire ont été systématiquement vérifiées (40 000 vérifications pour un total de 11 256 modifications).

Afin de fournir un premier dictionnaire pour les Jeux olympiques 2004, un dictionnaire français-anglais-grec a été mis en ligne en mode consultation.

Les résultats obtenus se présentent sous la forme de bases MS ACCESS. Il est prévu que ces bases soient mises en ligne par la société LCI-Maison du dictionnaire.

Les bases constituées sont les suivantes :

Base multilingue anglais – français – grec – arabe – allemand – espagnol – portugais

La base multilingue anglais - français est destinée à la consultation sur l’Internet. Elle comporte une nomenclature de 37 500 pour l’anglais, le français, le grec, et l’arabe, 28 000 pour l’espagnol, 22 000 pour l’allemand et 10 000 pour le portugais. Les contenus sont, pour chaque langue :

Informations obligatoires : terme, grammaire,
Informations obligatoires sauf si indisponibles (pas de sources) : référence/source,
Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
Informations facultatives : définition et source, note linguistique et source, combinatoire, autre forme, synonyme

Base bilingue anglais-français

La base bilingue anglais français comporte 63 161 entrées avec, pour chaque langue. Elle est téléchargeable sur demande – pour un traçage des éventuels collaborateurs. Elle comporte :

Informations obligatoires : terme, référence/source, grammaire
Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante

Les requêtes permettent la consultation sur :

terme français
terme anglais
sport (champ, domaine et spécificité ++)

Base trilingue anglais-français + autre langue

Les bases trilingue anglais - français + autre langue sont destinée au téléchargement libre. Elles comportent un nombre variable d’entrées complètes selon les langues avec, pour chaque langue :

Informations obligatoires : terme, référence/source, grammaire
Informations obligatoires et communes : champ (sport), domaine, circonscription additionnelle
Informations facultatives : définition et source OU note linguistique et source, combinatoire, autre forme, synonyme, variante

Les requêtes permettent la consultation sur :

terme français
terme anglais
terme autre langue
sport (champ, domaine et spécificité ++)

Corpus arabe

Le corpus comprend actuellement 55 paires de textes français arabe du Monde diplomatique.

Les opérations de téléchargement, reformatage, élagage, etc., ont été effectuées manuellement.
Les textes ont été ensuite édités sous différents formats (MS Word, XML, txt).
Les textes arabes ont été manuellement voyellés, lemmatisés, et étiquetés.

Le corpus arabe (étiqueté, voyellé et lemmatisé) contient les éléments suivants :

55 textes,
1 258 paragraphes,
943 phrases,
100 618 mots,
158 mots non reconnus,
535 880 caractères.

L’étiquetage manuel de ce corpus a été utilisé dans le cadre d’une étude critique des règles de succession les plus couramment mises en œuvre dans les étiqueteurs grammaticaux (bi et tri-grammes). Ce travail a donné lieu à une publication (voir plus bas).

Publications

Fathi Debili, Emna Souissi, « Y a-t-il une taille optimale des règles de succession intervenant dans l’étiquetage grammatical ? », Actes de la conférence TALN’2005, Dourdan, 6-10 Juin 2005.

Partenaires du projet

Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M), CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
CNRS – FRE 2546 “ Analyses de corpus linguistiques, usages et traitements ”
ELDA (Evaluations and Language resources Distribution Agency),
SCIPER Sarl
Université de Rennes II,
La maison du dictionnaire

Responsable du projet

Christian Fluhr
Laboratoire d’ingénierie de la connaissance multimédia multilingue (LIC2M)
CEA (Commissariat à l’Energie Atomique)/LIST/DTSI
Tél. 01 46 54 96 01 – e-mail christian.fluhr@cea.fr

Fathi Debili
CNRS
Tél. : 06 77 06 21 06 – e-mail fathi.debili@wanadoo.fr

Valérie Mapelli
ELDA, 55/57 rue Brillat-Savarin, Paris 75013,
Tél. 01 43 13 33 33 – Fax 01 43 13 33 30 – e-mail mapelli@elda.org

Dates du projet

Date de début : 1er septembre 2003

Date de fin : 1er septembre 2005