Atelier de Génie Informatique et Linguistique - Trésor Informatisé de la Langue Technique
|
Fiche du 31 mars 2004
|
|
|
|
Résumé
|
Le projet TILT avait pour objectif de constituer un corpus du français technique utilisé dans les normes et
d'aligner ce corpus sur son équivalent anglais. TILT visait ainsi à étendre les travaux effectués par l'ATILF sur le français littéraire (base textuelle FRANTEXT,
dictionnaire informatisé TLFi) et à constituer ainsi une brique linguistique de base pour permettre à la fois
le développement futur d'applications à forte valeur ajoutée (services d'informations multilingues, nouveaux
modes d'accès à l'information normative adapté aux PME, aide à la traduction, etc.) et des recherches en
linguistique sur le français technique.
Le projet a été réalisé sur la base d'un ensemble de 1 000 normes fournies par l'AFNOR en français et en anglais représentant environ 35 000 pages de texte
utilisant un vocabulaire technique très précis et couvrant l'ensemble des technologies et pratiques de
l'industrie.
Le corpus a été balisé à 3 niveaux (structurel, morphosyntaxique et sémantique). La validation a été effectuée
indépendamment par des linguistes de l'ATILF et des spécialistes des normes de l'AFNOR.
L'intégration des logiciels et la constitution des corpus ont été faites grâce au soutien et à l'expérience
des équipes de Lingway, société spécialisée en linguistique.
|
Objectifs
|
Le projet TILT avait pour objectif de constituer un corpus du français technique utilisé dans les
normes et d'aligner ce corpus sur son équivalent anglais.
Un travail considérable a déjà été effectué sur le français littéraire mais il existe encore un manque très
important sur le français utilisé dans les entreprises à des fins techniques.
Le projet TILT visait à combler ce déficit et à offrir une ressource qui constituera la brique
linguistique de base nécessaire au développement d'applications linguistiques à forte valeur
ajoutée :
- Assistance à la traduction, grâce à l'exploitation des corpus alignés franco-anglais,
- Réalisation de services d'information de type recherche d'informations complexes, indexation, constitution
automatique de résumés, etc.
Le projet TILT visait également à mettre ce corpus technique à la disposition de la communauté
scientifique à des fins de recherche linguistique sur le français technique. Cette mise à disposition
est effectuée dans les conditions similaires à celles utilisées dans Frantext (visibilité d'un contexte limité
à 900 caractères) et garantissant la protection des droits d'auteurs et notamment de l'AFNOR. Il est à
noter que le développement de ce type de consultation autorisera un accès libre à un corpus technique
important du français, chose quasiment inexistante actuellement du fait des problèmes de droits d'auteurs et
de confidentialité habituellement attachés aux textes techniques.
De manière plus précise, l'objectif du projet TILT était de traiter un ensemble de
1 000 normes disponibles en français et en anglais
(soit environ 35 000 pages de texte) afin de constituer un corpus étiqueté et aligné sur le
français et l'anglais.
Chaque norme est un texte d'une trentaine de pages, fortement structuré et contenant des descriptions et un
vocabulaire techniques très précis. Les normes s'appliquent à une très large variété de domaines (tels que
Agro-alimentaire, Bâtiment et Travaux publics, Collectivités locales, Environnement, Mécanique, Qualité,
Santé, Services, etc.) couvrant l'ensemble des technologies en usage dans l'industrie. Les 1
000 normes utilisées dans le projet sont représentatives de tous ces domaines et choisies pour leur
disponibilité en français et en anglais ainsi qu'au format texte. Le choix de ce type de texte est donc
intéressant pour construire un corpus relativement large du français technique. Le corpus issu du projet sera
ensuite étendu en y incorporant d'autres normes (environ 30 000 normes françaises, européennes ou
ISO sont disponibles en français et en anglais) qui nécessiteront un travail préliminaire de saisie (documents
papier, ou PDF image) qui sort du cadre de ce projet.
|
Mise en œuvre et état de l'art
|
L'ingénierie des langues est devenue, au cours des dernières années, un des domaines-clés pour répondre aux
besoins de notre société en terme d'analyse et exploitation de gisements d'information, le plus souvent sous
forme textuelle, aujourd'hui disponibles (Pierrel, 2000)1. Une rapide analyse de l'évolution de la
linguistique au cours du dernier demi-siècle montre que sa confrontation avec l'informatique et les
mathématiques a permis à la linguistique de se définir de nouvelles approches.
Des besoins existent dans les domaines de la normalisation et de la certification où l'enjeu consiste à
assurer l'influence et la compétitivité du système français avec toutes les conséquences économiques dans le
contexte de la mondialisation.
AFNOR doit développer pour les besoins de tous les utilisateurs de normes, qu'ils soient fabricants,
exportateurs ou non, laboratoires, donneurs d'ordre, terminologues ou consommateurs, des produits
d'information multilingues à forte valeur ajoutée dont la réalisation ne peut être envisagée qu'après avoir
effectué un balisage suffisamment fin de toutes les normes existantes. De plus, AFNOR est confrontée au
problème de la traduction en français des normes européennes et internationales le plus souvent préparées en
anglais seulement.
Par ailleurs la communauté scientifique de recherche oriente de plus en plus ses travaux sur les domaines
techniques et est fortement demandeuse de corpus techniques pour asseoir ses recherches.
Sur le plan littéraire, il existe un ensemble très important avec la Base textuelle : FRANTEXT, développée à l'ATILF , dont le corpus actuel comporte 3350
textes qui à 80 % sont des textes littéraires en texte intégral.
Le second type de corpus étiqueté important sur notre langue correspond au « Trésor de la Langue Française »,
grand dictionnaire correspondant à : 270 000 définitions de mots, 430000 exemples d'usages, 350 millions de
caractères (hors marques de balisage).
Le Trésor de la langue française informatisé (Dendien, 1996) se présente à la fois comme une base
lexicologique et une base de connaissances dont l'accessibilité est immédiate via l'internet. Le TLFi se
distingue des autres dictionnaires électroniques existants, par la finesse de la structuration des données en
« objets » interrogeables selon divers critères, et par une interface simple et conviviale qui offre trois
niveaux de consultation via le logiciel STELLA.
Par ailleurs il existe plusieurs corpus de français technique mais leur disponibilité tant pour la recherche
que pour le développement industriel reste très limitée. Réalisés le plus souvent dans le cadre de projets
industriels, ces corpus demeurent fortement confidentiels.
C'est l'une des innovations majeures visée par le projet TILT que de pouvoir donner accès à un corpus
technique large, actuel et représentatif des technologies utilisées dans l'industrie.
Enfin il existe quelques corpus multilingues alignés, une des ressources disponibles sur le Web correspond au
projet SILFIDE, fruit d'une
coopération entre le CLIPS, le LORIA, l'INALF (devenu aujourd'hui l'ATILF), le LIMSI et le LPL, ce projet a
regroupé un certain nombre de textes multilingues alignés, de genre très divers : littérature, textes
techniques, transcription de dialogues, etc. A ce jour ce serveur regroupe : 13 textes en danois, 17 en
néerlandais, 33 en anglais, 17 en espagnol, 62 en français, 87 en italien, 8 en polonais, etc. On peut aussi
citer au niveau européen les ressources diffusées par ELRA
Produit d'une initiative de la Commission européenne, le groupe EAGLES (Expert Advisory Group on Language
Engineering Standards) a pour objectif de pousser le développement de spécifications fonctionnelles communes
pour la description et la représentation de données linguistiques, conciliant le besoin et les exigences
d'applications opérationnelles ayant de fortes chances d'émerger dans les années à venir.
En fait, s'il y a de nombreux développements sur de l'anglais ou sur du français littéraire ou de la langue
parlée, il n'existe pas actuellement de corpus technique français réellement significatif et accessible
publiquement, notamment à des fins de recherche, et encore moins d'un tel corpus aligné sur son équivalent
anglais. Le projet TILT permettra de développer un tel corpus à partir de textes d'une grande qualité
technique et d'une grande richesse et précision du vocabulaire. L'apport du corpus technique bilingue
français/anglais des normes constituera une avancée majeure dans le domaine technique et une brique
linguistique importante non seulement pour les partenaires mais pour le monde de la recherche.
|
Organisation
|
Le projet TILT sera organisé en 3 phases faisant l'objet de plusieurs lots :
- Une phase d'étude et de spécification afin d'affiner l'analyse des besoins, de spécifier le travail à
effectuer sur le corpus et en conséquence de spécifier les modifications à apporter aux logiciels et
ressources linguistiques et leur intégration
- Une phase d'implémentation afin d'intégrer les outils logiciels et linguistiques, d'effectuer le balisage
et de constituer le corpus
- Une phase de validation du corpus
Le projet comprendra également un lot 4 de gestion et de coordination sur toute la durée.
Ces différentes phases se sont déroulées comme prévu, à noter toutefois le gros travail préliminaire effectué
par les partenaires pour disposer tout d'abord des 1 000 normes XMLisées en français et en anglais.
Le processus suivant a dû être utilisé :
- AFNOR a produit un fichier XML de la norme en version française et un fichier PDF de la version
anglaise.
- Ces fichiers ont été transmis à ATILF et à Lingway (qui utilise le PDF uniquement en consultation).
- ATILF a converti en XML le fichier PDF anglais et l'a transmis à Lingway.
- ATILF a généré pour ses propres applications un XML « de recherche » de la version française.
Lingway, a transformé le fichier XML de la version anglaise produit par ATILF en un nouveau fichier dont
la structure est la réplique du fichier XML de la version française en provenance d'AFNOR. Les 2 fichiers XML
finaux ont alors pu être utilisés dans les applications de Lingway.
|
Retombées du projet
|
Les retombées du projet seront tout d'abord pour les partenaires :
- Pour l'AFNOR :
- Méthodologie de balisage pour pouvoir traiter tout le fonds normatif
- Aide à la traduction par l'introduction des données terminologiques et phraséologiques bilingues extraites
des normes dans l'outil de TAO acquis par l'AFNOR
- Possibilité de production automatique de résumés de normes
- Règles d'exclusion introduites au processus de production
- Intérêt pour le logiciel Lingway KM
- Pour l'ATILF :
- Progression dans l'exploitation de ressources textuelles
- Ouverture et maintenance d'une base Frantext-Afnor de corpus de langue technique issue des normes
AFNOR
- Enrichissement de la base morphosyntaxique MORPHALOU
- Définition de nouveaux outils
- Possibilité d'étude du lexique technique des normes dans le cadre du programme de veille lexicale
- Pour LINGWAY :
- Démonstration de la faisabilité technique des applications autour des normes: extraction
semi-automatique de terminologie bilingue, recherche sémantique mono et multilingue et production
automatique de résumés
- Amélioration de Lingway KM
- Pour la Communauté scientifique :
- Accès libre sur les sites Normalangue, AFNOR et ATILF à la présentation du projet et de ses résultats
- Accès libre sur les sites Normalangue et AFNOR
à l'ensemble de la terminologie bilingue extraite des 1000 normes traitées dans le cadre du projet : 12 000
paires bilingues classées par ordre alphabétique
- Accès libre sur le site de l'Atilf à l'ensemble du fonds normatif
traité dans le cadre du projet que ce soit pour des études purement linguistiques sur la structure du langage
technique support de rédaction des normes ou pour des études en Traitement Automatique du langage
technique.
|
Etat d'avancement
|
1. Résultats obtenus à ce jour
Le projet est maintenant terminé. Les résultats obtenus correspondent aux attentes et peuvent se résumer comme
suit :
- production d'un corpus XMLisé de la langue technique normalisée sur un échantillon de 1 000 normes en
français et en anglais et une méthodologie de balisage permettant d'envisager l'extension ultérieure du projet
à d'autres normes existantes et permettant d'ores et déjà aux chercheurs d'étudier un corpus technique de
référence.
- extraction semi-automatique de 12 000 termes bilingues français-anglais alignés permettant d'enrichir des
dictionnaires techniques avec 2 200 entrées du langage normalisé, et environ 4 000 phrases alignées permettant
également d'aider à la traduction (accès libre aux 12 000 termes bilingues).
- des outils d'interrogation du corpus normatif exploitant les divers balisages avec possibilité de
recherches bilingues dans des contextes monolingues : recherche du contexte d'un terme, de sa définition, du
nombre d'occurrences des termes, possibilité de rechercher les exceptions dans les normes, etc.
- des outils de productivité pour le processus de normalisation : production automatique des résumés de
normes.
Plus concrètement le projet a permis à LINGWAY et à l'ATILF de préparer des prototypes qui démontrent la
faisabilité de réponse aux besoins exprimés et qui leur permettent d'élargir leur offre au contexte normatif
sur la base des logiciels Lingway KM et Stella respectivement.
Ces prototypes peuvent être consultés aux adresses suivantes :
|
Publications liées au projet
|
Aucune à ce jour mais un article de fond sur les aspects techniques du projet en préparation.
|
Partenaires du projet
|
|
Association Française de Normalisation (AFNOR)
11, avenue Francis de Pressensé
93571 Saint Denis La Plaine Cedex
http://www.afnor.org
ATILF
UMR 7118 CNRS-Nancy 2
44, avenue de la Libération
BP 30687
54063 Nancy cedex
http://www.atilf.fr
LINGWAY
33-35 rue Ledru-Rollin
94200 Ivry sur Seine
http://www.lingway.com
|
|
|
|
Contact
|
|
Claude MERLE
Directrice AFNOR Information
AFNOR
11, avenue Francis de Pressensé
93571 Saint Denis La Plaine Cedex
mél : claude.merle@afnor.org
|
|
|
|
|