00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  NORMALANGUE - RNIL
mardi 18 novembre 2003


Ressources Normalisées en Ingénierie Linguistique

Fiche du 18 novembre 2003



Thème de l'action
Normes et standards
Début du projet
23 janvier 2003
Durée du projet
36 mois
 
Résumé
L'objectif principal du projet est de contribuer à définir des normes internationales dans le domaine de l'ingénierie linguistique au sein du nouveau comité TC37/SC4, ainsi qu'à les valider et à les diffuser. Il doit permettre en particulier à la communauté académique et industrielle impliquée dans la réalisation ou l'intégration de composants d'ingénierie linguistique de bénéficier de l'environnement nécessaire qui garantisse l'interopérabilité entre de tels composants. Plus précisément, il s'agit de mettre en place un véritable réseau national de coopération dans le domaine de la normalisation des ressources linguistiques, qui agisse à trois niveaux :
La participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques, sous la forme d'un groupe miroir français au TC37/SC4 qui regroupe équipes de recherche en traitement automatique des langues, grandes entreprises investissant dans les technologies concernées et sociétés de technologie développant des composants dans le domaine de l'ingénierie linguistique ;
La validation des propositions normatives par le développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l'industrie ainsi que la production de jeux de test ;
La diffusion d'informations vers la communauté nationale et plus largement francophone sur l'état d'avancement des travaux et les résultats obtenus au sein du TC37/SC4, par la production d'une lettre d'information électronique régulière et l'organisation de séminaires techniques ;

Objectifs
L'objectif principal du projet est de contribuer à définir des normes internationales dans le domaine de l'ingénierie linguistique au sein du nouveau comité TC37/SC4, ainsi qu'à les valider et à les diffuser. Il doit permettre en particulier à la communauté académique et industrielle impliquée dans la réalisation ou l'intégration de composants d'ingénierie linguistique de bénéficier de l'environnement nécessaire qui garantisse l'interopérabilité entre de tels composants. Plus précisément, il s'agit de mettre en place un véritable réseau national de coopération dans le domaine de la normalisation des ressources linguistiques, qui agisse à trois niveaux : La participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques, sous la forme d'un groupe miroir français au TC37/SC4 qui regroupe équipes de recherche en traitement automatique des langues, grandes entreprises investissant dans les technologies concernées et sociétés de technologie développant des composants dans le domaine de l'ingénierie linguistique ;
La validation des propositions normatives par le développement de librairies informatiques facilitant la mise aux normes des produits ou des composants logiciels issus de l'industrie ainsi que la production de jeux de test ;
La diffusion d'informations vers la communauté nationale et plus largement francophone sur l'état d'avancement des travaux et les résultats obtenus au sein du TC37/SC4, par la production d'une lettre d'information électronique régulière et l'organisation de séminaires techniques ;
Ces trois points font l'objet d'une description détaillée dans les sections suivantes.

Mise en œuvre et état de l'art
Normalisation des ressources linguistiques : rapide état des lieux

La présente proposition fait écho dans son analyse aux termes même de l'appel d'offre Technolangue dans son volet « Normes et standards » en ce qu'il identifie comme cruciale la normalisation effective des données manipulées en ingénierie linguistique. Aussi bien l'industrie spécialisée dans ce domaine (correction orthographique et grammaticale, traduction automatique, fournisseur d'outils d'extraction d'information, industrie de la localisation etc.) que les entreprises devant intégrer des étapes de traitement de la langue (pour la gestion de gros volumes documentaires par exemple) ou les chercheurs en linguistique ou en informatique linguistique doivent pouvoir disposer de ressources linguistiques directement exploitables ainsi que d'outils de traitement réutilisables, c'est-à-dire pour lesquels la quantité de ré-ingénierie nécessaire pour les intégrer dans des applications plus importantes ou connexes est faible, voire négligeable.

L'actualité dans le domaine de la normalisation des ressources linguistiques : mise en place du TC37/SC4

Dans la lignée des travaux effectués dans le domaine de la terminologie au sein de son comité technique 371, l'ISO a validé en août 2001 la création d'un nouveau sous-comité (TC37/SC4) entièrement dédié à la normalisation dans le domaine des ressources linguistiques. Ce comité, qui vise à couvrir le plus largement possible l'ensemble des besoins des industries identifiées ci-dessus, doit se mettre officiellement en place lors de sa réunion de lancement à la fin du mois de mai 2002. À partir de cette date, des groupes de travail se mettront progressivement en place au niveau international pour définir les futures normes du domaine, conformément au plan d'activité fourni en annexe à cette réponse2. Le secrétariat du TC37/SC4 est assuré par la Corée (Prof. Key-Sun Choi) et la présidence en a été confiée récemment à Laurent Romary.
La présente réponse à l'appel d'offre Technolangue vise donc à profiter de ces circonstances favorables pour mettre en place au niveau national une initiative d'accompagnement des travaux à venir au sein du TC37/SC4.

Méthodologie générale proposée

L'analyse menée dans la section précédente (qui reprend les éléments de discussion abordés lors des premières réunions de mise en place du TC37/SC4), ainsi que l'étude des initiatives existant dans le domaine de la standardisation des ressources linguistiques montrent qu'il n'est pas envisageable de normaliser de façon trop stricte des formats spécifiques de représentation. Bien sûr, XML apparaît comme le candidat idéal pour fournir une syntaxe de référence à tout format d'échange de données semi-structurées, et apporte avec lui un ensemble de mécanismes (liens et pointeurs, langage de transformation, schémas de contrôle des structures, etc.) qui correspond de très près aux besoins déjà identifiés dans le domaine des ressources linguistiques. Il n'est cependant pas possible d'imaginer qu'une DTD ou un schéma XML particulier, par exemple pour la représentation des annotations morpho-syntaxiques, pourra satisfaire l'ens