00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Qu’est-ce que le traitement automatique des langues ?
jeudi 29 juin 2006


Entretien avec Marcel Cori, professeur de TAL (traitement automatique des langues) à l’Université Paris X et chercheur au Laboratoire Modèles, Dynamiques et Corpus.

Le Traitements Automatique des Langues (TAL) est une discipline qui associe étroitement linguistes et informaticiens. Il repose sur la linguistique, les formalismes (représentation de l’information et des connaissances dans des formats interprétables par des machines) et l’informatique.

Le TAL a pour objectif de développer des logiciels ou des programmes informatiques capables de traiter de façon automatique des données linguistiques.

Pour traiter automatiquement ces données, il faut d’abord expliciter les règles de la langue puis les représenter dans des formalismes opératoires et calculables et enfin les implémenter à l’aide de programmes informatiques.

Les principaux domaines du TAL sont :
• le traitement de la parole ;
• la traduction automatique ;
• la compréhension automatique des textes ;
• la génération automatique de textes ;
• la gestion électronique de l’information et des documents existants (GEIDE).


-  Comment définir le Traitement Automatique des Langues (TAL) ?

Le TAL est l’ensemble des méthodes et des programmes qui permettent un traitement par l’ordinateur des données langagières, mais quand ce traitement tient compte des spécificités du langage humain. Il y a des traitements de données langagières (écritures sur fichiers, sauvegardes ou autres) qui ne font pas partie du traitement automatique des langues.



-  Quels sont les acteurs du TAL ?

Je séparerais les acteurs en deux catégories bien distinctes. D’un côté, les chercheurs qui réfléchissent aux méthodes, et de l’autre côté, les industriels qui réalisent les produits.



-  Pour quel public ?

Si on a deux sortes d’acteurs, il y a deux sortes de publics différents. Les chercheurs s’adressent à leur propre communauté de chercheurs, à leurs étudiants et ils s’adressent aussi d’une certaine façon aux industriels. Quant aux industriels, ils visent des publics de consommateurs, qui sont soit directement le consommateur individuel, soit d’autres entreprises qui vont se servir des technologies mises en œuvre par les industriels du TAL.



-  Comment le dialogue s’opère-t-il entre les linguistes et les informaticiens ?

Je ne sais pas si, dans le domaine de la recherche, on peut séparer deux catégories bien nettes entre linguistes et informaticiens, parce qu’il n’y a pas dans ce domaine des purs linguistes et des purs informaticiens. Il y a des gens qui ont une formation initiale plutôt en informatique et qui se sont formés à la linguistique. Par ailleurs il y a d’autres personnes, dont la formation initiale est plutôt en linguistique ou en langues, qui se sont formés à l’informatique.

Je pense qu’il se produit un amalgame, que gênent un peu les structures universitaires dans le domaine de la recherche (on est obligé de se rattacher soit aux Sciences, soit aux Lettres et Sciences Humaines). En fait, il n’y a pas deux communautés vraiment distinctes chez les chercheurs. Dans les entreprises, que je connais moins, je pense qu’il y a une division du travail qui est peut-être plus stricte, mais il y a plus d’informaticiens que de linguistes. Et les linguistes ont du mal à trouver des emplois dans les entreprises.



-  Y a-t-il un domaine qui prédomine sur l’autre ?

Je ne pense pas dans le domaine de la recherche. Dans les entreprises, dans la mesure où il s’agit de réaliser des produits qui tournent, les informaticiens ont un rôle prépondérant.



-  Quelles sont les techniques mises en œuvre ?

Les techniques sont de deux sortes : D’un côté les techniques linguistiques ou à base de linguistique. Elles sont plutôt le fait des chercheurs et elles consistent à avoir une représentation, une modélisation des langues et des données langagières. Les techniques linguistiques permettent de développer d’ailleurs une recherche linguistique pure de modélisation des données langagières. C’est une recherche en linguistique et une recherche en informatique, puisqu’il s’agit de définir des modèles et des algorithmes sur ces modèles de données langag