Un système de traduction automatique par ordinateur (TAO) permet de traduire un document original en langue
source en un document traduite en langue cible.
On distingue plusieurs types de TAO :
- La TAO du veilleur permet de traduire automatiquement et rapidement de grands volume de documents, la
traduction est grossière, mais la qualité n’est pas essentielle car il s’agit de faire de l’acquisition
d’informations. Les systèmes disponibles gratuitement sur le web sont de ce type.
- La TAO du réviseur permet de produire des traductions dont la qualité est suffisante pour que
l’utilisateur puisse post-éditer (réviser) le texe cible afin d’obtenir une traduction diffusable. Ce sont des
systèmes "sur mesure" pour des utilisateurs et des typologies de documents donnés. Lorsque le domaine et le type des documents à traduire, la révision peut même être l’exception. C’est le cas, par exemple, pour le système
METEO qui traduit des bulletins météorologiques au Canada.
- La TAO du traducteur offre, à des traducteurs humains, un ensemble d’outils (dictionnaires bilingues,
bases terminologiques, thesaurus de bitextes), accessibles depuis un traitement de texte, afin de les assister dans leurs tâches quotidiennes. Il s’agit ici de traduction humaine assistée par la machine.
Les différents traitement linguistiques mis en œuvre dans un système de TAO permettent de définir
l’architecture linguicielle du système. Pour simplifier, on distingue en général trois étapes de traitement :
l’analyse, le transfert et la génération. Ces étapes utilisent des grammaires de transformation (chaîne vers
arbre, arbre vers arbre, arbre vers chaîne) et des dictionnaires monolingues ou bilingues.
- L’analyse calcule une structure intermédiaire plus ou moins profonde (plus ou moins abstraite, sémantique)
des énoncés en langue source.
- Le transfert calcule une structure intermédiaire équivalente à un niveau d’abstraction proche de celui qui
a été calculé en langue cible. Il s’agit, par exemple, de remplacer les mots de la langue source par les mots
de la langue cible et de réorganiser la structure.
- La génération calcule un texte en langue cible à partir de la représentation intermédiaire en langue
cible.
Si l’étape d’analyse permet d’obtenir une représentation sémantique abstraite de l’énoncé à traduire, il n’y a
pas d’étape de transfert, mais directement une étape de génération. On parle dans ce cas de tradcution par
pivot. Inversement, si l’étape d’analyse est très réduite (recherche des formes du dictionnaire des mots du
texte), l’étape de transfert fait tout le travail, et il n’y a pas de génération. On parle alors de traduction
directe (ou de système de première génération). Dans les autres cas on parle de traduction par transfert (ou
de système de seconde génération).
Il existe aussi des systèmes de traduction qui utilisent des approches fondées sur les données : les systèmes
à mémoire de traduction et les systèmes statistiques.
Le cœur d’un système à mémoire de traduction est une base de données dans laquelle chaque segment déjà traduit
est représenté par sa représentation en langue source et sa représentation en langue cible. La représentation
peut être plus ou moins complexe allant d’une simple chaîne de caractères à une représentation utilisant
plusieurs niveaux de représentation linguistique. Traduire un nouveau segment S signifie chercher une
combinaison de segments, ou sous-segments, de la base de données qui se rapproche le plus de S. Les
traductions des segments ou sous-segments choisis sont combinées pour produire une traduction de S en langue
cible.
Avec un système de traduction statistique, on considère la traduction comme un problème de décodage. Le modèle
de base utilise deux sources de connaissances statistiques définies par des distributions de probabilités calculables séparément :
- un modèle de traduction Pr(s|c) qui nécessite de définir une correspondance entre les mots de la phrase
cible c et les mots de la phrase source s.
- un modèle de langage de la langue cible Pr(c) qui définit la bonne formation d’une suite de mots en langue
cible c.
L’étape de traduction proprement dite est une étape de décodage (de recherche) qui cherche à maximiser le
produit Pr(c).Pr(s|c) pour l’ensemble des phrases cibles c connaissant la phrase source s.
Hervé Blanchon
|