Corriger les fautes d’orthographes avec un ordinateur est une idée presque aussi ancienne que l’informatique
elle-même puisque les premières techniques de correction ont fait l’objet de publications au début des années 60. Corriger les fautes suppose d’abord de les détecter, la machine peut ensuite proposer des corrections.
La correction orthographique se limitant aux erreurs conduisant à des formes (« mots ») non attestées dans la
langue, détecter les fautes requiert seulement de vérifier pour chaque forme d’un texte si elle est ou non
présente dans un dictionnaire (ou lexique) de référence. La qualité d’un détecteur repose bien sûr sur la
qualité de son dictionnaire (notamment pour les noms propres, sigles, ...) mais aussi sur la qualité de la
segmentation, c’est-à-dire du découpage du texte en formes : il s’agit d’éviter de compter des fautes où il
n’y en a pas comme par exemple pour les chiffres (12, IX, iv), dates (12/03/05, XVe siècle), sigles (SNCF ou
S.N.C.F), mots composés, élisions (quat’ vents, j’veux, ...), etc. Bien entendu le détecteur doit aussi être
adapté au format interne du texte (gras, souligné, mise en forme des paragraphes, tableaux, ...), format qui
est propre à chaque logiciel de traitement de texte.
Proposer des corrections est un tâche plus difficile. L’idée qui sous-tend les principales techniques consiste
à associer à la forme incorrecte, grâce à un algorithme tolérant aux fautes, un ensemble de graphies (formes
compatibles, correctes ou non) qui est ensuite filtré grâce à des heuristiques plus ou moins discriminantes,
pour ne retenir que quelques formes qui constituent les hypothèses de correction proposées au rédacteur.
Aucune technique n’est idéale en ce domaine, et la combinaison de plusieurs techniques améliore les résultats.
Ainsi certaines fautes qui éloignent peu la forme fautive de la forme correcte (aréoport ou infractus par
exemple) autorisent des techniques simples basées sur des combinaisons de lettres, tandis que d’autres
requièrent des algorithmes plus sophistiqués basés sur la phonétique (ortografe, ocurance) ou sur la
morphologie (bails, disez). Tout l’art en la matière est de ne pas utiliser un algorithme trop tolérant (qui
produirait trop d’hypothèses, trop éloignées de la forme fautive) ni un algorithme trop discriminant (qui
ignorerait la bonne correction).
Les progrès techniques (puissance de calcul autorisant la détection à la volée, capacité de stockage
permettant de gros dictionnaires, y compris avec des noms propres) ainsi que les progrès des algorithmes de
déctection font des correcteurs actuels des outils précieux pour les rédacteurs, souvent trop pressés pour
soigner la relecture.
Damien Genthial
|