Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Normes & Standard

Enjeux

Instances

Imprimer cet article

Correction orthographique

mardi 10 octobre 2006

Corriger les fautes d’orthographes avec un ordinateur est une id�e presque aussi ancienne que l’informatique elle-m�me puisque les premi�res techniques de correction ont fait l’objet de publications au d�but des ann�es 60. Corriger les fautes suppose d’abord de les d�tecter, la machine peut ensuite proposer des corrections.

La correction orthographique se limitant aux erreurs conduisant � des formes (« mots ») non attest�es dans la langue, d�tecter les fautes requiert seulement de v�rifier pour chaque forme d’un texte si elle est ou non pr�sente dans un dictionnaire (ou lexique) de r�f�rence. La qualit� d’un d�tecteur repose bien s�r sur la qualit� de son dictionnaire (notamment pour les noms propres, sigles, ...) mais aussi sur la qualit� de la segmentation, c’est-�-dire du d�coupage du texte en formes : il s’agit d’�viter de compter des fautes o� il n’y en a pas comme par exemple pour les chiffres (12, IX, iv), dates (12/03/05, XVe si�cle), sigles (SNCF ou S.N.C.F), mots compos�s, �lisions (quat’ vents, j’veux, ...), etc. Bien entendu le d�tecteur doit aussi �tre adapt� au format interne du texte (gras, soulign�, mise en forme des paragraphes, tableaux, ...), format qui est propre � chaque logiciel de traitement de texte.

Proposer des corrections est un t�che plus difficile. L’id�e qui sous-tend les principales techniques consiste � associer � la forme incorrecte, gr�ce � un algorithme tol�rant aux fautes, un ensemble de graphies (formes compatibles, correctes ou non) qui est ensuite filtr� gr�ce � des heuristiques plus ou moins discriminantes, pour ne retenir que quelques formes qui constituent les hypoth�ses de correction propos�es au r�dacteur.

Aucune technique n’est id�ale en ce domaine, et la combinaison de plusieurs techniques am�liore les r�sultats.

Ainsi certaines fautes qui �loignent peu la forme fautive de la forme correcte (ar�oport ou infractus par exemple) autorisent des techniques simples bas�es sur des combinaisons de lettres, tandis que d’autres requi�rent des algorithmes plus sophistiqu�s bas�s sur la phon�tique (ortografe, ocurance) ou sur la morphologie (bails, disez). Tout l’art en la mati�re est de ne pas utiliser un algorithme trop tol�rant (qui produirait trop d’hypoth�ses, trop �loign�es de la forme fautive) ni un algorithme trop discriminant (qui ignorerait la bonne correction).

Les progr�s techniques (puissance de calcul autorisant la d�tection � la vol�e, capacit� de stockage permettant de gros dictionnaires, y compris avec des noms propres) ainsi que les progr�s des algorithmes de d�ctection font des correcteurs actuels des outils pr�cieux pour les r�dacteurs, souvent trop press�s pour soigner la relecture.

Damien Genthial