Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Normes & Standard

Enjeux

Instances

Imprimer cet article

D�sambigu�sation

mardi 10 octobre 2006

On appelle d�sambigu�sation lexicale l’op�ration qui consiste � d�terminer le sens d’un mot en contexte. Par exemple, le mot barrage peut r�f�rer � un barrage hydraulique, un barrage de police, un barrage de guitare, etc. La d�sambigu�sation lexicale est un composant n�cessaire � de nombreuses applications du traitement automatique des langues.

La plupart des mots d’une langue ont de multiples sens, qui r�sultent d’une �volution historique complexe, comme c’est le cas pour le mot barrage ci-dessus. Parfois, les formes sont m�me homographes, c’est-�-dire que leur parent� graphique r�sulte d’un pur accident hors de toute parent� �tymologique (comme pour le mot avocat, fruit ou auxiliaire de justice).

La discrimination du sens des mots est une composante utile, voire indispensable, par exemple pour :

la traduction automatique : le mot grille sera traduit en anglais par des mots totalement diff�rents (railings, gate, bar, grid, scale, schedule, etc.) selon son sens ;
la recherche d’informations : lors d’une recherche sur les recettes � base d’avocat, il serait int�ressant de ne pas ramener les documents parlant de justice ;
la synth�se de la parole : le mot fils doit �tre phon�tis� diff�remment dans les fils du Ciel et les fils de fer ;
etc.

L’automatisation de la t�che de d�sambigu�sation lexicale est un probl�me reconnu comme extr�mement difficile d�s les d�buts du traitement automatique des langues.

Les syst�mes de d�sambigu�sation lexicale doivent mettre en relation les occurrences de mots en contexte avec les entr�es d’un dictionnaire informatis� ou d’une base de donn�es lexicale. Les informations qui peuvent �tre exploit�es proviennent principalement des mots voisins du mot � d�sambigu�ser (mot-cible). Ainsi, la pr�sence des mots tels que eau, lac, turbine est un indice fort pour le choix du sens barrage hydraulique, tandis que celle de mots tels que poids lourds, camionneurs, etc. est un indice pour le choix de barrage routier. D’autres indices peuvent �galement �tre exploit�s, comme le domaine g�n�ral du texte dans lequel se situe le mot-cible.

Les difficult�s de la d�sambigu�sation lexicale sont au moins de deux ordres :

La liste des sens du dictionnaire qui sert de r�f�rence. En effet, les dictionnaires traditionnels sont plut�t destin�s � la consultation par des humains qu’� une utilisation par des machines. Les subdivisions se sens n’y ont donc pas n�cessairement le caract�re syst�matique qui serait n�cessaire pour une utilisation algorithmique.
Les connaissances qui permettent d’associer les mots du contexte avec le sens ad�quat. A l’heure actuelle il n’existe pas de base de connaissances d�taill�e des relations du type eau - barrage hydraulique, etc. La constitution manuelle de telles bases serait d’ailleurs une entreprise gigantesque et sans doute hors de port�e pour des d�cennies.

Malgr� de nombreux essais depuis les ann�es 1950, ce n’est que tr�s r�cemment que des progr�s significatifs ont pu �tre enregistr�s, gr�ce � l’�mergence de m�thodes probabilistes qui permettent de pallier le manque de connaissances explicites par un apprentissage de nature statistique des coocurrences sur de tr�s grands corpus de textes. L’inad�quation des dictionnaires reste cependant un �cueil qui ne semble pas avoir de solution imm�diate.

Bibliographie

Ide, N., & V�ronis, J. (1998). Introduction to the special issue on word sense disambiguation : the state of the art. Computational Linguistics, 24(1), 1-40. [PDF]

Jean V�ronis