Retour au format normal

Lemmatisation

10 octobre 2006

Technolangue.net

 

La lemmatisation ou étiquetage morphologique consiste à assigner à chaque mot d’un texte son lemme, éventuellement associé à des informations flexionnelles. Un lemme est une forme lexicale existante choisie par convention au sein d’un paradigme flexionnel. Ainsi pour le Français, le lemme d’un nom correspond à la forme au singulier, celui d’un adjectif à la forme masculin singulier et celui d’un verbe à l’infinitif. La lemmatisation s’effectue en examinant le mot seul, ou à partir du mot accompagné de sa catégorie grammaticale. Un programme utilisant le mot et son étiquette peut être vu comme un sous-produit immédiat de l’étiquetage morphosyntaxique (cf. fiche sur cette technologie) puisqu’un lemme correspond à une forme fléchie unique dès que sa catégorie grammaticale est connue, sauf pour un nombre fini d’exceptions. Un exemple d’exception est la forme fléchie fils qui peut correspondre à deux lemmes différents, fil et fils. Il existe deux types principaux de lemmatiseurs : ceux utilisant une base de données lexicales et ceux utilisant un analyseur morphologique. Un exemple de base lexicale est celle élaborée au sein du projet MULTEXT (Amstrong 1996) pour quatre langues de la communauté européenne : Français, Italien, Espagnol et Anglais, qui épouse les recommandations de EAGLES pour les dictionnaires électroniques. Les programmes de lemmatisation effectuant une analyse morphologique s’appuient sur des règles morphologiques pour générer le lemme du mot et calculer ses informations flexionnelles. Ils n’utilisent qu’un dictionnaire réduit ne comportant que les exceptions à ces règles. Un exemple de lemmatiseur à base de règles pour le Français s’appuyant sur un texte déjà étiqueté grammaticalement est FLEMM (Namer, 2000). Les analyseurs à base de règles ont l’avantage de pouvoir traiter les néologismes à comportement flexionnel régulier mais ils sont aussi susceptibles de commettre des erreurs. Le taux d’erreur est néanmoins minime : moins de 2 % si le mot a été correctement étiqueté grammaticalement.

Références

-  Susan Armstrong. MULTEXT : Multilingual Text Tools and Corpora, Lexikon und Text, Tübingen : Niemeyer, H. Feldweg and W. Hinrichs eds., pages 107-119, 1996.

-  Fiammetta Namer. FLEMM : Un analyseur flexionnel du Français à base de règles, TAL, 41(2):523-548, 2000.

Voir aussi

-  MULTEXT
-  Flemm

Béatrice Daille et Pascale Sébillot