10 octobre 2006
Technolangue.net
Objet
Effectuer l’étiquetage morphosyntaxique d’un texte (Part-of-Speech tagging ou POS tagging en anglais), consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte et de connaissances lexicales (la base MORPHALOU de l’ATILF est un bon exemple de ressource lexicale très complète).
Voici un exemple de texte étiqueté avec le jeu d’étiquettes utilisé dans la campagne d’évaluation des
analyseurs morphosyntaxiques du français GRACE :
Mot | Étiquette morphosyntaxique |
Signification |
Nous | Pp1mpn- | pronom personnel 1-ère personne masculin pluriel nominatif |
avons | Vaip1p- | verbe auxiliaire indicatif présent 1-ère personne pluriel |
tout | Pi-ms— | pronom indéfini masculin singulier |
rétréci | Vmps-sm | verbe principal participe passé singulier masculin |
de | Sp | préposition |
nos | Ds1mpp- | déterminant possessif 1-ère personne masculin pluriel (possesseur) pluriel (possédé) |
jours | Ncmp | nom commun masculin pluriel |
. | F | ponctuation |
Idéalement, un jeu d’étiquette doit permettre :
L’étiquetage morphosyntaxique peut être vue comme la composition de 3 fonctions :
Méthodes
Les méthodes à base de règles sans apprentissage ont été les premières employées pour construire des étiqueteurs. Dans ces systèmes, les règles de cooccurrences des mots et des étiquettes, qui définissent l’appartenance d’une occurrence à une classe de mots, sont fournies par un linguiste. Puis très vite ces méthodes ont été supplantées par des méthodes à base d’apprentissage à partir d’un corpus annoté à la main, essentiellement pour des raison de coût de développement. Certaines méthodes à apprentissage se contentent même d’un corpus dépourvu d’annotations morphosyntaxiques. Parmi les méthodes à apprentissage, on distingue les méthodes à base de règles et les méthodes probabilistes, qui constituent les deux grandes classes de systèmes, des autres méthodes au caractère plus anecdotique, comme par exemple, les méthodes à base de neurones artificiels, de combinaison de systèmes ou encore d’algorithmes génétiques. Il existe actuellement un large éventail de logiciels libres ou commerciaux d’étiquetage morphosyntaxique, ceci pour les langues les plus fréquemment rencontrées. Les systèmes multilingues, offrant une qualité d’étiquetage comparable avec un même formalisme pour plusieurs langues sont en revanche très rares.
Performances
L’étiquetage morphosyntaxique a la réputation d’être la tâche d’analyse linguistique automatique la plus facile à réaliser, puisque le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage, avec l’avantage que les systèmes offrent une vitesse d’annotation sans commune mesure avec celle d’un humain, qui ne peut annoter au mieux que quelques milliers de mots à l’heure. Ceci est du au fait que la plupart des phénomènes linguistiques complexes, qui sont hors de portée de la technologie d’analyse du langage actuelle, ont des fréquences d’apparition relativement rares par rapport à celles des phénomènes de base. Le niveau de performance, en apparence élevé, souvent affiché par les étiqueteurs morphosyntaxiques et en fait un peu trompeur, car il est du, pour une bonne part, au nombre prépondérant de mots non ambigus présents dans la langue naturelle. Par exemple, si l’on regarde les résultats d’un des systèmes ayant eu de très bonnes performances dans la campagne d’évaluation GRACE, en s’intéressant au taux d’erreur par étiquette plutôt qu’au taux d’erreur global, on s’aperçoit que le taux d’erreur n’est que de 0.03 % (4 erreurs sur 13246 occurrences) pour les ponctuations, tandis qu’il monte à 7 % (1449 erreurs sur 20491 occurrences) pour la catégorie des noms. Avec une stratégie d’étiquetage très simple, il est facile de prédire correctement l’étiquette morphosyntaxique de 90 % des mots d’un texte. Notez cependant, que pour des phrases de 15 mots en moyenne, un taux d’étiquetage correct 96 % au niveau des mots, ne se traduira paradoxalement que par un taux d’étiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d’étiquetage).
Utilisation
L’étiquetage morphosyntaxique est utilisé avec succès dans des tâches de traitement du langage comme :
Le bon niveau de performance atteint par la technologie et le grand nombre de systèmes de qualité disponibles, aussi bien en tant que logiciel libre que comme logiciel commercial, font de l’étiquetage morphosyntaxique une des technologies de traitement du langage naturel la plus facilement utilisable dans un système de traitement de l’information.
Bibliographie
Voici trois points d’entrée dans la littérature sur les étiqueteurs morphosyntaxiques :
Patrick Paroubek, « Chapitre 4 Analyse Morpho-syntaxique et syntaxique », dans l’ouvrage « L’évaluation des
systèmes de traitement de l’information », sous la direction de Stéphane Chaudiron, Collection « Information
Commande Communication », aux Editions Hermes-Sciences, Lavoisier, ISBN 2-7462-0862-8, juin 2004, pp 101-125.
Patrick Paroubek, Martin Rajman, « Chapitre 5 : Etiquettage morphosyntaxique » (www.limsi.fr/Individu/pap/il.hermes.book.html),
dans « Ingenierie des Langues », sous la direction de Jean-Marie Pierrel, Collection « Information Commande
Communication », aux Editions Hermes Science ISBN 2-7462-0113-5, october 2000 pp 131-148.
H. van Halteren (éditeur), Syntactic Wordclass Tagging, Kluwer Academic Publishers, 1999.
Régulièrement des articles sur des aspects spécifiques du problème de l’étiquetage morphosyntaxique sont publiés dans les conférences sur le traitement automatique des langues comme TALN, LREC, EACL, ACL, COLING, etc.
Patrick Paroubek