Aspects informatiques :
WinBrill-0.3 est un outil de marquage morpho-syntaxique associé au lemmatiseur Flemm. Il s'agit de l'étiqueteur d'Eric BRILL (UPenn) entraîné pour le français à l'INaLF et porté sur PC-Windows 95 par Gilles Souvay. Aucune modification n'est intervenue sur les fichiers d'origine, mis à part ce portage sous Windows.
Aspects linguistiques :
Le catégoriseur de BRILL est fondé sur les travaux des structuralistes américains, en particulier Bloomfield et Harris.
Dans la phase d'apprentissage, entièrement automatique, le système utilise une distribution « extensionnelle » observée par lui dans un petit corpus-échantillon manuellement codé, pour en déduire des hypothèses dites « naïves » qui seront ensuite projetées sur un plus grand corpus à étiqueter. Et ensuite, le système fait une analyse de la distribution des erreurs, pour mettre en lumière les transformations à effectuer pour réduire les erreurs d'étiquetage.
Le jeu d'étiquettes utilisé pour l'étiquetage contient 50 étiquettes de Parties du Discours, non compris les ponctuations.
Cet apprentissage a été suivi à l'INaLF par Josette Lecomte, sur un corpus-échantillon d'environ 450000 occurrences tiré de la base FRANTEXT (http ://www.inalf.cnrs.fr).
La commande d'étiquetage utilise en paramètres quatre des fichiers appris par le système.
La version WinBrill-0.3 est livrée avec ses paramètres pour le français, tels qu'ils ont été établis à l'INaLF (c'est-à-dire produits par le système puis revus manuellement par Josette Lecomte, au vu des erreurs d'étiquetage produites).
Il faut signaler que l'utilisation de cette version WinBrill-0.3 implique que le texte de l'utilisateur ait été mis aux normes de BRILL. En particulier, il faut que les ponctuations soient décollées, et dans l'idéal, qu'il y ait une phrase par ligne. Des pré-traitements sont en cours de mise au point concernant : décollement des ponctuations, traitement des mots composés, traitement des majuscules/minuscules (le catégoriseur est « case-sensitive »). Ils sont actuellement testés en interne, mais pas encore inclus dans WinBrill-0.3.
Les 4 fichiers paramètres livrés avec la version WinBrill-0.3 sont les suivants : un lexique, deux fichiers de règles (règles dites « lexicales » pour étiqueter les mots inconnus, et règles dites « contextuelles » pour affiner l'étiquetage), et une liste de « bigrammes ».
Le Lexique est un lexique « importé »(établi par J.Lecomte) contenant à ce jour environ 440 000 entrées (8817 Ko), le lexique appris par le système s'étant révélé trop pauvre pour être vraiment efficace (25839 entrées);
La liste de Bigrammes apprise par le système a une taille de 1942 Ko ;
Le fichier de Règles Lexicales est de 12 Ko ; celui de Règles Contextuelles est de 21 Ko. Ils ont été tous deux revus et augmentés manuellement.
La fourniture de ces fichiers est soumise à la signature d'une convention avec l'INaLF.
En addition , un post-traitement :
La version WinBrill-3.0 est livrée avec un lemmatiseur, intervenant dans la phase ultime du traitement et optionnel. Cet outil qui s'appelle Flemm a été développé par Fiammetta Namer (namer@clsh.univ-nancy2.fr). Ce produit est distribué avec une licence GNU |
|