L'outil d'aide à l'étiquetage du système MAUD permet de résoudre syntaxiquement un texte. La résolution consiste à affecter à chaque mot d'un corpus sa classe syntaxique contextuelle. Cet outil utilise des méthodes statistiques pour résoudre syntaxiquement le texte. L'étiquetage se fait à l'aide des statistiques calculées à partir d'un corpus de 0,5 Mo étiqueté automatiquement et corrigé manuellement. A cet outil est associé un programme permettant de générer des matrices de précédence d'ordre 2 et 3 (bi-classes et tri-classes) qui peuvent être réinjectées dans l'outil afin d'affiner les statistiques de l'étiqueteur.
Le texte en entrée doit respecter le format BDLEX, mais cela ne représente pas une difficulté car un programme indépendant permet de faire le transcodage nécessaire. L'outil d'étiquetage utilise les dictionnaires de BDLEX (230 000 entrées lexicales), les entrées sont réparties dans 230 classes syntactico-sémantiques. Chaque mot peut appartenir à au plus 4 classes. Les classes ont été construites à partir des 8 classes élémentaires du français [Samïli 96]. Il utilise également une matrice de précédence d'ordre 2 et une d'ordre 3. Le résultat de l'étiqueteur est un fichier d'étiquettes syntaxiques. |
|