Le système PILAF (Procédures Interactives Linguistiques Appliquées au Français) est un système d'analyse et de génération morphologique du français. Il s'appuie sur le formalisme des grammaires à validations et saturations (Courtin 77) qui permet une formulation concise et précise d'automates à états finis.
Une des originalités de PILAF est sa capacité à analyser ou engendrer en utilisant les mêmes données linguistiques. Le système est constitué d'une base de connaissances (grammaire et dictionnaire) et de deux moteurs : un moteur d'analyse et un moteur de génération. Les deux moteurs s'appuient sur un mise en oeuvre d'un transducteur général d'états finis, bien décrit dans (Courtin 94). Une autre originalité est la possibilité pour l'utilisateur de modifier à tout moment les données linguistiques grâce à des éditeurs interactifs, sans passer par une longue phase de compilation des données. Cette particularité rend le système très commode pour le test de descriptions linguistiques. Enfin, la disponibilité d'un générateur a été utilisée pour produire le lemme à partir du résultat de l'analyse morphologique (l'analyseur peut donc aussi produire le lemme).
Les données linguistiques actuelles sont réparties en :
- 40 catégories lexicales ;
- 25 valeurs de variables (singulier, pluriel, masculin, féminin, imparfait, présent, futur...)
- 430 modèles morphologiques (les modèles factorisent des comportements morphologiques et chaque entrée du dictionnaire est rattachée à un modèle) ;
- 141 règles morphologiques (elles décrivent les compositions possibles entre les éléments du dictionnaire) et calculent les propriétés associées (catégories, variables) ;
- un dictionnaire d'environ 37000 entrées réparties en racines (35000) et terminaisons (2000).
Ces données permettent aux moteurs de reconnaître et d'engendrer environ 250000 formes du français.
PILAF est avant tout un prototype de recherche, il est disponible en deux versions, inégalement achevées :
- une version assez complète (éditeurs et moteurs), fonctionnant sur Macintosh et disponible sous forme d'une application et d'un ensemble de fichiers de données ;
- une version moins complète (moteurs et éditeur de dictionnaire), fonctionnant sur Macintosh, PC (Windows ou Linux), et machines Unix. Cette version est disponible sous la forme d'une librairie et de fichiers de données. Le format de la librairie dépend bien évidemment du système de développement utilisé et de la machine. Cette version peut donc être intégrée facilement à d'autres applications. Le code source (en langage C) d'un exemple d'intégration est fourni. |
|