Analyseur syntaxique LFG
Conformément au principe des grammaires lexicales fonctionnelles, l'analyse d'une phrase se décompose en la construction d'une structure en constituants (c-structure) sur laquelle vient se greffer une structure fonctionnelle (f-structure).
La construction des c-structures est fondée sur l'utilisation d'une table de sous-chaînes bien formées (chart parser). Celle des structures fonctionnelles se fait de façon incrémentale : un moteur d'unification a été développé à cet effet. Chaque constituant possède sa propre structure de traits. La structure de données utilisée bénéficie des avantages de la structuration orientée objet : étant réifiés, les différents composants du système (règles, structures fonctionnelles, éléments lexicaux, analyses...) peuvent faire l'objet de spécifications et de développements autonomes, être facilement spécialisés ou étendus ; leur gestion (cycle de vie ou interface) est facilitée, ainsi que leur utilisation par différents processus.
Des interfaces spécialisées intégrées ont été développées, conformément à certains objectifs ergonomiques, pour interagir avec les différents objets de l'analyseur (gestion des règles, du lexique sémantique -avec suivi des versions- visualisation des c- et f-structures et de la table de sous-chaînes bien formées, déroulement de l'analyse, causes d'échecs...).
Sur cette base, une grammaire LFG du français a été développée. Environ 200 règles lui permettent de couvrir la plupart des tournures classiques rencontrées dans les corpus de test actuels (issus du projet européen TSNLP). Les phénomènes réputés difficiles qui y sont traités sont essentiellement :
les clitiques
les déterminants complexes
les complétives diverses
les diverses formes de questions
les dépendances non bornées et extraction
les coordinations
les comparatifs
les subordonnées circonstancielles (non exhaustif)
les ellipses (partiel)
Les extensions en cours portent sur :
la négation
les subordonnées circonstancielles
les ellipses
ainsi que sur des tests en vraie grandeur (corpus du Monde, par exemple). Une fois pleinement testée, cette grammaire, ainsi que l'analyseur LFG qui l'accompagne, sera mise en accès libre sur Internet, à la disposition de la communauté.
Le logiciel est écrit en Smalltalk |
|