* Inventeurs : David Faure, Claire Nédellec, Céline Rouveirol
* Fonctionnalité : Asium apprend des cadres de sous-catégorisation de verbes (structures prédicatives) et des ontologies à partir de textes analysés syntaxiquement de telle sorte que les restrictions de sélection des cadres des verbes sont remplies par des concepts de l'ontologie au niveau de généralité approprié.
* Spécificité : L'approche d' Asium se distingue des autres approches en ce qu'elle
- apprend à la fois les cadres de verbe et l'ontologie
- ne nécessite pas de ressources sémantiques
- apprend à la fois les arguments et les ajouts du verbe
- utilise une méthode de classification non-supervisée, en largeur d'abord, est basée sur la recherche d'une double régularité syntaxique, utilise une distance originale mesurant la similarité des contextes syntaxiques.
- est interactive
- généralise les connaissances (contextes syntaxiques) présentes dans les textes.
* Utilisation : La méthode sur laquelle est basée Asium
- est adaptée au traitement de textes techniques (domaines restreints),
- s'applique à des corpus de moyenne à grande taille (> 1 Mo).
- nécessite une analyse syntaxique préalable
- nécessite la participation d'un utilisateur afin de valider l'apprentissage des nouveaux concepts
- est applicable à l'anglais et au français
- est très résistante au bruit du corpus d'apprentissage (erreurs dans le corpus ou dans l'analyse)
* Méthode : La méthode utilisée est une méthode originale de classification ("clustering") non supervisée, ascendante et "en largeur d'abord".
* Interface : L'interface graphique d'Asium permet à l'utilisateur de visualiser, de valider et de raffiner les connaissances apprise à chaque étape de l'apprentissage, et en particulier de partitionner les classes apprises, de les nommer, de visualiser l'ontologie et les verbes qui s'y rattachent, et de visualiser l'ensemble des exemples générés et les exemples "nouvellement couverts" (voir les références pour plus de détail).
* Plate-forme logicielle : Asium admet trois formats possibles en entrée : script SQL (en provenance d'une base de donnée relationnelle), logique des prédicats (clauses de Horn) ou format propriétaire. Les sorties sont soit des scripts SQL (à destination d'une base de donnée relationnelle), en logique des prédicats (clauses de Horn), en format propriétaire, ou en format GML (à destination d'un « grapheur »).
Les composants permettant d'utiliser Asium avec l'analyseur syntaxique SYLEX (FircoSoft), le SGBD MSQL (Hughes Technologies Pty Ltd), le « grapheur » Graphlet (Del Paso University) et le composant SEMA (LRI) sont disponibles. Le module SEMA permet d'utiliser les connaissances apprises par Asium de trois manières : désambiguïsation de l'analyse syntaxique, étiquetage sémantique et contrôle de la langue. |
|