Typologie : Extraction terminologique Catégorie : Application Langues : anglais
malgache
Organisme : IRIN Description : ACABIT est une maquette d'aide à la construction semi-automatique de banques terminologiques qui, permet, d'une part de faciliter la tâche des experts en leurs proposant des candidats potentiels, et d'autre part, d'imposer un format morpho-syntaxique aux termes (et aux experts), de manière à obtenir une liste uniforme et cohérente des termes de base du domaine. Un terme de base est défini comme un terme composé de deux unités lexicales n'appartenant pas à la classe des mots fonctionnels.
La méthode élaborée et implémentée s'appuie conjointement sur des données linguistiques et sur des modèles statistiques. Une première sélection de candidats potentiels est extraite automatiquement d'un corpus étiqueté et lemmatisé, en utilisant les spécifications linguistiques exprimées en termes de structures morpho-syntaxiques C'est ensuite sur ces candidats potentiels qu'est appliqué un modèle statistique : le coefficient de vraisemblance. La tâche de ce dernier est de trier et de fournir une liste ordonnée de termes de base candidats, c'est-à-dire du plus au moins représentatif du domaine.
ACABIT traite des corpus en français de plusieurs centaines de milliers de mots en quelques minutes.
1. INTRODUCTION
ACABIT est un « logiciel » de dépouillement terminologique, chargé de préparer la tache du terminologue en lui proposant une liste ordonnée de « candidats-termes », c'est-à-dire des termes nominaux complexes les plus représentatifs du domaine à ceux qui le sont le moins. Il utilise des méthodes statistiques qui sont tout à fait adaptées à ce genre de tache puisque leurs analyses de corpus de grande taille fournissent des résultats inaccessibles à un observateur humain ou à un analyseur syntaxique et permettent de recueillir des informations générales. ACABIT guide ces modèles statistiques sur les cooccurrences à extraire, les termes, et évite le plus possible la pris en compte des autres types de cooccurrences. ACABIT procède en deux étapes : d'abord, il filtre les séquences morpho-syntaxiques qui caractérisent les « termes de base » grâce à des grammaires locales exprimées en terme d'expressions régulières, puis il utilise un modèle statistique pour distinguer lesquelles parmi ces cooccurrences sont le plus probablement des termes.
2. DONNEES LINGUISTIQUES
Les termes sont majoritairement des unités lexicales complexes de type nominal.
2.1 Les termes de base et leur variations
A partir d'une étude linguistique effectuée sur une banque terminologique, il apparaît que les termes binaires où seules sont prises en compte les unités lexicales non fonctionnelles telles que les noms, les adjectifs (ou participes passés) et les adverbes séparés par des blancs dans l'écriture sont de loin les plus nombreux. L'approche statistique exigeant une bonne représentation du nombre d'échantillons, ACABIT se concentre sur l'extraction des termes de longueur 2, appelés « termes de base », et qui s'apparient à l'une des structures morpho-syntaxiques suivantes :
Nom Adj : instruction publique
Nom1 Prep Nom2 : principe d'égalité
Nom1 Prep Det Nom2 : apprentissage de la lecture
Nom1 Nom2 :apprenti lecteur
Nom1 à Vinf :savoir à enseigner
Cependant, les termes ne sont pas des unités lexicales figées et subissent des variations morphologiques et syntaxiques. Les variations ci-dessous sont prises en compte par la grammaire :
- Variations graphiques
- Variations flexionnelles
- Variations morpho-syntaxiques ( variation de la préposition, présence ou non d'un déterminant)
- Variations syntaxiques (insertion de modifieurs, coordination)
2.2 Programme d'extraction et relevé des fréquences
Les termes binaires sont considérés comme des cooccurrences particulières qui possèdent les propriétés linguistiques ci-dessus : ils sont définies par rapport à leur structure morpho-syntaxique ; ils admettent des variantes.
Une grammaire locale permettant d'identifier les candidats termes et leurs variantes a été écrite en FLEX (librairie GNU sous UNIX ou LINUX) . Une séquence morphosyntaxique reconnue par l'une des règles de grammaire constitue une occurrence d'un couple. Un couple est constitué de deux lemmes qui correspondent aux deux extrémités lexicales de la séquence ; par exemple, le couple
(didactique, lecture) correspond aux séquences suivantes : didactique de la lecture, didactique déclarative de la lecture, didactique expérimentale de la lecture. Chaque séquence relevée est accompagnée de son schéma morphosyntaxique et de sa position dans le corpus (fichier, phrase).
3. STATISTIQUE LEXICALE
ACABIT utilise dans un deuxième temps les résultats d'une évaluation de différentes mesures de statistiques lexicales. Cette évaluation a permis de découvrir la meilleure mesure pour cette application, c'est-à-dire celle qui assigne un score élevée aux séquences les plus susceptibles de constituer des termes parmi la liste de candidats.
Les candidats termes sont alors triés selon le score statistique et le programme propose en sortie une liste ordonnée de couples. |
|