Enrichissement semi-automatique d'ontologies
|
Fiche du 8 avril 2005
|
|
Thème de l'action
|
Ressources linguistiques et logicielles
|
|
|
|
|
|
|
|
Résumé
|
Les entreprises cherchent à maintenir leur avance technique et leurs capacités d'innovation par une
activité de veille d'une part, de gestion des connaissances au travers de la mémoire
d'entreprise et des savoirs-faires internes d'autre part. Avec la mise sous forme électronique de la
documentation interne et l'accès immédiat et continu, via Internet, à de nouveaux documents externes, elles
doivent mieux gérer la masse d'information pour les mettre à disposition de manière intelligente auprès
des utilisateurs. Dans ce cadre, des connaissances structurées sur le domaine de spécialité de l'entreprise
sont indispensables : organisées en ontologies avec une composante terminologique, elles permettent de guider
efficacement la sélection de documents, leur indexation et annotation en fonction du contenu, leur
classification en fonction des profils et besoins des utilisateurs.
Le projet ATONANT rassemble des chercheurs informaticiens (ingénierie des connaissances, traitement
automatique des langues et intelligence artificielle) et linguistes (spécialisés dans la linguistique de
corpus), ainsi que des utilisateurs de centres hospitaliers et de grands groupes.
Les applications cibles sont des outils d'analyse, d'indexation, de recherche et à terme de traduction de
textes techniques ou scientifiques. Les domaines d'activité typiques sont la veille économique &
technologique sur le Web, la mémoire d'entreprise ou d'organisme de recherche, la gestion électronique
d'information médicale, la détection d'activités illégales et de manière plus générale, la gestion
électronique de documents techniques ou scientifiques.
|
Objectifs
|
L'objectif du projet ATONANT est de prototyper des outils d'aide à l'enrichissement semi-automatique
d'ontologies, qui pourraient être à terme, intégrer au sein d'une plate-forme modulaire un ensemble de
systèmes d'extraction et de fouille de textes associé à des fonction d'exploration de ces données lexicales
puis de modélisation et de structuration conceptuelle. Les outils produisent des données sous des formes
standardisées et facilement exportables dans différents systèmes d'information.
Les outils prototypés sont les suivants :
- Un outil de collecte et de formatage de données,
- Un outil d'aide à la recherche d'information sur le Web,
- Un éditeur d'ontologie terminologique,
- Un outil de production de hiérarchie de termes,
- Un outil de création de hiérarchie spécialisation/généralisation.
|
Mise en œuvre et état de l'art
|
Le projet s'appuie sur un certain nombre de travaux, outils et méthodes existants qui ont été réalisés par les
partenaires du projet.
Les partenaires du projet bénéficient à la fois d'une bonne maîtrise des travaux théoriques des domaines des
ontologies et de la modélisation de la connaissance, et de plusieurs expériences acquises au cours de projets
avec des entreprises qui ont permis d'utiliser ces logiciels pour construire des ressources ontologiques à
échelle réelle.
- TERMINAE, un environnement de construction d'ontologie (LIPN)
- Un système de structuration du lexique guidé par la détermination automatique du contexte thématique
réalisé dans le cadre d'une thèse soutenue au LIMSI (CEA)
- Des outils et une plate-forme d'intégration (analyse morpho-systaxique multi-lingue, extraction d'entités
nommées, indexation de documents sur de grands corpus, interface utilisateur de paramétrage, gestion des
droits) mis en oeuvre dans le cadre de système opérationnels (filtrage, surveillance, veille technologique,
protection de la propriété industrielle) (CEA)
- La méthode OntoSpec qui consiste à introduire une ontologie conceptuelle spécifiée dans une langue
naturelle contrôlée et fortement structurée (LARIA)
- Des méthodes d'apprentissage basées sur les réseaux de neurones et les réseaux bayésiens (INSA et
LIP6)
Les travaux en cours concernent la mise au point des outils cités à la section Objectifs.
|
Organisation
|
L'échéancier et les fournitures du projet sont indiqués dans le tableau ci-dessous :
Intitulé de la fourniture | Echéance | Responsable |
F1.1.1 - Plan de management & qualité | 30/09/04 | EADS |
F2.1.1 - Rapport d'expression du besoin | 30/06/04 | PSI |
F2.2.1 - Corpus & ressources ontologiques V1 | 30/06/04 | PSI |
F2.2.2 - Corpus & ressources ontologiques V2 | 31/10/04 | LaRIA |
F2.3.1 - Rapport d'expérimentation | 30/11/05 | PSI |
F3.1.1 Description de la méthodologie de travail | 31/10/04 | INSA |
F3.2.1 - Plate-forme ontologique V1 | 31/10/04 | LIPN |
F3.2.2 - Plate-forme ontologique V2 | 30/06/05 | LaRIA |
F3.3.1 - Spécifications du module d'enrichissement ontologique | 31/07/05 | INSA |
F4.1.1 - Outil de collecte et de normalisation documentaire | 30/06/04 | EADS |
F4.1.2 - Outil d'aide à la recherche d'information sur le Web | 31/12/04 | INSA |
F4.2.1 - Outil de production de hiérarchie de termes | 31/07/05 | CEA |
F4.2.2 - Outil de création de hiérarchie spécialisation/généralisation | 31/07/05 |
LIP6 |
F4.3.1 - Rapport d'évaluation | 31/10/05 | LIP6 |
Le planning du projet est disponible en ligne.
|
Retombées du projet
|
Ce projet vise à produire l'ébauche d'une plate-forme logicielle multi-composant, allant de la veille ciblée à
l'analyse de contenu guidée par une ontologique métier évolutive. A l'issue du projet, le prototype démontrera
l'intérêt des technologies appliquées. Les différents composants qui constitueront ce prototype pourront
ensuite être réutilisés au travers des exemples suivants d'application :
- En tant que progiciel générique pour la construction et l'enrichissement d'ontologies métiers, sur
Internet, dans les réseaux d'entreprise ou les réseaux de professionnels.
- En tant que composant de haute technologie pour la construction de systèmes d'information clé en main et
de réseaux à valeur ajoutée (domaines de la santé, de la logistique, services administratifs pour le citoyen,
de la détection d'activités illégales, de la veille économique et technique, et tout domaine où la définition
de normes est indispensable tel les secteurs des travaux publiques et de la sécurité).
- En tant que technologie de base pour la construction d'une offre de services sur le Web.
A l'issue du projet ATONANT, l'industrialisation et la commercialisation en tant que produit logiciel des
outils prototypés peut être envisagée.
En ce qui concerne le marché potentiel des systèmes et des services, quelques secteurs d'intérêts sont
identifiés :
- Le secteur de la veille stratégique au bénéfice des PME et des grands groupes, avec la vente d'outils,
d'applications sectorielles clés en main, ou encore la vente de services.
- Le secteur de la sécurité nationale, où la recherche et la structuration de la connaissance sont
primordiales, passant par la corrélation d'informations proches découvertes dans les documents, tenant compte
de terminologies variables.
|
Etat d'avancement
|
Le projet s'est terminé le 30 novembre 2005. La revue finale du projet aura lieu le 10 janvier 2006. Toutes les fournitures listées dans l'échéancier ci-dessus ont été produites. De même, tous les outils cités en 2.1 ont été prototypés.
|
Publications liées au projet
|
[1] S.Szulman et B. Biébow, « Owl et Terminae », Conférence Ingénierie des Connaissances 2004, Lyon, 4-6
mai 2004.
[2] S. BEN KHEDIJA. Intégration de la méthode OntoSpec dans TERMINAE. Rapport de stage de DEA, LaRIA,
juillet 2004.
[3] S. BRUAUX & G. KASSEL. OntoKADS: a core ontology to develop expertise models of the CommonKADS
methodology. In Proceedings of the EKAW 2004 Workshop on Core Ontologies in Ontology Engineering, October
2004, Whittlebury Hall (Northamptonshire, UK), p. 64-75.
|
|
Contact
|
|
Sylvie BRUNESSAUX
EADS Defence and Security Systems SA
Defense and Communications Systems
System Design Center / Research & Technology
Parc d'Affaires des Portes - BP 613
27106 Val-de-Reuil Cedex - France
téléphone : +33 2 32 63 40 56 - fax: +33 2 32 63 42 00
mél: sylvie.brunessaux@eads.com
|
|
|
|
|