AGILE - OURAL

18 novembre 2003

Technolangue.net

OUtil et Ressource pour l'Analyse de la Langue

Fiche du 3 avril 2007

Résumé | Résultats | Publications | Partenaires | Contacts

Thème de l'action

Ressources linguistiques

Début du projet

28 novembre 2003

Durée du projet

24 mois

Résumé

Ce projet a pour but de mettre à disposition de la communauté, de manière gratuite ou à faible coût, des outils et de ressources de base pour le traitement de la langue écrite ou parlée.
Les outils auront la particularité de mixer à la fois des évaluations probabilistes et des automates déterministes. Ce point est fondamental car on constate que, même si des outils d'étiquetage sont disponibles actuellement, ils sont quasiment toujours à base de probabilités (coût plus faible, rapidité de traitement, apprentissage très simple). Mais des erreurs systématiques sont commises par ces outils et il est difficile de leur faire apprendre de nouvelles structures syntaxiques car, pour cela, il faut étiqueter manuellement un corpus souvent assez important. Nous proposons donc, ici, de développer des outils qui allient l'efficacité des probabilités à la possibilité de forcer certains étiquetages par des automates développés manuellement. De plus, les outils pourront conserver les ambiguïtés lorsqu'ils ont du mal à choisir afin de les transmettre à un niveau plus haut (par exemple la reconnaissance d'entités) où elles pourront être résolues.

Les ressources proposées dans ce projet comportent un lexique (informations morpho-syntaxiques, phonétiques et fréquentielles), un corpus composé de plusieurs types de discours (journaux, interviews, etc.) contenant des informations morpho-syntaxiques et un balisage d'entités, un corpus de dialogue oral transcrit.

Résultats

Rapport final OuRal
(pdf, 105 pages, 2819 Ko)

Lexique

Nom

Description

Licence

Distributeur

Lexique 3.01

Base de donnée lexicale (160 000 formes, 44 000 fréquences orales et écrites, …)
Documentation: http://www.lexique.org/outils/Manuel_Lexique.htm
Interrogeable en ligne: http://www.lexique.org/moteur/
Téléchargeable librement: http://www.lexique.org/telecharger.php

Gnu-like

LPE

Résumé

Le lexique est construit à partir des corpus suivant :

articles du journal “Le Monde”
pages web
sous-titres de films
Frantext

Le lexique obtenu est composé de 157 290 entrées et contient de nombreux traits tels que la forme, le lemme, une description phonétique, les catégories grammaticales, les fréquences des formes,

Corpus

Nom	Description	Licence	Distributeur
Corpus « Oral » (transcriptions uniquement)	Corpus oral composé de transcriptions de 14 entretiens relatifs à la gestion locative de biens immobiliers faisant intervenir des locataires, des propriétaires bailleurs et des animateurs intervieweurs	GPL	SILEX
Corpus « Oral » (transcriptions uniquement)	Corpus OTG (117 minutes, 315 dialogues, 61 096 mots) Corpus ECOLE DE MASSY (45 minutes, 31 dialogues, 5 300 mots) Corpus Accueil UBS (110 minutes, 144 dialogues, 30 101 mots)	GPL	VALORIA
Corpus écrit	Corpus écrit de 10 000 mots (au format TEI P4 format) Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger	ouTagger 2	Sinequa

Description

Corpus oral développé par le Silex

Le SILEX s’est concentré sur un seul thème, touchant une large part de la population et mettant en jeu un vocabulaire spécifique : la gestion locative de biens immobiliers. Les entretiens se sont déroulés durant les deux premiers trimestres de 2004 et ont mobilisé des membres du projet et des personnes volontaires recrutées par annonce et sélectionnées selon des critères précis.

Corpus oral développé par le Valoria

Corpus OTG (Office du Tourisme de Grenoble) : le cadre d’application étudié par le corpus OTG est le renseignement touristique. Le corpus a été enregistré à la Maison du Tourisme de Grenoble. Les clients et l’agent n’ont été soumis à aucune consigne. La prise de son s’est effectuée en conditions réelles par deux microphones directifs orientés l’un vers le client et l’autre vers l’agent.
Corpus de l’Ecole de Massy : composé d’un ensemble de transcriptions de dialogues oraux entre des enfants et un adulte. Le sujet principal était la recherche d’informations concernant une séance de cinéma, puis une planification libre de loisirs

Corpus écrit développé par Sinequa

Corpus étiqueté d’environ 10 000 mots téléchargeable librement dans le cadre du projet OuRAL sous licence ouTagger . Ce corpus a été étiqueté avec ouTagAssist (logiciel d’étiquetage du projet OuRAL) dans le respect de la norme TEI/P4.

Outils

Nom	Description	Licence	Distributeur
ouTagAssist	Création et correction de corpus étiqueté	OuTagger	Sinequa
LIA_topic_seg	Outil de segmentation thématique	GPL	LIA
Boîte à outils de résumé automatique	Ensemble d’outils écrit en langage PERL composé des modules suivants : *FilIndex.pl, filtrage du document à traiter TrmClustConceptIndx.pl, apprentissage des concepts associés au document ThematicSegmenter.pl, segmentation thématique le document RsmAutomatic.pl*, résumé automatique.	GPL	LIP6
Analyseur linguistique	*ouLexiconBuilder:* module de compilation de dictionnaire lexical au format Normalangue *ouHMMTrainer, ouMETrainer* : outils d’entraînement de modèles probabilistes *ouTagger* : étiqueteur multi modèles *ouEval* : plate-forme d’évaluation librairie C/C++ Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger	OuTagger 3	Sinequa

Description

ouTagAssist : création et correction d’un corpus étiqueté

Cet outil est le résultat de nombreuses recommandations d’experts linguistes : il est donc parfaitement adapté à leurs besoins. De plus, il utilise et construit des corpus compatibles avec la norme TEI/P4 et s’intègre parfaitement dans le cadre du projet OuRAL.

L’utilisation d’une norme (TEI/P4), reconnue par la communauté, est un point essentiel dans la construction de corpus puisqu’elle offre une facilité de distribution et d’exploitation.

LIA_topic_seg :outil de segmentation automatique

L’objectif de l’outil est de permettre à un utilisateur d’effectuer une chaîne de traitements sur un texte étiqueté, mais également d’utiliser les différentes étapes de traitement de manière indépendante. Cet outil utilise le principe des chaînes lexicales.

Outils de résumé automatique

Il s’agit d’une méthode d'apprentissage semi-supervisé pour réaliser des résumés de textes par extraction de phrases pertinentes. Ce système permet d'entraîner des classifieurs en se basant sur une petite quantité de données étiquetées simultanément à une grande quantité de données non-étiquetées.

Outils d’étiquetage grammatical

L’étiqueteur du projet OuRAL regroupe un ensemble d’algorithmes associés au traitement automatique de la langue pour l’étiquetage morpho-syntaxique et en entités. Il utilise des méthodes statistiques et déterministes (HMM, Maximum d’entropie, automates) et intègre de nombreuses options telles que la possibilité d’ajouter un étiqueteur personnalisé, un « splitter » de mots composés, un devin et une méthode originale de combinaison de modèles. L’innovation de cet étiqueteur réside dans la stratégie de fusion de modèles qui permet à un utilisateur de corriger les erreurs de désambiguïsations en utilisant des méthodes déterministes.

De plus, l’étiqueteur est compatible avec la norme TEI P4 (pour les corpus) et Normalangue (pour les lexiques).

Publications

J.-Y. ANTOINE, S. LETTELLIER-ZARSHENAS, I. SCHADLE (2005) Le projet PAROLE PUBLIQUE de constitution d’un large corpus francophone de dialogue oral : réalisations et perspectives, in Williams G. (Ed.) La linguistique de corpus , PUR, Presses Universitaires de Rennes, Rennes, France, 193-204

J.-Y. Antoine, S. Letellier-Zarshenas, P. Nicolas, I. Schadle (2002). Corpus OTG et ECOLE_MASSY : vers la constitution d’un collection de corpus francophones de dialogue oral diffusés librement. Actes TALN’2002 . Nancy, France. Juin 2002. p. 319-324.

P. Nicolas, S. Letellier-Zarshenas, I. Schadle, J.-Y. Antoine, J. Caelen (2002). Towards a large corpus of spoken dialogue in French that will be freely available: the “ Parole Publique ” project and its first realisations. Actes LREC’2002 . Las Palmas de Gran Canaria, Espagne. Mai 2002. p. 649-655.

Partenaires du projet

Sinequa SAS
Laboratoire de Psychologie Expérimentale CNRS UMR 8581 - Université Paris V
Laboratoire d'Informatique de Paris 6, Université Paris 6
Laboratoire Informatique d'Avignon
Laboratoire VALORIA (EA 2593 - Université de Bretagne Sud)
Silex (UMR 8528 du CNRS - Université Lille 3)

Contacts

LIA	Patrice Bellot	patrice.bellot@lia.univ-avignon.fr
LIP6	Patrick Gallinari	patrick.gallinari@lip6.fr
LPE	Boris New	boris.new@univ-paris5.fr
SILEX	Nathalie Gasglia	gasiglia@univ-lille3.fr
Sinequa	Sinequa Labs	research@sinequa.com
VALORIA	Frank Poirier	frank.poirier@univ-ubs.fr