18 novembre 2003
Technolangue.net
OUtil et Ressource pour l'Analyse de la Langue
|
||||||||||||||||||||||||||||||||||||||||||||
Fiche du 3 avril 2007
|
||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||
Résumé | ||||||||||||||||||||||||||||||||||||||||||||
Ce projet a pour but de mettre à disposition de la communauté, de manière gratuite ou à faible coût, des outils et de ressources de base pour le traitement de la langue écrite ou parlée. Les outils auront la particularité de mixer à la fois des évaluations probabilistes et des automates déterministes. Ce point est fondamental car on constate que, même si des outils d'étiquetage sont disponibles actuellement, ils sont quasiment toujours à base de probabilités (coût plus faible, rapidité de traitement, apprentissage très simple). Mais des erreurs systématiques sont commises par ces outils et il est difficile de leur faire apprendre de nouvelles structures syntaxiques car, pour cela, il faut étiqueter manuellement un corpus souvent assez important. Nous proposons donc, ici, de développer des outils qui allient l'efficacité des probabilités à la possibilité de forcer certains étiquetages par des automates développés manuellement. De plus, les outils pourront conserver les ambiguïtés lorsqu'ils ont du mal à choisir afin de les transmettre à un niveau plus haut (par exemple la reconnaissance d'entités) où elles pourront être résolues. Les ressources proposées dans ce projet comportent un lexique (informations morpho-syntaxiques, phonétiques et fréquentielles), un corpus composé de plusieurs types de discours (journaux, interviews, etc.) contenant des informations morpho-syntaxiques et un balisage d'entités, un corpus de dialogue oral transcrit. |
||||||||||||||||||||||||||||||||||||||||||||
Résultats | ||||||||||||||||||||||||||||||||||||||||||||
(pdf, 105 pages, 2819 Ko) Lexique
Résumé Le lexique est construit à partir des corpus suivant :
Le lexique obtenu est composé de 157 290 entrées et contient de nombreux traits tels que la forme, le lemme, une description phonétique, les catégories grammaticales, les fréquences des formes, Corpus
Description Corpus oral développé par le Silex Le SILEX s’est concentré sur un seul thème, touchant une large part de la population et mettant en jeu un vocabulaire spécifique : la gestion locative de biens immobiliers. Les entretiens se sont déroulés durant les deux premiers trimestres de 2004 et ont mobilisé des membres du projet et des personnes volontaires recrutées par annonce et sélectionnées selon des critères précis. Corpus oral développé par le Valoria
Corpus écrit développé par Sinequa Corpus étiqueté d’environ 10 000 mots téléchargeable librement dans le cadre du projet OuRAL sous licence ouTagger . Ce corpus a été étiqueté avec ouTagAssist (logiciel d’étiquetage du projet OuRAL) dans le respect de la norme TEI/P4.Outils
Description ouTagAssist : création et correction d’un corpus étiqueté Cet outil est le résultat de nombreuses recommandations d’experts linguistes : il est donc parfaitement adapté à leurs besoins. De plus, il utilise et construit des corpus compatibles avec la norme TEI/P4 et s’intègre parfaitement dans le cadre du projet OuRAL. L’utilisation d’une norme (TEI/P4), reconnue par la communauté, est un point essentiel dans la construction de corpus puisqu’elle offre une facilité de distribution et d’exploitation. LIA_topic_seg :outil de segmentation automatique L’objectif de l’outil est de permettre à un utilisateur d’effectuer une chaîne de traitements sur un texte étiqueté, mais également d’utiliser les différentes étapes de traitement de manière indépendante. Cet outil utilise le principe des chaînes lexicales. Outils de résumé automatique Il s’agit d’une méthode d'apprentissage semi-supervisé pour réaliser des résumés de textes par extraction de phrases pertinentes. Ce système permet d'entraîner des classifieurs en se basant sur une petite quantité de données étiquetées simultanément à une grande quantité de données non-étiquetées. Outils d’étiquetage grammatical L’étiqueteur du projet OuRAL regroupe un ensemble d’algorithmes associés au traitement automatique de la langue pour l’étiquetage morpho-syntaxique et en entités. Il utilise des méthodes statistiques et déterministes (HMM, Maximum d’entropie, automates) et intègre de nombreuses options telles que la possibilité d’ajouter un étiqueteur personnalisé, un « splitter » de mots composés, un devin et une méthode originale de combinaison de modèles. L’innovation de cet étiqueteur réside dans la stratégie de fusion de modèles qui permet à un utilisateur de corriger les erreurs de désambiguïsations en utilisant des méthodes déterministes. De plus, l’étiqueteur est compatible avec la norme TEI P4 (pour les corpus) et Normalangue (pour les lexiques).
|
||||||||||||||||||||||||||||||||||||||||||||
Publications | ||||||||||||||||||||||||||||||||||||||||||||
J.-Y. ANTOINE, S. LETTELLIER-ZARSHENAS, I. SCHADLE (2005) Le projet PAROLE PUBLIQUE de constitution d’un large corpus francophone de dialogue oral : réalisations et perspectives, in Williams G. (Ed.) La linguistique de corpus , PUR, Presses Universitaires de Rennes, Rennes, France, 193-204 J.-Y. Antoine, S. Letellier-Zarshenas, P. Nicolas, I. Schadle (2002). Corpus OTG et ECOLE_MASSY : vers la constitution d’un collection de corpus francophones de dialogue oral diffusés librement. Actes TALN’2002 . Nancy, France. Juin 2002. p. 319-324. P. Nicolas, S. Letellier-Zarshenas, I. Schadle, J.-Y. Antoine, J. Caelen (2002). Towards a large corpus of spoken dialogue in French that will be freely available: the “ Parole Publique ” project and its first realisations. Actes LREC’2002 . Las Palmas de Gran Canaria, Espagne. Mai 2002. p. 649-655.
|
|