00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  NEOLOGOS
mardi 18 novembre 2003




Création de nouvelles bases de données vocales téléphoniques pour la langue française : base multilocuteurs pour voix d'enfants et d'adolescents et base de locuteurs de référence pour voix d'adultes.

Fiche du 18 novembre 2003



Thème de l'action
Ressources linguistiques
Début du projet
4 décembre 2002
Durée du projet
24 mois
 
Résumé
Dans le but de répondre à un besoin ressenti dans le milieu du traitement automatique de la langue, le projet NEOLOGOS se propose de constituer deux bases de données de parole identifiées sous les noms PAIDIALOGOS et IDIOLOGOS.
La première, PAIDIALOGOS, sera le résultat d'une collecte composée d'appels téléphoniques de 1000 enfants et adolescents âgés de 7 à 17 ans, 350 en GSM et 650 en RTC.
La seconde, IDIOLOGOS, est constituée de deux parties, la première partie se compose des enregistrements d'appels téléphoniques de 1000 adultes ayant effectué un appel chacun. La deuxième partie de la base est composée d'un échantillon de 200 personnes du panel de la première partie ayant effectué 10 appels téléphoniques supplémentaires dans le but de créer une base de locuteurs de référence.

Objectifs
PAIDIALOGOS : base de données de voix d'enfants et d'adolescents.

Le résultat de cette partie du projet consiste en une base de données vocales de 1000 voix d'enfants, autant de garçons que de filles, équirépartis géographiquement (en France métropolitaine), collectée sur le réseau RTC (650 locuteurs) et sur le réseau GSM (350 locuteurs), et pour la tranche d'âge allant de 7 ans à 17 ans. Le contenu linguistique enregistré est un ensemble de phrases courtes phonétiquement équilibrées.

IDIOLOGOS : Base de locuteurs de référence pour voix d'adultes.

Le résultat de cette partie du projet consiste en une base de données vocales appelée « locuteurs de référence » (200 locuteurs) issue d'un panel initial de 1000 locuteurs, hommes et femmes également représentés, équirépartis géographiquement (en France métropolitaine), collectée sur le réseau RTC. Le contenu linguistique enregistré est un ensemble composé d'énoncés lu ou spontané de mot de commande, de nombres, dates, numéros et de phrases phonétiquement équilibrées pour la première partie et uniquement un ensemble de phrases phonétiquement équilibrées pour la seconde partie.

Mise en œuvre et état de l'art
De nombreuses bases de données sont disponibles à ELDA, mais aucune ne propose une couverture suffisante de la population des jeunes.

Aucune ne possède non plus la dimension et la structure nécessaire pour répondre au besoin de disposer de « locuteurs de référence », car aucune ne contient suffisamment d'informations pour réaliser une cartographie cohérente de l'espace des locuteurs. Il existe des bases de données orientées vers le test de systèmes de vérification du locuteur, mais les bases accessibles publiquement sont insuffisamment structurées, et par ailleurs, elles privilégient une méthodologie de collecte permettant de capter voire d'amplifier les variations au cours du temps, lentes ou rapides, de la voix d'un locuteur (variation intra-locuteurs).

Concernant l'approche nouvelle de la base des « locuteurs de référence », les laboratoires et les industriels ont le même besoin fondamental d'accéder à des bases de données permettant d'une part de rendre la technologie plus performante, d'autre part d'expérimenter de nouvelles approches algorithmiques basées sur une connaissance plus fine de ce qui caractérise individuellement les locuteurs.

Pour la réalisation des différentes collectes de données vocales prévues par le projet, les industriels membres du consortium disposent des méthodologies et des plates-formes vocales de collecte téléphonique adéquates.

Retombées du projet
Le consortium du projet NEOLOGOS s'est donné comme objectif de répondre à deux besoins qui ne sont pas couverts actuellement par les bases de données disponibles pour la langue française.

La base de données de « locuteurs de référence » IDIOLOGOS ne suit pas une structure classique de type Speechdat, et elle est massive car elle contient 8000 appels téléphoniques soit quatre fois plus de données que la base PAIDIALOGOS. Cette base permettra de faire avancer de façon significative les performances des technologies de reconnaissance vocale ainsi que les connaissances scientifiques sur les caractéristiques des locuteurs, car elle contiendra un nombre suffisant de locuteurs pour représenter l'ensemble des voix possibles, et pour chacun des locuteurs, un nombre d'enregistrement suffisant pour permettre de fabriquer des modèles de reconnaissance phonétiques individualisés et précis, adaptés à sa voix. La base IDIOLOGOS constituera en quelque sorte la matérialisation du concept d'espace de locuteurs. Au-delà des besoins importants de la reconnaissance vocale, cette base de données sera également exploitée dans les autres domaines des technologies vocales pour lesquels la notion de caractéristiques du locuteur joue un rôle significatif : vérification du locuteur, identification du locuteur, transformation de voix, synthèse vocale.

Etat d'avancement
Le projet a démarré effectivement le 11 février 2003 (réunion de prélancement), soit plus de deux mois après la date de notification officielle du 4 décembre 2002. La coordination du projet a été assurée à travers plusieurs réunions physiques et de nombreuses réunions téléphoniques.

La base PAIDIALOGOS, base de données « enfants » similaires aux bases de données traditionnelles de voix « adultes », est composée d'enregistrements d'appels téléphoniques dont les spécifications ont été adaptées du modèle SpeechDat, largement utilisé à l'international. Le contenu linguistique des appels est composé d'un ensemble de trente-deux énoncés différents comprenant des mots de commande, des séquences de chiffres et de nombres, des dates et des heures, des épellations, des noms de villes et de personnes, des mots et phrases phonétiquement riches. A la différence de SpeechDat, les trois modes possibles de collecte des enregistrements seront utilisés : collecte de parole répétée, de parole lue et de parole spontanée.

La collecte des 1000 enfants est en cours. Environ 50 % de la base a été collectée.

L'objectif du sous-projet IDIOLOGOS est de constituer une base de 200 locuteurs de références, comprenant pour chaque locuteur une quantité de données suffisante pour permettre de construire des modèles acoustiques précis propres à sa voix. Pour identifier les 200 locuteurs de références, on part d'un premier ensemble de 1000 locuteurs de départ, construit selon l'approche classique des bases SpeechDat basée sur un équilibre classique homme/femme, âge et accent régional.

Les spécifications de la base ont nécessité de mener de façon conjointe la spécification du corpus texte et de celui des critères permettant de sélectionner les locuteurs de références à partir des locuteurs de départ. Les critères sont désormais bien identifiés et le corpus texte à été complètement spécifié : les locuteurs de départ prononcent chacun un corpus identique de 50 phrases, en un seul appel téléphonique, et les locuteurs de références prononcent tous un corpus identique de 500 phrases, en dix appels. Les deux corpus ont été calculés à partir de corpus de textes bruts très importants de façon à maximiser la couverture en terme de phonèmes et de classes de diphones.

Les enregistrements de la base d'amorçage de 1000 locuteurs sont terminées depuis avril 2004. Les sélections des 200 locuteurs pour la seconde phase ont été faites durant l'été 2004. Les enregistrements des 200 locuteurs de référence sont en cours.

En conclusion, les phases de spécification des corpus et des méthodes sont terminées pour les corpus IDIOLOGOS et PAIDIALOGOS. La base IDIOLOGOS phase 1 comprenant 1000 locuteurs a été collectée entre janvier et avril 2004. Celle-ci a permis la sélection de 200 locuteurs de référence. La collecte de la base enfant PAIDIALOGOS est en cours ainsi que celle de la base adultes IDIOLOGOS phase 2 des 200 locuteurs de référence.


Résultats

LES RESSOURCES PRODUITES DANS NEOLOGOS SONT DESORMAIS DISPONIBLES AUPRES D’ELRA :

Les ressources linguistiques du projet NEOLOGOS sont désormais disponibles dans le catalogue de ressources linguistiques d'ELRA. Elles se composent des bases de données suivantes :

ELRA-S0226-01 IDIOLOGOS 1 "Bootstrap" (NEOLOGOS Project)
Cette base de données contient les enregistrements de 1 000 locuteurs français adultes (470 hommes, 530 femmes) enregistrés à travers le réseau téléphonique fixe français. Les locuteurs ont prononcé 45 phrases phonétiquement riches. Ces 45 phrases sont identiques pour tous les locuteurs.

ELRA-S0226-02 IDIOLOGOS 2 "Eingenspeakers" (NEOLOGOS Project)
Cette base de données contient les enregistrements de 200 locuteurs français adultes (97 hommes, 103 femmes) enregistrés à travers le réseau téléphonique fixe français. Les locuteurs ont prononcé 45 phrases phonétiquement riches, avec 10 appels par locuteur. Les 450 phrases prononcées par locuteur sont identiques pour tous les locuteurs. Les locuteurs ont été sélectionnés à partir de la base IDIOLOGOS 1 "Bootstrap" (ELRA-S0226-01).

ELRA-S0227 PAIDIALOGOS (NEOLOGOS Project)
Cette base de données contient 37 364 occurrences de 1 010 locuteurs français enfants (510 hommes, 500 femmes) enregistrés à travers le réseau téléphonique fixe français.

Partenaires du projet
  ELDA
ENSSAT
France Télécom R&D
IRISA
LORIA
TELISMA
 
Contacts