Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Plate-forme EVALDA

EVALDA - ARCADE II

EVALDA - CESART

EVALDA - CESTA

EVALDA - ESTER

EVALDA - EQUER

EVALDA - MEDIA

EVALDA - EVASY

EVALDA - EASY

AGILE - ALIZÉ

AGILE - OURAL

AGILE - TILT

AGILE - WATSON

ATONANT

CARMEL

EurADiC

NEOLOGOS

NomsPropres

NORMALANGUE - RNIL

NORMALANGUE - Technovox

Technolangue.Net

Normes & Standard

Enjeux

Instances

Imprimer cet article

AGILE - ALIZÉ

mardi 18 novembre 2003

R�alisation d'une plateforme logiciel libre en v�rification automatique du locuteur

Fiche du 1er avril 2004

Th�me de l'action

Ressources linguistiques

D�but du projet

Dur�e du projet

24 mois

R�sum�

L'objectif principal du projet ALIZ� est la r�alisation d'une plateforme logiciel libre en v�rification automatique du locuteur. Le consortium ELISA (elisa.ddl.ish-lyon.cnrs.fr), compos� de plusieurs laboratoires francophones, existe depuis cinq ans et a particip� chaque ann�e aux �valuations annuelles en reconnaissance du locuteur organis�es par NIST aux Etats-Unis. Lors des �valuations NIST 2001, le meilleur syst�me ELISA est arriv� en bonne position (4�me sur une douzaine de participants). Cette position a �t� confort�e en 2002, avec une quatri�me place sur vingt-deux participants en v�rification, et une premi�re place sur deux des trois conditions de la t�che de segmentation en locuteurs. Fort de ces succ�s, fruits d'une collaboration de cinq ans entre les diff�rents laboratoires du consortium, les partenaires du projet ALIZ� souhaitent d�velopper, � partir de leur savoir-faire, une plateforme logicielle accessible � tous. L'objectif est de transmettre les acquis aux entreprises et laboratoires acad�miques qui souhaiteraient se lancer dans la v�rification automatique du locuteur. En b�n�ficiant d�s le d�but d'une plateforme � �tat de l'art �, performante et didactique, les nouveaux intervenants pourront exp�rimenter directement de nouvelles id�es, en terme de recherche comme d'applications. Les buts du projet ALIZ� sont donc de promouvoir la reconnaissance du locuteur (et ses applications) ; de faciliter le transfert et la valorisation des connaissances entre les laboratoires acad�miques et le monde industriel ; d'inciter les laboratoires priv�s et publics Europ�ens � participer aux campagnes d'�valuation internationales ; de proposer un syst�me libre pour �talonner les comparaisons de performances ; de sauvegarder les investissements r�alis�s, en cr�ant une forte communaut� d'utilisateurs pour assurer le devenir et la maintenance des logiciels.

Objectifs

Les objectifs principaux du projet sont :
de promouvoir la reconnaissance du locuteur (et ses applications) ;
de faciliter le transfert et la valorisation des connaissances entre les laboratoires acad�miques et le monde industriel ;
d'inciter les laboratoires priv�s et publics Europ�ens � participer aux campagnes d'�valuation internationales ;
de proposer un syst�me libre pour �talonner les comparaisons de performances ;
de sauvegarder les investissements r�alis�s, en cr�ant une forte communaut� d'utilisateurs pour assurer le devenir et la maintenance des logiciels.

Ces objectifs seront port�s par la r�alisation d'une plateforme logicielle diffus�e sous la forme de 'logiciel libre', apte � traiter tous les aspects de la v�rification automatique du locuteur. Cette plateforme est issue des travaux r�alis�s dans le cadre du consortium ELISA (elisa.ddl.ish-lyon.cnrs.fr), compos� de plusieurs laboratoires francophones. Ce consortium participe chaque ann�e aux �valuations des syst�mes de v�rification du locuteur organis�es par NIST aux Etats-Unis, depuis cinq ans. La publicit� assur�e au projet, par la participation aux campagnes d'�valuation, par la publication des travaux et par la cr�ation et la maintenance d'un site Web sera �galement un moyen primordial pour assurer la r�ussite du projet.
Les atouts majeurs du projet sont de s'appuyer sur un ensemble de laboratoires reconnus au niveau international dans la discipline vis�e et collaborant ensemble depuis plusieurs ann�es. Le premier point est d�montr� par le niveau de performance obtenu durant les �valuations NIST, par la liste de publication des participants et par le soutien industriel et institutionnel recueilli autour du projet (DGA, THALES, CALISTEL, NIST, COST 275, etc.). Le deuxi�me point est valid� par les r�sultats du consortium ELISA, qui d�veloppe et administre un ensemble d'outils logiciels depuis plus de 5 ans et par les publications co-sign�es par le consortium (elisa.ddl.ish-lyon.cnrs.fr).

Mise en œuvre et état de l'art

La reconnaissance du locuteur s'inscrit dans le champ du traitement automatique de la parole et partage de nombreux outils communs avec la reconnaissance de la parole : l'�tape de param�trisation du signal est presque syst�matiquement fond�e sur une analyse cepstrale et les deux paradigmes les plus utilis�s sont la DTW (pour des syst�mes embarqu�s � vocabulaire fixe) et les techniques statistiques fond�es sur le formalisme des cha�nes de Markov cach�es (HMMs, pour Hidden Markov Models).
En reconnaissance du locuteur, les syst�mes � base de DTW sont en forte perte de vitesse. Si leurs avantages en terme de ressources calculatoires sont bien connus, le manque g�n�ral de souplesse et le plafonnement de leurs performances depuis une dizaine d'ann�es les condamnent � court terme.
La famille des syst�mes statistiques de reconnaissance du locuteur se d�coupe essentiellement en deux classes, les syst�mes exploitant des HMMs - souvent issus de syst�mes de reconnaissance de la parole et souvent d�pendants du texte prononc� - et les syst�mes � base de mixture de gaussiennes (syst�mes GMMs pour Gaussian Mixture Models), une version simplifi�e des HMMs poss�dant un seul �tat. Les syst�mes � bases de HMMs (Dragon [3], Picasso [4], France-T�l�com [5], LIMSI [6]) montrent un avantage lorsque le texte est connu mais au prix d'une complexit� importante. Il semblerait aussi que ces syst�mes s'adaptent peu facilement � de nouvelles conditions d'exploitation.
Les syst�mes � base de GMMs repr�sentent la majorit� des syst�mes � �tat de l'art �. La pertinence de ce type de mod�lisation a �t� prouv�e initialement par D. Reynolds [1] puis renforc�e par la communaut� scientifique [2]. La simplicit� intrins�que du mod�le explique cette quasi omnipr�sence. Le consortium a retenu cette derni�re approche, qui sera mise en oeuvre dans le projet ALIZ�.
L'apprentissage d'un mod�le statistique multi-gaussien est r�alis�e � l'aide de l'algorithme � Expectation-Maximization ou EM�. En raison du grand nombre de donn�es n�cessaires � l'apprentissage de ces mod�les statistiques, le mod�le de chaque locuteur est d�duit d'un mod�le de parole g�n�rique, appel� � mod�le du monde �. La d�duction des mod�les des locuteurs de la base se fait par adaptation (Maximum � Posteriori, M�thodes de R�gression Lin�aires). L'adaptation du mod�le n�cessite un mat�riel d'apprentissage moins important que dans le cas d'un apprentissage complet. La structure et l'apprentissage du mod�le du monde comme l'optimisation des techniques d'adaptation ont constitu� l'un des points majeurs des travaux r�cents [7] [8] [9].
A cette mod�lisation s'ajoute la th�orie Bay�sienne de la d�cision. Cette m�thode est fond�e sur le calcul d'un rapport de vraisemblance entre l'hypoth�se � client � (estim�e gr�ce au mod�le du client) et l'hypoth�se � imposteur � (estim�e par un � mod�le du monde �), en utilisant le mat�riel de test.
Afin de lutter contre la variabilit� des mod�les provoqu�e par un canal de transmission fluctuant ou par un syst�me d'acquisition variable, une �tape de normalisation des mesures s'est impos�e dans l'�tat de l'art. Cette normalisation a pour objectif de s'affranchir des diff�rences entre les locuteurs et entre les conditions d'apprentissage et de tests. Elle permet �galement de prendre en compte les diff�rences de qualit� des mod�les des locuteurs clients. Diff�rentes techniques ont �t� propos�es et se sont impos�es, comme les normalisations de distribution (de type � centr�e/r�duite �) Znorm, Hnorm et Tnorm [10] [11] [12] [13]. Une m�thode, fond�e sur la th�orie Bay�sienne de la d�cision, a �galement �t� propos�e, avec des r�sultats similaires [14]
Le projet propos� est issu des travaux du consortium ELISA qui propose une collection d'outils et qui valide ceux-ci � l'occasion des campagnes d'�valuation NIST. Cela inclut un syst�me de param�trisation du signal (param�trisation cepstrale), un syst�me de mod�lisation GMM et les outils de d�cision et de normalisation. L'ensemble de ces modules est au niveau de l'�tat de l'art.

R�f�rences
[1]D. Reynolds, Ph.D. thesis, MIT, A gaussian mixture modeling approach to text-independent speaker identification, 1992.
[2]The ELISA Consortium, The ELISA systems for the NIST'99 Evaluation in Speaker Detection and Tracking, Digital Signal Processing, Vol. 10, No. 1-3, pp. 143-153, January/April/July 2000.
[3]Weber F., Peskin B., Newman M., Corrada-Emmanuel A., Gillick L., Speaker Recognition on Single- and Multispeaker Data, Digital Signal Processing, Vol. 10, No. 1-3, pp. 75-92, January/April/July 2000.
[4]Bimbot F., Blomberg M., Boves L., Chollet G., Jaboulet C., Jacob B., Kharroubi J., Koolwaaij J., Lindberg J., Mari�thoz J., Mokbel C., Mokbel H., An overview of the Picasso project research activities in speaker verification for telephone applications, Eurospeech 99, September 1999, Budapest, Hungary.
[5]Charlet D., Authentification vocale par t�l�phone en mode d�pendant du texte, Th�se de l'ENST, 1997.
[6]Lamel L.F., Gauvain J.L., Speaker verification over the telephone, Speech Communication, Vol. 31, pp. 141-154, 2000.
[7]Doddington, G. R., Speaker recognition evaluation methodology - An overview and perspective, Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C), Avignon, France, 1998.
[8]Reynolds, D. A., Comparison of background normalization methods for text-independent speaker verification, Eurospeech 97, Rhodes, Greece, September 1997.
[9]Reynolds D.A., Quatieri T.F., Dunn R.B., Speaker verification using adapted gaussian mixture models, Digital Signal Processing, Vol. 10, No. 1-3, pp. 19-41, January/April/July 2000.
[10]Gravier G., Chollet G., Comparison of normalization techniques for speaker recognition, Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C), pp. 97-100, 1998, Avignon, France.
[11]Gravier, G., Kharroubi, J. and Chollet, G., On the use of prior knowledge in normalization schemes for speaker verification, Digital Signal Processing, Vol. 10, No. 1-3, pp. 213-225, January/April/July 2000.
[12]Ariyaeeinia A.M., Sivakumaran P., Analysis and comparison of score normalisation methods for text-dependent speaker verification, Eurospeech 97, September 1997, Rhodes, Greece.
[13]Auckenthaler R., Carey M., Lloyd-Thomas H., Score normalization for text-independent speaker verification systems, Digital Signal Processing, Vol. 10, No. 1-3, January/April/July 2000.
[14]C. Fredouille, J.-F. Bonastre, T. Merlin, AMIRAL: a block-segmental multi-recognizer approach for automatic speaker recognition, Digital Signal Processing, Vol. 10, No. 1-3, January/April/July 2000.
[15]Ivan Magrin-Chagnolleau, Guillaume Gravier, and Raphael Blouet for the ELISA Consortium, Overview of the 2000-2001 ELISA Consortium Research Activities, 2001: A Speaker Odyssey, pp. 67-72, Chania, Crete, Greece, June 2001.
[16]The ELISA Consortium, The ELISA'99 Speaker Recognition and Tracking Systems, Proceedings of the Workshop on Automatic Identification Advanced Technologies, Summit, New Jersey, United States, October 1999.

Organisation

Sous-projet 1 : Pilotage du projet
Ce sous-projet concerne le pilotage du projet. Ce pilotage sera assur� par Ivan MAGRIN-CHAGNOLLEAU du laboratoire DDL.
L'objectif de ce sous-projet est d'assurer une coh�sion � l'ensemble du projet, de faire circuler l'information entre tous les partenaires � l'aide de listes de diffusions, de veiller � l'avancement du projet et au respect du calendrier initial et d'organiser les r�unions trimestrielles avec tous les partenaires du projet.
Pilotage du sous-projet : Ivan MAGRIN-CHAGNOLLEAU (DDL)

Sous-projet 2 : Plateforme v�rification du locuteur
Ce sous-projet concerne la r�alisation de la plateforme de base en v�rification du locuteur, c'est-�-dire l'int�gration de toutes les techniques d�velopp�es par les membres du consortium ELISA au cours des 5 derni�res ann�es. Ce sous-projet sera pilot� par Jean-Fran�ois BONASTRE du LIA. Participeront � ce sous-projet le LIA, le laboratoire DDL, l'IRISA, l'ENST, le CLIPS, l'universit� de Ballamand (comme partenaire non financ�) et l'universit� de Fribourg (comme partenaire non financ�). AtLog, partenaire industriel du projet, participera �galement � ce sous-projet en tant que consultant-conseil sur les aspects d�veloppement et en tant que garant de la portabilit� de la plateforme logicielle sur plusieurs plateformes mat�rielles (Windows, Unix/Linux).
L'objectif de ce sous-projet est la r�alisation des diff�rents modules de la plateforme de base en v�rification du locuteur. Cette plateforme comprendra un module de param�trisation d'un signal audio (comprenant notamment une FFT, un programme d'analyse par banc de filtres, une analyse cepstrale, plus quelques autres param�tres d�velopp�s par les membres du consortium ELISA), un module de mod�lisation statistique (comprenant principalement un programme pour entra�ner un mod�le par m�lange de gaussiennes avec un algorithme EM), un module de normalisation (int�grant toutes les normalisations d�velopp�es au cours des diff�rentes campagnes NIST), et un module d'�valuation (qui comprend des outils de trac�s de courbes et de calculs de performances).
Pilotage du sous-projet : Jean-Fran�ois BONASTRE (LIA)
Le sous-projet 2 sera �valu� en termes de fonctionnement de la plateforme, de ses performances sur les �valuations NIST, de sa rapidit� de fonctionnement et de sa facilit� d'utilisation.

Sous-projet 3 : Validation de la plateforme par les laboratoires du consortium ELISA et par l'IRIT
Ce sous-projet concerne la validation de la plateforme par les laboratoires membres du consortium ELISA ainsi que par l'IRIT. Il s'agit, pour chaque laboratoire, de d�velopper son propre syst�me en utilisant la plateforme du projet ALIZ�, et de soumettre les syst�mes ainsi d�velopp�s aux �valuations NIST. L'IRIT jouera dans ce sous-projet le r�le d'un laboratoire acad�mique, non membre du consortium ELISA, qui souhaiterait d�velopper un syst�me de v�rification du locuteur � partir de la plateforme r�alis�e.
Ce sous-projet sera pilot� par Fr�d�ric BIMBOT de l'IRISA. Participeront � ce sous-projet le LIA, le laboratoire DDL, l'ENST, le CLIPS, l'universit� de Ballamand (en partenaire non financ�), l'universit� de Fribourg (en partenaire non financ�) et l'IRIT.
Pilotage du sous-projet : Fr�d�ric BIMBOT (IRISA)
Participation aux �valuations NIST 2003.
Participation aux �valuations NIST 2004.
L'�valuation du sous-projet 3 se fera directement � partir des performances obtenues par les diff�rents syst�mes soumis aux �valuations NIST.

Sous-projet 4 : Validation de la plateforme par les partenaires industriels du projet
Ce sous-projet concerne la validation de la plateforme par les partenaires industriels du projet ALIZ�, afin de montrer l'utilisabilit� de la plateforme en environnement industriel.
Ce sous-projet sera pilot� par Laurent BESACIER du CLIPS.
Pilotage du sous-projet : Laurent BESACIER (CLIPS)
Evaluation de la plateforme par THAL�S.
Evaluation de la plateforme par CALISTEL (partenaire non financ�).
Evaluation de la plateforme par la DGA (partenaire non financ�).
L'�valuation du sous-projet 4 se fera directement � partir des performances obtenues par les diff�rents partenaires industriels, et par leurs remarques sur la facilit� d'utilisation de la plateforme.

Retomb�es du projet

La r�ussite du projet sera mesur�e par la r�alisation de la plateforme, et par sa capacit� � r�pondre aux besoins de ses utilisateurs potentiels. La plateforme devra �tre modulaire, facile � utiliser et � configurer et rapide. Ces trois crit�res seront respect�s tout au long du projet.
La plateforme permettra � tout laboratoire industriel ou acad�mique qui le souhaite de disposer d'un syst�me de v�rification du locuteur �tat de l'art. Cela permettra donc de d�velopper de nouvelles id�es scientifiques en partant d�j� d'un syst�me performant.
Cette plateforme permettra �galement de conserver en France un savoir faire et une avance sur le th�me de la v�rification du locuteur. Cela donnera notamment un avantage certain aux entreprises qui souhaiteraient int�grer ces technologies dans leurs produits, ou qui voudraient d�velopper de nouvelles pistes de recherche sur ces th�mes.
Comme cela a d�j� �t� dit, cette plateforme a vocation � devenir une plateforme logiciel libre. Elle sera donc accessible � tout laboratoire industriel ou acad�mique qui en fera la demande. En outre, le consortium ELISA continuera d'exister au del� de la dur�e de ce projet, et assurera donc la maintenance de la plateforme et son �volution.

Etat d'avancement

Avancement de la plateforme

La premi�re version du toolkit ALIZE (le d�veloppement est confi� � Fr�d�ric WILS, LIA) ainsi que la documentation technique sont disponibles, sous forme de logiciel libre (licence LGPL), sur le site web du projet : http://www.lia.univ-avignon.fr/heberges/ALIZE

Les caract�ristiques principales d'ALIZE montrent :

Une mod�lisation pouss�e, r�alis�e en UML, un d�veloppement en C++, test� sur LINUX et Windows et un suivi de modification par CVS.
Un soucis constant de la qualit�/s�ret� de fonctionnement, par une gestion masqu�e � l'utilisateur de la m�moire et par l'impl�mentation de classes de test.
Une structure en � serveurs �. Le toolkit est bas� sur des serveurs logiciels remplissant chacun des fonctions pr�cises, comme la gestion des donn�es, la gestion des mod�les, la gestion des calculs...
Une structure logique unifi�e des programmes utilisateur. L'ensemble des programmes montre une m�me structure sous forme d'une boucle de traitement des donn�es.
Une gestion des aspects � temps r�el �. L'un des objectifs d'ALIZE est de permettre un d�veloppement facile de d�monstrateurs, en mode � micro ouvert �.
Des performances importantes en termes calculatoires.
La premi�re version, disponible, inclut :
Le serveur de mixtures (les mod�les).
Le serveur de statistiques (les calculs).
Une version pr�liminaire, en mode fichier, du serveur de vecteurs (les donn�es).
Une version pr�liminaire du serveur de label (gestion des segments).
Une gestion des fichiers d'entr�e, sous forme de listes avec reconnaissance automatique du type des fichiers manipul�s et une gestion unifi�e des fichiers de configuration et de la ligne de commande.
La documentation technique.
Une version pr�liminaire du manuel de l'utilisateur.
Des exemples de programmes utilisateur, bas�s sur ALIZE, correspondant aux trois �tapes principales de la reconnaissance du locuteur :
- Apprentissage d'un mod�le initial (mod�le du monde)
- Adaptation de ce mod�le avec un ensemble de donn�es (apprentissage du mod�le d'un locuteur par adaptation du mod�le du monde)
- Calcul des vraisemblances et des rapports de vraisemblance (mesure de ressemblance entre deux enregistrements vocaux)

Validation de la plateforme ALIZE

La plateforme a �t� diffus�e � diff�rents partenaires d'ALIZE et � quelques intervenants externes. Elle a ou va �tre utilis�e notamment :

dans le cadre d'un enseignement d'initiation � la recherche (24 �tudiants 3�me ann�e de l'IUP GMI d'Avignon),
dans le cadre de projets de fin d'�tudes (2 �tudiants en DESS IVDI, Avignon)
durant les campagnes d'�valuation NIST SRE 2004 et Technolangue EVALDA/ESTER, par diff�rents partenaires du projet (LIA, CLIPS, IRIT et Thales Communications).

Les partenaires acad�miques d'ALIZE ont �galement particip� en 2003 aux diff�rentes campagnes internationales d'�valuation NIST SRE (IRISA et ENST), NIST reconnaissance de la langue (DDL et IRIT), NIST RT (LIA et CLIPS).

Quelques publications li�es au projet

[1] Fr�d�ric Bimbot, Jean-Fran�ois Bonastre, Corinne Fredouille, Guillaume Gravier, Ivan Magrin-Chagnolleau, Sylvain Meignier, Teva Merlin, Javier Ortega-Garcia, Dijana Petrovska-Delacr�taz, and Douglas A. Reynolds. A Tutorial on Text-Independent Speaker Verification, Journal on Applied Signal Processing, 2004.
[2] Jean-Fran�ois Bonastre, Fr�d�ric Bimbot, Louis-Jean Bo�, Joseph P. Campbell, Douglas A. Reynolds, and Ivan Magrin-Chagnolleau. Authentification des personnes par leur voix : un n�cessaire devoir de pr�caution, JEP 2004, Fez, Maroc, 2004.
[3] Jean-Fran�ois Bonastre, Fr�d�ric Bimbot, Louis-Jean Bo�, Joseph P. Campbell, Douglas A. Reynolds, and Ivan Magrin-Chagnolleau. Person Authentication by Voice: A Need for Caution. Proceedings of EUROSPEECH 2003, Geneva, Switzerland, September 2003.
[4] Daniel Moraru, Sylvain Meignier, Laurent Besacier, Jean-Francois Bonastre, and Ivan Magrin-Chagnolleau. The ELISA Consortium Approaches in Speaker Segmentation During the NIST 2002 Speaker Recognition Evaluation. Proceedings of ICASSP 2003, Hong Kong, China, April 2003.
[5] S. Meignier, D. Moraru, C. Fredouille, L. Besacier, and J.-F. Bonastre, Benefit of prior acoustic segmentation for speaker segmentation systems, ICASSP'04, Montreal, Canada.
[6] D. Moraru, S. Meignier, C. Fredouille, L. Besacier, and J.-F. Bonastre, The ELISA consortium approaches in Broadcast News speaker segmentation during the NIST 2003 Rich Transcription evaluation", ICASSP'04, Montreal, Canada
[7] M. Vacher, D. Istrate, L. Besacier, E. Castelli, J-F. Serignat, Smart Audio Sensor for Telemedicine, Smarts Objects Conference (SOC), Grenoble, France, May 15-17,

Partenaires du projet

Laboratoire Dynamique Du Langage (DDL), Lyon (69)
Laboratoire Informatique d'Avignon (LIA), Avignon (84)
CLIPS-IMAG, Grenoble (38)
IRISA, Rennes (35)
ENST, Paris (75)
IRIT, Toulouse (31)
AtLog (79)
Thal�s, Colombes (92)
Calistel, Montbonnot (38)
DGA/CTA, Arcueil (94)

Contact

Ivan MAGRIN-CHAGNOLLEAU
Laboratoire Dynamique Du Langage (DDL)
14, avenue Berthelot
69363 Lyon Cedex 07
T�l�phone : 04.72.72.65.35
Adresse �lectronique : ivan@ieee.org
www.ddl.ish-lyon.cnrs.fr