Top » Directory

Informations
Presentation
Inscription
Contact Us
Directory
Private company
Research Organizations
Associations
Tools
Quick Find
 
Use keywords to find the product you are looking for.
Advanced Search
<<< TEXT_PAGE_PREC
TOOL_TIP_LISTE TOOL_TIP_PRINT
TEXT_PAGE_NEXT >>>
KALI
Synthèse vocale à partir du texte
Identification
Typologie : Synthèse de la parole (à partir du texte) 
Catégorie : Outil Produit/Logiciel 
Langues : anglais  
Organisme :
Description :
*Introduction
La synthèse vocale est une technique qui permet de faire prononcer de façon intelligible et aussi naturelle que possible un texte écrit.
Les synthétiseurs vocaux peuvent être utilisés dans l'industrie (pour "faire parler" des machines et automates), en informatique dans le secteur du multimédia, dans des serveurs vocaux consultables par téléphone, et bien sûr dans le domaine du handicap visuel ou vocal.
Le synthétiseur vocal est un outil très important pour une personne aveugle : il permet à celle-ci l'accès aux données (lecture, bloc-notes, services de messagerie, utilisation de l'informatique).
Le projet "Kali", grâce à la collaboration du Club Micro Son, est conçu pour être le mieux adapté possible au handicap visuel, mais la qualité recherchée permettra de positionner l'outil sur d'autres marchés.

*Objectifs du projet
- Réalisation d'un synthétiseur vocal logiciel, utilisable par les programmes de lecture d'écran pour aveugles.
- Commercialisation par la société Electrel.
- En Français dans sa première version, "Kali" intégrera ensuite l'Anglais, puis d'autres langues étrangères.

*Critères de qualité retenus
- Voix intelligible et naturelle
- Réponse instantanée (moins de 100 ms)
- Possibilité de débit élevé (jusqu'à quatre fois le débit normal)
- Nombreuses fonctions de commande correspondant au cahier des charges des utilisateurs de ce type de produits.

*Intérêt pour la Recherche
Les équipes travaillant sur la synthèse vocale en France sont peu nombreuses. Ce projet place d'emblée l'équipe en bonne position dans cette communauté scientifique.
Les outils développées dans le cadre du projet vont être utilisés pour la recherche fondamentale : analyse syntaxique, étude de la prosodie, transcription graphème-phonème, traitement du signal acoustique.

*Commandes que doit accepter le synthétiseur
-Réglages : Volume : 16 niveaux ; Débit : 16 niveaux ; Hauteur : 16 niveaux
-Modes
- Prononciation éventuelle des caractères de ponctuation
- Épellation : mode national (a, bé...) ou international (alpha, bravo...)
- Comptabilité : chiffres par groupes de 3
- Choix de la langue
- Choix du dictionnaire utilisateur
- Genre de voix (masculine, féminine)
-Sorties sonores : Synthèse vocale alphabétique ; Synthèse vocale phonétique ; Fichier sonore numérisé ; Bip.
-Index : Suivi de la lecture sur le texte
-Arrêt : Arrêt immédiat

*Modules composant le projet
- Interface développeur : est réalisée pour certaines applications spécifiques comme l'éditeur vocal ou la machine à lire. Cette interface possède des fonctionnalités propres à l'application et envoie à Kali des commandes de réglage, de mode, de sortie sonore, d'index ou d'arrêt.
- Code de travail : Pour faciliter le travail des différents modules, il est nécessaire de convertir le code entrant en un code unique. Cette opération permet aussi d'effectuer un certain nombre d'opérations de formatage du texte.
- Analyse syntaxique : fournit un découpage du texte en groupes intonosyntaxiques ainsi que leurs relations de dépendance. Cette opération est indispensable à la génération automatique de prosodie. Elle fournit également un étiquetage permettant de désambiguïser la prononciation de certains mots et de certaines liaisons.

- Prosodie : Lors de la lecture d'un texte, la voix subit des variations à l'échelle de la syllabe, du mot, du groupe de mots (groupe intonosyntaxique), de la phrase, du texte. Ces variations, volontaires ou non, contribuent à rendre l'élocution expressive. L'ensemble des variations (regroupant intonation, accent, déclinaison, etc.) est appelée prosodie. Celle-ci porte sur les trois principaux paramètres de variation de la parole : volume, débit, hauteur. En l'absence de prosodie, la voix paraît plate et monotone.
Génération automatique de la prosodie : à partir de l'analyse syntaxique du texte et d'un certain nombre de règles, le module de prosodie pose des marqueurs qui seront interprétés par le générateur de parole.

- Transcription graphème-phonème : Pour prononcer correctement un texte, il faut connaître un certain nombre de règles de prononciation. Le module de transcription est chargé de fournir à partir du texte alphabétique un texte phonétique, c'est-à-dire un texte composé de phonèmes, de diacritiques (accents, allongements, etc.) et des marqueurs prosodiques présents à l'entrée.
Le Français comporte beaucoup d'exceptions (plus de 1000). En ajoutant les mots nouveaux d'origine étrangère et des règles sur les noms propres les plus courants, on arrive à plusieurs milliers de règles.

- Dictionnaire utilisateur : La transcription graphèmes-phonèmes ne sera jamais parfaite : des mots spécialisés, des mots nouveaux, des noms propres seront oubliés. D'où l'utilité d'un dictionnaire pouvant être créé par l'utilisateur pour pallier ces défauts.

- Base de diphones : A partir de la voix d'un locuteur, on extrait une base de diphones, c'est-à-dire un peu plus de 1000 fragments de signal qui seront ensuite concaténés pour former le signal acoustique de parole.
Chaque fragment va de la moitié d'un phonème à la moitié du suivant. L'interface entre les fragments est le phonème, ce qui limite le nombre de fragments nécessaire.

- Module de saisie et de traitement des diphones : Les diphones étant saisis dans des contextes différents, il est nécessaire de les normaliser pour que leur raccordement ne présente pas de discontinuités.
Le volume, le débit et la hauteur subissent des opérations de normalisation après découpage en pseudopériodes et utilisation de fenêtres de Hanning.
Pour éviter les discontinuités de timbre, il faut effectuer un fondu au niveau du raccordement. Des traitements plus complexes à base de transformées de Fourier entrent en jeu.
La base de diphones modifiée est alors prête à utiliser.

- Générateur de parole
Le module générateur de parole convertit la chaîne phonétique en un signal de parole par concaténation des diphones de la base. Les marqueurs prosodiques sont interprétés en temps réel sous forme de variations par rapport au réglage choisi. Le signal de parole est envoyé en continu vers les hauts-parleurs à fréquence d'échantillonnage constante. En même temps, les calculs sur la suite du texte sont effectués et le programme de l'utilisateur reste actif.
Informations technique
Support : CD-Rom
Taille : 8 Mo par langue
Type de machine : PC Pentium (100 Mhz)
Système : Windows 95/98
Mémoire Minimum : 32 Mo
Mémoire recommandée : 48 Mo
Espace disque : 10 Mo par langue
Intégration
Autonomie :
Intégration possible dans : Sous forme de DLL : peut être appelée par la plate-forme de démonstration et de réglage, ou par une application de lecture d'écran ou de textes (par une interface), ou appelé par une application développeur, ou intégrée dans une application dédiée
Disponibilité commerciale, technique et légale
Documentation en ligne :
Documentation en français :
Utilisateurs potentiels : Utilisateur final, Intégrateur, Recherche,
Contact
M. Michel Morel
Email : morelelsap.unicaen.fr
Fax : 02 31 56 54 27
Téléphone : 02 31 56 56 91
Created date : 2005-02-25 12:57:48