Typologie : Synthèse de la parole (à partir du texte) Catégorie : Outil Produit/Logiciel Langues : anglais
Organisme : Description : *Introduction
La synthèse vocale est une technique qui permet de faire prononcer de façon intelligible et aussi naturelle que possible un texte écrit.
Les synthétiseurs vocaux peuvent être utilisés dans l'industrie (pour "faire parler" des machines et automates), en informatique dans le secteur du multimédia, dans des serveurs vocaux consultables par téléphone, et bien sûr dans le domaine du handicap visuel ou vocal.
Le synthétiseur vocal est un outil très important pour une personne aveugle : il permet à celle-ci l'accès aux données (lecture, bloc-notes, services de messagerie, utilisation de l'informatique).
Le projet "Kali", grâce à la collaboration du Club Micro Son, est conçu pour être le mieux adapté possible au handicap visuel, mais la qualité recherchée permettra de positionner l'outil sur d'autres marchés.
*Objectifs du projet
- Réalisation d'un synthétiseur vocal logiciel, utilisable par les programmes de lecture d'écran pour aveugles.
- Commercialisation par la société Electrel.
- En Français dans sa première version, "Kali" intégrera ensuite l'Anglais, puis d'autres langues étrangères.
*Critères de qualité retenus
- Voix intelligible et naturelle
- Réponse instantanée (moins de 100 ms)
- Possibilité de débit élevé (jusqu'à quatre fois le débit normal)
- Nombreuses fonctions de commande correspondant au cahier des charges des utilisateurs de ce type de produits.
*Intérêt pour la Recherche
Les équipes travaillant sur la synthèse vocale en France sont peu nombreuses. Ce projet place d'emblée l'équipe en bonne position dans cette communauté scientifique.
Les outils développées dans le cadre du projet vont être utilisés pour la recherche fondamentale : analyse syntaxique, étude de la prosodie, transcription graphème-phonème, traitement du signal acoustique.
*Commandes que doit accepter le synthétiseur
-Réglages : Volume : 16 niveaux ; Débit : 16 niveaux ; Hauteur : 16 niveaux
-Modes
- Prononciation éventuelle des caractères de ponctuation
- Épellation : mode national (a, bé...) ou international (alpha, bravo...)
- Comptabilité : chiffres par groupes de 3
- Choix de la langue
- Choix du dictionnaire utilisateur
- Genre de voix (masculine, féminine)
-Sorties sonores : Synthèse vocale alphabétique ; Synthèse vocale phonétique ; Fichier sonore numérisé ; Bip.
-Index : Suivi de la lecture sur le texte
-Arrêt : Arrêt immédiat
*Modules composant le projet
- Interface développeur : est réalisée pour certaines applications spécifiques comme l'éditeur vocal ou la machine à lire. Cette interface possède des fonctionnalités propres à l'application et envoie à Kali des commandes de réglage, de mode, de sortie sonore, d'index ou d'arrêt.
- Code de travail : Pour faciliter le travail des différents modules, il est nécessaire de convertir le code entrant en un code unique. Cette opération permet aussi d'effectuer un certain nombre d'opérations de formatage du texte.
- Analyse syntaxique : fournit un découpage du texte en groupes intonosyntaxiques ainsi que leurs relations de dépendance. Cette opération est indispensable à la génération automatique de prosodie. Elle fournit également un étiquetage permettant de désambiguïser la prononciation de certains mots et de certaines liaisons.
- Prosodie : Lors de la lecture d'un texte, la voix subit des variations à l'échelle de la syllabe, du mot, du groupe de mots (groupe intonosyntaxique), de la phrase, du texte. Ces variations, volontaires ou non, contribuent à rendre l'élocution expressive. L'ensemble des variations (regroupant intonation, accent, déclinaison, etc.) est appelée prosodie. Celle-ci porte sur les trois principaux paramètres de variation de la parole : volume, débit, hauteur. En l'absence de prosodie, la voix paraît plate et monotone.
Génération automatique de la prosodie : à partir de l'analyse syntaxique du texte et d'un certain nombre de règles, le module de prosodie pose des marqueurs qui seront interprétés par le générateur de parole.
- Transcription graphème-phonème : Pour prononcer correctement un texte, il faut connaître un certain nombre de règles de prononciation. Le module de transcription est chargé de fournir à partir du texte alphabétique un texte phonétique, c'est-à-dire un texte composé de phonèmes, de diacritiques (accents, allongements, etc.) et des marqueurs prosodiques présents à l'entrée.
Le Français comporte beaucoup d'exceptions (plus de 1000). En ajoutant les mots nouveaux d'origine étrangère et des règles sur les noms propres les plus courants, on arrive à plusieurs milliers de règles.
- Dictionnaire utilisateur : La transcription graphèmes-phonèmes ne sera jamais parfaite : des mots spécialisés, des mots nouveaux, des noms propres seront oubliés. D'où l'utilité d'un dictionnaire pouvant être créé par l'utilisateur pour pallier ces défauts.
- Base de diphones : A partir de la voix d'un locuteur, on extrait une base de diphones, c'est-à-dire un peu plus de 1000 fragments de signal qui seront ensuite concaténés pour former le signal acoustique de parole.
Chaque fragment va de la moitié d'un phonème à la moitié du suivant. L'interface entre les fragments est le phonème, ce qui limite le nombre de fragments nécessaire.
- Module de saisie et de traitement des diphones : Les diphones étant saisis dans des contextes différents, il est nécessaire de les normaliser pour que leur raccordement ne présente pas de discontinuités.
Le volume, le débit et la hauteur subissent des opérations de normalisation après découpage en pseudopériodes et utilisation de fenêtres de Hanning.
Pour éviter les discontinuités de timbre, il faut effectuer un fondu au niveau du raccordement. Des traitements plus complexes à base de transformées de Fourier entrent en jeu.
La base de diphones modifiée est alors prête à utiliser.
- Générateur de parole
Le module générateur de parole convertit la chaîne phonétique en un signal de parole par concaténation des diphones de la base. Les marqueurs prosodiques sont interprétés en temps réel sous forme de variations par rapport au réglage choisi. Le signal de parole est envoyé en continu vers les hauts-parleurs à fréquence d'échantillonnage constante. En même temps, les calculs sur la suite du texte sont effectués et le programme de l'utilisateur reste actif. |
|