Nouveaux standards pour les applications vocales sur le web

26 juillet 2007

Technolangue.net

Le W3C recommande les standards du langage VoiceXML 2.1 et de l’interprétation sémantique pour la reconnaissance de la parole SISR* 1.0, deux composantes majeures de la plate-forme d’interface vocale du W3C. Ces standards vont permettre d’élargir les fonctionnalités des navigateurs vocaux et des systèmes de reconnaissance vocale.

Voice XML 2.1 intègre de nouvelles fonctionnalités déjà largement utilisées telles que les références dynamiques aux syntaxes et scripts, la détection de l’interaction avec un utilisateur au cours d’une annonce vocale ou le traitement d’ensembles de données multiples depuis le serveur en accès unique. D’autre part l’interopérabilité entre le VoiceXML 2.0 et le VoiceXML 2.1 est garantie. Les applications continueront à fonctionner sans devoir être modifiées.

Ce standard devrait encourager le développement d’applications innovantes autour du téléphone portable.

Le standard SISR permet quant à lui « d’extraire et de traduire des représentations textuelles de mots identifiés par un système de reconnaissance vocale et d’en structurer le résultat dans un format adapté au traitement par une application vocale ». Ainsi, grâce à SISR, l’énoncé de la phrase « Je veux prendre un vol de Los Angeles à Seattle » pourrait être converti en une structure de données contenant les codes des aéroports de départ (LAX) et d’arrivée (SEA).

Outre ces deux spécifications, la plate-forme d’interface vocale du W3C comporte notamment les standards suivants : la grammaire de reconnaissance de la parole SRGS** 1.0 et le langage de synthèse vocale SSML*** 1.0.

Enfin, le Groupe de travail Navigateur vocal travaille déjà sur les standards State Chart XML (SCXML) et VoiceXML 3.0.

* SISR : Semantic Interpretation for Speech Recognition

** SRGS : Speech Recognition Grammar Specification

*** SSML : Speech Synthesis Markup Language