Les progrès fulgurants de la synthèse vocale
La synthèse vocale est la technologie qui permet à un logiciel de lire un texte écrit, avec une voix synthétique. Elle est également appelée "Text to speech". C'est l'inverse de la reconnaissance vocale où le logiciel reconnaît notre voix pour la transformer en texte.
Comment ca marche ?
Les technologies de synthèse vocales existent depuis les années 80, mais elles étaient très limitées à l'époque à cause des faibles capacités des mémoires informatiques.
Avec les immenses progrès dans la miniaturisation et le stockage des données, il est aujourd'hui possible d'enregistrer des milliers de petits éléments sonores que le logiciel va ensuite assembler pour former n'importe quel mot.
Mais ce n'est pas suffisant ! Car les humains ne prononcent pas les mots d'une manière régulière quand ils font des phrases ! Et si le logiciel de synthèse vocale est capable de lire n'importe quel texte, il prononce les phrases avec une voix monocorde qui n'a rien d'humain…
En voici un bon exemple avec Pediaphon, une application qui permet de convertir n'importe quel article de Wikipédia en un fichier mp3 :
Article lu par la voix de synthèse | : | Presse Masculine |
Lecture par la voix de synthèse | : |
Des progrès impressionnants
Si la prouesse technologique est impressionnante, la voix elle, est franchement déprimante !
Pour que la voix du logiciel ressemble à la voix humaine, il faut qu'elle soit fluide, qu'elle prenne en compte les intonations, les accents toniques et les vitesses qui changent selon les types d'expressions (un ton interrogatif, une expression joyeuse ou sérieuse…)
Mais là encore, les progrès effectués sont très impressionnants! Plusieurs sociétés comme Loquendo ou acapela-group vendent des services de synthèse vocale avec des voix de plus en plus difficiles à distinguer de celles des humains!
Démonstration par l'exemple avec un texte pour Masculin.com lu par « Bernard » et « Juliette », deux voix françaises conçues par Loquendo :
Voix de Bernard | : | |
Voix de Juliette | : |
La voix de Juliette vous semble encore trop synthétique?
Alors écoutez ça ! |
A vous d'essayer !
Vous pouvez aussi essayez en tapant votre propre phrase sur le site d'acapela-group.
Pour quoi faire ?
La synthèse vocale est aujourd'hui principalement utilisée par les personnes non voyantes, pour leur permettre d'écouter un texte au lieu de le lire. Mais ces services pourraient prochainement se développer pour les usagers de téléphones mobiles, ou pour télécharger l'actualité de nos sites favoris pour l'écouter sur nos baladeurs dans les transports en commun !
Pour aller plus loin :
Pediaphon
Ecoutez les articles de Lemonde.fr avec la technologie readspeaker.
Crédits photo : © BRANDX / Jupiterimages