IA vocale : la voix, nouvelle interface expérientielle — #Épisode35
On a beaucoup parlé des textes et des images générés par les grands modèles de langage. Mais une autre transformation, plus intime, est en train de s’installer loin des écrans : celle des IA vocales.
Pendant 20 ans, parler à une machine voulait dire lutter contre un serveur vocal interactif. Depuis quelques mois, la donne a changé : la machine n’écoute plus seulement, elle comprend l’intention, capte l’émotion et répond avec une fluidité qui frise l’humanité.
Décryptage avec Guilhem Bodin, Partner au sein du cabinet Converteo, qui suit depuis longtemps les progrès des technologies vocales et a livré l’un des projets phares du marché français : Sharlie, le centre d’appel 100 % IA de Sosh.
Du mot-clé à la compréhension d’intention
Pendant deux décennies, l’interaction vocale avec une machine était enfermée dans une logique de mots-clés et d’arbres de décision rigides. Sortir du script, c’était perdre la machine. Grâce aux LLM et à l’IA générative, on entre dans un monde ouvert où la réponse se génère dynamiquement en langage naturel. Sur le plan technique, on abandonne l’approche séquentielle (speech-to-text → traitement → text-to-speech) pour des live pipelines audio natifs, capables de capter nuances, hésitations et émotions en temps réel. L’enjeu central devient l’arbitrage entre latence et précision, selon le cas d’usage.
Les quatre moteurs du basculement vers l’IA vocale
Guilhem identifie quatre facteurs clés :
- l’humanisation de la voix, moins robotique ;
- la fluidité conversationnelle ;
- le RAG appliqué à la voix, qui permet à l’IA de s’appuyer sur le contexte de l’entreprise (CRM, stocks, procédures, historique) ;
- le passage de la simple personnification à l’agent capable d’agir : pas seulement parler, mais exécuter des tâches.
IA vocale : panorama du marché 2026
Trois familles d’acteurs structurent le paysage.
- Les grands modèles de fondation (OpenAI, Google avec ses annonces attendues à Google Next), qui se concentrent sur la couverture linguistique et la réduction de la latence.
- Les orchestrateurs, comme Illuin Technologies côté français, ou des plateformes no-code type Vapi, qui assemblent les briques techniques pour répondre à des cas d’usage métier.
- Et les spécialistes de la voix : Kyutai (Patrick Pérez sera bientôt invité dans le podcast), ElevenLabs qui ouvre un bureau à Paris.
Anthropic fait figure d’absent volontaire, concentré sur la transformation des entreprises. Côté Apple, Siri est en retard mais opte pour une stratégie de marketplace : intégrer les modèles tiers (Gemini déjà annoncé, ChatGPT en discussion) plutôt que de bâtir son propre champion.
IA vocale : quels cas d’usage ?
Au-delà du cliché du centre d’appel, l’IA vocale s’installe dans la formation et la productivité (NotebookLM de Google qui transforme des contenus en podcasts), dans l’augmentation des collaborateurs en boutique ou en centre d’appel (suggestion de la prochaine action, accès au CRM en temps réel pendant la conversation), et dans la relation client.
Une étude Converteo réalisée par Ifop en mars 2026 révèle que 34 % des Français aimeraient qu’un assistant IA prenne le relais dans leurs démarches administratives, 14 % dans le SAV. Disponibilité 24/7, capacité à gérer plusieurs centaines d’appels simultanés, fin du goulot d’étranglement : la promesse est claire.
IA vocale, confiance et transparence : le défi de l’AI Act
Le règlement européen imposera bientôt aux marques d’annoncer qu’on parle à une IA. Sain en théorie, complexe en pratique : le mot « IA » est galvaudé, et beaucoup raccrocheront par réflexe.
L’enjeu pour les marques : faire le marketing d’une IA contextualisée, capable de résoudre vraiment, et trouver les bons mots pour rassurer. Ce n’est pas un humain, mais c’est de la qualité.
L’identité sonore des marques : un nouveau territoire à explorer
Trouver sa voix devient un enjeu de design, de créativité et de marketing. Les brand books, pensés pour des spots de 20 secondes, doivent être repensés pour des conversations de 15 minutes. Limite technique : les modèles français peinent encore avec les accents (un centre d’appel à 100 % avec un accent marseillais reste utopique), et les langues moins représentées sont à la traîne. Avec un sujet de fond sur la disponibilité des données d’entraînement, qui pose presque une question d’identité culturelle.
Vers la fin de l’écran ?
Guilhem se positionne dans le camp de l’hybridation lente. Les jeunes générations, qui craignent de parler aux humains mais utilisent massivement les voice texts, dessinent un futur où voix, texte, clic et tactile coexistent. L’écran sera repensé, pas remplacé. Le retour des enceintes connectées, l’arrivée de devices comme le pin de Claude ou les futurs produits de Jony Ive chez OpenAI, le programme Alexa+ d’Amazon : tout reste ouvert, avec en toile de fond les questions explosives de vie privée et de RGPD (lunettes Meta, écoute permanente du foyer, données intimes plus que personnelles).
IA vocale : quelles limites ?
Trois obstacles techniques persistent :
- le VAD (Voice Activity Detection), qui détermine quand l’IA doit se taire face à un souffle ou un bruit ambiant ;
- la couverture linguistique (8 à 10 langues fonctionnent vraiment) ;
- et la diversité des accents, où les modèles français restent limités.
Dans les coulisses de Sharlie, l’assistant IA vocal Sosh (Orange)
Guilhem revient sur un cas d’école livré par Converteo : Sharlie, le centre d’appel 100 % IA dédié aux clients Sosh. Particularité : Sosh n’avait pas de centre d’appel auparavant. Tout a été pensé from scratch (parcours, ton, intégration aux outils Orange) pour couvrir plus de 200 cas d’usage différents. Annoncé mi-mars, le service a déjà enregistré plus de 10 000 conversations. Disponible 24/7, Sharlie devient un cas d’école de l’IA vocale industrialisée à grande échelle en France.
Vous avez des questions sur cet épisode ?
Vous voulez nous soumettre une idée d’épisode, d’invité ?
Écrivez-nous à changement@converteo.com
Changement d’époque en cours est un podcast réalisé par Converteo.
L’émission est présentée par Laurent Nicolas-Guennoc.