Architecture agent vocal : pipeline vs voice-to-voice

Article Agent vocal 18.06.2026
Par David Guede et Samuel Besson

Partner Data / IA et Expert Agentique chez Converteo, David Guede est spécialisé dans le déploiement d’architectures d’IA en production. En collaboration étroite avec lui, Samuel Nespolo-Besson, Senior Manager chez Converteo, co-pilote l’offre de transformation des services clients via l’IA agentique et accompagne les entreprises dans l’intégration de solutions conversationnelles intelligentes (voicebots, chatbots) pour optimiser durablement leurs parcours utilisateurs.

À retenir

  • Il existe aujourd’hui deux grandes architectures pour bâtir un agent vocal : la chaîne pipeline (Speech-to-Text, puis LLM, puis Text-to-Speech) et le modèle voice-to-voice, qui traite la parole de bout en bout.
  • Le voice-to-voice gagne sur la latence (de l’ordre d’une seconde, contre près de trois pour un pipeline) et préserve le naturel de la voix : émotions, respirations, hésitations.
  • Le pipeline garde de vrais atouts : modularité, contrôle fin à chaque étape, et capacité à capitaliser sur des briques LLM matures déjà déployées par l’entreprise.

 

Quand on parle d’« agent vocal », on parle en réalité de deux familles d’architectures bien distinctes. La distinction n’a rien d’un détail technique : elle conditionne la latence ressentie par l’utilisateur, le naturel de l’échange, le coût d’exploitation et la complexité du système à maintenir.

L’architecture pipeline : STT, LLM, TTS

C’est l’architecture historique, modulaire, éprouvée. Elle décompose la conversation en trois grandes étapes successives.

Étape 1, le Speech-to-Text (STT) L’utilisateur parle, et sa voix est transcrite en texte. C’est la brique « écoute ». Les modèles actuels atteignent un taux d’erreur sur les mots compris entre 4 et 6 %, soit à peu près le niveau d’un traducteur professionnel.

Étape 2, le LLM Le texte est passé à un modèle de langage qui devient le cerveau du système. C’est lui qui raisonne, qui décide, qui appelle des outils pour aller chercher une information (via un RAG, par exemple), qui interagit avec les systèmes métier pour écrire ou modifier des données, et qui est encadré par des garde-fous pour éviter hallucinations et dérapages. Le LLM produit une réponse, écrite.

Étape 3, le Text-to-Speech (TTS) Cette réponse écrite est lue à voix haute par un module de synthèse vocale. C’est la brique « parole ». Les voix synthétiques modernes sont devenues quasi indiscernables d’une voix humaine.

L’avantage de cette architecture, c’est sa modularité. Chaque brique peut être choisie indépendamment, mise à jour, remplacée. On peut piloter finement les coûts en choisissant un LLM plus ou moins puissant au centre du dispositif. On peut imposer des contrôles précis entre les étapes. C’est aussi l’architecture la plus naturelle quand on souhaite réutiliser des composants déjà déployés ailleurs dans l’entreprise.

Son inconvénient, c’est le passage obligé par l’écrit. Or l’écrit aplatit la conversation. Toute l’information para-verbale, le ton, l’émotion, l’hésitation, le rythme, disparaît à l’étape de la transcription. Le temps cumulé des trois étapes pèse également sur la latence : un pipeline classique introduit facilement près de 3 secondes entre la fin d’une phrase et le début de la réponse.

L’architecture voice-to-voice : un seul modèle qui écoute et qui parle

Le voice-to-voice change radicalement de paradigme. Plus de pipeline, plus de transcription intermédiaire : un seul modèle prend en entrée la voix de l’utilisateur, raisonne, décide, appelle ses outils, puis produit directement une voix en sortie.

L’utilisateur parle. Le modèle l’entend, comprend, traite, et répond à la volée. Le texte n’apparaît jamais dans le circuit principal.

Cette simplification a deux conséquences fortes.

La première, c’est la latence. En se passant de la transcription et de la synthèse séparées, on descend autour d’une seconde, voire moins. Ce n’est pas un détail : c’est la différence entre une conversation fluide et un échange poussif où chaque tour de parole se fait attendre.

La seconde, c’est la richesse du signal vocal. Comme la voix n’est jamais convertie en texte, le modèle perçoit ce qu’un système de transcription ne peut pas capter par construction : le stress, l’agacement, l’hésitation. Symétriquement, en sortie, il peut glisser des respirations, des micro-hésitations, parfois même des bruits de clavier qui rendent l’échange troublant de naturel.

C’est précisément pour ces deux raisons qu’Orange a fait ce choix en mettant en production son agent vocal Sharlie, sur la marque Sosh : une expérience proche d’un échange humain, sans cette attente caractéristique qui trahit immédiatement un bot.

Pipeline ou voice-to-voice : comment choisir

Il n’y a pas de bonne réponse universelle. Le choix dépend de plusieurs paramètres.

  1. Le naturel attendu de l’interaction. Pour une expérience conversationnelle proche d’un échange humain, où l’on veut percevoir les émotions et répondre du tac au tac, le voice-to-voice est aujourd’hui imbattable. Pour des cas d’usage plus transactionnels (consulter un solde, déclencher une commande simple), un pipeline bien réglé fait très bien le travail.
  2. La tolérance à la latence. Dès qu’on dépasse une à deux secondes de blanc, l’utilisateur perçoit qu’il parle à une machine. Sur des cas d’usage où la fluidité prime (sinistre en urgence, assistance dans la voiture), le voice-to-voice s’impose.

Le besoin de contrôle et d’auditabilité. L’architecture pipeline a un avantage qui n’est pas anodin : entre chaque étape, on peut inspecter ce qui circule, journaliser, filtrer. Sur des sujets réglementaires sensibles (finance, santé, conformité), cette traçabilité fine peut faire pencher la balance.

  1. La maturité de l’écosystème déjà déployé. Beaucoup d’entreprises ont déjà des briques LLM en production, des bases de connaissance branchées, des garde-fous éprouvés. Le pipeline permet de capitaliser dessus sans tout reconstruire. Le voice-to-voice, lui, implique souvent de repartir de modèles plus récents et moins matures côté outillage métier.
  2. Le coût. À ce jour, le voice-to-voice « full duplex » reste la brique la plus chère. Un pipeline avec un LLM intermédiaire bien dimensionné peut se révéler significativement plus économique, surtout à l’échelle.

Pipeline et voice-to-voice ne sont pas deux générations qui se succèdent : ce sont deux options qui coexistent, chacune avec sa propre logique. Le voice-to-voice ouvre des expériences inédites en matière de fluidité et de naturel. Le pipeline reste l’architecture de référence pour beaucoup de cas d’usage où la modularité, le contrôle et la maîtrise des coûts priment.

Le vrai sujet, dans les deux cas, n’est plus la voix elle-même. Il se joue au milieu : dans la capacité du système à raisonner, à appeler les bons outils, à passer la main à un humain au bon moment, et à tenir dans le temps. .

Par David Guede

Partner Data, IA et Agentique

Par Samuel Besson

Senior Manager

1 / 1
Maeva Le Menn

Programmes de fidélité : où en est-on en 2026 ?

Comment moderniser votre programme de fidélité face à la saturation ? Évitez les frictions, créez un engagement émotionnel et ROIste en 2026

Conformité IA agentique : le guide 2026 de l’AI Act

Comment préparer votre entreprise à l'AI Act de 2026 ? Maîtrisez les obligations de transparence et d'IA literacy pour votre conformité IA agentique.

Test agent vocal IA : clients virtuels et LLM-as-a-judge

Comment sécuriser et tester un agent vocal IA à l'échelle ? Utilisez les clients virtuels, le LLM-as-a-judge et le bug bounty pour éviter les dérives...

Architecture agent vocal : pipeline vs voice-to-voice

Quelle architecture agent vocal choisir entre le pipeline STT/TTS et le voice-to-voice ? Comparez latence, coûts et contrôle pour votre IA.

IA dans le tourisme : non, le conseil humain ne va pas disparaître !

Comment intégrer l'IA dans le tourisme sans perdre la relation client ? Alliez automatisation et conseil humain pour une expérience voyageur unique.

10 cas d’usage de l’agent vocal en entreprise par secteur

Comment l'IA vocale transforme-t-elle les entreprises ? Explorez 10 cas d'usage de l'agent vocal par secteur, de la banque à la santé.
charles cortes

Comment repenser la fiche produit pour la rendre compatible IA ?

Comment adapter vos PDP aux LLM ? L'optimisation fiche produit pour le GEO et les moteurs de réponse permet de maximiser vos conversions en 2026.

IA et CDP : transformer votre marketing automation et vos données

Comment l'IA et les agents autonomes révolutionnent les CDP ?

Data Foundations : comment structurer vos données pour les LLMs ?

Comment structurer vos données et API pour les LLM ? Évitez les erreurs de l'IA générative en adaptant vos contenus web pour les modèles de langage.
Antoine Margueritte

Voice-to-Voice : Mettre en place une QA exigeante pour garantir la fiabilité d’un agent vocal

Comment garantir la fiabilité d'un agent vocal IA en production ? Appliquez une QA exigeante : tests en conditions réelles, sécurité et monitoring.
charles cortes

Flux produit : industrialiser le push pour les plateformes et les LLM

Comment transformer votre flux produit en API commerce ? Utilisez l'IA pour enrichir vos données et augmenter votre ROAS de manière industrielle.

Projet IA agentique : du déterministe au probabiliste

Comment réussir votre projet IA agentique ? Adoptez une approche probabiliste pour la gouvernance des données, la validation et la supervision.