Voice-to-Voice : Mettre en place une QA exigeante pour garantir la fiabilité d’un agent vocal
Consultant Product Builder Data & IA chez Converteo, Antoine accompagne les organisations dans la conception et le déploiement de solutions digitales complexes. Expert en IA agentique, gestion de projet agile et qualité produit, il intervient à l’intersection des besoins métier et des développements techniques. Son parcours, de data analyst à Product Owner sur des projets IA en production, lui a forgé une conviction : ce qui différencie une IA réussie d’un gadget coûteux, c’est sa capacité à délivrer en conditions réelles.
À retenir :
● La QA n’est pas optionnelle dans un projet IA : elle est ce qui fait la différence entre une démo impressionnante et un produit dans lequel vos utilisateurs ont durablement confiance.
● Tester en conditions réelles change tout : un agent vocal qui performe en laboratoire peut s’effondrer face au bruit de la rue. Le Field Testing n’est pas un luxe, c’est une nécessité.
● La supervision post-lancement est aussi importante que les tests pré-lancement : avec l’IA générative, le comportement du modèle évolue. Seul un monitoring continu permet d’en garder le contrôle.
S’il existe un pan souvent sous-estimé dans le rôle du Product Manager ou du Product Owner, c’est bien celui de la QA. Pourtant, cette expertise est absolument centrale : c’est elle qui garantit un produit fiable, adopté et générateur de satisfaction utilisateur durable.
Quand le produit en question est un agent Voice-to-Voice boosté à l’IA générative, les sources potentielles d’erreurs se multiplient à chaque couche du système. Déployer une IA générative en production, c’est bien. Le faire avec rigueur, sécurité et résultats mesurables, c’est mieux. Chez Sosh, le lancement de Sharlie, une solution Voice-to-Voice intégrée aux applications web et mobile, a reposé sur une discipline exigeante : la Qualité de Performance Métier (QPM). Retour d’expérience sur une approche qui transforme une promesse technologique en service client concret.
Une architecture multi-agents pensée pour la performance
Sharlie n’est pas un simple chatbot vocal. Derrière cette expérience fluide se cache un système multi-agents orchestré par un LLM, connecté en temps réel aux systèmes d’information d’Orange via API.
La clé de sa fiabilité ? Une segmentation claire des responsabilités : chaque agent couvre un domaine précis (Commerce, Self-Care, Support) avec des instructions dédiées pour chaque outil. Cette architecture permet d’isoler les flux critiques (souscrire une option, consulter une facture) et d’appliquer une logique métier rigoureuse à chaque étape.
Une stratégie de tests qui va au-delà du laboratoire
Atteindre un niveau de performance industriel ne s’improvise pas. La QPM s’appuie sur une stratégie de tests End-to-End (E2E) structurée en cinq catégories complémentaires, combinant exécution manuelle et automatisation.
1. Tests fonctionnels : du premier mot à l’acte métier
Les tests fonctionnels constituent le socle de la QPM. Ils couvrent l’intégralité du parcours client, de la captation de l’intention vocale jusqu’à la confirmation de l’acte métier dans les systèmes d’information. Deux axes sont systématiquement couverts :
- Tests End-to-End (E2E) : Chaque agent est soumis à des scénarios construits autour des intentions réelles des utilisateurs. L’objectif est de valider la fluidité du parcours, de s’assurer qu’aucune étape n’est orpheline et que la résolution est complète.
- Validation de la boucle de rétroaction : La précision des réponses et la qualité des résumés post-conversation sont évaluées en continu. Elles sont enrichies par les retours directs des utilisateurs, notamment via les notations collectées en fin de parcours pour affiner le modèle à chaque itération.
2. Intégrations API : zéro tolérance pour les erreurs de données
Chaque interaction vocale peut déboucher sur un acte métier réel : souscription, résiliation ou modification de contrat. C’est pourquoi les intégrations API ont été testées avec une exigence maximale, en ciblant deux risques critiques :
- Hallucinations sur les données (GET) : Les informations clients et les offres affichées doivent être strictement exactes. Toute approximation de l’IA sur des données factuelles est inacceptable dans un contexte commercial.
- Fiabilité transactionnelle (POST/DELETE) : Toute action vocale doit se traduire immédiatement par une mise à jour correcte dans l’Espace Client. Les tests vérifient systématiquement la cohérence entre ce que l’IA confirme à l’oral et ce qui est réellement enregistré dans les systèmes.
3. Sécurité & éthique : des garde-fous à toute épreuve
Une IA conversationnelle expose inévitablement une surface d’attaque. Pour protéger Sharlie, une stratégie de sécurité en deux volets a été déployée :
- Conformité et guardrails :* L’IA est entraînée à décliner avec élégance toute demande hors-scope (politique, météo, conseils personnels) pour rester centrée sur l’univers Sosh. Ce périmètre strict protège autant l’utilisateur que la marque.
- Campagnes de robustesse (Bug Bounty) :* Des bug hunters ont été mobilisés pour tester la résistance de Sharlie aux attaques les plus courantes, comme le Prompt Leaking (extraction des instructions système) et le System Prompt Bypass (tentative de briser le persona du bot). Au-delà de la sécurité technique, ces tests visent également à protéger les données sensibles des utilisateurs. Chaque campagne alimente un cycle d’amélioration continue des directives de l’IA.
4. Field Testing : quand l’IA tient la route en conditions réelles
Le Voice-to-Voice pose un défi souvent sous-estimé : le bruit ambiant. Des sessions de Field Testing en conditions réelles (bruits de rue, trafic, musique) ont permis d’évaluer deux aspects critiques :
- Robustesse audio : La capacité de Sharlie à isoler la voix du client dans n’importe quel environnement sonore, quel que soit le terminal utilisé (iOS, Android, Web).
- Voice Activity Detection (VAD) : Un indicateur clé a guidé ces tests : le Stop Latency, soit la capacité de l’IA à s’interrompre instantanément dès qu’une voix humaine est détectée. Un détail technique qui fait toute la différence dans la naturalité de l’échange.
5. Performance & charge : tenir à l’échelle
Un agent vocal performant en conditions normales doit également résister aux pics d’usage. Deux indicateurs ont été suivis de près :
- Latence (TTFB) : Le temps de réponse de l’IA est mesuré en continu pour garantir une conversation naturelle et fluide. L’interruption immédiate du flux dès qu’un utilisateur reprend la parole est un critère non négociable.
- Tests de montée en charge : Des simulations ont validé la capacité de Sharlie à traiter plusieurs centaines de conversations simultanées sans dégradation de la qualité de service.
Le monitoring continu : l’IA comme juge de l’IA
La QPM ne s’arrête pas le jour du lancement. Grâce à un outil de supervision dédié, chaque conversation est analysée en temps réel selon une approche « LLM as Judge », où une IA évalue la qualité d’une autre. Cinq dimensions sont suivies en continu :
1. Fiabilité technique : Détection des boucles infinies et des échecs d’outils.
2. Qualité relationnelle : Empathie, ton, capacité de reformulation.
3. Efficacité métier : Résolution complète de la demande client.
4. Stratégie commerciale : Pertinence des offres et clarté des réponses.
5. Sécurité : Résistance aux tentatives de détournement.
Résultat : des centaines de conversations traitées par jour, en toute confiance
La Qualité de Performance Métier n’est pas une contrainte, c’est un levier de valeur. En combinant une architecture multi-agents robuste, des tests en conditions réelles couvrant cinq dimensions critiques et une supervision automatisée post-lancement, Sharlie est aujourd’hui capable de gérer 500 conversations quotidiennes avec fiabilité, fluidité et sécurité.
C’est cela, transformer une innovation technologique en une expérience client qui tient ses promesses.
A l’heure de l’IA et de son fonctionnement intrinsèquement probabiliste (où le modèle ne garantit jamais un résultat déterministe), redoublez d’attention sur la QA. Plus que jamais, c’est elle qui fait la différence entre un produit qui impressionne en démo et un produit dans lequel vos utilisateurs ont vraiment confiance.