REX agent vocal : les coulisses du projet Sharlie d’Orange
Ce retour d’expérience est le fruit d’une collaboration étroite entre les équipes Orange et Converteo autour du projet Charlie. Il est co-rédigé par Bénédicte Le Jeune, Directrice Performance, Expérience Client et Transformation chez Orange, et François Burlacot, Head of GenAI pour la marque Sosh, ainsi que par David Guede, Partner Data / IA et Expert Agentique chez Converteo, qui a accompagné le projet de son cadrage initial jusqu’à sa mise en production, et Baptiste Couaillet, Senior Manager Data & IA et Responsable solution sur Charlie.
À retenir
- Le 16 mars 2026, Orange a mis en production l’un des tout premiers agents vocaux au monde en architecture voice-to-voice sur un service client réel, sur sa marque Sosh, auprès de 4 millions d’abonnés.
- Le pari technologique était de partir d’un modèle qui n’était pas encore sorti au démarrage du projet. Ce choix, structurant, n’a jamais été modifié pendant les 12 mois suivants. Il a permis d’éviter une migration douloureuse d’un pipeline STT/TTS vers du voice-to-voice après coup.
- Trois enseignements ressortent : un agent vocal n’est pas un projet IT, mais un projet mi-tech, mi-relation client ; la validation par les conseillers est ce qui distingue un POC d’un service en production ; et la donnée structurée pour le web est l’un des plafonds techniques les plus durables.
Introduction
Le 16 mars 2026, sur le 20 heures de TF1, un nouveau venu fait son entrée dans le service client français : Sharlie, conseiller vocal d’Orange pour sa marque Sosh. Disponible 24 heures sur 24, 7 jours sur 7, Sharlie est capable d’expliquer une facture, de souscrire une option, de prendre un forfait. Il parle. Il écoute. Il interrompt et accepte d’être interrompu. Il glisse quelques respirations qui troublent un instant son interlocuteur. Et surtout, il a passé en production l’une des plateformes les plus récentes de l’industrie, à un moment où la plupart des acteurs en étaient encore aux PoC.
Sharlie, c’est l’aboutissement d’un projet lancé un an plus tôt, dans le cadre du programme First d’Orange France. C’est aussi un cas d’école sur ce que veut dire passer de la promesse à la réalité dans le monde des agents vocaux : les paris technologiques tenus, les méthodes inventées au passage, et les leçons apprises à chaque étape. Voici ce qu’on en retient.
Pourquoi Sharlie : un programme et une marque
Pour comprendre Sharlie, il faut comprendre le contexte. Orange est, selon les mots de Bénédicte Le Jeune, « un opérateur de référence, sur le réseau et sur la relation ». Fin 2024, le comité exécutif d’Orange France lance le programme First, qui place la relation client au cœur de la transformation : relation avec les conseillers d’une part, relation avec les clients de l’autre, sur les deux marques Orange et Sosh.
Dans ce contexte, Sosh occupe une place particulière. C’est une marque historiquement innovante, à l’ADN digital fort, qui s’est faite connaître par son autonomie et sa simplicité. Le site, l’application, sont excellents, mais ils restent par nature textuels. L’intuition initiale : amener du vocal et de l’agentique sur Sosh, c’est faire un véritable bond en avant en simplicité, en fluidité, en relation. C’est aussi réaffirmer le caractère innovant d’une marque qui a, pour certains clients, fini par s’installer dans une forme de routine.
Sharlie est l’incarnation de ce pari : un véritable conseiller virtuel, branché aux systèmes back-office, capable de mener une conversation utile jusqu’au bout.
Le pari du voice-to-voice
C’est la décision la plus structurante du projet. Et elle a été prise très tôt, dès avril 2024, à un moment où le modèle voice-to-voice d’OpenAI n’était pas encore disponible en production (sa version générale est sortie en août 2025).
Pourquoi prendre ce risque ? Pour deux raisons.
La première, c’est la latence. Comme l’explique François Burlacot, directeur technique du projet, une chaîne STT/TTS introduit facilement près de 3 secondes entre la fin d’une phrase du client et le début de la réponse de l’agent. En voice-to-voice, on tombe autour d’une seconde, voire moins. La différence, pour l’utilisateur, n’est pas marginale : c’est ce qui sépare une conversation d’un échange poussif.
La seconde, c’est le naturel de la voix. Quand on passe par la transcription, on perd l’émotion. Les modèles voice-to-voice, à l’inverse, gardent toute la richesse du signal vocal. « Des fois on entend des respirations faites par le modèle, des fois on entend des bruits de clavier », observe François. Des détails qui rendent l’échange étrangement humain, et qui sont impossibles à reproduire avec un pipeline classique.
À ces raisons s’en ajoute une troisième, plus stratégique : éviter la migration. Faire un agent en STT/TTS puis le faire évoluer ensuite en voice-to-voice, c’est un chantier énorme. En pariant d’emblée sur la cible, l’équipe d’Orange s’évite ce coût futur. Bien sûr, à un coût présent : travailler avec une technologie qui n’existe pas encore.
Le fait remarquable, ensuite, c’est que ce choix n’a jamais été remis en question pendant les 12 mois suivants. Comme le note Baptiste Couaillet, dans un domaine où la vérité d’hier n’est pas celle d’aujourd’hui, garder un cadre technologique stable est précisément ce qui permet à un projet d’arriver en production. Tous les engagements des partenaires ont été tenus. Sharlie est passé en production sans retard sur la partie infrastructure ni produit.
L’architecture : une trentaine d’agents orchestrés
Sharlie n’est pas un agent unique : c’est une constellation d’une trentaine d’agents spécialisés, qui se passent la main selon les besoins du client.
Vue de loin, l’architecture tient en quelques briques. Côté client, un SDK est embarqué sur l’application Sosh et sur le web. Il transmet la voix à une plateforme d’orchestration, hébergée sur un tenant Azure Orange, donc en cloud européen. Cette plateforme orchestre les différents agents, qui appellent eux-mêmes le modèle voice-to-voice (Real-Time d’OpenAI) pour la couche conversationnelle.
Chaque agent a son rôle. L’un gère l’authentification. Un autre gère les questions de facture. Un autre l’acquisition d’un pass voyage. Un autre les options. Chacun s’appuie sur des API internes Orange pour récupérer les données dont il a besoin (catalogue produit, factures, état du compte) et pour déclencher des actions (souscription d’une option, push d’une information dans l’application Sosh).
Cette architecture multi-agents est devenue le standard pour les déploiements industriels, et pour de bonnes raisons. Elle permet de spécialiser chaque agent sur un périmètre maîtrisé, d’isoler les erreurs, de faire évoluer chaque brique indépendamment, et d’escalader vers un humain quand c’est nécessaire.
La méthode : valider comme on forme un conseiller en centre d’appel
L’une des originalités du projet, c’est la méthode de validation. Plutôt que d’inventer un processus ex nihilo, l’équipe s’est inspirée de ce qui se fait pour la montée en compétence d’un nouveau conseiller en centre d’appel.
Étape 1 : la mise au point bac à sable. Un data scientist et un conseiller métier travaillent en duo. Le conseiller transmet les parcours métier, les détails des intentions, les règles. Le data scientist construit, ajuste, affine. Le processus s’arrête quand le conseiller métier juge la qualité satisfaisante.
Étape 2 : la validation par la référente service client. Une personne centrale dans le projet, qui connaît à la fois très bien les clients et qui a passé des milliers (voire plus) d’appels. Elle sait à quel niveau d’énervement un client peut arriver, ce qui marche et ce qui ne marche pas. Elle valide deux ou trois scénarios par intention, pour confirmer que la qualité passerait sur un centre d’appel réel.
Étape 3 : la validation par d’autres conseillers et clients. Tous les scénarios sont rejoués avec d’autres conseillers et avec des profils clients variés, pour vérifier que la robustesse tient sur la diversité réelle.
Cette discipline a été ce qui a transformé Sharlie d’un PoC en MVP exploitable en production.
Du déterministe au probabiliste : un changement d’état d’esprit
Sharlie a été l’occasion d’une prise de conscience plus large, qui dépasse largement le projet : le passage d’un monde déterministe à un monde probabiliste.
Dans le digital classique, un test qui passe une fois passe en général la fois d’après. Dans un système IA, ce n’est plus vrai : ça peut marcher 99 fois et casser à la centième. En conséquences :
- La gouvernance de la donnée doit évoluer. Sur Sharlie, l’équipe a découvert une intention qui échouait une fois sur deux : les forfaits couvrant le Maroc ou la Suisse. La cause n’était pas l’intelligence du modèle, mais le format des données qu’on lui fournissait. Ces données avaient été structurées pour un site web, donc claires pour un humain qui regarde une page, mais illisibles pour un LLM qui les reçoit sous forme d’API. C’est un chantier de fond : « il y en a pour 10 ans ».
- Les clients virtuels deviennent indispensables. Pour détecter un cas sur 100 ou un cas sur 1000, il faut un système qui rejoue automatiquement de grands volumes de conversations, complété par un LLM-as-a-judge qui en évalue la qualité. C’est cette infrastructure qui permet d’itérer en production sans peur de la régression.
- L’observabilité doit combiner les deux mondes. Les logs déterministes classiques (latence, erreurs, appels d’outils) restent utiles, mais ils ne disent rien de la qualité. Il faut les croiser avec les évaluations qualitatives produites par le LLM-as-a-judge. Cette combinaison est ce qui rend la supervision réellement actionnable.
Sécurité : le bug bounty spécifique à l’IA vocale
Côté sécurité, l’équipe a fait le choix de transposer une pratique éprouvée dans l’univers cyber : le bug bounty. Le programme classique d’Orange était déjà en place avec un partenaire reconnu. Restait à l’étendre à l’IA, c’est-à-dire à des modes d’attaque très spécifiques (injections de prompt, tentatives de manipulation conversationnelle, exfiltration d’information).
Une quarantaine d’experts ont participé au programme, et ont trouvé des failles intéressantes. Le programme a été construit pour cela : grille de rétribution adaptée (Sharlie qui se trompe sur une offre vaut plus qu’un Sharlie qui vous appelle Bob au lieu de David), classification des failles, partenariat avec un acteur spécialisé.
C’est aujourd’hui l’un des premiers programmes de ce type sur un agent conversationnel en production en France, et déjà un standard de demain.