REX agent vocal : les coulisses du projet Sharlie d’Orange

Article Agent vocal 01.07.2026
Par Baptiste Couaillet et David Guede

Ce retour d’expérience est le fruit d’une collaboration étroite entre les équipes Orange et Converteo autour du projet Charlie. Il est co-rédigé par Bénédicte Le Jeune, Directrice Performance, Expérience Client et Transformation chez Orange, et François Burlacot, Head of GenAI pour la marque Sosh, ainsi que par David Guede, Partner Data / IA et Expert Agentique chez Converteo, qui a accompagné le projet de son cadrage initial jusqu’à sa mise en production, et Baptiste Couaillet, Senior Manager Data & IA et Responsable solution sur Charlie.


À retenir

  • Le 16 mars 2026, Orange a mis en production l’un des tout premiers agents vocaux au monde en architecture voice-to-voice sur un service client réel, sur sa marque Sosh, auprès de 4 millions d’abonnés.
  • Le pari technologique était de partir d’un modèle qui n’était pas encore sorti au démarrage du projet. Ce choix, structurant, n’a jamais été modifié pendant les 12 mois suivants. Il a permis d’éviter une migration douloureuse d’un pipeline STT/TTS vers du voice-to-voice après coup.
  • Trois enseignements ressortent : un agent vocal n’est pas un projet IT, mais un projet mi-tech, mi-relation client ; la validation par les conseillers est ce qui distingue un POC d’un service en production ; et la donnée structurée pour le web est l’un des plafonds techniques les plus durables.

Introduction

Le 16 mars 2026, sur le 20 heures de TF1, un nouveau venu fait son entrée dans le service client français : Sharlie, conseiller vocal d’Orange pour sa marque Sosh. Disponible 24 heures sur 24, 7 jours sur 7, Sharlie est capable d’expliquer une facture, de souscrire une option, de prendre un forfait. Il parle. Il écoute. Il interrompt et accepte d’être interrompu. Il glisse quelques respirations qui troublent un instant son interlocuteur. Et surtout, il a passé en production l’une des plateformes les plus récentes de l’industrie, à un moment où la plupart des acteurs en étaient encore aux PoC.

Sharlie, c’est l’aboutissement d’un projet lancé un an plus tôt, dans le cadre du programme First d’Orange France. C’est aussi un cas d’école sur ce que veut dire passer de la promesse à la réalité dans le monde des agents vocaux : les paris technologiques tenus, les méthodes inventées au passage, et les leçons apprises à chaque étape. Voici ce qu’on en retient.

Pourquoi Sharlie : un programme et une marque

Pour comprendre Sharlie, il faut comprendre le contexte. Orange est, selon les mots de Bénédicte Le Jeune, « un opérateur de référence, sur le réseau et sur la relation ». Fin 2024, le comité exécutif d’Orange France lance le programme First, qui place la relation client au cœur de la transformation : relation avec les conseillers d’une part, relation avec les clients de l’autre, sur les deux marques Orange et Sosh.

Dans ce contexte, Sosh occupe une place particulière. C’est une marque historiquement innovante, à l’ADN digital fort, qui s’est faite connaître par son autonomie et sa simplicité. Le site, l’application, sont excellents, mais ils restent par nature textuels. L’intuition initiale : amener du vocal et de l’agentique sur Sosh, c’est faire un véritable bond en avant en simplicité, en fluidité, en relation. C’est aussi réaffirmer le caractère innovant d’une marque qui a, pour certains clients, fini par s’installer dans une forme de routine.

Sharlie est l’incarnation de ce pari : un véritable conseiller virtuel, branché aux systèmes back-office, capable de mener une conversation utile jusqu’au bout.

Le pari du voice-to-voice

C’est la décision la plus structurante du projet. Et elle a été prise très tôt, dès avril 2024, à un moment où le modèle voice-to-voice d’OpenAI n’était pas encore disponible en production (sa version générale est sortie en août 2025).

Pourquoi prendre ce risque ? Pour deux raisons.

La première, c’est la latence. Comme l’explique François Burlacot, directeur technique du projet, une chaîne STT/TTS introduit facilement près de 3 secondes entre la fin d’une phrase du client et le début de la réponse de l’agent. En voice-to-voice, on tombe autour d’une seconde, voire moins. La différence, pour l’utilisateur, n’est pas marginale : c’est ce qui sépare une conversation d’un échange poussif.

La seconde, c’est le naturel de la voix. Quand on passe par la transcription, on perd l’émotion. Les modèles voice-to-voice, à l’inverse, gardent toute la richesse du signal vocal. « Des fois on entend des respirations faites par le modèle, des fois on entend des bruits de clavier », observe François. Des détails qui rendent l’échange étrangement humain, et qui sont impossibles à reproduire avec un pipeline classique.

À ces raisons s’en ajoute une troisième, plus stratégique : éviter la migration. Faire un agent en STT/TTS puis le faire évoluer ensuite en voice-to-voice, c’est un chantier énorme. En pariant d’emblée sur la cible, l’équipe d’Orange s’évite ce coût futur. Bien sûr, à un coût présent : travailler avec une technologie qui n’existe pas encore.

Le fait remarquable, ensuite, c’est que ce choix n’a jamais été remis en question pendant les 12 mois suivants. Comme le note Baptiste Couaillet, dans un domaine où la vérité d’hier n’est pas celle d’aujourd’hui, garder un cadre technologique stable est précisément ce qui permet à un projet d’arriver en production. Tous les engagements des partenaires ont été tenus. Sharlie est passé en production sans retard sur la partie infrastructure ni produit.

L’architecture : une trentaine d’agents orchestrés

Sharlie n’est pas un agent unique : c’est une constellation d’une trentaine d’agents spécialisés, qui se passent la main selon les besoins du client.

Vue de loin, l’architecture tient en quelques briques. Côté client, un SDK est embarqué sur l’application Sosh et sur le web. Il transmet la voix à une plateforme d’orchestration, hébergée sur un tenant Azure Orange, donc en cloud européen. Cette plateforme orchestre les différents agents, qui appellent eux-mêmes le modèle voice-to-voice (Real-Time d’OpenAI) pour la couche conversationnelle.

Chaque agent a son rôle. L’un gère l’authentification. Un autre gère les questions de facture. Un autre l’acquisition d’un pass voyage. Un autre les options. Chacun s’appuie sur des API internes Orange pour récupérer les données dont il a besoin (catalogue produit, factures, état du compte) et pour déclencher des actions (souscription d’une option, push d’une information dans l’application Sosh).

Cette architecture multi-agents est devenue le standard pour les déploiements industriels, et pour de bonnes raisons. Elle permet de spécialiser chaque agent sur un périmètre maîtrisé, d’isoler les erreurs, de faire évoluer chaque brique indépendamment, et d’escalader vers un humain quand c’est nécessaire.

La méthode : valider comme on forme un conseiller en centre d’appel

L’une des originalités du projet, c’est la méthode de validation. Plutôt que d’inventer un processus ex nihilo, l’équipe s’est inspirée de ce qui se fait pour la montée en compétence d’un nouveau conseiller en centre d’appel.

Étape 1 : la mise au point bac à sable. Un data scientist et un conseiller métier travaillent en duo. Le conseiller transmet les parcours métier, les détails des intentions, les règles. Le data scientist construit, ajuste, affine. Le processus s’arrête quand le conseiller métier juge la qualité satisfaisante.

Étape 2 : la validation par la référente service client. Une personne centrale dans le projet, qui connaît à la fois très bien les clients et qui a passé des milliers (voire plus) d’appels. Elle sait à quel niveau d’énervement un client peut arriver, ce qui marche et ce qui ne marche pas. Elle valide deux ou trois scénarios par intention, pour confirmer que la qualité passerait sur un centre d’appel réel.

Étape 3 : la validation par d’autres conseillers et clients. Tous les scénarios sont rejoués avec d’autres conseillers et avec des profils clients variés, pour vérifier que la robustesse tient sur la diversité réelle.

Cette discipline a été ce qui a transformé Sharlie d’un PoC en MVP exploitable en production.

Du déterministe au probabiliste : un changement d’état d’esprit

Sharlie a été l’occasion d’une prise de conscience plus large, qui dépasse largement le projet : le passage d’un monde déterministe à un monde probabiliste.

Dans le digital classique, un test qui passe une fois passe en général la fois d’après. Dans un système IA, ce n’est plus vrai : ça peut marcher 99 fois et casser à la centième. En conséquences :

  • La gouvernance de la donnée doit évoluer. Sur Sharlie, l’équipe a découvert une intention qui échouait une fois sur deux : les forfaits couvrant le Maroc ou la Suisse. La cause n’était pas l’intelligence du modèle, mais le format des données qu’on lui fournissait. Ces données avaient été structurées pour un site web, donc claires pour un humain qui regarde une page, mais illisibles pour un LLM qui les reçoit sous forme d’API. C’est un chantier de fond : « il y en a pour 10 ans ».
  • Les clients virtuels deviennent indispensables. Pour détecter un cas sur 100 ou un cas sur 1000, il faut un système qui rejoue automatiquement de grands volumes de conversations, complété par un LLM-as-a-judge qui en évalue la qualité. C’est cette infrastructure qui permet d’itérer en production sans peur de la régression.
  • L’observabilité doit combiner les deux mondes. Les logs déterministes classiques (latence, erreurs, appels d’outils) restent utiles, mais ils ne disent rien de la qualité. Il faut les croiser avec les évaluations qualitatives produites par le LLM-as-a-judge. Cette combinaison est ce qui rend la supervision réellement actionnable.

Sécurité : le bug bounty spécifique à l’IA vocale

Côté sécurité, l’équipe a fait le choix de transposer une pratique éprouvée dans l’univers cyber : le bug bounty. Le programme classique d’Orange était déjà en place avec un partenaire reconnu. Restait à l’étendre à l’IA, c’est-à-dire à des modes d’attaque très spécifiques (injections de prompt, tentatives de manipulation conversationnelle, exfiltration d’information).

Une quarantaine d’experts ont participé au programme, et ont trouvé des failles intéressantes. Le programme a été construit pour cela : grille de rétribution adaptée (Sharlie qui se trompe sur une offre vaut plus qu’un Sharlie qui vous appelle Bob au lieu de David), classification des failles, partenariat avec un acteur spécialisé.

C’est aujourd’hui l’un des premiers programmes de ce type sur un agent conversationnel en production en France, et déjà un standard de demain.

Par Baptiste Couaillet

Senior Manager - Data & IA

Par David Guede

Partner Data, IA et Agentique

1 / 1
Debora Cohen & Samuel Besson

Comment intégrer le RGPD et l’AI Act à votre agent vocal ?

Comment intégrer le RGPD et l'AI Act à votre agent vocal ? Sécurisez les données biométriques et gérez les PII à l'oral dès la phase de cadrage.

REX agent vocal : les coulisses du projet Sharlie d’Orange

Comment Orange a-t-il mis en production Sharlie, son agent vocal voice-to-voice ? Découvrez l'architecture multi-agents et la méthode de validation.

Search vocal BtoB : bilan des premiers déploiements

Comment le search vocal transforme-t-il le retail et le BtoB ? Analysez les chiffres d'adoption, les KPI et les bonnes pratiques d'intégration UX.

Industrialiser un agent vocal : la méthode en 5 étapes

Comment passer du POC à la production pour votre agent vocal ? Suivez notre méthodologie en 5 étapes pour sécuriser et scaler votre projet d'IA vocal...
Maeva Le Menn

Fidélité dans le luxe : transposer les codes du premium à la fidélisation

Comment créer un programme de fidélité luxe sans dévaluer votre marque ? Découvrez les stratégies premium pour transformer vos clients en membres
tommy-lambert

Au-delà du code : l’architecture multi-agents est la prochaine frontière de notre gouvernance IT

Pourquoi l'architecture multi-agents est-elle la nouvelle frontière de la gouvernance IT ? Optimisez vos workflows et triplez votre productivité

Agents vocaux en 2026 : qu’est-ce qui change vraiment ?

Comment les agents vocaux révolutionnent-ils les interactions en 2026 ?
Maeva Le Menn

Programme à points ou à statuts : comment choisir le bon modèle pour son programme de fidélité ?

Comment choisir le bon modèle de programme de fidélité ? Découvrez les avantages des mécaniques à points, à statuts ou hybrides pour engager vos clie...

Converteo Launches an International AI and Agentic Systems Offering Dedicated to the Pharma & Life Sciences Industry

Rolled out across all markets where Converteo operates (France, Italy, Spain, the United States, and Canada), this new offering enables healthcare pl...

Converteo lance une offre en IA et systèmes agentiques dédiée à l’industrie pharmaceutique

Communiqué de presse, 12 juin 2026 Déployée sur l’ensemble des marchés où Converteo est présent (France, Italie, Espagne, États-Unis et Canada), ce...

Converteo accélère son expansion internationale avec la nomination de 3 Partners et l’ouverture de 2 nouveaux bureaux à Toronto et Milan

Paris, 23 juin 2026 – Converteo, cabinet de conseil leader en Data & IA, franchit une étape majeure dans son déploiement mondial. Déjà présent à ...
Maeva Le Menn

Fidélité dans le travel : pourquoi 90 % des programmes sont à statuts ?

Comment le secteur du voyage utilise-t-il les statuts pour fidéliser ? Inspirez-vous des stratégies d'Air France et Accor pour maximiser la rétention...