Projet IA agentique : du déterministe au probabiliste

Article Agentique 01.06.2026

Par David Guede

David Guede, Partner Data / IA et Expert Agentique chez Converteo, est spécialisé dans le déploiement d’architectures d’IA en production. Il accompagne les entreprises dans l’industrialisation d’agents intelligents, transformant des processus métiers complexes en véritables leviers de performance et d’avantage concurrentiel.

À retenir

Le digital classique est déterministe : un test qui passe une fois passe en général la fois d’après. Les systèmes à base d’IA générative sont probabilistes : ça peut marcher 99 fois et casser à la centième. Cela ne change pas seulement les outils, cela change l’état d’esprit.
Trois aspects structurent ce changement : faire évoluer la gouvernance de la donnée pour les LLM, mettre en place un volume de tests probabilistes suffisant, et coupler les logs déterministes avec une évaluation par LLM pour superviser l’agent.
Le bon réflexe pour les décideurs : accepter explicitement, au niveau du sponsor, qu’on ne peut pas garantir 100 %. C’est cet alignement qui rend les projets possibles.

Pendant deux décennies, les équipes digitales ont travaillé dans un monde déterministe. Une page testée fonctionne. Un workflow validé fait deux fois la même chose. Un bug, c’est un bug : il se reproduit, on le corrige, il disparaît. Cette prédictibilité a structuré nos méthodes, nos outils, nos rôles, nos arbitrages.

Les systèmes à base d’IA générative cassent cette logique. Une même question posée à un même modèle peut produire deux réponses différentes. Un agent qui répond bien dans 99 cas peut dérailler à la centième. Et ce n’est pas un défaut à corriger : c’est une propriété structurelle de la technologie.

Ce passage du déterministe au probabiliste n’est pas qu’un sujet technique. Il impose un véritable changement d’état d’esprit, à tous les niveaux de l’organisation : ingénierie, métier, gouvernance, sponsors.

Faire évoluer la gouvernance de la donnée

C’est le sujet le plus sous-estimé, et probablement le plus structurant à long terme. La gouvernance de la donnée, dans la plupart des grandes organisations, a été pensée pour le digital. Les contenus sont structurés pour être affichés sur des sites web, parcourus par des utilisateurs humains, indexés par des moteurs de recherche.

Demain, ces mêmes données seront aussi lues, interprétées et restituées par des LLM. Et ce qui est lisible pour un humain ne l’est pas nécessairement pour un modèle. L’exemple qui a marqué les équipes d’Orange sur le projet Charlie est éclairant : sur certaines questions liées aux forfaits couvrant le Maroc ou la Suisse, l’agent se trompait une fois sur deux. La cause n’était pas un défaut d’intelligence du modèle. C’était que les données qu’on lui fournissait en entrée avaient été structurées pour un site web : un gros bloc d’information clair pour un humain, mais dans lequel l’agent se perdait.

La leçon est large. Toute la chaîne (API, bases de connaissance, contenus métier, fiches produits) doit être progressivement repensée pour que ses sorties soient interprétables par un LLM.

Comment structurer un tableau ?
Comment expliciter une condition d’éligibilité ?
Comment hiérarchiser une fiche tarifaire ?

Industrialiser la validation par le volume

Dans un monde déterministe, on teste quelques cas représentatifs. Dans un monde probabiliste, ce n’est plus suffisant. Si une erreur n’apparaît qu’une fois sur cent, ou une fois sur mille, on ne la trouvera jamais en testant à la main.

Il faut donc industrialiser la génération de conversations et leur évaluation. Concrètement, cela passe par deux briques complémentaires : des clients virtuels qui rejouent automatiquement un grand volume de conversations variées, et un LLM-as-a-judge qui évalue la qualité des réponses sur des critères explicites.

Cette infrastructure devient l’équivalent, pour un agent vocal, de ce qu’est une suite d’A/B tests pour un site web : un outil de pilotage permanent, qui permet de détecter une dérive avant qu’elle n’atteigne les utilisateurs réels.

L’enjeu n’est pas seulement technique. Il est organisationnel :

qui définit les critères d’évaluation ?
Qui interprète les résultats ?
Qui décide d’arrêter un déploiement quand le score se dégrade ?

Ce sont de nouveaux rôles, qui n’existaient pas avec la même intensité dans l’organisation digitale classique.

Superviser en combinant déterministe et probabiliste

L’observabilité change elle aussi de nature. Sur une application classique, on a l’habitude des logs : structurés, déterministes, faciles à requêter. On sait que tel appel API a échoué, que telle latence a dépassé un seuil, que telle erreur s’est produite à telle heure.

Sur un agent vocal, ces logs existent toujours, et ils restent essentiels. Mais ils ne disent rien de la qualité de l’échange. Un appel peut être techniquement parfait (pas d’erreur, latence correcte, transcription propre) et complètement raté du point de vue du client (réponse hors sujet, ton inadapté, information fausse).

La supervision moderne combine donc deux sources d’information :

Les logs déterministes, pour le suivi technique de la plateforme (latence, taux d’erreur, appels d’outils, boucles inattendues entre agents).
Les évaluations par LLM, pour le suivi qualitatif (pertinence de la réponse, respect de la posture de marque, exactitude factuelle, satisfaction implicite du client).

Quand on parvient à croiser ces deux sources, on comprend beaucoup mieux ce qui se passe : une latence qui explose en même temps qu’une chute de qualité signale autre chose qu’une dérive de qualité isolée. C’est la combinaison qui rend l’observabilité utile pour piloter.

Le rôle décisif des sponsors

Tout ce qui précède peut être mis en place techniquement. Mais cela ne suffit pas si les sponsors du projet, au plus haut niveau, n’ont pas intégré ce changement de paradigme.

Le piège classique : une équipe projet à qui l’on demande de garantir 100 %. Dans un monde probabiliste, c’est impossible, et le promettre serait malhonnête. À l’inverse, accepter explicitement, au niveau de la gouvernance, que certains thèmes critiques doivent rester à 100 % (et donc être traités hors agent IA, ou avec un filet de sécurité fort), tandis que d’autres tolèrent une marge d’erreur maîtrisée, est la condition pour pouvoir avancer.

Cet alignement des sponsors est souvent ce qui sépare les projets qui aboutissent de ceux qui restent au stade de POC. Pas un alignement parfait, ce qui serait illusoire sur un sujet aussi neuf, mais un alignement réel sur la prise de risque que représente la mise en production.

Le passage du déterministe au probabiliste n’est pas un sujet à laisser aux seules équipes techniques. Il touche la donnée, les méthodes de validation, l’observabilité, et la gouvernance. Il demande aux directions métier d’accepter une part d’incertitude, et aux directions techniques de la rendre maîtrisable par des outils nouveaux.

Les équipes qui prennent la mesure de ce changement construisent les bons réflexes dès aujourd’hui. Elles savent qu’un projet d’agent vocal réussi n’est pas un projet où tout marche du premier coup, mais un projet où l’on peut détecter vite ce qui ne marche pas et le corriger encore plus vite. C’est cette capacité, plus que la qualité du modèle choisi, qui fera la différence dans les années à venir.

Par David Guede

Partner Data, IA et Agentique

Partager l'article :