Data Foundations : comment structurer vos données pour les LLMs ?
David Guede, Partner Data / IA et Expert Agentique chez Converteo, est spécialisé dans le déploiement d’architectures d’IA en production. Il accompagne les entreprises dans l’industrialisation d’agents intelligents, transformant des processus métiers complexes en véritables leviers de performance et d’avantage concurrentiel.
À retenir
- Vos contenus, vos fiches produits, vos API ont été structurés pour des humains qui consultent un site web. Quand un LLM les lit pour répondre à un client, ils ne sont pas adaptés.
- C’est un chantier de fond qui commence par une question : quelles données restructurer pour qu’un LLM les exploite correctement ?
Imaginez la scène. Une équipe construit un agent vocal de qualité, sur une plateforme moderne, avec un modèle parmi les meilleurs du marché. Tout fonctionne en démonstration. On passe en validation, et là, sur certains sujets précis, l’agent se trompe une fois sur deux.
Le premier réflexe est de blâmer le modèle. Trop limité. Mal prompté. Mal configuré. Il y a une part de vrai parfois. Mais l’expérience montre que dans une majorité de cas, le problème est ailleurs : il vient des données que l’on donne au modèle en entrée.
Cette anecdote vient du projet Sharlie chez Orange. Sur les forfaits couvrant des destinations comme le Maroc ou la Suisse, l’agent se plantait régulièrement. En creusant, l’équipe n’a pas découvert un défaut du modèle. Elle a découvert que les données qu’on lui fournissait avaient été pensées pour un site web, et qu’elles devenaient illisibles dès qu’on les passait à un LLM.
C’est probablement l’un des sujets les plus structurantes que l’IA pose à toute organisation… et l’un des moins discutés.
Pourquoi vos données ne sont pas faites pour les LLMs
Les contenus d’une entreprise ont été structurés au fil des années pour un objectif précis : être affichés à des humains, sur des écrans, dans le cadre de parcours digitaux. Cela a façonné des choix structurants.
Des contenus optimisés pour l’œil humain. Une fiche tarifaire bien faite met en valeur le prix attractif, hiérarchise visuellement les informations via le design, regroupe certaines conditions dans un encadré « bon à savoir ». Pour un humain qui regarde la page, tout est clair. Pour un LLM qui reçoit le même contenu sous forme de texte ou d’API, la hiérarchie visuelle disparaît, et l’information se retrouve mélangée.
Des API conçues pour des applications, pas pour des modèles. Une API qui sert un site web renvoie souvent un gros bloc d’information, structuré pour que le front-end puisse afficher ce qu’il veut. C’est efficace pour un développeur. C’est piège pour un LLM, qui doit reconstruire le sens à partir d’un format pensé pour autre chose.
Des règles métier implicites. Beaucoup de contenus reposent sur des conventions tacites partagées dans l’entreprise. « Quand on dit « international », cela exclut l’Europe ». « Quand une condition n’est pas listée, elle s’applique par défaut ». Ces conventions sont apprises par les conseillers humains au fil des années. Un LLM ne les connaît pas, et il ne peut pas les deviner.
Quand on cumule ces trois éléments, on comprend pourquoi un modèle, même très performant, peut se tromper sur des questions précises : il fait correctement ce qu’on lui demande, à partir d’une matière première qui n’a jamais été pensée pour lui.
3 chantier pour structurer vos données pour les LLMs
Trois chantiers se dessinent.
- Repenser certaines API pour les LLMs. Cela ne veut pas dire tout reconstruire. Cela veut dire identifier les API les plus critiques pour les agents conversationnels, et leur ajouter une variante structurée pour un usage par modèle. Une API qui renvoie un forfait, par exemple, devrait expliciter ce qui est inclus, ce qui ne l’est pas, dans quels pays, avec quelles conditions, sous une forme directement exploitable.
- Restructurer les contenus métier. Les fiches produits, les politiques tarifaires, les conditions générales : tout ce qui sert de référence à l’agent doit être progressivement réécrit avec un double objectif (humain et machine). C’est un travail de fond, qui touche les équipes contenu, les équipes produit, les équipes service client.
- Expliciter les règles implicites. Tout ce qui se transmet oralement entre conseillers humains, tout ce qui « se sait » dans l’entreprise sans être écrit, doit être posé noir sur blanc pour devenir exploitable par un agent. Ce travail est précieux au-delà de l’IA : il révèle souvent des incohérences, des règles obsolètes, des connaissances mal partagées.
Data foundations : un sujet de gouvernance
Ce chantier dépasse largement les équipes techniques. Il pose la question de la gouvernance de la donnée dans l’entreprise.
Qui est responsable de la qualité d’une fiche produit pour un usage LLM ? Aujourd’hui, en général, personne. La fiche existe pour le site web, et on s’arrête là. Demain, il faudra des propriétaires clairs, capables d’arbitrer entre la version « humaine » et la version « machine » d’un même contenu, et de garantir que les deux restent cohérentes dans le temps.
Cela suppose aussi de nouveaux processus. Quand un produit change, quand une condition tarifaire évolue, comment garantit-on que la mise à jour est répercutée partout, y compris dans les briques exploitées par les agents IA ? Sans ce process, on accumule des dérives silencieuses qui finiront par produire des erreurs en production.
C’est l’un des sujets les plus durables que l’IA pose aujourd’hui aux grandes organisations et qui exige une transformation progressive de la manière dont on structure et dont on gouverne les contenus.
La bonne nouvelle, c’est qu’il n’est pas nécessaire de tout faire d’un coup. On peut commencer par les contenus les plus exploités par les agents en production, mesurer ce qui se gagne, puis étendre. La mauvaise nouvelle, c’est qu’on ne peut pas l’éviter : tant que la matière première n’est pas adaptée, aucun modèle, même excellent, ne sera performant. Et tant que ce travail n’est pas engagé, l’agent vocal restera plafonné… par la qualité de ses données, pas par celle de sa technologie.
Le sujet vous intéresse ?
Rejoignez nos experts pour une matinée exclusive le 2 juillet.
Un seul but : vous donner les clés pour construire le socle data
qui rendra votre IA enfin autonome et rentable.