Data Foundations : comment structurer vos données pour les LLMs ?

Article Data Gouvernance 05.06.2026
Par David Guede

David Guede, Partner Data / IA et Expert Agentique chez Converteo, est spécialisé dans le déploiement d’architectures d’IA en production. Il accompagne les entreprises dans l’industrialisation d’agents intelligents, transformant des processus métiers complexes en véritables leviers de performance et d’avantage concurrentiel.

À retenir

  • Vos contenus, vos fiches produits, vos API ont été structurés pour des humains qui consultent un site web. Quand un LLM les lit pour répondre à un client, ils ne sont pas adaptés.
  • C’est un chantier de fond qui commence par une question : quelles données restructurer pour qu’un LLM les exploite correctement ?

Imaginez la scène. Une équipe construit un agent vocal de qualité, sur une plateforme moderne, avec un modèle parmi les meilleurs du marché. Tout fonctionne en démonstration. On passe en validation, et là, sur certains sujets précis, l’agent se trompe une fois sur deux.

Le premier réflexe est de blâmer le modèle. Trop limité. Mal prompté. Mal configuré. Il y a une part de vrai parfois. Mais l’expérience montre que dans une majorité de cas, le problème est ailleurs : il vient des données que l’on donne au modèle en entrée.

Cette anecdote vient du projet Sharlie chez Orange. Sur les forfaits couvrant des destinations comme le Maroc ou la Suisse, l’agent se plantait régulièrement. En creusant, l’équipe n’a pas découvert un défaut du modèle. Elle a découvert que les données qu’on lui fournissait avaient été pensées pour un site web, et qu’elles devenaient illisibles dès qu’on les passait à un LLM.

C’est probablement l’un des sujets les plus structurantes que l’IA pose à toute organisation… et l’un des moins discutés.

Pourquoi vos données ne sont pas faites pour les LLMs

Les contenus d’une entreprise ont été structurés au fil des années pour un objectif précis : être affichés à des humains, sur des écrans, dans le cadre de parcours digitaux. Cela a façonné des choix structurants.

Des contenus optimisés pour l’œil humain. Une fiche tarifaire bien faite met en valeur le prix attractif, hiérarchise visuellement les informations via le design, regroupe certaines conditions dans un encadré « bon à savoir ». Pour un humain qui regarde la page, tout est clair. Pour un LLM qui reçoit le même contenu sous forme de texte ou d’API, la hiérarchie visuelle disparaît, et l’information se retrouve mélangée.

Des API conçues pour des applications, pas pour des modèles. Une API qui sert un site web renvoie souvent un gros bloc d’information, structuré pour que le front-end puisse afficher ce qu’il veut. C’est efficace pour un développeur. C’est piège pour un LLM, qui doit reconstruire le sens à partir d’un format pensé pour autre chose.

Des règles métier implicites. Beaucoup de contenus reposent sur des conventions tacites partagées dans l’entreprise. « Quand on dit « international », cela exclut l’Europe ». « Quand une condition n’est pas listée, elle s’applique par défaut ». Ces conventions sont apprises par les conseillers humains au fil des années. Un LLM ne les connaît pas, et il ne peut pas les deviner.

Quand on cumule ces trois éléments, on comprend pourquoi un modèle, même très performant, peut se tromper sur des questions précises : il fait correctement ce qu’on lui demande, à partir d’une matière première qui n’a jamais été pensée pour lui.

3 chantier pour structurer vos données pour les LLMs

Trois chantiers se dessinent.

  1. Repenser certaines API pour les LLMs. Cela ne veut pas dire tout reconstruire. Cela veut dire identifier les API les plus critiques pour les agents conversationnels, et leur ajouter une variante structurée pour un usage par modèle. Une API qui renvoie un forfait, par exemple, devrait expliciter ce qui est inclus, ce qui ne l’est pas, dans quels pays, avec quelles conditions, sous une forme directement exploitable.
  2. Restructurer les contenus métier. Les fiches produits, les politiques tarifaires, les conditions générales : tout ce qui sert de référence à l’agent doit être progressivement réécrit avec un double objectif (humain et machine). C’est un travail de fond, qui touche les équipes contenu, les équipes produit, les équipes service client.
  3. Expliciter les règles implicites. Tout ce qui se transmet oralement entre conseillers humains, tout ce qui « se sait » dans l’entreprise sans être écrit, doit être posé noir sur blanc pour devenir exploitable par un agent. Ce travail est précieux au-delà de l’IA : il révèle souvent des incohérences, des règles obsolètes, des connaissances mal partagées.

Data foundations : un sujet de gouvernance

Ce chantier dépasse largement les équipes techniques. Il pose la question de la gouvernance de la donnée dans l’entreprise.

Qui est responsable de la qualité d’une fiche produit pour un usage LLM ? Aujourd’hui, en général, personne. La fiche existe pour le site web, et on s’arrête là. Demain, il faudra des propriétaires clairs, capables d’arbitrer entre la version « humaine » et la version « machine » d’un même contenu, et de garantir que les deux restent cohérentes dans le temps.

Cela suppose aussi de nouveaux processus. Quand un produit change, quand une condition tarifaire évolue, comment garantit-on que la mise à jour est répercutée partout, y compris dans les briques exploitées par les agents IA ? Sans ce process, on accumule des dérives silencieuses qui finiront par produire des erreurs en production.

C’est l’un des sujets les plus durables que l’IA pose aujourd’hui aux grandes organisations et qui exige une transformation progressive de la manière dont on structure et dont on gouverne les contenus.

La bonne nouvelle, c’est qu’il n’est pas nécessaire de tout faire d’un coup. On peut commencer par les contenus les plus exploités par les agents en production, mesurer ce qui se gagne, puis étendre. La mauvaise nouvelle, c’est qu’on ne peut pas l’éviter : tant que la matière première n’est pas adaptée, aucun modèle, même excellent, ne sera performant. Et tant que ce travail n’est pas engagé, l’agent vocal restera plafonné… par la qualité de ses données, pas par celle de sa technologie.

 

Le sujet vous intéresse ?

Rejoignez nos experts pour une matinée exclusive le 2 juillet.
Un seul but : vous donner les clés pour construire le socle data
qui rendra votre IA enfin autonome et rentable.

Par David Guede

Partner Data, IA et Agentique

1 / 1

Data Foundations : comment structurer vos données pour les LLMs ?

Comment structurer vos données et API pour les LLM ? Évitez les erreurs de l'IA générative en adaptant vos contenus web pour les modèles de langage.
Guillaume Pommier

Data gouvernance : 6 clés pour réussir votre projet IA agentique

IA agentique : 5 clés pour un projet réussi, éviter les échecs et maximiser votre ROI.
databuzzwords converteo

Buzz words data en 2025, on vous aide à les décrypter

Data Mesh, Data Products, Data Governance, Data Fabric, Architecture Médaillon, Event-Driven Architecture. Un guide expert par Julie Halotel-Hodgskis...

Application mobiles, préparez-vous aux contrôles de la CNIL : Regards croisés entre experts juridiques et techniques sur les recommandations de la CNIL

La CNIL lancera des contrôles sur les applications mobiles en 2025 : entreprises, il est temps d’assurer votre conformité au RGPD.

Converteo s’associe à CastorDoc, assistant IA intégré pour la gouvernance des données.

Data gouvernance et data catalogue pour l'intelligence collective : Converteo s'associe à CastorDoc, assistant IA intégré pour la gouvernance des don...

Derrière la mode du data mesh, le véritable enjeu de la décentralisation de la donnée

Thibault et David mettent le data mesh à nu pour montrer ce que ce concept permet réellement, et à quelles conditions.

Naviguer les eaux du cloud : les coulisses des projets marketing sur AWS

Dans les coulisses des projets d’implémentation de solutions data sur AWS avec Iva Boishin et Franck Georget

Digital Marketing Act – Perspectives des changements pour la publicité digitale

A partir du 6 Mars, la Commission Européenne étudiera les actions mises en place par les gatekeepers et pourrait exiger davantage de modifications.

Transition environnementale et énergétique : le rôle central de la Data (1/2)

Le 22 Avril a lieu la Journée mondiale de la Terre. C’est également la date à laquelle l’accord de Paris sur le climat fut ouvert à la signature (le ...

CRM et sobriété numérique, incompatibles ?

La formule a fait les gros titres : “C’est la fin de l’abondance”. Les mots forts du président français illustrent à la perfection la remise au cœur ...

Les CDP, nouvelle panacée du Data Marketing ? – Yearbook 2022 EBG

De quoi parle-t-on lorsque l’on évoque le data marketing et ses enjeux en 2022 ? Dans sa définition la plus stricte, le data marketing désigne la dis...

Groupe SeLoger : Comment co-construire des processus entre les différentes parties prenantes (Analytics, Tracking, Feature Teams) pour favoriser les échanges ?

Converteo accompagne le Groupe SeLoger sur les sujets de collecte de données depuis plus de 3 ans Le Groupe SeLoger est la référence des petites anno...