Proyectos de IA con agentes: el cambio al probabilismo
David Guede, partner de Data / IA y experto en IA basada en agentes en Converteo, está especializado en el despliegue de arquitecturas de IA en producción. Acompaña a las empresas en la industrialización de agentes inteligentes, transformando procesos de negocio complejos en verdaderas palancas de rendimiento y ventaja competitiva.
Puntos clave:
- El entorno digital tradicional es determinista: un test que funciona una vez, por lo general, funciona la siguiente. Los sistemas basados en IA generativa son probabilísticos: pueden funcionar perfectamente 99 veces y fallar en la número cien. Esto no solo cambia las herramientas, cambia el mindset por completo.
- Tres aspectos estructuran este cambio: evolucionar la gobernanza del dato para los LLM, implementar un volumen de tests probabilísticos suficiente, y combinar los logs deterministas con una evaluación mediante LLM para supervisar al agente.
- El enfoque correcto para los decision makers: aceptar explícitamente, a nivel de sponsor, que no se puede garantizar el 100 % de precisión. Esta alineación es lo que hace viables los proyectos.
Durante dos décadas, los equipos digitales han operado en un mundo determinista. Una página testeada funciona. Un workflow validado hace dos veces exactamente lo mismo. Un bug es un bug: se reproduce, se corrige y desaparece. Esta predictibilidad ha estructurado nuestros métodos, herramientas, roles y decisiones estratégicas.
Los sistemas basados en IA generativa rompen esta lógica por completo. Una misma pregunta lanzada a un mismo modelo puede generar dos respuestas distintas. Un agente que responde bien en 99 casos puede descarrilar en el número cien. Y no es un defecto que haya que corregir: es una propiedad estructural de la tecnología.
Este salto del determinismo al probabilismo no es solo una cuestión técnica. Impone un verdadero cambio de mentalidad a todos los niveles de la organización: ingeniería, negocio, gobernanza y sponsors.
Evolucionar la gobernanza del dato
Es el tema más subestimado y, probablemente, el más determinante a largo plazo. La gobernanza del dato, en la mayoría de las grandes organizaciones, se diseñó pensando en el mundo digital tradicional. Los contenidos se estructuran para publicarse en la web, ser leídos por humanos e indexados por motores de búsqueda.
En el futuro, esos mismos datos también serán leídos, interpretados y devueltos por LLMs. Y lo que es legible para un humano no lo es necesariamente para un modelo. El caso de uso real de los equipos de Orange con su proyecto Charlie es muy revelador: al responder preguntas sobre las tarifas móviles que incluyen Marruecos o Suiza, el agente se equivocaba la mitad de las veces. El problema no era una falta de inteligencia del modelo, sino que los datos de origen se habían estructurado exclusivamente para una web: un gran bloque de información muy claro para un humano, pero en el que el agente se perdía por completo.
La lección va mucho más allá. Toda la cadena (APIs, bases de conocimiento, contenidos de negocio, fichas de producto) debe rediseñarse progresivamente para que sus outputs sean interpretables por un LLM.
- ¿Cómo estructurar una tabla?
- ¿Cómo explicar claramente una condición de elegibilidad?
- ¿Cómo jerarquizar un pricing?
Industrializar la validación apostando por el volumen
En un mundo determinista, basta con testear algunos casos representativos. En un mundo probabilístico, esto ya no sirve. Si un error solo aparece una de cada cien o mil veces, jamás lo detectaremos haciendo pruebas manuales.
Por tanto, hay que industrializar la generación de conversaciones y su evaluación. En la práctica, esto pasa por dos componentes complementarios: clientes virtuales que replican automáticamente un enorme volumen de conversaciones variadas, y un LLM-as-a-judge que evalúa la calidad de las respuestas basándose en criterios explícitos.
Para un agente de voz, esta infraestructura se convierte en el equivalente a una batería de A/B tests para una web: una herramienta de monitorización continua que permite detectar cualquier desviación antes de que impacte a los usuarios reales.
El reto no es solo técnico, sino también organizativo:
- ¿Quién define los criterios de evaluación?
- ¿Quién interpreta los resultados?
- ¿Quién decide paralizar un despliegue a producción cuando la puntuación empeora?
Hablamos de nuevos roles que no existían con esta misma intensidad en la organización digital clásica.
Supervisar combinando lo determinista y lo probabilístico
La observabilidad también cambia de naturaleza. En una aplicación clásica, estamos acostumbrados a los logs: estructurados, deterministas, fáciles de consultar mediante queries. Sabemos que tal llamada a la API ha fallado, que tal latencia ha superado un umbral o que tal error se ha producido a tal hora.
En un agente de voz, estos logs siguen existiendo y son vitales. Pero no nos dicen absolutamente nada sobre la calidad de la interacción. Una llamada puede ser técnicamente perfecta (sin errores, buena latencia, transcripción limpia) y, sin embargo, resultar un auténtico fracaso desde el punto de vista del cliente (respuesta fuera de contexto, tono inadecuado, información errónea).
Por eso, la supervisión moderna combina dos fuentes de información:
- Los logs deterministas, para el seguimiento técnico de la plataforma (latencia, tasa de error, llamadas a herramientas, bucles inesperados entre agentes).
- Las evaluaciones mediante LLM, para el seguimiento cualitativo (pertinencia de la respuesta, respeto del tono de marca, exactitud de los datos, satisfacción implícita del cliente).
Cuando logramos cruzar estas dos fuentes, entendemos mucho mejor lo que está pasando: una latencia que se dispara al mismo tiempo que la calidad cae en picado nos indica algo muy distinto a una simple pérdida de calidad aislada. Es esta combinación la que hace que la observabilidad sea realmente útil para tomar el control.
El papel decisivo de los sponsors
Todo lo anterior se puede implementar a nivel técnico. Pero no servirá de nada si los sponsors del proyecto, al más alto nivel, no han interiorizado este cambio de paradigma.
La trampa clásica: exigir a un equipo de proyecto que garantice un 100 % de éxito. En un mundo probabilístico, esto es imposible, y prometerlo sería engañoso. Por el contrario, la condición para poder avanzar es que la gobernanza acepte explícitamente que ciertas temáticas críticas deben mantenerse al 100 % de precisión (y, por tanto, gestionarse fuera del agente de IA o con una red de seguridad muy robusta), mientras que otras toleran un margen de error controlado.
Esta alineación de los sponsors suele ser la fina línea que separa los proyectos que ven la luz de los que mueren en fase de POC. No hablamos de una alineación perfecta —algo ilusorio en un terreno tan inexplorado—, sino de una alineación real sobre la asunción de riesgos que implica el paso a producción.
El salto del determinismo al probabilismo no es un tema que deba delegarse únicamente en los equipos técnicos. Afecta al dato, a los métodos de validación, a la observabilidad y a la gobernanza. Exige que las direcciones de Negocio asuman una dosis de incertidumbre, y que las direcciones técnicas logren controlarla mediante nuevas herramientas.
Los equipos que ya han tomado conciencia de este cambio están adquiriendo hoy los reflejos adecuados. Saben que un proyecto de agente de voz exitoso no es aquel en el que todo funciona a la primera, sino aquel en el que se detecta rápido lo que falla y se corrige aún más rápido. Es esta capacidad de respuesta, más que la calidad del modelo elegido, lo que marcará la diferencia en los próximos años.