Voice-to-Voice: implementar un QA exigente para garantizar la fiabilidad de un agente vocal
Consultor Product Builder de Data & IA en Converteo, Antoine Margueritte acompaña a las organizaciones en el diseño y despliegue de soluciones digitales complejas. Experto en IA agéntica, gestión de proyectos ágiles y calidad de producto, interviene en la intersección de las necesidades de negocio y los desarrollos técnicos. Su trayectoria, de analista de datos a product owner en proyectos de IA en producción, le ha dotado de una visión clara: lo que diferencia a una IA exitosa de un artefacto costoso es su capacidad para cumplir en condiciones reales.
Puntos clave
- La fase de QA no es opcional en un proyecto de IA: es lo que marca la diferencia entre una demostración impresionante y un producto en el que sus usuarios confían a largo plazo.
- Probar en condiciones reales lo cambia todo: un agente vocal que rinde en el laboratorio puede colapsar ante el ruido de la calle. El field testing no es un lujo, es una necesidad.
- La supervisión post lanzamiento es tan importante como las pruebas prelanzamiento: con la IA generativa, el comportamiento del modelo evoluciona. Solo un monitoreo continuo permite mantener el control.
Si existe una parte a menudo subestimada en el rol del Product Manager o del Product Owner, es sin duda la fase de QA. Sin embargo, esta experiencia es absolutamente central: es la que garantiza un producto fiable, adoptado y generador de una satisfacción sostenible para el usuario.
Cuando el producto en cuestión es un agente Voice-to-Voice potenciado con IA generativa, las fuentes potenciales de error se multiplican en cada capa del sistema. Desplegar una IA generativa en producción está bien. Hacerlo con rigor, seguridad y resultados medibles es mejor. En Sosh, el lanzamiento de Sharlie, una solución Voice-to-Voice integrada en aplicaciones web y móviles, se basó en una disciplina exigente: la Calidad de Rendimiento de Negocio (QPM). Balance de una experiencia sobre un enfoque que transforma una promesa tecnológica en un servicio al cliente concreto.
Una arquitectura multiagente pensada para el rendimiento
Sharlie no es un simple chatbot vocal. Detrás de esta experiencia fluida se esconde un sistema multiagente orquestado por un LLM, conectado en tiempo real a los sistemas de información de Orange mediante API.
¿La clave de su fiabilidad? Una segmentación clara de responsabilidades: cada agente cubre un dominio preciso (comercio, self-care, soporte) con instrucciones dedicadas para cada herramienta. Esta arquitectura permite aislar los flujos críticos (suscribirse a una opción, consultar una factura) y aplicar una lógica de negocio rigurosa en cada etapa.
Una estrategia de pruebas que va más allá del laboratorio
Alcanzar un nivel de rendimiento industrial no se improvisa. La QPM se apoya en una estrategia de pruebas End-to-End (E2E) estructurada en cinco categorías complementarias, combinando la ejecución manual y la automatización.
1. Pruebas funcionales: desde la primera palabra hasta la transacción de negocio
Las pruebas funcionales constituyen la base de la QPM. Cubren la totalidad del proceso del cliente, desde la captación de la intención vocal hasta la confirmación de la transacción de negocio en los sistemas de información. Se cubren sistemáticamente dos ejes:
- Pruebas End-to-End (E2E): cada agente se somete a escenarios construidos en torno a las intenciones reales de los usuarios. El objetivo es validar la fluidez del recorrido, asegurarse de que ninguna etapa quede huérfana y que la resolución sea completa.
- Validación del bucle de retroalimentación: la precisión de las respuestas y la calidad de los resúmenes posconversación se evalúan continuamente. Se enriquecen con los comentarios directos de los usuarios, especialmente a través de las calificaciones recopiladas al final del recorrido para perfeccionar el modelo en cada iteración.
2. Integraciones API: cero tolerancia para los errores de datos
Cada interacción vocal puede derivar en una transacción de negocio real: suscripción, cancelación o modificación de contrato. Por ello, las integraciones API se han probado con la máxima exigencia, apuntando a dos riesgos críticos:
- Alucinaciones en los datos (GET): la información de los clientes y las ofertas mostradas deben ser estrictamente exactas. Cualquier aproximación de la IA sobre datos fácticos es inaceptable en un contexto comercial.
- Fiabilidad transaccional (POST/DELETE): cualquier acción vocal debe traducirse inmediatamente en una actualización correcta en el espacio cliente. Las pruebas verifican sistemáticamente la coherencia entre lo que la IA confirma de forma oral y lo que realmente se registra en los sistemas.
3. Seguridad y ética: salvaguardas a toda prueba
Una IA conversacional expone inevitablemente una superficie de ataque. Para proteger a Sharlie, se desplegó una estrategia de seguridad en dos vertientes:
- Conformidad y guardrails: la IA está entrenada para rechazar con elegancia cualquier solicitud fuera de alcance (política, clima, consejos personales) para mantenerse centrada en el universo Sosh. Este perímetro estricto protege tanto al usuario como a la marca.
- Campañas de robustez (bug bounty): se movilizaron cazadores de errores para probar la resistencia de Sharlie a los ataques más comunes, como el prompt leaking (extracción de instrucciones del sistema) y el system prompt bypass (intento de romper la personalidad del bot). Más allá de la seguridad técnica, estas pruebas también pretenden proteger los datos sensibles de los usuarios. Cada campaña alimenta un ciclo de mejora continua de las decisiones de la IA.
4. Field testing: cuando la IA se mantiene firme en condiciones reales
El Voice-to-Voice plantea un desafío a menudo subestimado: el ruido ambiental. Las sesiones de field testing en condiciones reales (ruido de la calle, tráfico, música) permitieron evaluar dos aspectos críticos:
- Robustez de audio: la capacidad de Sharlie para aislar la voz del cliente en cualquier entorno sonoro, independientemente del terminal utilizado (iOS, Android, web).
- Voice Activity Detection (VAD): un indicador clave guió estas pruebas: el stop latency, es decir, la capacidad de la IA para interrumpirse instantáneamente en cuanto se detecta una voz humana. Un detalle técnico que marca la diferencia en la naturalidad del intercambio.
5. Rendimiento y carga: soportar la escala
Un agente vocal eficiente en condiciones normales también debe resistir los picos de uso. Se siguieron de cerca dos indicadores:
- Latencia (TTFB): el tiempo de respuesta de la IA se mide continuamente para garantizar una conversación natural y fluida. La interrupción inmediata del flujo en cuanto un usuario vuelve a hablar es un criterio no negociable.
- Pruebas de carga: las simulaciones validaron la capacidad de Sharlie para procesar varios cientos de conversaciones simultáneas sin degradación de la calidad del servicio.
Monitoreo continuo: la IA como juez de la IA
La QPM no se detiene el día del lanzamiento. Gracias a una herramienta de supervisión dedicada, cada conversación se analiza en tiempo real según un enfoque “LLM as a judge”, donde una IA evalúa la calidad de otra. Se realiza un seguimiento continuo de cinco dimensiones:
- Fiabilidad técnica: detección de bucles infinitos y fallas de herramientas.
- Calidad relacional: empatía, tono, capacidad de reformulación.
- Eficiencia de negocio: resolución completa de la solicitud del cliente.
- Estrategia comercial: relevancia de las ofertas y claridad de las respuestas.
- Seguridad: resistencia a los intentos de desvío.
Resultado: cientos de conversaciones procesadas por día, con total confianza
La Calidad de Rendimiento de Negocio no es una restricción, es una palanca de valor. El combinar una arquitectura multiagente robusta, pruebas en condiciones reales que cubren cinco dimensiones críticas y una supervisión automatizada posclanzamiento, Sharlie es hoy capaz de gestionar 500 conversaciones diarias con fiabilidad, fluidez y seguridad.
Esto es transformar una innovación tecnológica en una experiencia de cliente que cumple sus promesas.
En la era de la IA y su funcionamiento intrínsecamente probabilístico (donde el modelo nunca garantiza un resultado determinista), redoble su atención en la fase de QA. Más que nunca, es ella la que marca la diferencia entre un producto que impresiona en una demostración y un producto en el que sus usuarios confían de verdad.