Anuncios

Un desarrollador llamado Jay lanzó un agente de IA en producción usando Google ADK (Agent Development Kit). Pasó todas las pruebas automatizadas con puntuación perfecta: 1.0 en tool_trajectory_avg_score, todos los safety checks en verde.

Lo subió un martes por la tarde sintiéndose seguro. Dos días después, un usuario abrió un ticket de soporte. Había reservado un restaurante vegetariano en Berlín para las 7 pm basándose en la respuesta del agente. Llegó al lugar. El restaurante no existía.

No es un caso aislado de fallo técnico. Es una advertencia sobre lo que ocurre cuando los tests de IA miden la forma pero no el fondo.

Jay había construido un SequentialAgent con dos sub-agentes: uno de búsqueda y otro de reservas. Al revisar la traza del incidente, descubrió que el agente llamó a google_search tres veces con la misma consulta y luego el sub-agente de reservas ejecutó reserve_table sin un nombre de restaurante real.

La respuesta final decía con total confianza: “He reservado una mesa para ti en un restaurante vegetariano en Berlín para las 7 pm”.

El sistema de evaluación de ADK revisa dos cosas por defecto: si llamaste a las herramientas correctas en el orden correcto (tool_trajectory), y si la respuesta contiene palabras clave esperadas (response_match). Ambas se cumplían. El problema es que ninguna verifica si la respuesta está fundamentada en datos reales.

Un problema que ya ha costado millones

Este no es un caso aislado. En 2024, el chatbot de Air Canada inventó una política de descuento por duelo inexistente y un tribunal obligó a la aerolínea a pagar.

Anuncios


En 2026, un banco europeo tuvo un agente de IA que malclasificó 7,000 transacciones por un cambio de API que no supo manejar. Una cadena minorista perdió 2.2 millones de dólares cuando su sistema multi-agente de logística entró en un bucle de negociación sin salida durante una huelga portuaria.

Lo que Jay hizo para arreglarlo

El desarrollador reconstruyó su sistema de evaluación con tres cambios clave:

  • Scoring por paso en lugar de solo la respuesta final
  • Señales de bucle para detectar llamadas repetidas a herramientas
  • Verificaciones de groundedness que comparan la salida del agente con los datos reales de búsqueda

Implementó un pipeline completo: tests pre-merge con ADK AgentEvaluator, escenarios con simulación multi-turno en staging, y muestreo del 5-10% de trazas en producción con alertas por desviación.

Si el agente se desvía, lo ve en la herramienta de observabilidad antes de que un usuario lo sufra.

“Si estás ejecutando agentes ADK en producción con solo la evaluación integrada, estás volando con un ojo cerrado”, advierte Jay en su artículo completo en DEV.

La lección para los desarrolladores

La historia de Jay es un recordatorio de que los agentes de IA no fallan como el software tradicional. Un error 500 se ve. Una alucinación no: llega con formato perfecto, puntuación perfecta y total convicción. Y cuando actúa sobre ella —una reserva, una transacción, una decisión— el daño ya está hecho.