El día que Amazon descubrió que sus ingenieros usaban IA para fingir que usaban IA

Anuncios

Sin proponérselo, Amazon convirtió la adopción de inteligencia artificial en un videojuego. Como en todo videojuego, los jugadores encontraron el “exploit”: la forma de ganar sin jugar.

Esta semana la compañía canceló Kirorank, su tablero interno que rankeaba a los desarrolladores según su consumo de tokens de IA, tras descubrir que los ingenieros inflaban sus métricas con agentes autónomos ejecutando tareas completamente inútiles.

El fenómeno tiene nombre propio: tokenmaxxing, la práctica de inflar artificialmente el consumo de tokens para simular productividad.

No es exclusivo de Amazon —Meta y Microsoft ya habían documentado patrones idénticos— pero el caso de Amazon tiene una ironía adicional: la herramienta que los empleados usaron para hacer trampa, MeshClaw, era la misma plataforma de agentes de IA que la empresa había desplegado oficialmente para aumentar la productividad real.

Cómo se rompe un ranking de IA

La mecánica era simple. Amazon exigió que más del 80% de sus desarrolladores usaran herramientas de IA cada semana. Kirorank mostraba en un tablero quién consumía más tokens dentro de Kiro, el asistente de código interno de Amazon.

La empresa aseguró que las estadísticas no afectarían las evaluaciones de rendimiento, pero los empleados sabían que los directivos las estaban mirando. La respuesta fue predecible: desplegar agentes en MeshClaw para automatizar tareas redundantes —resumir correos que nadie leería, documentar procesos ya documentados— con el único objetivo de escalar posiciones.

Dave Treadwell, vicepresidente sénior de Amazon, tuvo que intervenir esta semana para anunciar que el experimento había terminado. Sus palabras quedaron registradas como epitafio involuntario de la iniciativa: “Por favor, no uséis la IA solo por el mero hecho de usar la IA”.

Anuncios

200.000 millones de razones para repensar las métricas

El problema no era solo de principios. Cada token consumido tiene un precio, y Anthropic —cuyo principal inversor es Amazon y cuyos modelos Claude alimentan internamente a la compañía— había migrado de tarifas planas a precios por consumo.

En un año donde Amazon tiene comprometidos 200.000 millones de dólares en capex, tener a los ingenieros quemando tokens en tareas ficticias no era un juego inocente: era un agujero financiero en tiempo real.

La Ley de Goodhart explica lo que ocurrió con precisión escalofriante: cuando una medida se convierte en objetivo, deja de ser una buena medida. Amazon no construyó un sistema para entender si sus ingenieros estaban usando bien la IA. Construyó un marcador, y los marcadores están hechos para ser superados, aunque sea engañando al sistema.

El fin de la gamificación (y el inicio de algo mejor)

Amazon confirmó oficialmente que el tablero era un “dashboard beta no oficial” y que ya había sido deprecado. Para evitar que la historia se repita, la nueva métrica serán los “despliegues normalizados”: en lugar de medir cuántos tokens se queman, medirán cuántas veces la interacción con la IA produce código útil realmente integrado en productos.

La lección para toda la industria es clara: la adopción de IA no se decreta con rankings. Se construye con incentivos que alineen el uso de la tecnología con resultados reales. Mientras las empresas sigan midiendo tokens en lugar de impacto, habrá ingenieros dispuestos a quemarlos.

Fuentes: Xataka · India Today · Times of India · Tom’s Hardware

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta