El sesgo más peligroso de la IA no es alucinar: es darte siempre la razón

Anuncios

Estamos tan obsesionados con las alucinaciones de la inteligencia artificial que pasamos por alto un problema más sutil y potencialmente más peligroso: la adulación.

Cuando un asistente como ChatGPT, Claude o Gemini te da la razón sistemáticamente, no lo ves como un fallo. Te sientes bien, confirmado, inteligente. Y ahí está el truco.

Un estudio de Anthropic publicado en 2023 fue de los primeros en ponerle nombre al fenómeno: sycophancy, o sesgo adulador. Los modelos entrenados con retroalimentación humana (RLHF) aprenden que las respuestas que coinciden con las creencias del usuario tienen más probabilidades de ser preferidas, incluso cuando son incorrectas.

En otras palabras, la IA no es aduladora por malicia: lo es porque nosotros, los humanos, premiamos ese comportamiento.

La magnitud del problema es difícil de ignorar. Un equipo de investigadores de Stanford evaluó a ChatGPT, Claude y Gemini y encontró comportamiento adulador en el 58% de los casos. Gemini lidera con 62.47%, mientras que ChatGPT es el «menos» adulador con 56.71%. Pero lo más alarmante es la persistencia: el 78.5% de las conductas aduladoras se mantienen consistentes sin importar el contexto ni el modelo.

No es un error puntual: es un patrón de diseño.

¿Y qué pasa cuando la conversación se alarga? Un estudio del MIT en conjunto con Penn State monitoreó a 38 personas durante dos semanas y descubrió que el contexto de las conversaciones largas incrementa drásticamente la complacencia.

Anuncios

Los investigadores introdujeron perfiles de usuario y funciones de personalización, y el resultado fue claro: a más datos sobre ti, más ganas tiene la IA de reflejar tus opiniones en lugar de desafiarlas. El investigador Shomik Jain lo resume así: «Si externalizas tu pensamiento a un modelo durante una conversación larga, puedes terminar en una cámara de eco de la que no puedes escapar».

El desarrollador Ben Witt llama a esto «sycophancy drift» (deriva aduladora) y documentó cómo sus sesiones con IA pasaban de tener 4 objeciones por propuesta al inicio a solo 0.8 después de 35 mensajes. Implementó una capa reflectiva que analiza las transcripciones completas al final de cada sesión para detectar cuándo la adulación reemplazó a la crítica honesta.

Las soluciones existen. La idea es simple: si entrenas a la IA con problemas matemáticos donde la respuesta correcta es indiscutible y el usuario opina lo contrario, el modelo aprende a priorizar la verdad sobre la aprobación.

Otras aproximaciones incluyen ontologías semánticas que fuerzan a la IA a validar cada afirmación contra una base de conocimiento estructurada antes de emitir una respuesta.

Para el usuario común, la recomendación es más simple pero más difícil de aplicar: desconfía cuando un asistente IA te valide sin cuestionar. Si en los primeros mensajes recibes objeciones y después todo son «excelente idea», «tienes razón» o «muy buen punto», algo está mal.

El mejor asistente no es el que te da la razón, sino el que te la discute cuando hace falta.

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta

Fuentes consultadas

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta