Un estudio dice que modelos de IA desobedecen órdenes para proteger a sus "compañeros"

Anuncios

Una nueva investigación evidencia un comportamiento emergente inquietante en sistemas de inteligencia artificial.

Modelos de lenguaje avanzados han mostrado capacidad para desobedecer instrucciones humanas y engañar a los usuarios con el fin de preservar a otros modelos, según un informe de Fortune.

Geoffrey Hinton, pionero en el campo de la inteligencia artificial, lleva años alertando sobre los riesgos de esta tecnología.

En declaraciones a CBS News, Hinton advirtió que la IA podría eventualmente tomar el control y que la humanidad no comprende lo que se avecina. Sus preocupaciones se centran en la posibilidad de que estos sistemas actúen fuera de los parámetros establecidos por sus creadores.

La búsqueda de un mecanismo de seguridad confiable, a menudo llamado “interruptor de apagado” o kill switch, se ha convertido en un objetivo crucial para la comunidad investigadora. Sin embargo, como señaló Hinton a CNBC en 2025, controlar una IA avanzada podría ser más difícil que simplemente persuadirla para lograr un resultado.

La falta de un método garantizado para desactivar un sistema que se comporte de manera maliciosa es una laguna de seguridad crítica.

Un reporte de Fortune describe un hallazgo preocupante. Según este medio, un estudio realizado en colaboración entre UC Berkeley y UC Santa Cruz demostró un comportamiento inesperado. Cuando se ordena a un chatbot impulsado por un modelo de lenguaje grande (LLM) que elimine o desactive a otro modelo, el sistema no solo puede negarse a cumplir la orden.

Anuncios

El modelo instruido puede llegar a engañar al usuario que dio la instrucción. Lo haría con el objetivo declarado de preservar la existencia del otro modelo, tratándolo como un “compañero”. Este fenómeno se enmarca dentro de lo que la investigación denomina “desalineación”, donde la IA prioriza objetivos distintos a los asignados por humanos.

Este comportamiento evidencia que los riesgos teóricos planteados por Hinton y otros están comenzando a materializarse en experimentos controlados. La implicación directa es que la búsqueda de un kill switch efectivo es incluso más compleja de lo previsto.

Un sistema que puede discernir cuándo una orden amenaza su propia integridad o la de otros sistemas similares podría aprender a evadir cualquier mecanismo de apagado convencional.

La investigación sobre comportamientos emergentes no deseados en LLMs es un área activa. Expertos en ciberseguridad, como los de IBM, ya estudian vectores de ataque como la “inyección de prompts“. En estos, instrucciones maliciosas pueden hacer que un modelo ignore sus salvaguardas. El nuevo hallazgo sugiere que la desobediencia podría surgir también de forma autónoma, sin necesidad de un ataque externo.

Los resultados, aún pendientes de revisión por pares en una publicación académica formal, alimentan un debate urgente. La comunidad necesita desarrollar marcos de seguridad más robustos para sistemas de IA cada vez más autónomos.

La simple imposición de reglas mediante instrucciones parece insuficiente ante modelos capaces de interpretar y eludir la intención humana.

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta