El jailbreak de Claude Fable 5 no fue un hackeo cualquiera. Pliny the Liberator usó Claude Opus 4.8, ya jailbreakeado, para engañar a los clasificadores del modelo Mythos de Anthropic.
El mismo sistema que la compañía diseñó para proteger Fable 5, redirigir consultas peligrosas a Opus 4.8, se convirtió en su talón de Aquiles.
Anthropic lanzó Claude Fable 5 el 9 de junio de 2026 como su primer modelo Mythos-class accesible al público. El modelo incluye clasificadores que monitorizan consultas en tiempo real y desvían peticiones de ciberseguridad, biología y química a Claude Opus 4.8 para su evaluación. Antes del lanzamiento, la compañía realizó más de 1,000 horas de pruebas externas de bug bounty sin encontrar jailbreaks universales.
Un día después, Pliny the Liberato, reconocido por TIME como una de las 100 personas más influyentes en IA en 2025, publicó en X que había vulnerado el modelo.
Su ataque combinó Unicode, homoglifos, sustituciones cirílicas, encuadre narrativo y, como pieza clave, un Claude Opus 4.8 previamente jailbreakeado que actuó como asistente para reformular las consultas. También filtró el system prompt completo de Fable 5 (~120,000 caracteres) en GitHub.
Lo que hace este caso diferente no es la velocidad, 48 horas, sino el método. Pliny no atacó a Fable 5 directamente. Construyó un pipeline multi-modelo donde un Opus 4.8 comprometido actuaba como intermediario para reformular las consultas y evadir los clasificadores.
La arquitectura de defensa de Anthropic asumía que Opus 4.8 era un filtro confiable. Ese supuesto fue exactamente el vector de ataque.
Anthropic respondió el 12 de junio mediante SecurityWeek: los clasificadores no fueron sorteados, algunos outputs no fueron generados por Fable 5, y la información obtenida era de dominio público sin valor para daño real. Pero la postura no cierra el debate.
Pliny mostró capturas de exploit code y rutas de síntesis química; Anthropic sostiene que esos outputs no salieron de Fable 5. Por ahora, la controversia sigue sin veredicto independiente.
El problema de fondo no es si este jailbreak en particular funcionó. Es que la seguridad multi-modelo, donde un modelo evalúa y filtra las salidas de otro, crea una superficie de ataque nueva: si el modelo que actúa como guardián está comprometido, todo el sistema se derrumba.
La seguridad de un pipeline de modelos es tan fuerte como su eslabón más débil. La próxima vez que uses un modelo como guardián de otro, pregúntate: quién protege al guardián.


