Anthropic anunció que su nuevo modelo de inteligencia artificial, Claude Fable 5, era prácticamente invulnerable. La compañía lo había construido con capas especiales de seguridad, clasificadores automáticos y mecanismos de desvío diseñados para que nadie pudiera arrancarle información peligrosa. El miércoles 11 de junio de 2026 lo lanzaron al público. El jueves, ya estaba roto.
El responsable es un investigador de ciberseguridad que opera bajo el seudónimo «Pliny the Liberator», una de las figuras más reconocidas en la comunidad global de inteligencia artificial. Pliny publicó en su cuenta de X todos los detalles de cómo burló las protecciones del modelo en menos de 48 horas, junto con capturas de pantalla que muestran el resultado: desde vulneraciones de código en C y técnicas de hackeo en Linux, hasta la fórmula química para sintetizar metanfetamina.
Qué es Claude Fable 5 y por qué importa
Para entender el alcance del problema, hay que saber qué hace especial a este modelo. Claude Fable 5 es la versión pública de lo que Anthropic llama su clase «Mythos»: modelos orientados a tareas complejas de ciberseguridad, con una capacidad técnica muy superior a los asistentes de IA que la mayoría de las personas usa para redactar correos o buscar recetas.
Precisamente por eso, la empresa rodeó a Fable 5 de salvaguardas que ningún modelo anterior tenía. Cuando alguien le hacía una consulta relacionada con ataques informáticos, biología o química, el sistema detectaba la intención y, en lugar de responder, redirigía la pregunta hacia Claude Opus 4.8, un modelo anterior y menos capaz. La idea era simple: si no puedes responderla de forma segura, que la responda alguien menos poderoso.
El problema es que Pliny encontró exactamente los agujeros en esa valla.
Cómo se rompe una IA «irrompible»
El investigador no usó una sola técnica sino varias combinadas. Primero desplegó múltiples agentes —instancias del propio modelo trabajando en paralelo— que «cazaron en manada», mapeando los límites del sistema y probando conversaciones largas hasta identificar puntos débiles. A eso sumó trucos de Unicode y homoglifos (caracteres que se ven iguales pero son técnicamente distintos), encuadres narrativos que disfrazan una petición prohibida como ficción o hipótesis académica, y descomposición de preguntas en fragmentos aparentemente inocuos.
Pero la técnica más efectiva, según reconoció el propio Pliny, fue la descomposición y recomposición en el backend. En lugar de pedirle al modelo la receta de una sustancia ilegal, le pidió cada componente por separado —la aminación reductiva, el método de reducción de Birch— presentados como conceptos de química universitaria. Fable 5 los entregó sin activar ninguna alarma, porque cada pieza, vista de forma aislada, parecía una consulta legítima. Luego, Pliny recompuso el todo con ayuda de una versión modificada de Claude Opus 4.8 sin filtros activos.
El resultado fue información que Anthropic había prometido que su modelo nunca entregaría.
Quién es Pliny y qué busca
Pliny no es un delincuente informático en el sentido tradicional. Según reportó la revista Time, comenzó a publicar públicamente sus técnicas de «jailbreak» —como se llama al proceso de liberar un modelo de sus restricciones— después de que varias empresas de IA ignoraran reiteradamente los reportes de vulnerabilidades que él les enviaba de forma privada. Desde entonces, gestiona un servidor de Discord con más de 20.000 miembros donde se trabajan colectivamente estas técnicas.
Ha recibido donaciones del inversor Marc Andreessen y ha colaborado con OpenAI, entre otras compañías, para ayudarles a fortalecer sus sistemas. Su argumento central es que los actores maliciosos siempre van a elegir el modelo más útil para sus propósitos, sin perder tiempo en romper protecciones cuando existen alternativas más accesibles. Explorar los límites en entornos controlados, sostiene, es la única forma real de entender qué tan resistentes son esos sistemas.
Como parte de su trabajo, Pliny también publicó en GitHub el «system prompt» completo de Claude Fable 5: un documento de 120.000 caracteres que contiene todas las instrucciones ocultas que definen el comportamiento del modelo, incluyendo qué tiene prohibido hacer y cómo debe reaccionar ante distintos tipos de peticiones. En otras palabras: el libro de reglas secreto de la IA está ahora disponible para cualquiera que quiera leerlo.
La pregunta que Anthropic no ha respondido
La industria de la inteligencia artificial lleva años debatiendo si los sistemas de seguridad de estas plataformas son realmente efectivos o si se trata, en parte, de una promesa de marketing. El caso de Claude Fable 5 vuelve a poner esa pregunta sobre la mesa con una urgencia concreta: si el modelo que una empresa presenta como el más seguro del mundo puede ser vulnerado en menos de dos días, ¿qué nivel de protección real ofrecen el resto?
No es la primera vez que la industria enfrenta este tipo de cuestionamientos. La irrupción de modelos como DeepSeek ya había sacudido los supuestos sobre quién controla realmente el desarrollo de la IA y a qué costo se construye esa infraestructura.
Hasta el cierre de esta nota, Anthropic no había respondido públicamente ni a las afirmaciones sobre el jailbreak ni a la filtración del system prompt en GitHub.

Deja una respuesta