Problema de los guardrails en Fable

Anthropic lanzó recientemente Fable, una versión pública y limitada de su modelo de ciberseguridad Mythos. La compañía asegura que el nuevo modelo incorpora “guardrails” diseñados para evitar que sea usado con fines maliciosos, como la creación de malware o armas biológicas. Sin embargo, la comunidad de seguridad informática no ha recibido la medida con entusiasmo. Varios investigadores y profesionales del sector han expresado su descontento en redes sociales y foros especializados, argumentando que las restricciones resultan excesivamente amplias y obstaculizan tareas legítimas.

Qué son los guardrails y cómo funcionan

Cuando un usuario formula una petición que el modelo considera relacionada con ciberseguridad o biología, Fable interrumpe la conversación y muestra un mensaje indicando que sus “medidas de seguridad han marcado este mensaje”. En esos casos, el modelo recurre automáticamente a Claude Opus 4.8, una versión anterior sin las limitaciones más estrictas. Según los críticos, el sistema parece basarse en palabras clave: cualquier término que pertenezca al campo léxico de “ciberseguridad” desencadena la barrera.

Reacciones de la comunidad

Valentina “Chompie” Palmiotti, investigadora de IBM X‑Force, comentó que incluso la lectura de un simple blog sobre seguridad activa los guardrails. Otro experto, Matt Suiche, señaló que solicitar una revisión de código o buenas prácticas de programación segura es penalizado, ya que el modelo lo interpreta como una solicitud directamente vinculada a ciberseguridad. “Si le pides que escriba código seguro, lo degrada como si fuera una tarea de hacking”, explicó Suiche.

A pesar de la frustración, algunos analistas consideran que la medida tiene sentido en una fase temprana de adopción de modelos tan poderosos. Suiche admitió que es preferible errar en exceso y bloquear usuarios potencialmente peligrosos, para luego afinar los filtros con el tiempo. Anthropic también ha creado el Cyber Verification Program, que permite a profesionales aprobados reducir las limitaciones al trabajar con Claude para actividades de seguridad.

Comparación con otras empresas

OpenAI presenta un programa similar llamado Trusted Access for Cyber, que también otorga acceso más amplio a sus modelos a investigadores verificados. Ambos enfoques reflejan una tendencia en la industria: equilibrar la innovación con la responsabilidad, evitando que la inteligencia artificial se convierta en una herramienta de ataque.

Hasta la fecha, Anthropic no ha respondido a solicitudes de comentario sobre las críticas recibidas. La discusión sigue abierta, y los expertos esperan que la política de guardrails evolucione mediante colaboraciones con compañías especializadas en ciberseguridad.

Source: https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/

Related Articles