Ética

Un grupo de Discord accede sin permiso a Mythos, el modelo de Anthropic «demasiado peligroso para publicar»

Bloomberg revela que varios usuarios accedieron a Mythos Preview el mismo día de su anuncio adivinando la URL del modelo. Anthropic investiga y dice que sus sistemas internos no han sido comprometidos.

Gonzalo
Brecha Claude Mythos

El 7 de abril, Anthropic anunció Mythos Preview y el Proyecto Glasswing con una premisa inusual para una empresa tecnológica: este modelo es tan capaz que no podemos publicarlo de forma general. La restricción de acceso a un grupo selecto de cuarenta organizaciones —Apple, Amazon, Microsoft, Google, CrowdStrike, entre otras— era precisamente la salvaguarda central de toda la iniciativa.

Dos semanas después, Bloomberg revela que esa salvaguarda falló el mismo día que se anunció.

Cómo ocurrió: una URL adivinada y un empleado de terceros

Un pequeño grupo de usuarios no autorizados ha accedido al nuevo modelo Mythos de Anthropic desde el mismo día en que la compañía anunció su plan de lanzarlo a un número limitado de empresas para pruebas. El grupo ha estado usando Mythos regularmente desde entonces, aunque no con propósitos de ciberseguridad. Bloomberg

El mecanismo es, en cierto modo, más embarazoso que una intrusión técnica sofisticada. El grupo accedió aparentemente adivinando la URL del modelo basándose en el conocimiento del formato que Anthropic ha utilizado para los endpoints de otros modelos. The Next Web No fue necesario explotar ninguna vulnerabilidad técnica compleja. Bastó con conocer los patrones de nomenclatura de la empresa.

Los miembros del grupo forman parte de un canal de Discord dedicado a recopilar información sobre modelos de IA no publicados. Al menos uno de ellos trabaja actualmente en un proveedor externo contratado por Anthropic, lo que facilitó parte del acceso. El grupo intentó varias estrategias para acceder al modelo, incluyendo el uso de «herramientas comunes de investigación en internet empleadas habitualmente por investigadores de ciberseguridad». TechCrunch

Bloomberg verificó el acceso de primera mano: el grupo proporcionó a Bloomberg pruebas en forma de capturas de pantalla y una demostración en directo del software. Cyber Security News

La respuesta de Anthropic y lo que dice — y no dice

Ante las preguntas de Bloomberg y TechCrunch, Anthropic confirmó estar al tanto del incidente sin confirmar todos sus detalles. «Estamos investigando un informe que afirma que hubo acceso no autorizado a Claude Mythos Preview a través de uno de nuestros entornos de proveedores externos», declaró un portavoz de Anthropic a TechCrunch. La compañía añadió que hasta ahora no ha encontrado evidencia de que la actividad no autorizada haya impactado los sistemas de Anthropic de ninguna manera. TechCrunch

La distinción es importante pero no tranquilizadora del todo. El incidente no apunta a una brecha en la infraestructura central de Anthropic, sino a un fallo en los controles de acceso de un proveedor externo. Eso limita el daño técnico inmediato, pero no resuelve la pregunta más amplia: si el modelo más peligroso que la empresa ha construido pudo ser accedido por curiosos el mismo día de su anuncio, ¿qué dice eso sobre la robustez del sistema de distribución restringida?

Por qué este incidente tiene más peso del que parece

El incidente llega mientras Anthropic amplía lentamente el acceso no solo a corporaciones seleccionadas sino también a usuarios gubernamentales, incluyendo instituciones financieras y agencias federales de Estados Unidos, lo que provocó que la administración Trump convocara una reunión con el CEO de Anthropic, Dario Amodei, para discutir la lista negra de la start-up. Cybernews

El acceso no autorizado llega el día después de que el presidente Trump dijera en CNBC que un acuerdo del Pentágono con Anthropic era «posible» y que la empresa «estaba tomando forma». Anthropic está al mismo tiempo demandando al Departamento de Defensa por haberla incluido en una lista negra como riesgo para la cadena de suministro, con esa disputa centrada específicamente en la pregunta de si su IA puede ser controlada con suficiente seguridad. The Next Web

Un incidente de acceso no autorizado —aunque sea a través de un entorno de proveedor externo y no de sus propios sistemas— da argumentos a quienes dentro de la administración han sostenido que Anthropic no puede gobernar de forma fiable el acceso a sus propias herramientas. Y complica el caso legal de la empresa, que descansa en parte en el argumento de que aplica controles rigurosos de seguridad y acceso a sus modelos más capaces.

La intención no es garantía suficiente

La fuente que habló con Bloomberg describió al grupo como impulsado por curiosidad, «interesado en jugar con nuevos modelos, no en causar estragos». Esa declaración ha sido recogida en casi todos los medios como un elemento atenuante del incidente.

Los expertos en seguridad señalan, con razón, que la intención es irrelevante cuando la herramienta en cuestión puede producir exploits armables de forma autónoma. Mythos Preview es el modelo que en evaluaciones previas encadenó cuatro vulnerabilidades para escapar del sandbox de un navegador, identificó miles de vulnerabilidades de día cero en sistemas operativos y navegadores mayoritarios, y en un caso completó de forma autónoma una simulación de ataque corporativo en lo que habría costado a un experto humano más de diez horas.

El mecanismo de acceso —una suposición educada sobre la URL del modelo, habilitada por el conocimiento de las convenciones de Anthropic para otros endpoints— apunta a un modo de fallo específico que no requiere ninguna sofisticación técnica especial para ser explotado. The Next Web Eso es, en sí mismo, información útil sobre cómo no se debe distribuir un modelo de esta naturaleza.

Anthropic diseñó el Proyecto Glasswing para dar a los defensores ventaja sobre los atacantes antes de que un modelo con estas capacidades se generalizara. Si el acceso no autorizado se confirma con la amplitud que Bloomberg describe, esa ventaja se ha reducido en una medida que la empresa todavía está evaluando.

Fuentes

EtiquetasAnthropicClaude MythosCiberseguridadProject Glasswing

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo