Modelos

Cuatro laboratorios chinos lanzaron modelos de código abierto de nivel frontier en 12 días — a un tercio del coste de Claude

GLM-5.1, MiniMax M2.7, Kimi K2.6 y DeepSeek V4 llegaron en una ventana de 12 días con capacidad frontier en tareas agénticas y a menos de un tercio del precio de los modelos occidentales equivalentes.

G
Gonzalo· Fundador
· 4 min de lectura
IA China

En doce días de abril, cuatro laboratorios chinos publicaron modelos de pesos abiertos que alcanzan el nivel frontier en tareas de ingeniería agéntica. No en el mismo mes. No en la misma semana. En doce días. Y ninguno de ellos cuesta más de un tercio de lo que cuesta Claude Opus 4.7 por token de inferencia.

Si enero de 2025 fue el momento en que DeepSeek R1 demostró que la brecha con los modelos occidentales era mucho menor de lo que se creía, mayo de 2026 está demostrando que esa brecha se ha convertido en un sprint coordinado.

Los cuatro modelos y lo que hace a cada uno relevante

Cuatro laboratorios chinos publicaron modelos de pesos abiertos para codificación en una ventana de 12 días: GLM-5.1 de Z.ai, MiniMax M2.7, Kimi K2.6 de Moonshot y DeepSeek V4, todos alcanzando aproximadamente el mismo techo de capacidad en ingeniería agéntica a un coste de inferencia significativamente menor que el frontier occidental. Ninguno cuesta más de un tercio de Claude Opus 4.7. The Register

Los lanzamientos vinieron acompañados de demostraciones con confianza técnica real. El debut de MiniMax presentó una copia interna de M2.7 ejecutando más de 100 rondas optimizando su propio scaffold. La demostración de Kimi fue un rastro continuo de uso de herramientas de 12 horas portando un motor de inferencia a Zig. La acción de Zhipu cerró un 15,92% al alza el día del lanzamiento de GLM-5.1. The Register

No son demostraciones diseñadas para impresionar a un público general. Son señales técnicas dirigidas a los equipos de ingeniería que tienen que decidir en qué infraestructura construyen sus productos.

Dónde está todavía la brecha con el frontier occidental

La narrativa de «China alcanza a Occidente» necesita un matiz importante que el análisis de Air Street hace explícito.

En el benchmark agregado multi-dominio de CAISI del NIST, DeepSeek V4 queda aproximadamente ocho meses por detrás del frontier estadounidense líder. Ocho meses en el ritmo de desarrollo actual de la industria es un período que se puede recortar. Pero es una brecha real que no ha desaparecido. The Register

Lo que sí ha desaparecido es la brecha en tareas de codificación agéntica específicas. En su benchmark agregado multi-dominio, los cuatro modelos chinos alcanzan aproximadamente el mismo techo de capacidad en ingeniería agéntica que los modelos frontier occidentales. Para un equipo que construye un agente de código, la pregunta ya no es si un modelo chino de código abierto puede hacer el trabajo. Es si el ahorro de coste de más del 66% justifica las otras consideraciones. The Register

El nuevo benchmark que mide lo que realmente importa en 2026

El análisis de Air Street incluye un dato sobre un benchmark nuevo que merece atención especial.

ClawBench, de UBC y el Vector Institute, es un framework de evaluación de 153 tareas sobre 144 sitios web de producción en directo en 15 categorías: completar compras, reservar citas, enviar solicitudes de empleo. A diferencia de benchmarks anteriores que corrían en entornos sandbox, ClawBench opera sobre sitios de producción reales e intercepta solo la solicitud de envío final para mantener la evaluación segura sin efectos secundarios en el mundo real. La mejor puntuación de modelo frontier: Claude Sonnet 4.6 con un 33,3%. The Register

Un 33,3% en tareas cotidianas sobre sitios web de producción reales. No en condiciones de laboratorio con datos sintéticos, sino en las webs que la gente usa cada día. Es el número que mejor refleja dónde están realmente los agentes en 2026: capaces en tareas estructuradas, todavía con margen de mejora sustancial en la complejidad real del mundo.

La implicación estratégica que pocos están discutiendo

Cuatro laboratorios chinos coordinaron lanzamientos de modelos frontier de código abierto en 12 días. Que cuatro laboratorios distintos llegaran al mismo techo de capacidad en la misma ventana de tiempo no fue casualidad. Fue una señal de coordinación deliberada en el sprint tecnológico más importante de la rivalidad sino-americana. The Register

Para las empresas que construyen sobre modelos de IA, la semana que acaba de terminar ha cambiado el cálculo de forma concreta: hay ahora cuatro modelos de código abierto, autoalojables, con capacidad frontier en codificación agéntica, a menos de un tercio del coste de los equivalentes occidentales. La decisión de qué modelo usar ya no es solo técnica. Es también política, regulatoria y de soberanía de datos. Y esas tres dimensiones se están volviendo tan importantes como los benchmarks para los equipos que tienen que tomarla.

Fuentes

EtiquetasChinaOpen source DeepSeekGLMMiniMaxKimi

Seguir leyendo