Cuatro laboratorios chinos lanzaron modelos de código abierto de nivel frontier en 12 días — a un tercio del coste de Claude
GLM-5.1, MiniMax M2.7, Kimi K2.6 y DeepSeek V4 llegaron en una ventana de 12 días con capacidad frontier en tareas agénticas y a menos de un tercio del precio de los modelos occidentales equivalentes.

En doce días de abril, cuatro laboratorios chinos publicaron modelos de pesos abiertos que alcanzan el nivel frontier en tareas de ingeniería agéntica. No en el mismo mes. No en la misma semana. En doce días. Y ninguno de ellos cuesta más de un tercio de lo que cuesta Claude Opus 4.7 por token de inferencia.
Si enero de 2025 fue el momento en que DeepSeek R1 demostró que la brecha con los modelos occidentales era mucho menor de lo que se creía, mayo de 2026 está demostrando que esa brecha se ha convertido en un sprint coordinado.
Los cuatro modelos y lo que hace a cada uno relevante
Cuatro laboratorios chinos publicaron modelos de pesos abiertos para codificación en una ventana de 12 días: GLM-5.1 de Z.ai, MiniMax M2.7, Kimi K2.6 de Moonshot y DeepSeek V4, todos alcanzando aproximadamente el mismo techo de capacidad en ingeniería agéntica a un coste de inferencia significativamente menor que el frontier occidental. Ninguno cuesta más de un tercio de Claude Opus 4.7. The Register
Los lanzamientos vinieron acompañados de demostraciones con confianza técnica real. El debut de MiniMax presentó una copia interna de M2.7 ejecutando más de 100 rondas optimizando su propio scaffold. La demostración de Kimi fue un rastro continuo de uso de herramientas de 12 horas portando un motor de inferencia a Zig. La acción de Zhipu cerró un 15,92% al alza el día del lanzamiento de GLM-5.1. The Register
No son demostraciones diseñadas para impresionar a un público general. Son señales técnicas dirigidas a los equipos de ingeniería que tienen que decidir en qué infraestructura construyen sus productos.
Dónde está todavía la brecha con el frontier occidental
La narrativa de «China alcanza a Occidente» necesita un matiz importante que el análisis de Air Street hace explícito.
En el benchmark agregado multi-dominio de CAISI del NIST, DeepSeek V4 queda aproximadamente ocho meses por detrás del frontier estadounidense líder. Ocho meses en el ritmo de desarrollo actual de la industria es un período que se puede recortar. Pero es una brecha real que no ha desaparecido. The Register
Lo que sí ha desaparecido es la brecha en tareas de codificación agéntica específicas. En su benchmark agregado multi-dominio, los cuatro modelos chinos alcanzan aproximadamente el mismo techo de capacidad en ingeniería agéntica que los modelos frontier occidentales. Para un equipo que construye un agente de código, la pregunta ya no es si un modelo chino de código abierto puede hacer el trabajo. Es si el ahorro de coste de más del 66% justifica las otras consideraciones. The Register
El nuevo benchmark que mide lo que realmente importa en 2026
El análisis de Air Street incluye un dato sobre un benchmark nuevo que merece atención especial.
ClawBench, de UBC y el Vector Institute, es un framework de evaluación de 153 tareas sobre 144 sitios web de producción en directo en 15 categorías: completar compras, reservar citas, enviar solicitudes de empleo. A diferencia de benchmarks anteriores que corrían en entornos sandbox, ClawBench opera sobre sitios de producción reales e intercepta solo la solicitud de envío final para mantener la evaluación segura sin efectos secundarios en el mundo real. La mejor puntuación de modelo frontier: Claude Sonnet 4.6 con un 33,3%. The Register
Un 33,3% en tareas cotidianas sobre sitios web de producción reales. No en condiciones de laboratorio con datos sintéticos, sino en las webs que la gente usa cada día. Es el número que mejor refleja dónde están realmente los agentes en 2026: capaces en tareas estructuradas, todavía con margen de mejora sustancial en la complejidad real del mundo.
La implicación estratégica que pocos están discutiendo
Cuatro laboratorios chinos coordinaron lanzamientos de modelos frontier de código abierto en 12 días. Que cuatro laboratorios distintos llegaran al mismo techo de capacidad en la misma ventana de tiempo no fue casualidad. Fue una señal de coordinación deliberada en el sprint tecnológico más importante de la rivalidad sino-americana. The Register
Para las empresas que construyen sobre modelos de IA, la semana que acaba de terminar ha cambiado el cálculo de forma concreta: hay ahora cuatro modelos de código abierto, autoalojables, con capacidad frontier en codificación agéntica, a menos de un tercio del coste de los equivalentes occidentales. La decisión de qué modelo usar ya no es solo técnica. Es también política, regulatoria y de soberanía de datos. Y esas tres dimensiones se están volviendo tan importantes como los benchmarks para los equipos que tienen que tomarla.
Fuentes
Seguir leyendo
NuevoAnthropic lanza Claude Opus 4.8 hoy: cuatro veces menos errores en código y mayor honestidad sobre sus propios fallos
Apenas seis semanas después de Opus 4.7, Anthropic lanza Opus 4.8 al mismo precio con mejoras en codificación agéntica, fiabilidad y alineación. Es cuatro veces menos probable que ignore errores en el código que genera.
NuevoOpenAI admitió que el modo de voz de ChatGPT corre en un modelo más débil del que anunció — y los desarrolladores lo detectaron antes
Una controversia estalló esta semana cuando desarrolladores probaron que la voz de ChatGPT no usa GPT-5.5 sino un modelo interno más pequeño. OpenAI reconoció la discrepancia y actualizó su documentación.

Google publicó hoy la lista completa de sus 100 anuncios del I/O: los más relevantes que pasaron desapercibidos
Veo con audio nativo, Imagen 4, Project Astra integrado en AI Mode, Science Skills para investigación biomédica y detección de contenido generado por IA en Search. El I/O fue más grande de lo que cubrieron los titulares.