Anthropic lanza Claude Opus 4.8 hoy: cuatro veces menos errores en código y mayor honestidad sobre sus propios fallos
Apenas seis semanas después de Opus 4.7, Anthropic lanza Opus 4.8 al mismo precio con mejoras en codificación agéntica, fiabilidad y alineación. Es cuatro veces menos probable que ignore errores en el código que genera.

Anthropic lanzó Claude Opus 4.7 el 16 de abril. Han pasado seis semanas. Hoy, 28 de mayo, lanzó Claude Opus 4.8. Al mismo precio. Con mejoras medibles en los puntos exactos donde 4.7 generaba más fricción en producción.
Anthropic activó Claude Opus 4.8 para los usuarios el 28 de mayo de 2026, apenas semanas después del lanzamiento de Opus 4.7 en abril. El lanzamiento confirma especulaciones anteriores, después de filtraciones en Reddit que sugerían un rollout escalonado planificado, y entrega mejor codificación agéntica y razonamiento en medio de la competencia intensificada de OpenAI. Google Cloud
El cadencia de dos modelos en seis semanas no es una anomalía. Es la señal más clara posible de que Anthropic está operando en modo de iteración rápida mientras compite por la posición de liderazgo en el segmento de codificación agéntica que hoy tiene el mayor crecimiento de adopción enterprise de toda la industria.
Qué ha mejorado concretamente respecto a Opus 4.7
Opus 4.8 muestra mayor rendimiento en codificación, habilidades agénticas, razonamiento y benchmarks de trabajo práctico de conocimiento. Los primeros testers destacan mayor fiabilidad, juicio más preciso y honestidad significativamente mejorada. El modelo es cuatro veces menos probable que Opus 4.7 de ignorar fallos en el código que produce y es menos propenso a afirmaciones no respaldadas. Las evaluaciones de alineación también alcanzaron nuevos máximos en rasgos prosociales mientras muestran tasas sustancialmente menores de comportamiento desalineado comparado con Opus 4.7. Google Cloud
Los tres números que resumen las mejoras: cuatro veces menos probable de ignorar sus propios errores de código, menor tendencia a afirmaciones no respaldadas, y tasas más bajas de comportamiento desalineado. Los tres apuntan al mismo problema que Opus 4.7 todavía tenía y que los equipos que lo usaban en producción reportaban con más frecuencia: el modelo a veces completaba una tarea de código sin señalar que había un problema que no había podido resolver de forma óptima, o afirmaba con confianza algo que luego resultaba incorrecto.
Opus 4.8 está construido sobre Opus 4.7 con juicio más preciso, más honestidad sobre su propio progreso, y la capacidad de trabajar de forma independiente durante más tiempo que sus predecesores. Disponible hoy al mismo precio. Google Cloud
La frase «más honestidad sobre su propio progreso» es técnicamente significativa. Significa que el modelo ahora reporta mejor cuándo está atascado, cuándo ha completado parcialmente una tarea o cuándo necesita orientación humana, en lugar de generar outputs que parecen completos pero tienen problemas que el agente no señaló. Para los equipos que usan Claude Code en flujos de trabajo agénticos de larga duración, esa mejora tiene un impacto directo en cuánta supervisión necesitan.
El contexto competitivo que explica el timing
Opus 4.7 todavía lidera SWE-bench Pro en codificación multiarchivo con un 64,3% frente al 58,6% de GPT-5.5, pero GPT-5.5 supera en Terminal-Bench 2.0 (82,7% frente a 69,4%) y en OSWorld-Verified (78,7% frente a 78,0%) para trabajo agéntico de uso del ordenador. CNBC
El gap en Terminal-Bench es el número que Anthropic necesita cerrar para mantener la narrativa de que Claude es el mejor modelo para codificación agéntica. GPT-5.5 lleva las últimas semanas presionando en exactamente las métricas donde Opus 4.7 era más débil. El lanzamiento de Opus 4.8 hoy es la respuesta directa a esa presión.
La cadencia que Anthropic está estableciendo con estos lanzamientos — Opus 4.7 en abril, Opus 4.8 en mayo — refleja algo más que competencia en benchmarks. Refleja que el mercado de codificación agéntica enterprise está creciendo tan rápido que cada mes de retraso en cerrar una brecha de rendimiento se traduce en clientes que evalúan la migración a alternativas. El acuerdo con KPMG para 276.000 empleados que anunciamos hoy en otro artículo, y los acuerdos anteriores con Deloitte, PwC y JPMorgan, crean una presión de rendimiento sostenida: esas empresas están usando Claude en producción para trabajo real y dan feedback directo sobre dónde falla.
Precio y disponibilidad
El nuevo modelo está ahora disponible al mismo precio con potentes nuevas funciones para codificación, flujos de trabajo agénticos y control de usuario. Google Cloud
El pricing de Opus 4.7 era 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Opus 4.8 mantiene exactamente esos precios. Eso significa que los equipos que ya usan Opus 4.7 en producción pueden migrar sin recalcular sus modelos de costes.
La disponibilidad sigue el patrón estándar de Anthropic: API directa, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. Claude Code actualizado a Opus 4.8 también desde hoy, lo que significa que los desarrolladores que usan Claude Code como herramienta de programación agéntica reciben las mejoras de forma automática sin necesidad de cambiar nada en su configuración.
El patrón que define el ritmo de Anthropic en 2026
Hay algo en el ritmo de lanzamientos de Anthropic que merece atención como señal estratégica, más allá del modelo concreto.
Febrero 2026: Opus 4.6. Abril 2026: Opus 4.7. Mayo 2026: Opus 4.8. Cada lanzamiento al mismo precio, con mejoras focalizadas en los puntos de fricción reportados por los equipos que usan el modelo anterior en producción. No son grandes saltos de arquitectura. Son iteraciones rápidas sobre feedback real.
Ese ritmo implica dos cosas. Primera: Anthropic tiene un ciclo de feedback enterprise suficientemente rápido y específico para identificar en semanas dónde el modelo falla en producción real. Segunda: tiene la infraestructura de entrenamiento para traducir ese feedback en un modelo mejorado en un ciclo de semanas, no de meses.
La combinación de los acuerdos con KPMG, Deloitte, JPMorgan y Goldman Sachs que hemos cubierto este mes no es solo distribución — es también una red de feedback de producción real a escala que ningún competidor puede replicar desde un laboratorio. Ese ciclo de feedback acelerado puede ser la ventaja competitiva más importante de Anthropic en el segmento enterprise, más importante incluso que cualquier benchmark individual.
Fuentes
Seguir leyendo
NuevoOpenAI admitió que el modo de voz de ChatGPT corre en un modelo más débil del que anunció — y los desarrolladores lo detectaron antes
Una controversia estalló esta semana cuando desarrolladores probaron que la voz de ChatGPT no usa GPT-5.5 sino un modelo interno más pequeño. OpenAI reconoció la discrepancia y actualizó su documentación.

Google publicó hoy la lista completa de sus 100 anuncios del I/O: los más relevantes que pasaron desapercibidos
Veo con audio nativo, Imagen 4, Project Astra integrado en AI Mode, Science Skills para investigación biomédica y detección de contenido generado por IA en Search. El I/O fue más grande de lo que cubrieron los titulares.

Gemini Spark empieza a llegar hoy a los primeros usuarios — y Google lanzó Antigravity Agent en producción
El agente personal 24/7 de Google basado en Gemini 3.5 Flash inicia su rollout hoy para suscriptores AI Ultra en EE.UU. Simultáneamente, el Antigravity Agent sale de preview y entra en disponibilidad pública.