Anthropic lanza Claude Opus 4.8 hoy: cuatro veces menos errores en código y mayor honestidad sobre sus propios fallos

Apenas seis semanas después de Opus 4.7, Anthropic lanza Opus 4.8 al mismo precio con mejoras en codificación agéntica, fiabilidad y alineación. Es cuatro veces menos probable que ignore errores en el código que genera.

Gonzalo· Fundador

29 de mayo de 2026 · 5 min de lectura

Asistido por IA · revisado por el editor

Anthropic lanzó Claude Opus 4.7 el 16 de abril. Han pasado seis semanas. Hoy, 28 de mayo, lanzó Claude Opus 4.8. Al mismo precio. Con mejoras medibles en los puntos exactos donde 4.7 generaba más fricción en producción.

Anthropic activó Claude Opus 4.8 para los usuarios el 28 de mayo de 2026, apenas semanas después del lanzamiento de Opus 4.7 en abril. El lanzamiento confirma especulaciones anteriores, después de filtraciones en Reddit que sugerían un rollout escalonado planificado, y entrega mejor codificación agéntica y razonamiento en medio de la competencia intensificada de OpenAI. Google Cloud

El cadencia de dos modelos en seis semanas no es una anomalía. Es la señal más clara posible de que Anthropic está operando en modo de iteración rápida mientras compite por la posición de liderazgo en el segmento de codificación agéntica que hoy tiene el mayor crecimiento de adopción enterprise de toda la industria.

Qué ha mejorado concretamente respecto a Opus 4.7

Opus 4.8 muestra mayor rendimiento en codificación, habilidades agénticas, razonamiento y benchmarks de trabajo práctico de conocimiento. Los primeros testers destacan mayor fiabilidad, juicio más preciso y honestidad significativamente mejorada. El modelo es cuatro veces menos probable que Opus 4.7 de ignorar fallos en el código que produce y es menos propenso a afirmaciones no respaldadas. Las evaluaciones de alineación también alcanzaron nuevos máximos en rasgos prosociales mientras muestran tasas sustancialmente menores de comportamiento desalineado comparado con Opus 4.7. Google Cloud

Los tres números que resumen las mejoras: cuatro veces menos probable de ignorar sus propios errores de código, menor tendencia a afirmaciones no respaldadas, y tasas más bajas de comportamiento desalineado. Los tres apuntan al mismo problema que Opus 4.7 todavía tenía y que los equipos que lo usaban en producción reportaban con más frecuencia: el modelo a veces completaba una tarea de código sin señalar que había un problema que no había podido resolver de forma óptima, o afirmaba con confianza algo que luego resultaba incorrecto.

Opus 4.8 está construido sobre Opus 4.7 con juicio más preciso, más honestidad sobre su propio progreso, y la capacidad de trabajar de forma independiente durante más tiempo que sus predecesores. Disponible hoy al mismo precio. Google Cloud

La frase «más honestidad sobre su propio progreso» es técnicamente significativa. Significa que el modelo ahora reporta mejor cuándo está atascado, cuándo ha completado parcialmente una tarea o cuándo necesita orientación humana, en lugar de generar outputs que parecen completos pero tienen problemas que el agente no señaló. Para los equipos que usan Claude Code en flujos de trabajo agénticos de larga duración, esa mejora tiene un impacto directo en cuánta supervisión necesitan.

El contexto competitivo que explica el timing

Opus 4.7 todavía lidera SWE-bench Pro en codificación multiarchivo con un 64,3% frente al 58,6% de GPT-5.5, pero GPT-5.5 supera en Terminal-Bench 2.0 (82,7% frente a 69,4%) y en OSWorld-Verified (78,7% frente a 78,0%) para trabajo agéntico de uso del ordenador. CNBC

El gap en Terminal-Bench es el número que Anthropic necesita cerrar para mantener la narrativa de que Claude es el mejor modelo para codificación agéntica. GPT-5.5 lleva las últimas semanas presionando en exactamente las métricas donde Opus 4.7 era más débil. El lanzamiento de Opus 4.8 hoy es la respuesta directa a esa presión.

La cadencia que Anthropic está estableciendo con estos lanzamientos — Opus 4.7 en abril, Opus 4.8 en mayo — refleja algo más que competencia en benchmarks. Refleja que el mercado de codificación agéntica enterprise está creciendo tan rápido que cada mes de retraso en cerrar una brecha de rendimiento se traduce en clientes que evalúan la migración a alternativas. El acuerdo con KPMG para 276.000 empleados que anunciamos hoy en otro artículo, y los acuerdos anteriores con Deloitte, PwC y JPMorgan, crean una presión de rendimiento sostenida: esas empresas están usando Claude en producción para trabajo real y dan feedback directo sobre dónde falla.

Precio y disponibilidad

El nuevo modelo está ahora disponible al mismo precio con potentes nuevas funciones para codificación, flujos de trabajo agénticos y control de usuario. Google Cloud

El pricing de Opus 4.7 era 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Opus 4.8 mantiene exactamente esos precios. Eso significa que los equipos que ya usan Opus 4.7 en producción pueden migrar sin recalcular sus modelos de costes.

La disponibilidad sigue el patrón estándar de Anthropic: API directa, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. Claude Code actualizado a Opus 4.8 también desde hoy, lo que significa que los desarrolladores que usan Claude Code como herramienta de programación agéntica reciben las mejoras de forma automática sin necesidad de cambiar nada en su configuración.

El patrón que define el ritmo de Anthropic en 2026

Hay algo en el ritmo de lanzamientos de Anthropic que merece atención como señal estratégica, más allá del modelo concreto.

Febrero 2026: Opus 4.6. Abril 2026: Opus 4.7. Mayo 2026: Opus 4.8. Cada lanzamiento al mismo precio, con mejoras focalizadas en los puntos de fricción reportados por los equipos que usan el modelo anterior en producción. No son grandes saltos de arquitectura. Son iteraciones rápidas sobre feedback real.

Ese ritmo implica dos cosas. Primera: Anthropic tiene un ciclo de feedback enterprise suficientemente rápido y específico para identificar en semanas dónde el modelo falla en producción real. Segunda: tiene la infraestructura de entrenamiento para traducir ese feedback en un modelo mejorado en un ciclo de semanas, no de meses.

La combinación de los acuerdos con KPMG, Deloitte, JPMorgan y Goldman Sachs que hemos cubierto este mes no es solo distribución — es también una red de feedback de producción real a escala que ningún competidor puede replicar desde un laboratorio. Ese ciclo de feedback acelerado puede ser la ventaja competitiva más importante de Anthropic en el segmento enterprise, más importante incluso que cualquier benchmark individual.

Fuentes

Enlaces a las fuentes originales en las que se apoya esta noticia. Contrasta cada dato en su origen.

Anthropic (Twitter oficial)twitter.com
BeInCrypto (primeras horas)beincrypto.com
Anthropic news (Opus 4.7 base)anthropic.com

EtiquetasAnthropic Claude Benchmarks Programación

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

GonzaloFundador

Madrileño enganchado a la tecnología desde pequeño. Trabajo en finanzas pero la inteligencia artificial es lo que me quita el sueño. Creé Miuranews para seguirla de cerca y contarla en español sin hype.

Todos sus artículos →

◈ Asistente Miuranews

Pregunta sobre este artículo

Respuestas basadas en esta pieza y en el archivo de Miuranews. Sin inventar: si no está cubierto, te lo dice.

Prueba una

Experimento en beta · No sustituye a la lectura del artículo

Sigue leyendo