
Durante años, la generación de imágenes con IA tuvo un problema concreto y molesto: el texto. Menús con «enchuladas», carteles con palabras inventadas, títulos ilegibles en cualquier idioma que no fuera inglés. Era el punto débil más visible de todos los modelos. OpenAI acaba de atacarlo directamente.
El 21 de abril, OpenAI lanzó ChatGPT Images 2.0, presentándolo como un cambio de un motor de renderizado a lo que la empresa llama un «compañero de pensamiento visual»: un sistema capaz de razonar sobre tareas visuales complejas, verificar sus propios resultados y generar hasta ocho imágenes coherentes a partir de un único prompt. The New Stack
Lo que cambia realmente respecto a todo lo anterior
La diferencia central no es cosmética. Images 2.0 es el primer modelo de imagen de OpenAI con capacidades de razonamiento nativo. Puede buscar en internet para obtener información en tiempo real, crear hasta ocho imágenes a partir de un único prompt y verificar sus propias creaciones antes de entregarlas. Los gráficos se pueden generar en varios formatos de aspecto y a resolución de hasta 2K. MacRumors
El modelo tiene «capacidades de pensamiento» que le permiten buscar en la web, generar múltiples imágenes a partir de un prompt y revisar sus propias creaciones. Esto le permite crear recursos de marketing en varios tamaños, así como tiras cómicas de múltiples paneles. TechCrunch En la práctica, el modelo planifica la composición antes de ejecutarla, no al revés.
El salto en renderizado de texto es el más llamativo. Cuando se pide el menú de un restaurante mexicano, el nuevo modelo genera algo que podría usarse inmediatamente en un restaurante sin que los clientes notaran nada inusual. TechCrunch Hace dos años, el mismo prompt con DALL-E 3 producía platos inventados y palabras deformadas.
Disponibilidad y precios: quién tiene qué
Todos los usuarios tendrán acceso a la versión estándar del modelo de imagen, mientras que el modo de pensamiento está reservado para suscriptores de pago. Axios El nuevo modelo también está disponible para desarrolladores a través de la API bajo el identificador gpt-image-2.
Los precios en la API son de 5 dólares por millón de tokens de texto de entrada, 10 por millón de tokens de texto de salida, 8 por millón de tokens de imagen de entrada y 30 por millón de tokens de imagen de salida. En una imagen estándar de 1024×1024 en alta calidad, eso equivale a unos 0,21 dólares por imagen, aproximadamente un 60% más que la generación anterior. Apidog El coste adicional refleja el canvas más grande y el paso de razonamiento previo.
El impacto inmediato en los rankings
En las doce horas siguientes a su lanzamiento, el modelo ya había reclamado el primer puesto en todas las categorías del Image Arena con una ventaja de +242 puntos. Es el mayor margen jamás registrado en ese ranking. Build Fast with AI El Image Arena es el equivalente al Chatbot Arena para modelos de texto: usuarios reales votan qué resultado prefieren en comparaciones ciegas, sin saber qué modelo generó cada imagen.
Casos de uso reales ya probados
Las pruebas en las primeras horas muestran resultados sólidos en tareas concretas: transformar fotos de jugadores de softball en cromos de colección con nombre, posición y logo del equipo extraído directamente del uniforme; «limpiar» digitalmente una habitación subiendo una foto del desorden y recibiendo la versión ordenada; o crear imágenes conmemorativas personalizadas. Axios
El modelo también tiene una comprensión mejorada de texto en idiomas no latinos como japonés, coreano, hindi y bengalí. TechCrunch Para el mercado hispanohablante, el soporte de texto en español también ha mejorado visiblemente respecto a generaciones anteriores.
Dónde sigue fallando
La honestidad del lanzamiento incluye limitaciones reconocidas. Todo ese razonamiento adicional puede significar que las imágenes tarden más en generarse. Axios No es un modelo instantáneo — pensar antes de dibujar tiene un coste en tiempo.
El conocimiento del modelo tiene fecha de corte en diciembre de 2025, lo que podría afectar a la precisión de ciertos prompts que involucren noticias recientes. TechCrunch Y en pruebas con maquetas de periódicos, la primera generación a veces usó artículos viejos en lugar de los actuales, aunque una segunda instrucción corrigió el problema.
OpenAI tampoco ha revelado qué arquitectura impulsa el modelo. La empresa declinó responder preguntas sobre qué tipo de modelo está detrás de ChatGPT Images 2.0 en la presentación a prensa. TechCrunch
La integración con Codex que nadie está destacando
Hay un detalle del lanzamiento que está pasando desapercibido. OpenAI también ha integrado la generación de imágenes directamente en Codex, su herramienta agéntica para desarrolladores, sin necesidad de clave de API separada ni configuración de facturación adicional. 9to5Mac Tres millones de desarrolladores usan Codex semanalmente. Darles generación de imágenes dentro del mismo espacio de trabajo que usan para código elimina la fricción más grande en la creación de prototipos visuales dentro de flujos de desarrollo.
La generación de imágenes ha sido hasta ahora el argumento más claro para elegir ChatGPT Plus sobre Claude Pro. Con Images 2.0, ese argumento se refuerza considerablemente.
Fuentes
En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.
Seguir leyendo

Claude Opus 4.7: autoverificación, visión HD y el nuevo nivel «xhigh» que Anthropic estrena hoy en su modelo flagship
Anthropic publica hoy su modelo más avanzado disponible para el público: mejor en codificación agéntica, resolución de imagen triplicada y capacidad inédita para diseñar sus propios pasos antes de entregar resultados.

OpenAI lanza GPT-5.4-Cyber, su respuesta al Proyecto Glasswing de Anthropic: más permisos, más profesionales verificados
Una semana exacta después del anuncio de Mythos, OpenAI publica su propia variante de ciberseguridad y amplía el acceso a miles de profesionales verificados. La carrera por dominar la IA ofensiva-defensiva está abierta.

Google lanza Gemma 4, su modelo de código abierto más potente, con licencia Apache 2.0 sin restricciones comerciales
Google DeepMind publica cuatro variantes de Gemma 4, desde modelos para móviles hasta un modelo de 31.000 millones de parámetros, bajo la licencia más permisiva que ha usado hasta ahora.