Modelos

OpenAI lanza ChatGPT Images 2.0: el primer generador de imágenes con razonamiento nativo

El nuevo modelo gpt-image-2 razona antes de dibujar, genera hasta ocho imágenes por prompt, alcanza resolución 2K y lidera los rankings de Image Arena con la mayor ventaja registrada hasta ahora.

Gonzalo
Chat GPT Image 2.0

Durante años, la generación de imágenes con IA tuvo un problema concreto y molesto: el texto. Menús con «enchuladas», carteles con palabras inventadas, títulos ilegibles en cualquier idioma que no fuera inglés. Era el punto débil más visible de todos los modelos. OpenAI acaba de atacarlo directamente.

El 21 de abril, OpenAI lanzó ChatGPT Images 2.0, presentándolo como un cambio de un motor de renderizado a lo que la empresa llama un «compañero de pensamiento visual»: un sistema capaz de razonar sobre tareas visuales complejas, verificar sus propios resultados y generar hasta ocho imágenes coherentes a partir de un único prompt. The New Stack

Lo que cambia realmente respecto a todo lo anterior

La diferencia central no es cosmética. Images 2.0 es el primer modelo de imagen de OpenAI con capacidades de razonamiento nativo. Puede buscar en internet para obtener información en tiempo real, crear hasta ocho imágenes a partir de un único prompt y verificar sus propias creaciones antes de entregarlas. Los gráficos se pueden generar en varios formatos de aspecto y a resolución de hasta 2K. MacRumors

El modelo tiene «capacidades de pensamiento» que le permiten buscar en la web, generar múltiples imágenes a partir de un prompt y revisar sus propias creaciones. Esto le permite crear recursos de marketing en varios tamaños, así como tiras cómicas de múltiples paneles. TechCrunch En la práctica, el modelo planifica la composición antes de ejecutarla, no al revés.

El salto en renderizado de texto es el más llamativo. Cuando se pide el menú de un restaurante mexicano, el nuevo modelo genera algo que podría usarse inmediatamente en un restaurante sin que los clientes notaran nada inusual. TechCrunch Hace dos años, el mismo prompt con DALL-E 3 producía platos inventados y palabras deformadas.

Disponibilidad y precios: quién tiene qué

Todos los usuarios tendrán acceso a la versión estándar del modelo de imagen, mientras que el modo de pensamiento está reservado para suscriptores de pago. Axios El nuevo modelo también está disponible para desarrolladores a través de la API bajo el identificador gpt-image-2.

Los precios en la API son de 5 dólares por millón de tokens de texto de entrada, 10 por millón de tokens de texto de salida, 8 por millón de tokens de imagen de entrada y 30 por millón de tokens de imagen de salida. En una imagen estándar de 1024×1024 en alta calidad, eso equivale a unos 0,21 dólares por imagen, aproximadamente un 60% más que la generación anterior. Apidog El coste adicional refleja el canvas más grande y el paso de razonamiento previo.

El impacto inmediato en los rankings

En las doce horas siguientes a su lanzamiento, el modelo ya había reclamado el primer puesto en todas las categorías del Image Arena con una ventaja de +242 puntos. Es el mayor margen jamás registrado en ese ranking. Build Fast with AI El Image Arena es el equivalente al Chatbot Arena para modelos de texto: usuarios reales votan qué resultado prefieren en comparaciones ciegas, sin saber qué modelo generó cada imagen.

Casos de uso reales ya probados

Las pruebas en las primeras horas muestran resultados sólidos en tareas concretas: transformar fotos de jugadores de softball en cromos de colección con nombre, posición y logo del equipo extraído directamente del uniforme; «limpiar» digitalmente una habitación subiendo una foto del desorden y recibiendo la versión ordenada; o crear imágenes conmemorativas personalizadas. Axios

El modelo también tiene una comprensión mejorada de texto en idiomas no latinos como japonés, coreano, hindi y bengalí. TechCrunch Para el mercado hispanohablante, el soporte de texto en español también ha mejorado visiblemente respecto a generaciones anteriores.

Dónde sigue fallando

La honestidad del lanzamiento incluye limitaciones reconocidas. Todo ese razonamiento adicional puede significar que las imágenes tarden más en generarse. Axios No es un modelo instantáneo — pensar antes de dibujar tiene un coste en tiempo.

El conocimiento del modelo tiene fecha de corte en diciembre de 2025, lo que podría afectar a la precisión de ciertos prompts que involucren noticias recientes. TechCrunch Y en pruebas con maquetas de periódicos, la primera generación a veces usó artículos viejos en lugar de los actuales, aunque una segunda instrucción corrigió el problema.

OpenAI tampoco ha revelado qué arquitectura impulsa el modelo. La empresa declinó responder preguntas sobre qué tipo de modelo está detrás de ChatGPT Images 2.0 en la presentación a prensa. TechCrunch

La integración con Codex que nadie está destacando

Hay un detalle del lanzamiento que está pasando desapercibido. OpenAI también ha integrado la generación de imágenes directamente en Codex, su herramienta agéntica para desarrolladores, sin necesidad de clave de API separada ni configuración de facturación adicional. 9to5Mac Tres millones de desarrolladores usan Codex semanalmente. Darles generación de imágenes dentro del mismo espacio de trabajo que usan para código elimina la fricción más grande en la creación de prototipos visuales dentro de flujos de desarrollo.

La generación de imágenes ha sido hasta ahora el argumento más claro para elegir ChatGPT Plus sobre Claude Pro. Con Images 2.0, ese argumento se refuerza considerablemente.

Fuentes

EtiquetasOpenAIChat GPTGeneración de imágenesGPT-image 2DALL-EMultimodal

En la elaboración de este artículo se ha utilizado inteligencia artificial como apoyo en la investigación y redacción. El contenido ha sido revisado editorialmente antes de su publicación.

Seguir leyendo