OpenAI lanza tres modelos de voz en tiempo real: GPT-Realtime-2 razona mientras habla y traduce 70 idiomas en directo
GPT-Realtime-2 lleva razonamiento GPT-5 a las conversaciones de voz. Sin silencios muertos, con llamadas paralelas a herramientas y 128K de contexto. La Realtime API de OpenAI sale de beta con tres modelos nuevos.

Los agentes de voz han tenido siempre el mismo problema. Cuando el usuario hace una pregunta compleja, el sistema necesita tiempo para pensar. Ese tiempo se convierte en silencio. El silencio hace que la conversación parezca rota. Y la sensación de hablar con una máquina que no responde destruye la experiencia antes de que la respuesta llegue.
OpenAI acaba de resolver ese problema de una forma que cambia la arquitectura de todos los agentes de voz construidos hasta ahora.
GPT-Realtime-2 es el primer modelo de voz de OpenAI con razonamiento de nivel GPT-5 que puede manejar peticiones más complejas y mantener la conversación avanzando de forma natural. Junto a él se lanzaron GPT-Realtime-Translate, un modelo de traducción en directo que traduce voz de más de 70 idiomas de entrada a 13 idiomas de salida al ritmo del hablante, y GPT-Realtime-Whisper, transcripción de voz a texto en streaming que transcribe en directo mientras el hablante habla. The Daily Record
La Realtime API sale oficialmente de beta y está disponible de forma general desde hoy, una señal significativa para los desarrolladores que habían esperado antes de construir sistemas de producción sobre ella. Noah News
El cambio arquitectónico que importa: el razonamiento dentro del bucle de audio
Hasta ahora, los agentes de voz funcionaban en tres pasos secuenciales: transcribir lo que dices, enviarlo a un modelo de texto para que razone, y convertir la respuesta de texto en audio. Cada paso añade latencia. Cada transición entre formatos introduce errores. Y el razonamiento ocurría fuera del bucle de audio, lo que significaba que el modelo de voz no sabía qué estaba pensando el modelo de texto.
GPT-Realtime-2 es un modelo que maneja audio de entrada y audio de salida, con el razonamiento ocurriendo dentro del bucle de audio en lugar de entre la transcripción y la síntesis. El contexto es ahora de 128K tokens, cuatro veces mayor que su predecesor, lo que hace factibles sesiones más largas y flujos agénticos complejos sin costura de estado externo. Dorsey
La funcionalidad que más cambia la experiencia del usuario final son los preambles. Los desarrolladores pueden habilitar frases cortas antes de una respuesta principal, como «déjame comprobar eso» o «un momento mientras investigo», para que los usuarios sepan que el agente está trabajando en la petición. El modelo puede hacer llamadas a varias herramientas a la vez y hacer audibles esas acciones con frases como «comprobando tu calendario» o «buscando eso ahora», ayudando a los agentes a mantenerse reactivos mientras completan tareas. The Daily Record
El silencio muerto desaparece. El usuario sabe que el agente está trabajando porque lo escucha haciendo cosas.
Los tres modelos y su lógica de precios
GPT-Realtime-2 está pensado para agentes de voz donde la inteligencia y la capacidad agéntica son lo principal. GPT-Realtime-Translate para casos donde la barrera es el idioma. GPT-Realtime-Whisper para transcripción en tiempo real de bajo coste. Los tres cubren los tres cuellos de botella principales de cualquier producto de voz con IA. Dorsey
En benchmarks propios de OpenAI, los resultados son significativos: GPT-Realtime-2 en nivel de esfuerzo alto puntúa 96,6% en Big Bench Audio frente al 81,4% del modelo anterior; en Audio MultiChallenge, la variante xhigh puntúa 48,5% frente al 34,7%. En datos reales de clientes, Zillow reportó una mejora de 26 puntos en tasa de éxito de llamadas en su benchmark más adversarial, de 69% con el modelo anterior a 95% con GPT-Realtime-2. Noah News
El precio del modelo de traducción es lo que más ha llamado la atención de la industria: GPT-Realtime-Translate a 0,034 dólares por minuto pone el precio de la traducción en tiempo real en un nivel que hace inviable la mayoría de pipelines de traducción empresarial existentes basados en componentes separados. ElevenLabs, Deepgram y los proveedores de traducción por voz que han construido negocios sobre la complejidad de integrar múltiples herramientas se enfrentan a un competidor que ofrece todo en una sola llamada a la API. Dorsey
Lo que esto significa para los desarrolladores que ya tienen agentes de voz en producción
La mayoría de los cambios que GPT-Realtime-2 introduce no son simplemente mejoras de rendimiento sino cambios de arquitectura que requieren repensar cómo se diseñan los agentes de voz. El razonamiento ya no es un paso lento de back-office después de la transcripción. El modelo puede pensar antes de hablar, seguir instrucciones de forma más fiable, usar un contexto mayor y llamar a herramientas con mayor precisión. Fox Business
Hay implicaciones de seguridad que los equipos de producción necesitan entender antes de migrar: los agentes de voz no deben tener una superficie de herramientas grande y vaga donde todas las acciones estén disponibles todo el tiempo. Las búsquedas de solo lectura pueden ser ejecutadas directamente si la intención del usuario es clara. Las acciones de escritura —cancelaciones, reembolsos, compras, mensajes, cambios de cuenta— deben requerir confirmación antes de ejecutarse. Fox Business
El lanzamiento de GPT-Realtime-2 no es solo un modelo nuevo. Es una declaración de que la voz pasa de ser una interfaz de consulta-y-respuesta a ser una capa operativa real entre personas, software y procesos de negocio. Los desarrolladores que han estado esperando para construir sobre la Realtime API tienen ahora el fundamento que necesitaban. La API ha salido de beta. Los modelos están disponibles en el Playground. El momento para construir es ahora.
Fuentes
Seguir leyendo
NuevoAnthropic lanza Claude Opus 4.8 hoy: cuatro veces menos errores en código y mayor honestidad sobre sus propios fallos
Apenas seis semanas después de Opus 4.7, Anthropic lanza Opus 4.8 al mismo precio con mejoras en codificación agéntica, fiabilidad y alineación. Es cuatro veces menos probable que ignore errores en el código que genera.
NuevoOpenAI admitió que el modo de voz de ChatGPT corre en un modelo más débil del que anunció — y los desarrolladores lo detectaron antes
Una controversia estalló esta semana cuando desarrolladores probaron que la voz de ChatGPT no usa GPT-5.5 sino un modelo interno más pequeño. OpenAI reconoció la discrepancia y actualizó su documentación.

Google publicó hoy la lista completa de sus 100 anuncios del I/O: los más relevantes que pasaron desapercibidos
Veo con audio nativo, Imagen 4, Project Astra integrado en AI Mode, Science Skills para investigación biomédica y detección de contenido generado por IA en Search. El I/O fue más grande de lo que cubrieron los titulares.