Modelos

OpenAI lanza tres modelos de voz en tiempo real: GPT-Realtime-2 razona mientras habla y traduce 70 idiomas en directo

GPT-Realtime-2 lleva razonamiento GPT-5 a las conversaciones de voz. Sin silencios muertos, con llamadas paralelas a herramientas y 128K de contexto. La Realtime API de OpenAI sale de beta con tres modelos nuevos.

G
Gonzalo· Fundador
· 4 min de lectura
GPT

Los agentes de voz han tenido siempre el mismo problema. Cuando el usuario hace una pregunta compleja, el sistema necesita tiempo para pensar. Ese tiempo se convierte en silencio. El silencio hace que la conversación parezca rota. Y la sensación de hablar con una máquina que no responde destruye la experiencia antes de que la respuesta llegue.

OpenAI acaba de resolver ese problema de una forma que cambia la arquitectura de todos los agentes de voz construidos hasta ahora.

GPT-Realtime-2 es el primer modelo de voz de OpenAI con razonamiento de nivel GPT-5 que puede manejar peticiones más complejas y mantener la conversación avanzando de forma natural. Junto a él se lanzaron GPT-Realtime-Translate, un modelo de traducción en directo que traduce voz de más de 70 idiomas de entrada a 13 idiomas de salida al ritmo del hablante, y GPT-Realtime-Whisper, transcripción de voz a texto en streaming que transcribe en directo mientras el hablante habla. The Daily Record

La Realtime API sale oficialmente de beta y está disponible de forma general desde hoy, una señal significativa para los desarrolladores que habían esperado antes de construir sistemas de producción sobre ella. Noah News

El cambio arquitectónico que importa: el razonamiento dentro del bucle de audio

Hasta ahora, los agentes de voz funcionaban en tres pasos secuenciales: transcribir lo que dices, enviarlo a un modelo de texto para que razone, y convertir la respuesta de texto en audio. Cada paso añade latencia. Cada transición entre formatos introduce errores. Y el razonamiento ocurría fuera del bucle de audio, lo que significaba que el modelo de voz no sabía qué estaba pensando el modelo de texto.

GPT-Realtime-2 es un modelo que maneja audio de entrada y audio de salida, con el razonamiento ocurriendo dentro del bucle de audio en lugar de entre la transcripción y la síntesis. El contexto es ahora de 128K tokens, cuatro veces mayor que su predecesor, lo que hace factibles sesiones más largas y flujos agénticos complejos sin costura de estado externo. Dorsey

La funcionalidad que más cambia la experiencia del usuario final son los preambles. Los desarrolladores pueden habilitar frases cortas antes de una respuesta principal, como «déjame comprobar eso» o «un momento mientras investigo», para que los usuarios sepan que el agente está trabajando en la petición. El modelo puede hacer llamadas a varias herramientas a la vez y hacer audibles esas acciones con frases como «comprobando tu calendario» o «buscando eso ahora», ayudando a los agentes a mantenerse reactivos mientras completan tareas. The Daily Record

El silencio muerto desaparece. El usuario sabe que el agente está trabajando porque lo escucha haciendo cosas.

Los tres modelos y su lógica de precios

GPT-Realtime-2 está pensado para agentes de voz donde la inteligencia y la capacidad agéntica son lo principal. GPT-Realtime-Translate para casos donde la barrera es el idioma. GPT-Realtime-Whisper para transcripción en tiempo real de bajo coste. Los tres cubren los tres cuellos de botella principales de cualquier producto de voz con IA. Dorsey

En benchmarks propios de OpenAI, los resultados son significativos: GPT-Realtime-2 en nivel de esfuerzo alto puntúa 96,6% en Big Bench Audio frente al 81,4% del modelo anterior; en Audio MultiChallenge, la variante xhigh puntúa 48,5% frente al 34,7%. En datos reales de clientes, Zillow reportó una mejora de 26 puntos en tasa de éxito de llamadas en su benchmark más adversarial, de 69% con el modelo anterior a 95% con GPT-Realtime-2. Noah News

El precio del modelo de traducción es lo que más ha llamado la atención de la industria: GPT-Realtime-Translate a 0,034 dólares por minuto pone el precio de la traducción en tiempo real en un nivel que hace inviable la mayoría de pipelines de traducción empresarial existentes basados en componentes separados. ElevenLabs, Deepgram y los proveedores de traducción por voz que han construido negocios sobre la complejidad de integrar múltiples herramientas se enfrentan a un competidor que ofrece todo en una sola llamada a la API. Dorsey

Lo que esto significa para los desarrolladores que ya tienen agentes de voz en producción

La mayoría de los cambios que GPT-Realtime-2 introduce no son simplemente mejoras de rendimiento sino cambios de arquitectura que requieren repensar cómo se diseñan los agentes de voz. El razonamiento ya no es un paso lento de back-office después de la transcripción. El modelo puede pensar antes de hablar, seguir instrucciones de forma más fiable, usar un contexto mayor y llamar a herramientas con mayor precisión. Fox Business

Hay implicaciones de seguridad que los equipos de producción necesitan entender antes de migrar: los agentes de voz no deben tener una superficie de herramientas grande y vaga donde todas las acciones estén disponibles todo el tiempo. Las búsquedas de solo lectura pueden ser ejecutadas directamente si la intención del usuario es clara. Las acciones de escritura —cancelaciones, reembolsos, compras, mensajes, cambios de cuenta— deben requerir confirmación antes de ejecutarse. Fox Business

El lanzamiento de GPT-Realtime-2 no es solo un modelo nuevo. Es una declaración de que la voz pasa de ser una interfaz de consulta-y-respuesta a ser una capa operativa real entre personas, software y procesos de negocio. Los desarrolladores que han estado esperando para construir sobre la Realtime API tienen ahora el fundamento que necesitaban. La API ha salido de beta. Los modelos están disponibles en el Playground. El momento para construir es ahora.

Fuentes

EtiquetasOpenAIGPT-5Multimodal

Seguir leyendo