Audio y voz

Whisper (OpenAI)

El modelo de reconocimiento de voz de OpenAI, gratuito como open source y disponible vía API.

Publicado 23 de mayo de 2026

Para quién es

Periodistas que entrevistan, podcasters que necesitan transcripciones para SEO, profesionales que graban reuniones largas, estudiantes que toman notas en audio, y desarrolladores que construyen productos con voz.

Para quién NO

No diferencia bien entre múltiples hablantes: no hace diarización automática. La puntuación a veces es errática, sobre todo en audios coloquiales. Y la versión gratuita open source hay que ejecutarla uno mismo: sin capacidad técnica, toca usar la API de pago o un tercero.

Puntos fuertes

El estándar de transcripción del sector
Modelo open source gratuito
Calidad muy alta en español
Detección automática de idioma
Marcas de tiempo automáticas

Puntos flojos

No diferencia hablantes (sin diarización)
Puntuación errática en audios coloquiales
La versión gratuita hay que ejecutarla uno mismo

Qué es y de dónde viene

Whisper es el modelo de reconocimiento de voz de OpenAI, publicado como open source en 2022 en un movimiento poco habitual para la compañía: mientras GPT se mantiene cerrado y disponible solo vía producto o API, Whisper se liberó con pesos descargables y licencia permisiva. Se entrenó sobre cientos de miles de horas de audio multilingüe recogido de internet, lo que explica su solidez tanto en inglés como en idiomas con menos recursos de entrenamiento tradicionalmente disponibles.

Ese carácter abierto lo ha convertido en la base técnica de una cantidad enorme de productos de transcripción que el usuario final ni siquiera asocia con OpenAI: apps de notas de voz, herramientas de subtitulado, plataformas de podcasting. En un sector donde compite con ElevenLabs (orientado más a síntesis y clonación de voz que a transcripción) y con soluciones propietarias de grandes plataformas, Whisper sigue siendo en 2026 el estándar de facto contra el que se mide cualquier alternativa nueva de transcripción.

Cómo funciona y qué hace bien

El modelo detecta automáticamente el idioma del audio sin necesidad de indicarlo de antemano, y genera marcas de tiempo por segmento, lo que permite sincronizar la transcripción con el audio original o generar subtítulos directamente. Existen varios tamaños de modelo, desde versiones ligeras que corren en local con hardware modesto hasta la versión completa, que exige más recursos pero da la máxima precisión.

En español, la calidad es notablemente alta incluso comparada con herramientas comerciales cerradas, algo que no siempre ocurre con otros idiomas distintos del inglés en modelos de este tipo. Funciona especialmente bien con audio grabado en condiciones razonables —micrófono decente, poco ruido de fondo— y de forma aceptable incluso con audio más sucio, como entrevistas grabadas en la calle o llamadas telefónicas con calidad limitada. Vía API, la transcripción se resuelve en un tiempo muy inferior a la duración real del audio, lo que hace viable procesar horas de grabación en minutos.

Casos de uso reales

Transcripción de una entrevista larga para un artículo. Un periodista graba una hora de conversación con una fuente y necesita el texto completo para citar con precisión. Sube el audio a través de la API o de una herramienta que use Whisper por debajo, y en pocos minutos tiene la transcripción completa con marcas de tiempo, lista para buscar la frase exacta que necesita citar sin tener que reescuchar la grabación entera.

Transcripción de episodios de podcast para SEO. Un podcaster que publica episodios semanales necesita el texto de cada uno para publicarlo como artículo en su web y ganar tráfico de búsqueda. Automatiza el proceso: cada episodio nuevo pasa por Whisper vía API nada más publicarse, y el texto resultante sirve de base para el artículo del blog sin transcribir nada a mano.

Notas de una reunión de trabajo larga. Un consultor graba una reunión de una hora con un cliente y, en lugar de tomar notas durante la conversación, se centra en escuchar y transcribe el audio después para extraer los puntos acordados, usando la transcripción como fuente para redactar el acta.

Integración en un producto propio con voz. Un desarrollador que construye una aplicación de notas de voz para profesionales sanitarios integra Whisper vía API como motor de transcripción de base, aprovechando que el coste por minuto es predecible y que no necesita entrenar ni mantener un modelo propio de reconocimiento de voz.

Lo que no conviene esperar: que separe automáticamente quién dice qué en una reunión con varios participantes, ni que la puntuación del texto resultante sea perfecta en audios muy coloquiales o con muletillas constantes.

Precio: qué pagas y qué obtienes

Whisper existe en dos formas de acceso claramente distintas. Como modelo open source, es completamente gratuito, pero eso significa ejecutarlo uno mismo: descargar los pesos del modelo y correrlo en hardware propio, lo que exige cierta capacidad técnica y, para las versiones más precisas, una GPU con memoria suficiente. Para quien no tiene esa capacidad o prefiere no gestionar infraestructura propia, existe la API de OpenAI a 0,006 $ por minuto de audio transcrito, que resulta muy económica incluso para volúmenes considerables: transcribir diez horas de audio al mes cuesta unos 3,60 $.

La decisión entre una opción y otra depende sobre todo de la capacidad técnica disponible y del volumen de uso: para un desarrollador con conocimientos de infraestructura y volumen alto, correr el modelo en local puede salir más barato a largo plazo; para la mayoría de periodistas, podcasters o consultores sin ese perfil técnico, la API resuelve el problema sin fricción y a un coste que rara vez es el factor limitante.

Dónde falla y limitaciones

La ausencia de diarización automática —la capacidad de identificar y separar quién habla en cada momento— es la limitación más comentada entre quien trabaja con reuniones de varios participantes. Whisper transcribe el audio, pero no distingue por sí solo entre las voces de cuatro personas hablando en una misma grabación; para eso hace falta combinarlo con herramientas adicionales especializadas en separación de hablantes, lo que añade un paso extra al flujo de trabajo que muchos usuarios no esperan tener que gestionar.

La puntuación del texto generado también puede ser errática, especialmente en audios coloquiales con muletillas, interrupciones o cambios de tema abruptos: el resultado es perfectamente legible, pero conviene revisar antes de publicar algo directamente, sobre todo si el destino final es un artículo o una cita textual. Y la versión gratuita, al ser open source, no es "gratis y listo para usar" en el sentido habitual: alguien tiene que ejecutarla, lo que deja fuera a cualquiera sin capacidad técnica propia o acceso a quien la tenga.

Alternativas y cuándo elegirlas

Si tu necesidad no es transcribir sino generar voz sintética o clonar una voz concreta, ElevenLabs resuelve un problema distinto y complementario, no competidor directo. Si necesitas diarización automática integrada sin montar un flujo con herramientas adicionales, conviene valorar servicios comerciales especializados en reuniones que ya incluyen esa separación de hablantes de fábrica, aunque con coste de suscripción. Whisper gana con claridad cuando lo que necesitas es transcripción pura de alta calidad, en español, al menor coste posible.

Para quién la recomendamos

Whisper merece conocerse por nombre porque es una de esas herramientas que gran parte de los profesionales ya usa sin saberlo, escondida detrás de otras apps de transcripción. Para periodistas, podcasters, consultores y cualquiera que trabaje con audio de forma regular, es difícil justificar pagar mucho más por una alternativa cuando Whisper resuelve el mismo problema con calidad muy alta y un coste casi simbólico vía API. Si tu uso es puramente ocasional —una reunión suelta de vez en cuando— las funciones de transcripción gratuitas ya integradas en Google Meet o Zoom probablemente bastan y no merece la pena montar nada adicional. Para quien transcribe con cierta frecuencia, en Miuranews consideramos Whisper la base sobre la que construir cualquier flujo de trabajo de audio a texto en 2026.