Whisper

Audio y voz

Whisper (OpenAI)

El modelo de reconocimiento de voz de OpenAI, gratuito como open source y disponible vía API.

Para quién es

Periodistas que entrevistan, podcasters que necesitan transcripciones para SEO, profesionales que graban reuniones largas, estudiantes que toman notas en audio, y desarrolladores que construyen productos con voz.

Para quién NO

No diferencia bien entre múltiples hablantes: no hace diarización automática. La puntuación a veces es errática, sobre todo en audios coloquiales. Y la versión gratuita open source hay que ejecutarla uno mismo: sin capacidad técnica, toca usar la API de pago o un tercero.

Puntos fuertes

  • El estándar de transcripción del sector
  • Modelo open source gratuito
  • Calidad muy alta en español
  • Detección automática de idioma
  • Marcas de tiempo automáticas

Puntos flojos

  • No diferencia hablantes (sin diarización)
  • Puntuación errática en audios coloquiales
  • La versión gratuita hay que ejecutarla uno mismo

Qué es y para qué sirve

Whisper es el modelo de reconocimiento de voz de OpenAI, gratuito como modelo open source y disponible vía API. Convierte audio a texto en docenas de idiomas con calidad cercana a la transcripción profesional.

Está pensado para periodistas que entrevistan, podcasters que necesitan transcripciones para SEO, profesionales que graban reuniones largas, estudiantes que toman notas en audio, y desarrolladores que construyen productos con voz.

Cómo se usa

Su mejor caso de uso es transcribir audios largos en español con calidad muy alta. Una entrevista de una hora se transcribe en pocos minutos con menos errores que cualquier alternativa anterior. Es especialmente bueno con audio profesional (micrófonos decentes) y aceptable con audio sucio (entrevistas en calle, llamadas telefónicas).

Lo que no te cuentan en la web oficial

No diferencia bien entre múltiples hablantes: no hace "diarización" automáticamente. Para reuniones con cuatro personas necesitas herramientas adicionales (tipo Otter.ai o Pyannote) que separen hablantes. La puntuación a veces es errática, especialmente en audios coloquiales.