
Audio y voz
Whisper (OpenAI)
El modelo de reconocimiento de voz de OpenAI, gratuito como open source y disponible vía API.
Para quién es
Periodistas que entrevistan, podcasters que necesitan transcripciones para SEO, profesionales que graban reuniones largas, estudiantes que toman notas en audio, y desarrolladores que construyen productos con voz.
Para quién NO
No diferencia bien entre múltiples hablantes: no hace diarización automática. La puntuación a veces es errática, sobre todo en audios coloquiales. Y la versión gratuita open source hay que ejecutarla uno mismo: sin capacidad técnica, toca usar la API de pago o un tercero.
Puntos fuertes
- El estándar de transcripción del sector
- Modelo open source gratuito
- Calidad muy alta en español
- Detección automática de idioma
- Marcas de tiempo automáticas
Puntos flojos
- No diferencia hablantes (sin diarización)
- Puntuación errática en audios coloquiales
- La versión gratuita hay que ejecutarla uno mismo
Qué es y para qué sirve
Whisper es el modelo de reconocimiento de voz de OpenAI, gratuito como modelo open source y disponible vía API. Convierte audio a texto en docenas de idiomas con calidad cercana a la transcripción profesional.
Está pensado para periodistas que entrevistan, podcasters que necesitan transcripciones para SEO, profesionales que graban reuniones largas, estudiantes que toman notas en audio, y desarrolladores que construyen productos con voz.
Cómo se usa
Su mejor caso de uso es transcribir audios largos en español con calidad muy alta. Una entrevista de una hora se transcribe en pocos minutos con menos errores que cualquier alternativa anterior. Es especialmente bueno con audio profesional (micrófonos decentes) y aceptable con audio sucio (entrevistas en calle, llamadas telefónicas).
Lo que no te cuentan en la web oficial
No diferencia bien entre múltiples hablantes: no hace "diarización" automáticamente. Para reuniones con cuatro personas necesitas herramientas adicionales (tipo Otter.ai o Pyannote) que separen hablantes. La puntuación a veces es errática, especialmente en audios coloquiales.