OpenAI Whisper es un modelo gratuito y de código abierto de voz a texto que convierte audio hablado en texto escrito en 99 idiomas. Para ejecutarlo, necesitas tener Python instalado en tu ordenador, al menos una biblioteca adicional llamada ffmpeg y entre 150 MB y 3 GB de espacio libre en disco, según el nivel de calidad que quieras. No transcribe en tiempo real. Estos son los hechos que la cobertura entusiasta en newsletters suele omitir.

Priya gestiona partnerships en una empresa fintech de Singapur. A principios de 2026, leyó que Whisper podía igualar una "precisión de transcripción a nivel humano" y que era completamente gratis. Encontró la página de GitHub, hojeó las instrucciones y sintió el optimismo de alguien que todavía no se ha topado con la frase "pip install ffmpeg". Tres horas después tenía un críptico error de compatibilidad con CUDA, ninguna transcripción y había tomado el resto de las notas de la reunión a mano. La herramienta es realmente excelente. Simplemente fue creada para una persona distinta a Priya.

Whisper fue diseñado para desarrolladores e investigadores. Eso no lo convierte en una mala herramienta; lo convierte en la herramienta equivocada para quienes solo quieren transcribir la reunión diaria del jueves en mandarín sin escribir ni una sola línea de código.

Este artículo explica cómo funciona realmente OpenAI Whisper en un lenguaje claro, qué hace bien, qué no puede hacer en absoluto y qué opciones tienen más sentido si hoy necesitas transcripción en directo para reuniones.

Conclusiones clave

¿Qué es OpenAI Whisper?

OpenAI Whisper es un modelo de reconocimiento de voz publicado como código abierto en septiembre de 2022. OpenAI lo entrenó con 680.000 horas de audio recopilado de internet: conferencias, podcasts, entrevistas, vídeos de YouTube, audiolibros... en decenas de idiomas. La escala de esos datos de entrenamiento es una gran parte de por qué su precisión es tan buena.

Puede hacer dos cosas: transcripción, que convierte audio en texto en el mismo idioma, y traducción, que convierte audio en un idioma extranjero a texto en inglés. Ten en cuenta que solo traduce al inglés, no entre pares de idiomas arbitrarios.

Puedes acceder a Whisper de dos formas. Primero, puedes descargar gratis los pesos del modelo desde GitHub y ejecutarlo en tu propio hardware: sin costes de API, sin límites de uso, pero tú te encargas de la configuración. Segundo, puedes llamar a la API de OpenAI Whisper por 0,006 $ por minuto de audio, lo que elimina gran parte de la carga de configuración, pero sigue procesando el audio como una subida de archivo en lugar de como un flujo en directo.

Si necesitas algo que funcione sin línea de comandos, salta a la sección de opciones sin código. Si quieres entender por qué Whisper funciona como funciona, sigue leyendo: es importante para saber qué puede y qué no puede hacer.

Cómo funciona OpenAI Whisper: explicación clara paso a paso

No necesitas entender las matemáticas para usar Whisper de forma eficaz. Pero entender los cuatro pasos que sigue ayuda a explicar por qué tiene las limitaciones que tiene.

Paso 1: el audio entra como archivo

Le das a Whisper un archivo de audio grabado: MP3, WAV, M4A o la mayoría de los demás formatos habituales. No puede leer por defecto un flujo en directo desde el micrófono. El audio se queda en tu disco esperando a ser procesado.

Paso 2: Whisper convierte el sonido en una huella visual

Whisper transforma la forma de onda del audio en un espectrograma mel; piensa en ello como un mapa de calor del sonido, donde el eje horizontal es el tiempo y el eje vertical muestra qué frecuencias están presentes en cada momento. El habla tiene un aspecto distinto de la música, y ambos son distintos del ruido de fondo. Esta representación visual es lo que la IA realmente lee.

Paso 3: un modelo de IA lee la huella y predice palabras

Un modelo transformer —el mismo tipo de arquitectura en la que se basa GPT— lee el espectrograma y predice la secuencia de palabras más probable. Una parte del modelo codifica el patrón sonoro; otra lo decodifica en texto, un token cada vez. El decodificador usa el contexto anterior del audio para hacer mejores predicciones a medida que avanza.

Paso 4: sale texto, con puntuación y mayúsculas

Whisper genera texto formateado con la puntuación y las mayúsculas adecuadas para cada frase ya aplicadas. Obtienes una transcripción utilizable, no un muro de palabras en minúsculas.

La ventana de 30 segundos, y por qué importa. Whisper divide tu audio en segmentos de 30 segundos y los procesa de forma secuencial. Este enfoque por bloques es la razón principal por la que Whisper no puede emitir subtítulos en directo. No hay un resultado parcial tras cada palabra. Solo hay un bloque completado cuando termina de procesarse cada tramo de 30 segundos. En una reunión de 60 minutos, eso significa que recibes la primera transcripción parcial 30 segundos después de que termine la llamada, y la transcripción completa solo cuando todos los bloques han terminado.

Qué hace bien Whisper

Dentro de las limitaciones de su diseño, Whisper es realmente impresionante.

Si tu prioridad es la precisión después de grabar sobre un archivo de audio guardado, Whisper es difícil de superar. Es la herramienta adecuada para transcribir entrevistas grabadas, episodios de podcast, conferencias o cualquier audio que ya hayas capturado.

Qué no puede hacer Whisper: la parte que nadie explica

La mayoría de artículos sobre Whisper están escritos por desarrolladores para desarrolladores. Mencionan las limitaciones de pasada. Aquí reciben la atención que merecen.

No transcribe en tiempo real

Si inicias una llamada de Zoom y apuntas Whisper hacia ella, recibirás una transcripción cuando la llamada haya terminado, no mientras está ocurriendo. El retraso entre hablar y ver el texto va desde unos segundos en clips cortos hasta varios minutos en una reunión larga, según tu hardware y el tamaño del modelo.

Esto no es un fallo. Es una decisión de diseño. La precisión de Whisper se debe en parte a que procesa cada bloque de audio con todo el contexto. La transcripción en directo exige enviar resultados parciales de inmediato, antes de que ese contexto exista. Ambos enfoques implican una compensación fundamental, y Whisper se creó para maximizar la precisión, no para minimizar la latencia.

No puede identificar quién está hablando

Por defecto, Whisper produce una transcripción plana y sin etiquetas. Cada frase aparece en un bloque continuo sin indicar qué participante dijo qué. En una llamada comercial entre dos personas, no sabrás qué líneas eran tuyas y cuáles de tu posible cliente. En una reunión diaria de diez personas, la salida no atribuye nada a nadie.

Existen complementos de código abierto (pyannote.audio es el más habitual) que añaden diarización de hablantes sobre Whisper. Funcionan razonablemente bien, pero requieren paquetes adicionales de Python, descargas de modelos y configuración. El tiempo de puesta en marcha prácticamente se duplica.

Ejecutarlo en local requiere configuración técnica

Para usar Whisper en tu propio ordenador, necesitas:

Miguel dirige un equipo de 12 personas de customer success en una startup de Barcelona. Su equipo atiende llamadas en español, catalán e inglés. En enero de 2026, pidió a su desarrollador principal que "montara Whisper para el equipo". El desarrollador pasó un fin de semana entero instalando dependencias, se topó con un conflicto de versión de CUDA que tardó cuatro horas en resolver y luego creó una pequeña interfaz de subida para que sus compañeros pudieran enviar grabaciones sin tocar la terminal. Tiempo total de configuración: unas 14 horas de trabajo de ingeniería. La herramienta ahora funciona bien. Miguel lo agradece. También reconoce que la mayoría de equipos no tienen un desarrollador con un fin de semana libre para dedicarle.

La API de OpenAI es más fácil, pero sigue sin ser en directo

La API de OpenAI Whisper elimina el problema de la instalación local. Envías un archivo de audio a los servidores de OpenAI mediante una simple petición HTTP y recibes la transcripción de vuelta, normalmente en segundos para clips cortos. El coste es de 0,006 $ por minuto: la transcripción de una reunión de 60 minutos cuesta unos 0,36 $.

Esto reduce mucho la barrera técnica. Pero la API sigue siendo un modelo de subida de archivos, no un flujo en directo. Envías la grabación terminada cuando acaba la llamada. La transcripción llega poco después. Si tu objetivo es leer subtítulos mientras alguien sigue hablando, la API no cambia esa limitación de fondo.

Tamaños de modelo de Whisper de un vistazo

Whisper viene en cinco niveles de calidad. Los modelos más grandes son más precisos, pero también más lentos y pesados. En un portátil de consumo típico sin GPU, el modelo "small" suele ser el límite práctico en velocidad.

Modelo Tamaño del archivo Velocidad en CPU (frente al audio) Ideal para
tiny 75 MB ~10× más rápido Pruebas rápidas, demos
base 150 MB ~7× más rápido Uso ocasional, iteración rápida
medium 1.5 GB ~2× más rápido Mayor precisión, se recomienda GPU
large-v3 3 GB ~1× (tiempo real en GPU) Máxima precisión, GPU necesaria para un uso práctico

Empieza con "small" si estás haciendo pruebas en un portátil. Pasa a "large-v3" si tienes una GPU NVIDIA compatible y necesitas la mejor precisión en audio no inglés. El salto de precisión de small a large-v3 se nota. El salto en tiempo de procesamiento en CPU es severo.

Cómo usar Whisper sin escribir código

Existen tres opciones prácticas para personas no desarrolladoras, cada una con un equilibrio distinto entre esfuerzo, coste y tiempo.

Opción 1: la API de OpenAI Whisper

Sube tu archivo de audio a través de la interfaz de OpenAI o mediante un cliente HTTP sin código como Postman. Obtendrás una transcripción limpia en segundos o minutos según la duración. Coste: 0,006 $/minuto. Es la vía con menos fricción si tienes grabaciones ocasionales y no quieres instalar nada. La desventaja: sigues procesando grabaciones a posteriori, no capturando voz en directo.

Opción 2: aplicaciones de escritorio basadas en Whisper

Varios desarrolladores han envuelto Whisper en una interfaz con clics. MacWhisper (solo Mac) y Buzz (multiplataforma, gratis) te permiten arrastrar un archivo de audio y obtener una transcripción sin abrir una terminal. Son realmente útiles para transcripción después de la llamada. Comparten la misma limitación arquitectónica: sin subtítulos en directo y sin etiquetas de hablante sin configuración adicional.

Opción 3: herramientas en el navegador con streaming para reuniones en directo

Si tu objetivo es leer subtítulos mientras una conversación está ocurriendo, no recuperar una transcripción cuando termina, necesitas un enfoque completamente distinto. Las herramientas basadas en navegador que usan voz a texto en streaming capturan audio desde tu micrófono o desde una pestaña del navegador y envían resultados parciales palabra por palabra a medida que la gente habla. Sin instalación, sin Python y sin espera de posprocesado.

Esta categoría incluye herramientas como alternativas a Whisper pensadas para usuarios no técnicos, que intercambian parte de la precisión posterior de Whisper por la inmediatez que requieren las conversaciones en directo. La elección entre ellas no trata de cuál es "mejor", sino de si necesitas transcripción de una reunión o durante una reunión.

Whisper frente a la transcripción en directo de reuniones: dos arquitecturas distintas

Entender por qué Whisper no puede emitir subtítulos en directo exige entender la diferencia entre voz a texto por lotes y en streaming.

Whisper es un modelo por lotes. Espera a tener un bloque completo de audio, lo procesa con todo el contexto y devuelve un resultado. La ventaja en precisión viene de ese contexto completo: el modelo puede ver el final de una frase antes de confirmar qué decía el principio. Es como leer un párrafo dos veces antes de resumirlo.

La voz a texto en streaming funciona de otra manera. Envía resultados parciales en el momento en que llega cada palabra y luego los autocorrige a medida que se acumula contexto. Herramientas como MirrorCaption, basadas en nuestro propio motor STT en streaming, pueden mostrar la primera palabra de un subtítulo entre 300 y 500 milisegundos después de que alguien la pronuncie. La contrapartida es cierta pérdida de precisión en palabras ambiguas que el procesamiento por lotes detectaría con perspectiva.

Esto no es una comparación de calidad. Se puede decir que Whisper es más preciso en audio grabado precisamente porque procesa más contexto. El STT en streaming acepta una pequeña penalización en precisión a cambio de inmediatez. Para reuniones en directo, la inmediatez es todo el producto.

Kenji trabaja en Tokio para un fabricante que vende a clientes europeos. Sus llamadas de los jueves con un equipo de Múnich solían depender de un compañero bilingüe para interpretar frases clave. Cuando ese compañero se fue, Kenji empezó a usar una herramienta de transcripción en streaming basada en navegador. Lee los subtítulos en alemán en tiempo real durante la llamada. Sin descargas, sin Python y sin esperar a que aparezca una transcripción cuando termina la reunión. La diferencia con Whisper no es la precisión. Es la capacidad de oír algo, entenderlo y responder, todo dentro de la misma llamada de 60 minutos.

¿Necesitas subtítulos en directo y no transcripciones después de la llamada? MirrorCaption ofrece transcripción y traducción en streaming en cualquier navegador, durante tu reunión. No requiere instalación.

Pruébalo gratis →

Preguntas frecuentes

¿OpenAI Whisper es gratis?

Sí. Los pesos del modelo Whisper se pueden descargar y usar gratis bajo la licencia MIT, que permite aplicaciones comerciales. Ejecutar Whisper en local no cuesta nada más allá de tu propio hardware y electricidad. La API de OpenAI Whisper cobra 0,006 $ por minuto de audio: la transcripción de una reunión de 60 minutos cuesta aproximadamente 0,36 $.

¿Puede Whisper transcribir una llamada de Zoom en tiempo real?

No. Whisper procesa el audio en bloques de 30 segundos después de capturarlo. No puede ofrecer subtítulos palabra por palabra mientras alguien está hablando. Si grabas una llamada de Zoom y luego ejecutas Whisper sobre el archivo guardado, obtendrás una transcripción limpia, pero solo después de que la reunión haya terminado. Para subtítulos en directo en Zoom, necesitas una herramienta de voz a texto en streaming, no Whisper. Nuestro resumen de software de voz a texto compara opciones en tiempo real y posteriores a la reunión para flujos de trabajo habituales.

¿Qué precisión tiene OpenAI Whisper?

Whisper large-v3 logra aproximadamente un 2–3 % de tasa de error por palabra en el benchmark estándar LibriSpeech para inglés, comparable a la transcripción humana profesional con audio limpio. La precisión baja con mucho ruido de fondo, hablantes superpuestos, habla muy rápida o micrófonos de baja calidad. Los idiomas distintos del inglés presentan de media tasas de error más altas que el inglés, aunque siguen superando a muchos modelos regionales más antiguos. Para una visión más amplia de las compensaciones en precisión de transcripción, consulta nuestros benchmarks de precisión de traducción en tiempo real.

¿Whisper admite chino y japonés?

Sí. Whisper cubre 99 idiomas, incluidos chino mandarín, cantonés, japonés, coreano, árabe, hindi y todos los principales idiomas europeos. Para mandarín y cantonés, el modelo grande de Whisper funciona bien con audio claramente pronunciado, aunque le cuesta con acentos regionales marcados y con el cambio de código entre chino e inglés dentro de la misma frase. Para una comparación más amplia de las herramientas multilingües disponibles hoy, consulta nuestro resumen de software de voz a texto.

¿Existe una alternativa a Whisper basada en navegador que funcione para reuniones en directo?

Sí. Herramientas basadas en navegador como MirrorCaption usan voz a texto en streaming para transcribir y traducir en tiempo real durante tu reunión: sin Python, sin instalación y sin esperar a que termine la llamada. Funcionan en Chrome, Safari o Edge en cualquier dispositivo. La contrapartida frente a Whisper es que la precisión posterior sobre una grabación guardada puede ser ligeramente menor, pero en conversaciones en directo la inmediatez es precisamente el objetivo. Empieza con 1 hora gratis (una sola vez) en mirrorcaption.com/app.

Conclusión

OpenAI Whisper es uno de los sistemas de voz a texto más precisos que se han puesto a disposición del público. También es uno de los menos accesibles para las personas que más se beneficiarían de él.

Si tienes un archivo de audio guardado y paciencia para cierta configuración, Whisper —especialmente a través de la API de OpenAI— ofrece una precisión de transcripción casi humana en 99 idiomas por un coste casi nulo. Es un logro de ingeniería notable.

Si necesitas leer lo que alguien está diciendo mientras lo está diciendo, durante una reunión y no después, la arquitectura de Whisper no encaja. Las herramientas de voz a texto en streaming existen precisamente para este caso de uso. Funcionan en una pestaña del navegador, se ponen en marcha en segundos y no requieren línea de comandos.

La pregunta no es qué herramienta es mejor. La pregunta es qué herramienta encaja con tu necesidad de tiempo. Para conocer las mejores herramientas de voz a texto en 2026 para todos los casos de uso, nuestro resumen completo cubre todo el panorama.

Transcripción de reuniones en directo, sin configuración

MirrorCaption ofrece transcripción y traducción en streaming palabra por palabra durante tu llamada. Funciona en cualquier navegador y en cualquier plataforma de videollamadas. 1 hora gratis (una sola vez), sin tarjeta de crédito.

Prueba MirrorCaption gratis