OpenAI Whisper é um modelo gratuito e open source de fala para texto que converte áudio falado em texto escrito em 99 idiomas. Para executá-lo, você precisa ter Python instalado no computador, pelo menos uma biblioteca adicional chamada ffmpeg e entre 150 MB e 3 GB de espaço livre em disco, dependendo do nível de qualidade desejado. Ele não transcreve em tempo real. Esses são os fatos que a cobertura empolgada em newsletters costuma ignorar.
Priya gerencia parcerias em uma empresa de fintech em Singapura. No início de 2026, ela leu que o Whisper podia alcançar "precisão de transcrição em nível humano" e era totalmente gratuito. Encontrou a página no GitHub, passou os olhos nas instruções e sentiu o otimismo de quem ainda não encontrou a expressão "pip install ffmpeg". Três horas depois, ela tinha um erro enigmático de compatibilidade com CUDA, nenhuma transcrição e acabou anotando o restante da reunião à mão. A ferramenta é realmente excelente. Só foi feita para uma pessoa diferente da Priya.
Whisper foi projetado para desenvolvedores e pesquisadores. Isso não faz dele uma ferramenta ruim — faz dele a ferramenta errada para quem só quer transcrever a daily de quinta-feira em mandarim sem escrever uma única linha de código.
Este artigo explica como o OpenAI Whisper realmente funciona em linguagem simples, no que ele é bom, o que ele simplesmente não consegue fazer e quais opções fazem mais sentido se você precisa de transcrição ao vivo para reuniões hoje.
- OpenAI Whisper é um modelo gratuito e open source de fala para texto lançado em setembro de 2022, treinado com 680.000 horas de áudio da web.
- Ele oferece suporte a 99 idiomas e alcança precisão próxima à humana em inglês — cerca de 2–3% de taxa de erro por palavra em gravações limpas.
- Whisper não funciona em tempo real. Ele processa o áudio em blocos de 30 segundos depois que a gravação termina, não enquanto alguém está falando.
- Executá-lo localmente exige Python 3.9+, ffmpeg e um arquivo de modelo entre 75 MB e 3 GB. Precisão e velocidade aumentam juntas.
- Para transcrição ao vivo de reuniões sem código, você precisa de fala para texto por streaming — uma arquitetura diferente que o Whisper não foi projetado para oferecer.
O que é o OpenAI Whisper?
OpenAI Whisper é um modelo de reconhecimento de fala lançado como open source em setembro de 2022. A OpenAI o treinou com 680.000 horas de áudio coletado da internet — palestras, podcasts, entrevistas, vídeos do YouTube, audiolivros — em dezenas de idiomas. A escala desses dados de treinamento é uma grande parte do motivo de sua precisão ser tão boa.
Ele pode fazer duas coisas: transcrição, que converte áudio em texto no mesmo idioma, e tradução, que converte áudio em um idioma estrangeiro para texto em inglês. Observe que ele só traduz para o inglês, não entre pares arbitrários de idiomas.
Você pode acessar o Whisper de duas formas. Primeiro, pode baixar gratuitamente os pesos do modelo no GitHub e executá-lo no seu próprio hardware — sem custo de API, sem limite de taxa, mas você faz a configuração. Segundo, pode chamar a API do OpenAI Whisper por US$ 0,006 por minuto de áudio, o que remove boa parte da configuração, mas ainda processa o áudio como upload de arquivo em vez de stream ao vivo.
Se você precisa de algo que funcione sem linha de comando, pule para a seção de opções sem código. Se quiser entender por que o Whisper funciona do jeito que funciona, continue lendo — isso importa para saber o que ele pode e o que não pode fazer.
Como o OpenAI Whisper funciona — explicação em linguagem simples
Você não precisa entender a matemática para usar o Whisper de forma eficaz. Mas entender as quatro etapas pelas quais ele passa ajuda a explicar por que ele tem as limitações que tem.
Etapa 1: o áudio entra como arquivo
Você fornece ao Whisper um arquivo de áudio gravado — MP3, WAV, M4A ou a maioria dos outros formatos comuns. Por padrão, ele não consegue ler um stream ao vivo do microfone. O áudio fica no seu disco aguardando processamento.
Etapa 2: o Whisper converte o som em uma impressão digital visual
O Whisper transforma a forma de onda do áudio em um espectrograma mel — pense nisso como um mapa de calor do som, em que o eixo horizontal é o tempo e o eixo vertical mostra quais frequências estão presentes em cada momento. A fala tem uma aparência diferente da música, que por sua vez é diferente do ruído de fundo. Essa representação visual é o que a IA realmente lê.
Etapa 3: um modelo de IA lê a impressão digital e prevê palavras
Um modelo transformer — o mesmo tipo de arquitetura por trás do GPT — lê o espectrograma e prevê a sequência mais provável de palavras. Uma parte do modelo codifica o padrão sonoro; outra o decodifica em texto, um token por vez. O decodificador usa o contexto anterior do áudio para fazer previsões melhores à medida que avança.
Etapa 4: o texto sai com pontuação e maiúsculas
O Whisper gera texto formatado com pontuação e capitalização adequadas à frase já aplicadas. Você recebe uma transcrição utilizável, não um bloco de palavras em minúsculas.
A janela de 30 segundos — e por que isso importa. O Whisper divide seu áudio em segmentos de 30 segundos e os processa em sequência. Essa abordagem em blocos é o principal motivo pelo qual o Whisper não consegue transmitir legendas ao vivo. Não há resultado parcial após cada palavra. Há apenas um bloco concluído depois que cada trecho de 30 segundos termina de ser processado. Em uma reunião de 60 minutos, isso significa que você recebe a primeira transcrição parcial 30 segundos após o fim da chamada — e a transcrição completa só quando todos os blocos terminam.
No que o Whisper é bom
Dentro das limitações do seu design, o Whisper é realmente impressionante.
- Precisão próxima à humana em inglês. O modelo large-v3 alcança cerca de 2–3% de taxa de erro por palavra em benchmarks padrão — comparável a transcritores humanos profissionais em áudio limpo. Como referência, sistemas antigos de reconhecimento de fala para consumidores tinham em média 10–15% de taxa de erro.
- 99 idiomas. Mandarim, cantonês, japonês, coreano, árabe, hindi, russo, português, espanhol, alemão, francês e dezenas de outros. O README do Whisper no GitHub lista o conjunto completo de idiomas com benchmarks de precisão por idioma.
- Boa tolerância a sotaques. Como foi treinado com áudio real da web, e não com fala de qualidade de estúdio, o Whisper lida melhor com sotaques não nativos do que muitos sistemas ASR mais antigos ajustados com conjuntos de dados limitados.
- Pontuação automática. Vírgulas, pontos e letras maiúsculas já vêm incluídos. A maioria das ferramentas concorrentes de transcrição em lote exige uma etapa separada de pós-processamento para isso.
- Vocabulário técnico. O Whisper lida melhor com terminologia específica de domínio — termos médicos, jurídicos e de programação — do que sistemas genéricos de reconhecimento de fala para consumidores.
- Totalmente gratuito para usar. Os pesos do modelo são lançados sob a licença MIT, que permite uso comercial. Você pode processar quantas gravações seu hardware permitir com custo marginal zero.
Se sua prioridade é a precisão após a gravação em um arquivo de áudio salvo, o Whisper é difícil de superar. É a ferramenta certa para transcrever entrevistas gravadas, episódios de podcast, palestras ou qualquer áudio que você já tenha capturado.
O que o Whisper não consegue fazer — a parte que ninguém explica
A maioria dos artigos sobre o Whisper é escrita por desenvolvedores para desenvolvedores. Eles mencionam as limitações de passagem. Aqui, elas recebem a atenção que merecem.
Ele não transcreve em tempo real
Se você iniciar uma chamada no Zoom e apontar o Whisper para ela, receberá uma transcrição quando a chamada terminar — não enquanto ela acontece. O atraso entre falar e ver o texto varia de alguns segundos para clipes curtos a vários minutos para uma reunião longa, dependendo do seu hardware e do tamanho do modelo.
Isso não é um bug. É uma escolha de design. A precisão do Whisper vem em parte do processamento de cada bloco de áudio com contexto completo. A transcrição ao vivo exige enviar resultados parciais imediatamente, antes que o contexto esteja disponível. As duas abordagens envolvem uma troca fundamental, e o Whisper foi criado para maximizar a precisão em vez de minimizar a latência.
Ele não consegue identificar quem está falando
Por padrão, o Whisper produz uma transcrição plana, sem rótulos. Cada frase aparece em um bloco contínuo, sem indicação de qual participante disse o quê. Em uma chamada de vendas com duas pessoas, você não saberá quais falas foram suas e quais foram do prospect. Em uma daily com dez pessoas, a saída fica totalmente sem atribuição.
Existem complementos open source (pyannote.audio é o mais comum) que adicionam diarização de locutores por cima do Whisper. Eles funcionam razoavelmente bem, mas exigem pacotes adicionais de Python, downloads de modelos e configuração. O tempo de setup praticamente dobra.
Executá-lo localmente exige configuração técnica
Para usar o Whisper no seu próprio computador, você precisa de:
- Python 3.9 ou superior instalado corretamente
- A biblioteca de áudio ffmpeg (uma instalação separada na maioria dos sistemas operacionais)
- O arquivo de pesos do modelo: 75 MB para "tiny", 1,5 GB para "medium", 3 GB para "large-v3"
- Uma GPU moderna se quiser velocidade razoável — o modelo grande leva de 20 a 40 minutos para processar uma hora de áudio em uma CPU típica de laptop
Miguel lidera uma equipe de customer success com 12 pessoas em uma startup de Barcelona. Sua equipe atende chamadas em espanhol, catalão e inglês. Em janeiro de 2026, ele pediu ao desenvolvedor principal para "configurar o Whisper para a equipe". O desenvolvedor passou um fim de semana inteiro instalando dependências, encontrou um conflito de versão do CUDA que levou quatro horas para resolver e depois criou uma pequena interface de upload para que os colegas pudessem enviar gravações sem tocar no terminal. Tempo total de setup: cerca de 14 horas de trabalho de engenharia. A ferramenta agora funciona bem. Miguel é grato. Ele também reconhece que a maioria das equipes não tem um desenvolvedor com um fim de semana livre para gastar nisso.
A API da OpenAI é mais fácil — mas ainda não é ao vivo
A API do OpenAI Whisper elimina o problema da instalação local. Você envia um arquivo de áudio para os servidores da OpenAI por meio de uma simples requisição HTTP e recebe a transcrição de volta, normalmente em segundos para clipes curtos. O custo é de US$ 0,006 por minuto — a transcrição de uma reunião de 60 minutos custa cerca de US$ 0,36.
Isso reduz bastante a barreira técnica. Mas a API ainda é um modelo de upload de arquivo, não um stream ao vivo. Você envia a gravação finalizada depois que a chamada termina. A transcrição chega logo depois. Se seu objetivo é ler legendas enquanto alguém ainda está falando, a API não muda essa limitação fundamental.
Tamanhos dos modelos Whisper em resumo
O Whisper vem em cinco níveis de qualidade. Modelos maiores são mais precisos, mas também mais lentos e pesados. Em um laptop comum sem GPU, o modelo "small" costuma ser o limite prático de velocidade.
| Modelo | Tamanho do arquivo | Velocidade na CPU (vs áudio) | Melhor para |
|---|---|---|---|
| tiny | 75 MB | ~10× mais rápido | Testes rápidos, demos |
| base | 150 MB | ~7× mais rápido | Uso casual, iteração rápida |
| small ★ | 490 MB | ~4× mais rápido | Bom equilíbrio entre qualidade e velocidade em laptops |
| medium | 1.5 GB | ~2× mais rápido | Maior precisão, GPU recomendada |
| large-v3 | 3 GB | ~1× (tempo real na GPU) | Precisão máxima, GPU necessária para uso prático |
Comece com "small" se estiver testando em um laptop. Passe para "large-v3" se tiver uma GPU NVIDIA compatível e precisar da melhor precisão em áudio que não seja em inglês. O salto de precisão de small para large-v3 é perceptível. O salto no tempo de processamento em CPU é severo.
Como usar o Whisper sem escrever código
Existem três opções práticas para quem não é desenvolvedor, cada uma com um equilíbrio diferente entre esforço, custo e tempo.
Opção 1: a API do OpenAI Whisper
Envie seu arquivo de áudio pela interface da OpenAI ou por um cliente HTTP sem código, como o Postman. Você recebe uma transcrição limpa em segundos ou minutos, dependendo da duração. Custo: US$ 0,006/minuto. Este é o caminho com menos atrito se você tem gravações ocasionais e não quer instalar nada. A desvantagem: você ainda está processando gravações depois do fato, não capturando fala ao vivo.
Opção 2: aplicativos desktop baseados em Whisper
Vários desenvolvedores colocaram o Whisper dentro de uma interface clicável. MacWhisper (somente Mac) e Buzz (multiplataforma, gratuito) permitem arrastar um arquivo de áudio e obter uma transcrição sem abrir o terminal. Eles são realmente úteis para transcrição após a chamada. Compartilham a mesma limitação arquitetural — sem legendas ao vivo, sem identificação de locutores sem configuração adicional.
Opção 3: ferramentas de streaming no navegador para reuniões ao vivo
Se seu objetivo é ler legendas enquanto a conversa acontece — e não recuperar uma transcrição depois que termina — você precisa de uma abordagem totalmente diferente. Ferramentas baseadas em navegador que usam fala para texto por streaming capturam áudio do seu microfone ou da aba do navegador e enviam resultados parciais palavra por palavra à medida que as pessoas falam. Sem instalação, sem Python, sem espera de pós-processamento.
Essa categoria inclui ferramentas como alternativas ao Whisper feitas para usuários não técnicos, que trocam parte da precisão posterior do Whisper pela imediaticidade que conversas ao vivo exigem. A escolha entre elas não é sobre qual é "melhor" — é sobre se você precisa de transcrição de uma reunião ou durante uma reunião.
Whisper vs. transcrição ao vivo de reuniões — duas arquiteturas diferentes
Entender por que o Whisper não consegue transmitir legendas ao vivo exige entender a diferença entre fala para texto em lote e por streaming.
O Whisper é um modelo em lote. Ele espera um bloco completo de áudio, processa com contexto total e retorna um resultado. A vantagem de precisão vem desse contexto completo: o modelo pode ver o fim de uma frase antes de confirmar o que o começo dizia. É como ler um parágrafo duas vezes antes de resumi-lo.
Fala para texto por streaming funciona de forma diferente. Ela envia resultados parciais no momento em que cada palavra chega e depois faz autocorreções à medida que o contexto se acumula. Ferramentas como MirrorCaption, baseadas no nosso próprio mecanismo de STT por streaming, podem entregar a primeira palavra de uma legenda entre 300 e 500 milissegundos depois que alguém a pronuncia. A troca é alguma perda de precisão em palavras ambíguas que o processamento em lote captaria com retrospectiva.
Isso não é uma comparação de qualidade. O Whisper é possivelmente mais preciso em áudio gravado justamente porque processa mais contexto. O STT por streaming aceita uma pequena penalidade de precisão em troca de imediaticidade. Para reuniões ao vivo, a imediaticidade é o produto inteiro.
Kenji trabalha em Tóquio para um fabricante que vende para clientes europeus. Suas chamadas de quinta-feira com uma equipe de Munique dependiam de um colega bilíngue para interpretar frases-chave. Quando esse colega saiu, Kenji começou a usar uma ferramenta de transcrição por streaming no navegador. Ele lê as legendas em alemão em tempo real durante a chamada. Sem downloads, sem Python, sem esperar uma transcrição aparecer depois que a reunião termina. A diferença em relação ao Whisper não é a precisão. É a capacidade de ouvir algo, entender e responder — tudo dentro da mesma chamada de 60 minutos.
Precisa de legendas ao vivo, não de transcrições pós-chamada? MirrorCaption transmite transcrição e tradução em qualquer navegador, durante sua reunião. Sem instalação.
Teste grátis →Perguntas frequentes
O OpenAI Whisper é gratuito?
Sim. Os pesos do modelo Whisper podem ser baixados e usados gratuitamente sob a licença MIT, que permite aplicações comerciais. Executar o Whisper localmente não custa nada além do seu próprio hardware e eletricidade. A API do OpenAI Whisper cobra US$ 0,006 por minuto de áudio — a transcrição de uma reunião de 60 minutos custa cerca de US$ 0,36.
O Whisper consegue transcrever uma chamada no Zoom em tempo real?
Não. O Whisper processa o áudio em blocos de 30 segundos depois que o áudio é capturado. Ele não consegue entregar legendas palavra por palavra enquanto alguém está falando. Se você gravar uma chamada no Zoom e depois executar o Whisper no arquivo salvo, receberá uma transcrição limpa — mas só depois que a reunião terminar. Para legendas ao vivo no Zoom, você precisa de uma ferramenta de fala para texto por streaming, não do Whisper. Nosso guia de softwares de fala para texto compara opções em tempo real e pós-reunião em fluxos de trabalho comuns.
Qual é a precisão do OpenAI Whisper?
O Whisper large-v3 alcança cerca de 2–3% de taxa de erro por palavra no benchmark padrão LibriSpeech para inglês, o que é comparável à transcrição humana profissional em áudio limpo. A precisão cai com ruído de fundo intenso, falas sobrepostas, fala muito rápida ou microfones de baixa qualidade. Idiomas que não são inglês têm, em média, taxas de erro maiores do que o inglês, embora ainda superem muitos modelos regionais mais antigos. Para uma visão mais ampla dos trade-offs de precisão em transcrição, veja nossos benchmarks de precisão de tradução em tempo real.
O Whisper oferece suporte a chinês e japonês?
Sim. O Whisper cobre 99 idiomas, incluindo chinês mandarim, cantonês, japonês, coreano, árabe, hindi e todos os principais idiomas europeus. Para mandarim e cantonês, o modelo grande do Whisper tem bom desempenho em áudio falado com clareza, embora tenha dificuldade com sotaques regionais fortes e alternância entre chinês e inglês na mesma frase. Para uma comparação mais ampla das ferramentas multilíngues disponíveis hoje, veja nosso guia de softwares de fala para texto.
Existe uma alternativa ao Whisper baseada em navegador que funcione para reuniões ao vivo?
Sim. Ferramentas baseadas em navegador como MirrorCaption usam fala para texto por streaming para transcrever e traduzir em tempo real durante sua reunião — sem Python, sem instalação, sem esperar a chamada terminar. Elas funcionam no Chrome, Safari ou Edge em qualquer dispositivo. A troca em relação ao Whisper é que a precisão posterior em uma gravação salva pode ser um pouco menor, mas em conversas ao vivo a imediaticidade é o ponto principal. Comece com 1 hora grátis (única vez) em mirrorcaption.com/app.
Conclusão
OpenAI Whisper é um dos sistemas de fala para texto mais precisos já disponibilizados publicamente. Também é um dos mais inacessíveis para as pessoas que mais se beneficiariam dele.
Se você tem um arquivo de áudio salvo e paciência para alguma configuração, o Whisper — especialmente via API da OpenAI — oferece precisão de transcrição próxima à humana em 99 idiomas por um custo quase nulo. Isso é uma conquista de engenharia notável.
Se você precisa ler o que alguém está dizendo enquanto a pessoa ainda está falando — durante uma reunião, não depois — a arquitetura do Whisper não é a escolha certa. Ferramentas de fala para texto por streaming existem exatamente para esse caso de uso. Elas funcionam em uma aba do navegador, começam em segundos e não exigem linha de comando.
A pergunta não é qual ferramenta é melhor. A pergunta é qual ferramenta corresponde à sua necessidade de tempo. Para conhecer as melhores ferramentas de fala para texto em 2026 em todos os casos de uso, nosso guia completo cobre o cenário.
Transcrição ao vivo de reuniões, sem setup
MirrorCaption transmite transcrição e tradução palavra por palavra durante sua chamada. Funciona em qualquer navegador, em qualquer plataforma de videochamada. 1 hora grátis (única vez), sem cartão de crédito.
Teste MirrorCaption grátis