Does YouTube automatically add captions?

Yes, but with limits. YouTube can auto-generate captions for uploaded long-form videos and Shorts in many supported languages, but quality varies and mixed-language audio can cause issues. For live streams, automatic captions are English-only and do not persist after the broadcast ends. For multilingual creator workflows, use a separate real-time transcription tool during recording.

How do I transcribe a Zoom interview with a foreign-language guest in real time?

Open MirrorCaption in a second browser tab on desktop Chrome or Edge. Select Meet mode to capture your Zoom call's audio. Choose the guest's language as the source and your language as the translation target. MirrorCaption streams word-by-word transcription and translation as they speak — no recording upload required.

Can I use MirrorCaption with OBS?

MirrorCaption is not an OBS plugin and does not overlay captions on your stream for viewers to see. It runs in a separate browser tab and shows real-time captions on your own screen. For viewer-facing live stream captions and OBS overlays, tools like StreamTranslate or LocalVocal are better suited.

Does MirrorCaption store my recording or audio?

No. MirrorCaption streams audio from your browser for real-time speech-to-text and does not store audio recordings on MirrorCaption servers. Transcripts are saved locally in your browser. When you close the session, the live audio stream ends. Only usage minutes are recorded for billing purposes.

Is there a free version for content creators?

Yes. Every account starts with 1 free hour — one-time, no monthly reset, no credit card required. That's enough to run a full creator interview. If you need more, the Lifetime plan is €49 one-time for 200 hours.

MirrorCaption para criadores: legendas ao vivo

MirrorCaption transmite transcrição e tradução em tempo real para 50+ idiomas durante chamadas no Zoom, Google Meet e Teams pelo navegador — ou presencialmente pelo microfone do seu celular. Experimente grátis por 1 hora, sem necessidade de cartão de crédito.

Você acabou de fechar uma collab com uma criadora coreana cujo canal de culinária tem dois milhões de inscritos. Ela está entusiasmada — dá para ouvir. Ela responde sua primeira pergunta com detalhes, 35 segundos de coreano que você percebe ser animado e minucioso. Você sorri. Você acena com a cabeça. Você não faz a menor ideia do que ela disse. E ainda faltam 47 minutos de entrevista.

A maioria dos fluxos de trabalho de transcrição criados para criadores de conteúdo resolve o problema da pós-produção. Faça upload da gravação, espere, receba a transcrição. Isso ajuda na edição, mas não ajuda você a fazer uma pergunta de acompanhamento no terceiro minuto. O MirrorCaption está lá enquanto a conversa acontece.

Principais conclusões

MirrorCaption transmite transcrição palavra por palavra durante sua chamada — útil antes que a gravação se transforme em um ativo de pós-produção.
A tradução em tempo real em 50+ idiomas significa que você pode entrevistar criadores coreanos, japoneses ou árabes e acompanhar cada resposta ao vivo.
A transcrição da sessão é exportada imediatamente para notas do episódio, descrições do YouTube e reaproveitamento em blog.
Por €49 uma única vez por 200 horas, MirrorCaption custa menos do que dois meses de Descript ($24/mês) ou três meses de Otter.ai ($16.99/mês).
As legendas automáticas do YouTube suportam muitos idiomas em vídeos enviados, mas as legendas automáticas ao vivo são apenas em inglês e o áudio em vários idiomas pode ser pouco confiável.

Dois tipos de transcrição — e por que a maioria das ferramentas para criadores perde o momento

A maioria das ferramentas de transcrição para criadores é feita para a sala de edição, não para o estúdio de gravação. Há uma distinção importante:

Transcrição de pós-produção — você grava o vídeo, envia ou processa o arquivo e recebe a transcrição depois. Ferramentas como Descript, Sonix, Happy Scribe e Rev são mais fortes aqui: timestamps, identificação de falantes, exportações limpas, fluxos de edição. Mas essa ajuda normalmente chega depois que a conversa já avançou.

Transcrição em tempo real — as legendas aparecem conforme as palavras são ditas, com menos de 500 ms de atraso em relação ao falante. Otter.ai faz isso para reuniões com inglês como idioma principal. MirrorCaption faz isso em 50+ idiomas com original e tradução lado a lado — então, se seu convidado responder em coreano, você vê o texto em coreano à esquerda e a tradução em inglês à direita, simultaneamente.

A lacuna é específica: quando um convidado que não fala inglês responde à sua pergunta no oitavo minuto, nenhuma ferramenta de pós-produção ajuda você a fazer a pergunta óbvia de acompanhamento no nono minuto. Esse é o momento para o qual o MirrorCaption foi criado. Veja também: legendas ao vivo vs. transcrições — qual é a diferença real.

Como o MirrorCaption funciona para criadores de conteúdo

O MirrorCaption funciona inteiramente no navegador — sem download, sem extensão, sem bot entrando na chamada e aparecendo na lista de participantes de todo mundo.

Modo Meet — para chamadas de vídeo no navegador

Abra o MirrorCaption em uma segunda aba no Chrome ou Microsoft Edge no desktop. Selecione o modo Meet e então compartilhe a aba do Zoom, Google Meet ou Teams. O MirrorCaption captura o áudio dessa aba junto com o seu microfone e começa a transmitir a transcrição imediatamente. Escolha o idioma do falante e o idioma de tradução de sua preferência — a visualização lado a lado é atualizada palavra por palavra conforme seu convidado fala.

Modo Talk — para encontros presenciais entre criadores

Gravando uma collab presencial? Abra o MirrorCaption no Chrome do seu celular, mude para o modo Talk e coloque-o entre vocês na mesa. Ambos os falantes leem as palavras um do outro ao vivo. Sem app para instalar. Sem preocupação com plano de dados além do uso normal do navegador.

Depois da sessão

Quando você encerra a sessão, a transcrição completa é sua — copie para a área de transferência, exporte como texto simples ou baixe em Markdown. As identificações de falantes mostram quem disse o quê. Os timestamps marcam cada segmento. Você pode pesquisar dentro da transcrição e ir direto a qualquer momento.

Esse é o mesmo fluxo de trabalho que funciona para equipes remotas multilíngues — só que aplicado à sua configuração de entrevista com criadores.

Teste na sua próxima entrevista. 1 hora grátis, sem cartão de crédito, sem renovação mensal.

Abrir MirrorCaption Grátis

O cenário de entrevista que todo criador com público global conhece

Considere duas versões da mesma entrevista.

Sem MirrorCaption: Ji-ho, uma criadora coreana de games, responde à sua pergunta sobre burnout com o que você percebe — pelo tom, pelos gestos — ser uma resposta cuidadosa e pessoal. Você não fala coreano. Faz a próxima pergunta roteirizada e segue em frente. Mais tarde, quando a transcrição chega, você descobre que ela descreveu uma pausa específica de 90 dias que fez das transmissões e o momento exato em que decidiu voltar. Sua pergunta de acompanhamento poderia ter sido o trecho mais envolvente do vídeo. Você nunca saberá, porque a conversa seguiu adiante.

Com MirrorCaption: Enquanto Ji-ho fala, você vê as palavras dela aparecerem em coreano na coluna da esquerda — e a tradução em inglês na direita, em meio segundo. Você lê: "I took 90 days away from streaming… the moment I came back was when I realized I was doing it for the views, not for the joy." Você interrompe. "Espera — você pode falar mais sobre esse momento?" A entrevista muda de rumo.

Quando uma convidada japonesa diz「ちょっと難しいです」e você vê "Um pouco difícil" aparecer ao lado do original, você sabe — se já passou um tempo no Japão — que isso é uma suavização educada de uma opinião mais forte. O texto original continua na tela. Você pode aprofundar a conversa. A tradução sozinha não basta; a visualização lado a lado é o que dá o contexto completo.

É isso que separa a tradução em tempo real da transcrição de pós-produção. Você não está lendo o que foi dito. Você está lendo o que está sendo dito — com ainda 45 minutos para conduzir a conversa.

O que você pode fazer com a transcrição depois

A transcrição da sessão não é apenas uma rede de segurança — é um calendário de conteúdo. Uma entrevista de 60 minutos com um criador produz:

Notas do episódio em menos de 5 minutos. Copie a transcrição, remova palavras de preenchimento, organize em parágrafos. As citações exatas do seu convidado já estão lá — sem necessidade de paráfrase.
Texto para descrição do YouTube. As palavras-chave que seu convidado usou naturalmente — termos do nicho, nomes de produtos, frases específicas — estão literalmente na transcrição. Cole na descrição e elas serão indexadas corretamente.
Rascunho de post para blog. Use citações da transcrição como âncoras de seção. Uma frase como "I realized I was doing it for the views, not for the joy" organiza uma seção inteira sem precisar ser reconstruída de memória.
Clipes para redes sociais. Pesquise na transcrição por momentos impactantes de 20 segundos. Os timestamps mostram exatamente onde cortar.
Construtor de vocabulário. Se você é um criador que aprende idiomas, pode tocar em qualquer palavra traduzida para revelar o original — e salvá-la no seu caderno de estudo pessoal. Sua entrevista também é uma aula.

Para uma análise mais profunda sobre o que fazer com transcrições de criadores em diferentes plataformas, veja nosso guia de transcrição multilíngue.

O que o MirrorCaption não faz em transmissões ao vivo (leia isto primeiro)

MirrorCaption mostra legendas na sua tela — não na transmissão. Ele não é um plugin do OBS e não sobrepõe legendas traduzidas para o seu público ver. Se é isso que você precisa, use uma ferramenta dedicada de legendagem para streams, como StreamTranslate ou LocalVocal.

Dito isso, muitos criadores ao vivo ainda acham o MirrorCaption útil durante uma transmissão: para entender um convidado multilíngue falando fora da câmera, acompanhar mensagens do chat em um idioma que você não fala ou monitorar o que seu coapresentador está dizendo no idioma nativo dele. É uma ferramenta de compreensão para criadores — não uma ferramenta de legendas para o público.

Para legendas voltadas ao público no vídeo final, as legendas automáticas do YouTube cobrem o inglês após o upload. Para legendas multilíngues, exporte a transcrição do MirrorCaption e adicione-a como faixa SRT no seu editor. Nosso guia sobre como obter legendas ao vivo em qualquer chamada de vídeo cobre ambas as abordagens em detalhes.

🎙

Entrevista com criador (Zoom)

Abra o MirrorCaption no modo Meet. Capture o áudio da aba do Zoom. Leia as respostas do seu convidado palavra por palavra — no idioma dele e no seu, simultaneamente.

📷

Collab presencial

Sem idioma em comum? Use o modo Talk no seu celular. Coloque-o entre vocês na mesa. Ambos os criadores leem um ao outro ao vivo, sem trocar de app.

🎥

Transmissão ao vivo (sua visão)

Leia convidados multilíngues ou comentários do chat em tempo real na sua tela. Seu público vê sua transmissão; você vê as legendas. Nenhum plugin do OBS é necessário.

📚

Conteúdo pós-entrevista

Exporte a transcrição da sessão para notas do episódio, descrições do YouTube, rascunhos de blog e legendas para redes sociais — tudo a partir dos mesmos 60 minutos.

Vai fazer uma entrevista multilíngue com criadores esta semana? Comece grátis — 1 hora incluída, sem configuração.

Experimente MirrorCaption Grátis

Preço — quanto realmente custa para um criador

A maioria das ferramentas de transcrição criadas para criadores cobra mensalidade. O MirrorCaption não.

Ferramenta	Tempo Real	Tradução	Instalação Necessária	Custo
MirrorCaption	✓ Durante a chamada	50+ idiomas, visualização bilíngue	Apenas aba do navegador	€49 uma única vez (200h)
Descript	✗ Pós-produção	Fluxo de trabalho de tradução em pós-produção, não visualização bilíngue ao vivo	Web + aplicativo desktop	$24/mês
Otter.ai	✓ (inglês como idioma principal)	Limitada	Assistente de reunião / fluxo de trabalho por app	$16.99/mês
Sonix	✗ Pós-produção	53+ idiomas	Upload no navegador	$10/h
Happy Scribe	✗ Pós-produção	120+ idiomas	Upload no navegador	~$17/mês (IA)

A conta é direta: por €49 uma única vez, o MirrorCaption se paga em comparação com o Descript em dois meses e com o Otter em três. Depois disso, não custa nada por mês — recargas do Voice Pack estão disponíveis por €2.99 por 5 horas se você precisar de mais do que as 200 horas incluídas no plano Lifetime.

O Descript é a melhor ferramenta se você precisa editar vídeo cortando pela transcrição — esse é um fluxo de trabalho realmente diferente. Mas, para entender convidados multilíngues durante a própria chamada, o Descript não ajuda em nada.

As legendas também facilitam pesquisar, citar e reaproveitar vídeos prontos. Uma transcrição pesquisável — que você já tem com o MirrorCaption — fornece o texto bruto para legendas, descrições, notas do episódio e clipes.

Perguntas frequentes

O YouTube adiciona legendas automaticamente?

Sim, mas com limitações. O YouTube gera legendas automaticamente para vídeos longos enviados e Shorts em muitos idiomas compatíveis, mas a qualidade varia e o áudio em vários idiomas pode causar problemas. Para transmissões ao vivo, as legendas automáticas funcionam apenas em inglês e não permanecem após o fim da transmissão — uma nova faixa de legendas é regenerada a partir do VOD e pode diferir do que apareceu ao vivo. Para conteúdo multilíngue ou convidados que não falam inglês, use uma ferramenta separada de transcrição em tempo real durante a gravação.

Como transcrevo em tempo real uma entrevista no Zoom com um convidado em outro idioma?

Abra o MirrorCaption em uma segunda aba no Chrome ou Edge no desktop. Selecione o modo Meet e compartilhe a aba do Zoom como fonte de áudio. Escolha o idioma do convidado como idioma de origem e o seu idioma como destino da tradução. Enquanto seu convidado fala, o MirrorCaption transmite a transcrição palavra por palavra à esquerda e a tradução à direita — sem necessidade de upload da gravação, sem espera após a sessão.

Posso usar o MirrorCaption com o OBS?

MirrorCaption não é um plugin do OBS e não sobrepõe legendas traduzidas na sua transmissão para o público ver. Ele mostra legendas em tempo real na sua própria tela, em uma aba do navegador. Se você precisa de legendas voltadas ao público integradas diretamente ao OBS, StreamTranslate (baseado em nuvem, 30+ idiomas) ou LocalVocal (gratuito, executado localmente, 100+ idiomas) foram feitos para isso. O MirrorCaption complementa essas ferramentas — é o que você usa para entender um convidado multilíngue durante a transmissão, enquanto uma ferramenta de legendagem para stream cuida do que seu público vê.

O MirrorCaption armazena minha gravação ou áudio?

Não. O MirrorCaption transmite o áudio do seu navegador para conversão de fala em texto em tempo real e não armazena gravações de áudio nos servidores do MirrorCaption. As transcrições são salvas localmente no seu navegador (IndexedDB). Quando você fecha a sessão, o fluxo de áudio ao vivo termina. Apenas os minutos de uso são registrados para fins de cobrança, não o conteúdo da conversa.

Existe uma versão gratuita para criadores de conteúdo?

Sim. Toda conta começa com 1 hora grátis — uma única vez, sem renovação mensal, sem necessidade de cartão de crédito. Isso é suficiente para fazer uma entrevista completa com um criador em qualquer idioma. Se precisar de mais, o plano Lifetime custa €49 uma única vez por 200 horas, com recargas do Voice Pack disponíveis se você ultrapassar esse limite.

Todo convidado agora está ao seu alcance

Entreviste qualquer pessoa, em qualquer idioma, em qualquer chamada pelo navegador. Comece com 1 hora grátis — sem cartão de crédito, sem renovação mensal, sem instalação.

Começar grátis

MirrorCaption para criadores globais