Is OpenAI Whisper free?

Yes. The Whisper model weights are free to download and use under an MIT license. Running Whisper locally costs nothing beyond your own hardware. The OpenAI Whisper API charges $0.006 per minute of audio processed — a one-hour meeting costs about $0.36.

Can Whisper transcribe a Zoom call live?

No. Whisper processes audio in 30-second batches after recording. It cannot stream transcription word-by-word while someone is speaking. For live Zoom transcription, you need a streaming speech-to-text tool built on a different architecture.

How accurate is OpenAI Whisper?

Whisper large-v3 achieves roughly 2–3% word error rate on clean English audio, which is comparable to professional human transcription. Accuracy drops noticeably on heavy background noise, crosstalk, or low-quality recordings.

Does Whisper support Chinese and Japanese?

Yes. Whisper supports 99 languages including Mandarin, Cantonese, Japanese, Korean, Arabic, and Hindi. Accuracy on non-English languages is generally lower than on English but often still competitive with specialized regional models.

Is there a browser-based Whisper alternative for live meetings?

Yes. Tools like MirrorCaption use streaming speech-to-text to transcribe and translate meetings in real time, directly in a browser tab. No Python, no installation, no waiting for the call to end.

OpenAI Whisper 工作原理详解——非技术人员通俗指南

OpenAI Whisper 是一款免费的开源语音转文字模型，可将音频转录为 99 种语言的文字。要使用它，你需要在电脑上安装 Python、一个名为 ffmpeg 的音频库，以及 150 MB 到 3 GB 不等的硬盘空间（取决于你选择的质量档位）。它不支持实时转录。这些是大多数科技媒体报道时倾向于略过的事实。

🏫 真实场景

Priya 是新加坡某金融科技公司的合作伙伴经理。2026 年初，她读到 Whisper 能达到"媲美人类的转录准确率"且完全免费。她打开 GitHub 页面，浏览了说明文档，满怀信心地开始尝试——直到遇见"pip install ffmpeg"这几个字。三个小时后，她面对的是一条关于 CUDA 兼容性的神秘报错，没有任何转录结果，只能继续用手动方式记录会议内容。Whisper 本身确实出色；只是它最初并非为 Priya 这类用户而设计。

Whisper 是为开发者和研究人员打造的。这不代表它是一款糟糕的工具，而是说明它对于那些只想在普通通话中实时转录普通话、又不想写任何代码的用户来说，可能并不合适。

本文用通俗语言解释 OpenAI Whisper 的工作原理、它的优势、它本质上无法做到的事，以及如果你需要实时会议转录时应考虑哪些替代方案。

核心要点

OpenAI Whisper 是 2022 年 9 月发布的开源语音转文字模型，使用来自网络的 68 万小时音频训练而成。
支持 99 种语言，英文转录准确率接近人工水平，词错误率约为 2–3%。
Whisper 不支持实时转录。它以 30 秒为单位处理音频片段，只有录制完成后才能生成文字。
本地运行需要 Python 3.9+、ffmpeg，以及 75 MB 至 3 GB 不等的模型文件。
如需在通话过程中获得实时字幕，需使用流式语音识别工具——这是一种与 Whisper 架构不同的技术方案。

OpenAI Whisper 是什么？

OpenAI Whisper 是一款语音识别模型，于 2022 年 9 月以开源形式发布。OpenAI 使用从互联网收集的 68 万小时音频对其进行训练，涵盖讲座、播客、采访、YouTube 视频、有声书等多种形式和语言。训练数据的规模是其准确率出众的重要原因。

它能完成两项任务：转录（将音频转为同语言文字）和翻译（将外语音频翻译为英文文字）。注意：它只能翻译成英文，不支持在任意语言对之间进行翻译。

使用 Whisper 有两种途径。第一，从 GitHub 免费下载模型并在本机运行——无需 API 费用，但需自行完成配置。第二，调用 OpenAI Whisper API，按每分钟音频 $0.006 计费。API 方式省去了大部分配置工作，但同样是文件上传后处理，而非实时流式转录。

OpenAI Whisper 的工作原理（通俗版）

你不需要理解数学原理，只需了解四个步骤——这能帮助你理解它为什么有某些限制。

第一步：输入音频文件

你向 Whisper 提供一个录音文件——MP3、WAV、M4A 等常见格式均可。它默认无法读取麦克风的实时音频流。

第二步：将声音转换为视觉"指纹"

Whisper 将音频波形转换为梅尔频谱图——可以理解为一张声音热力图，横轴是时间，纵轴显示每个时刻的频率分布。语音、音乐和背景噪声各有不同的视觉特征。这就是 AI 实际"阅读"的内容。

第三步：AI 读取频谱图并预测文字

一个 Transformer 模型读取频谱图并预测最可能的词语序列。模型的一部分负责编码声音模式，另一部分负责逐词解码为文字，并利用前文上下文提升预测准确性。

第四步：输出带标点的文字

Whisper 输出带有句号、逗号和大写字母的格式化文本——你得到的是可直接使用的转录稿，而非一大段小写文字。

30 秒窗口限制。Whisper 将音频分割成 30 秒的片段逐段处理。这正是它无法实时生成字幕的根本原因——每段处理完成后才会输出结果，而非逐词推送。一场 60 分钟的会议，只有在会议结束后的处理完成时，完整的转录稿才会呈现。

Whisper 擅长什么

英文准确率接近人工水平。large-v3 模型在标准基准测试中词错误率约为 2–3%，与专业人工转录员在清晰音频上的水平相当。
支持 99 种语言。涵盖普通话、粤语、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语、西班牙语、德语、法语等。
口音适应性强。由于训练数据来自真实网络音频，Whisper 对非母语口音的容忍度优于许多基于录音室语料库训练的旧式模型。
自动添加标点。无需后处理步骤，逗号、句号和大写字母已自动生成。
完全免费。模型权重以 MIT 许可证发布，允许商业用途。

Whisper 做不到什么（关键盲区）

无法实时转录

如果你在 Zoom 通话过程中启动 Whisper，只能在通话结束后才能看到转录文字，而非通话期间。在普通笔记本电脑上处理一小时会议的录音，可能需要 20–40 分钟。这不是 Bug，而是架构层面的设计取舍。

无法区分说话人

Whisper 默认输出无标注的连续文本，不区分谁说了什么。在一场双人销售电话中，你无法判断哪些话来自客户、哪些来自自己。虽然有开源插件（如 pyannote.audio）可以叠加说话人识别功能，但配置难度会相应增加。

本地运行需要技术配置

本地运行 Whisper 需要：Python 3.9+；ffmpeg 音频库（需单独安装）；75 MB 到 3 GB 不等的模型文件；以及 NVIDIA GPU（若无 GPU，large-v3 模型处理一小时音频约需 30–40 分钟）。

API 方式更简单，但仍非实时

通过 OpenAI API，你无需安装任何软件，只需上传录音文件并接收文字结果。费用为每分钟 $0.006，一小时会议约 $0.36。但本质上仍是"录制完成后上传"的流程，无法在会议进行中生成字幕。

模型规格对比

模型	文件大小	CPU 速度（相对音频时长）	适用场景
tiny	75 MB	约 10 倍速	快速测试
base	150 MB	约 7 倍速	日常轻量使用
small ★	490 MB	约 4 倍速	笔记本电脑性价比首选
medium	1.5 GB	约 2 倍速	更高准确率，建议配 GPU
large-v3	3 GB	约 1 倍速（需 GPU）	最高准确率，GPU 必备

不写代码如何使用 Whisper

有三种实用方案，各有侧重。

方案一：OpenAI Whisper API

将录音文件上传至 OpenAI，短时间内即可收到文字结果。费用为每分钟 $0.006，无需本地安装。适合有零散录音处理需求的用户。局限：仍是事后处理，无法实时生成字幕。

方案二：基于 Whisper 的桌面应用

MacWhisper（仅限 Mac）和 Buzz（跨平台，免费）等工具提供图形界面，拖入音频文件即可获得转录结果，无需打开终端。同样仅支持事后处理，且无说话人标注。

方案三：基于浏览器的实时转录工具

如果你的目标是在对话过程中看到字幕，需要使用基于流式语音识别的工具。这类工具在浏览器中即可运行，捕获麦克风或浏览器标签页的音频，逐词推送转录结果，无需安装任何软件。详见适合非技术用户的 Whisper 替代方案指南。

Whisper 与实时转录：两种不同的架构

Whisper 是批处理模型：等待完整的音频片段，处理完毕后返回结果，准确率因充分利用上下文而较高。

流式语音识别的工作方式不同：在每个词语产生后立即推送部分结果，并随上下文累积不断自动校正。MirrorCaption 使用的自研流式 STT 引擎可在说话后 300–500 毫秒内推送第一个词的字幕。这不是质量上的高下之分，而是时效需求的差异。

需要会议中的实时字幕，而非事后转录稿？MirrorCaption 在任意浏览器中逐词推送转录和翻译，无需安装。

免费试用 →

常见问题

OpenAI Whisper 免费吗？

是的。Whisper 模型权重以 MIT 许可证免费发布，允许商业使用。本地运行除硬件成本外无需任何费用。通过 OpenAI API 调用时，按每分钟音频 $0.006 计费，一小时会议约 $0.36。

Whisper 能实时转录 Zoom 会议吗？

不能。Whisper 以 30 秒为单位批量处理音频，无法在通话过程中逐词推送字幕。如需在 Zoom 会议中获得实时字幕，需使用基于流式语音识别架构的工具。更多实时与会后工具的差异，可参考2026 年语音转文字工具总览。

Whisper 支持中文和日语吗？

支持。Whisper 涵盖 99 种语言，包括普通话、粤语、日语、韩语和阿拉伯语。large 模型在发音清晰的普通话音频上表现良好，但处理方言和中英文混杂（code-switching）时准确率会下降。如需查看当前可用的多语言工具对比，可参考2026 年语音转文字工具总览。

有没有不需要安装的浏览器版替代工具？

有。MirrorCaption 等工具直接在浏览器中使用流式语音识别，在会议进行中实时推送转录和翻译。无需 Python，无需安装，无需等到会议结束。每月 2 小时免费额度，无需绑定信用卡，访问 mirrorcaption.com/app 即可开始。

总结

OpenAI Whisper 是目前公开可用的最准确语音转文字系统之一，同时也是对大多数潜在用户来说门槛最高的工具之一。

如果你有录制好的音频文件，且不介意完成一些初始配置，Whisper——尤其是通过 OpenAI API 调用——能以极低成本为 99 种语言提供近人工级别的转录准确率。

如果你需要在对话过程中就能看到字幕，Whisper 的架构无法满足这个需求。流式语音识别工具正是为这一场景而生，可在浏览器中运行，几秒内启动，无需命令行操作。更多 2026 年语音转文字工具全景对比，参见2026 年最佳语音转文字工具。

实时会议转录，零配置启动

MirrorCaption 在任意浏览器中逐词推送转录和翻译，支持所有视频通话平台。每月 2 小时免费，无需信用卡。

免费试用 MirrorCaption

OpenAI Whisper 工作原理通俗解读