OpenAI Whisper 是一款免费的开源语音转文字模型,可将音频转录为 99 种语言的文字。要使用它,你需要在电脑上安装 Python、一个名为 ffmpeg 的音频库,以及 150 MB 到 3 GB 不等的硬盘空间(取决于你选择的质量档位)。它不支持实时转录。这些是大多数科技媒体报道时倾向于略过的事实。
Priya 是新加坡某金融科技公司的合作伙伴经理。2026 年初,她读到 Whisper 能达到"媲美人类的转录准确率"且完全免费。她打开 GitHub 页面,浏览了说明文档,满怀信心地开始尝试——直到遇见"pip install ffmpeg"这几个字。三个小时后,她面对的是一条关于 CUDA 兼容性的神秘报错,没有任何转录结果,只能继续用手动方式记录会议内容。Whisper 本身确实出色;只是它最初并非为 Priya 这类用户而设计。
Whisper 是为开发者和研究人员打造的。这不代表它是一款糟糕的工具,而是说明它对于那些只想在普通通话中实时转录普通话、又不想写任何代码的用户来说,可能并不合适。
本文用通俗语言解释 OpenAI Whisper 的工作原理、它的优势、它本质上无法做到的事,以及如果你需要实时会议转录时应考虑哪些替代方案。
- OpenAI Whisper 是 2022 年 9 月发布的开源语音转文字模型,使用来自网络的 68 万小时音频训练而成。
- 支持 99 种语言,英文转录准确率接近人工水平,词错误率约为 2–3%。
- Whisper 不支持实时转录。它以 30 秒为单位处理音频片段,只有录制完成后才能生成文字。
- 本地运行需要 Python 3.9+、ffmpeg,以及 75 MB 至 3 GB 不等的模型文件。
- 如需在通话过程中获得实时字幕,需使用流式语音识别工具——这是一种与 Whisper 架构不同的技术方案。
OpenAI Whisper 是什么?
OpenAI Whisper 是一款语音识别模型,于 2022 年 9 月以开源形式发布。OpenAI 使用从互联网收集的 68 万小时音频对其进行训练,涵盖讲座、播客、采访、YouTube 视频、有声书等多种形式和语言。训练数据的规模是其准确率出众的重要原因。
它能完成两项任务:转录(将音频转为同语言文字)和翻译(将外语音频翻译为英文文字)。注意:它只能翻译成英文,不支持在任意语言对之间进行翻译。
使用 Whisper 有两种途径。第一,从 GitHub 免费下载模型并在本机运行——无需 API 费用,但需自行完成配置。第二,调用 OpenAI Whisper API,按每分钟音频 $0.006 计费。API 方式省去了大部分配置工作,但同样是文件上传后处理,而非实时流式转录。
OpenAI Whisper 的工作原理(通俗版)
你不需要理解数学原理,只需了解四个步骤——这能帮助你理解它为什么有某些限制。
第一步:输入音频文件
你向 Whisper 提供一个录音文件——MP3、WAV、M4A 等常见格式均可。它默认无法读取麦克风的实时音频流。
第二步:将声音转换为视觉"指纹"
Whisper 将音频波形转换为梅尔频谱图——可以理解为一张声音热力图,横轴是时间,纵轴显示每个时刻的频率分布。语音、音乐和背景噪声各有不同的视觉特征。这就是 AI 实际"阅读"的内容。
第三步:AI 读取频谱图并预测文字
一个 Transformer 模型读取频谱图并预测最可能的词语序列。模型的一部分负责编码声音模式,另一部分负责逐词解码为文字,并利用前文上下文提升预测准确性。
第四步:输出带标点的文字
Whisper 输出带有句号、逗号和大写字母的格式化文本——你得到的是可直接使用的转录稿,而非一大段小写文字。
30 秒窗口限制。Whisper 将音频分割成 30 秒的片段逐段处理。这正是它无法实时生成字幕的根本原因——每段处理完成后才会输出结果,而非逐词推送。一场 60 分钟的会议,只有在会议结束后的处理完成时,完整的转录稿才会呈现。
Whisper 擅长什么
- 英文准确率接近人工水平。large-v3 模型在标准基准测试中词错误率约为 2–3%,与专业人工转录员在清晰音频上的水平相当。
- 支持 99 种语言。涵盖普通话、粤语、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语、西班牙语、德语、法语等。
- 口音适应性强。由于训练数据来自真实网络音频,Whisper 对非母语口音的容忍度优于许多基于录音室语料库训练的旧式模型。
- 自动添加标点。无需后处理步骤,逗号、句号和大写字母已自动生成。
- 完全免费。模型权重以 MIT 许可证发布,允许商业用途。
Whisper 做不到什么(关键盲区)
无法实时转录
如果你在 Zoom 通话过程中启动 Whisper,只能在通话结束后才能看到转录文字,而非通话期间。在普通笔记本电脑上处理一小时会议的录音,可能需要 20–40 分钟。这不是 Bug,而是架构层面的设计取舍。
无法区分说话人
Whisper 默认输出无标注的连续文本,不区分谁说了什么。在一场双人销售电话中,你无法判断哪些话来自客户、哪些来自自己。虽然有开源插件(如 pyannote.audio)可以叠加说话人识别功能,但配置难度会相应增加。
本地运行需要技术配置
本地运行 Whisper 需要:Python 3.9+;ffmpeg 音频库(需单独安装);75 MB 到 3 GB 不等的模型文件;以及 NVIDIA GPU(若无 GPU,large-v3 模型处理一小时音频约需 30–40 分钟)。
API 方式更简单,但仍非实时
通过 OpenAI API,你无需安装任何软件,只需上传录音文件并接收文字结果。费用为每分钟 $0.006,一小时会议约 $0.36。但本质上仍是"录制完成后上传"的流程,无法在会议进行中生成字幕。
模型规格对比
| 模型 | 文件大小 | CPU 速度(相对音频时长) | 适用场景 |
|---|---|---|---|
| tiny | 75 MB | 约 10 倍速 | 快速测试 |
| base | 150 MB | 约 7 倍速 | 日常轻量使用 |
| small ★ | 490 MB | 约 4 倍速 | 笔记本电脑性价比首选 |
| medium | 1.5 GB | 约 2 倍速 | 更高准确率,建议配 GPU |
| large-v3 | 3 GB | 约 1 倍速(需 GPU) | 最高准确率,GPU 必备 |
不写代码如何使用 Whisper
有三种实用方案,各有侧重。
方案一:OpenAI Whisper API
将录音文件上传至 OpenAI,短时间内即可收到文字结果。费用为每分钟 $0.006,无需本地安装。适合有零散录音处理需求的用户。局限:仍是事后处理,无法实时生成字幕。
方案二:基于 Whisper 的桌面应用
MacWhisper(仅限 Mac)和 Buzz(跨平台,免费)等工具提供图形界面,拖入音频文件即可获得转录结果,无需打开终端。同样仅支持事后处理,且无说话人标注。
方案三:基于浏览器的实时转录工具
如果你的目标是在对话过程中看到字幕,需要使用基于流式语音识别的工具。这类工具在浏览器中即可运行,捕获麦克风或浏览器标签页的音频,逐词推送转录结果,无需安装任何软件。详见适合非技术用户的 Whisper 替代方案指南。
Whisper 与实时转录:两种不同的架构
Whisper 是批处理模型:等待完整的音频片段,处理完毕后返回结果,准确率因充分利用上下文而较高。
流式语音识别的工作方式不同:在每个词语产生后立即推送部分结果,并随上下文累积不断自动校正。MirrorCaption 使用的自研流式 STT 引擎可在说话后 300–500 毫秒内推送第一个词的字幕。这不是质量上的高下之分,而是时效需求的差异。
需要会议中的实时字幕,而非事后转录稿?MirrorCaption 在任意浏览器中逐词推送转录和翻译,无需安装。
免费试用 →常见问题
OpenAI Whisper 免费吗?
是的。Whisper 模型权重以 MIT 许可证免费发布,允许商业使用。本地运行除硬件成本外无需任何费用。通过 OpenAI API 调用时,按每分钟音频 $0.006 计费,一小时会议约 $0.36。
Whisper 能实时转录 Zoom 会议吗?
不能。Whisper 以 30 秒为单位批量处理音频,无法在通话过程中逐词推送字幕。如需在 Zoom 会议中获得实时字幕,需使用基于流式语音识别架构的工具。更多实时与会后工具的差异,可参考2026 年语音转文字工具总览。
Whisper 支持中文和日语吗?
支持。Whisper 涵盖 99 种语言,包括普通话、粤语、日语、韩语和阿拉伯语。large 模型在发音清晰的普通话音频上表现良好,但处理方言和中英文混杂(code-switching)时准确率会下降。如需查看当前可用的多语言工具对比,可参考2026 年语音转文字工具总览。
有没有不需要安装的浏览器版替代工具?
有。MirrorCaption 等工具直接在浏览器中使用流式语音识别,在会议进行中实时推送转录和翻译。无需 Python,无需安装,无需等到会议结束。每月 2 小时免费额度,无需绑定信用卡,访问 mirrorcaption.com/app 即可开始。
总结
OpenAI Whisper 是目前公开可用的最准确语音转文字系统之一,同时也是对大多数潜在用户来说门槛最高的工具之一。
如果你有录制好的音频文件,且不介意完成一些初始配置,Whisper——尤其是通过 OpenAI API 调用——能以极低成本为 99 种语言提供近人工级别的转录准确率。
如果你需要在对话过程中就能看到字幕,Whisper 的架构无法满足这个需求。流式语音识别工具正是为这一场景而生,可在浏览器中运行,几秒内启动,无需命令行操作。更多 2026 年语音转文字工具全景对比,参见2026 年最佳语音转文字工具。