OpenAI Whisper 是一款免費的開源語音轉文字模型,可將音訊轉錄為 99 種語言的文字。要使用它,你需要在電腦上安裝 Python、一個名為 ffmpeg 的音訊函式庫,以及 150 MB 到 3 GB 不等的硬碟空間(取決於你選擇的品質等級)。它不支援即時轉錄。這些是大多數科技媒體報導時傾向略過的事實。
Priya 是新加坡某金融科技公司的合作夥伴經理。2026 年初,她讀到 Whisper 能達到「媲美人類的轉錄準確率」且完全免費。她打開 GitHub 頁面,瀏覽說明文件,滿懷信心地開始嘗試——直到看到「pip install ffmpeg」這幾個字。三個小時後,她面對的是一條關於 CUDA 相容性的神祕錯誤訊息,沒有任何轉錄結果,只能繼續用手動方式記錄會議內容。Whisper 本身確實出色;只是它一開始就不是為 Priya 這類使用者設計的。
Whisper 是為開發者和研究人員打造的。這不代表它是一款糟糕的工具,而是表示它對那些只想在一般通話中即時轉錄中文、又不想寫任何程式碼的使用者來說,可能並不適合。
本文用白話方式解釋 OpenAI Whisper 的運作原理、它的優勢、它本質上做不到的事,以及如果你需要即時會議轉錄時應考慮哪些替代方案。
- OpenAI Whisper 是 2022 年 9 月發布的開源語音轉文字模型,使用來自網路的 68 萬小時音訊訓練而成。
- 支援 99 種語言,英文轉錄準確率接近人工水準,詞錯誤率約為 2–3%。
- Whisper 不支援即時轉錄。它以 30 秒為單位處理音訊片段,只有錄製完成後才能產生文字。
- 本機執行需要 Python 3.9+、ffmpeg,以及 75 MB 至 3 GB 不等的模型檔案。
- 如需在通話過程中取得即時字幕,需使用串流式語音辨識工具——這是一種與 Whisper 架構不同的技術方案。
OpenAI Whisper 是什麼?
OpenAI Whisper 是一款語音辨識模型,於 2022 年 9 月以開源形式發布。OpenAI 使用從網際網路收集的 68 萬小時音訊對其進行訓練,涵蓋講座、Podcast、訪談、YouTube 影片、有聲書等多種形式和語言。訓練資料的規模是其準確率出色的重要原因。
它能完成兩項任務:轉錄(將音訊轉為同語言文字)和翻譯(將外語音訊翻譯為英文文字)。注意:它只能翻譯成英文,不支援任意語言對之間的翻譯。
使用 Whisper 有兩種方式。第一,從 GitHub 免費下載模型並在本機執行——無需 API 費用,但需自行完成設定。第二,呼叫 OpenAI Whisper API,按每分鐘音訊 $0.006 計費。API 方式省去了大部分設定工作,但同樣是上傳檔案後再處理,而非即時串流轉錄。
OpenAI Whisper 的運作原理(白話版)
你不需要理解數學原理,只要了解四個步驟——這能幫助你理解它為什麼會有某些限制。
第一步:輸入音訊檔案
你向 Whisper 提供一個錄音檔——MP3、WAV、M4A 等常見格式都可以。它預設無法讀取麥克風的即時音訊串流。
第二步:將聲音轉換為視覺「指紋」
Whisper 將音訊波形轉換為梅爾頻譜圖——可以理解為一張聲音熱力圖,橫軸是時間,縱軸顯示每個時刻的頻率分布。語音、音樂和背景噪音各有不同的視覺特徵。這就是 AI 實際「閱讀」的內容。
第三步:AI 讀取頻譜圖並預測文字
一個 Transformer 模型讀取頻譜圖並預測最可能的詞語序列。模型的一部分負責編碼聲音模式,另一部分負責逐詞解碼為文字,並利用前文脈絡提升預測準確性。
第四步:輸出帶標點的文字
Whisper 輸出帶有句號、逗號和大寫字母的格式化文字——你得到的是可直接使用的轉錄稿,而不是一大段小寫文字。
30 秒視窗限制。Whisper 將音訊切分成 30 秒的片段逐段處理。這正是它無法即時產生字幕的根本原因——每段處理完成後才會輸出結果,而不是逐詞推送。一場 60 分鐘的會議,只有在會議結束後處理完成時,完整的轉錄稿才會出現。
Whisper 擅長什麼
- 英文準確率接近人工水準。large-v3 模型在標準基準測試中的詞錯誤率約為 2–3%,與專業人工轉錄員在清晰音訊上的水準相當。
- 支援 99 種語言。涵蓋中文、粵語、日語、韓語、阿拉伯語、印地語、俄語、葡萄牙語、西班牙語、德語、法語等。
- 口音適應性強。由於訓練資料來自真實網路音訊,Whisper 對非母語口音的容忍度優於許多基於錄音室語料訓練的舊式模型。
- 自動加入標點。無需後處理步驟,逗號、句號和大寫字母都會自動產生。
- 完全免費。模型權重以 MIT 授權發布,允許商業用途。
Whisper 做不到什麼(關鍵盲點)
無法即時轉錄
如果你在 Zoom 通話過程中啟動 Whisper,只能在通話結束後才看到轉錄文字,而不是在通話期間。在一般筆電上處理一小時會議錄音,可能需要 20–40 分鐘。這不是 Bug,而是架構層面的設計取捨。
無法區分說話者
Whisper 預設輸出無標註的連續文字,不區分誰說了什麼。在一場雙人銷售電話中,你無法判斷哪些話來自客戶、哪些來自自己。雖然有開源外掛(如 pyannote.audio)可以加上說話者辨識功能,但設定難度也會相應提高。
本機執行需要技術設定
本機執行 Whisper 需要:Python 3.9+;ffmpeg 音訊函式庫(需另外安裝);75 MB 到 3 GB 不等的模型檔案;以及 NVIDIA GPU(若無 GPU,large-v3 模型處理一小時音訊約需 30–40 分鐘)。
API 方式更簡單,但仍非即時
透過 OpenAI API,你無需安裝任何軟體,只要上傳錄音檔並接收文字結果。費用為每分鐘 $0.006,一小時會議約 $0.36。但本質上仍是「錄製完成後上傳」的流程,無法在會議進行中產生字幕。
模型規格比較
| 模型 | 檔案大小 | CPU 速度(相對於音訊時長) | 適用情境 |
|---|---|---|---|
| tiny | 75 MB | 約 10 倍速 | 快速測試 |
| base | 150 MB | 約 7 倍速 | 日常輕量使用 |
| small ★ | 490 MB | 約 4 倍速 | 筆電性價比首選 |
| medium | 1.5 GB | 約 2 倍速 | 更高準確率,建議搭配 GPU |
| large-v3 | 3 GB | 約 1 倍速(需 GPU) | 最高準確率,GPU 必備 |
不寫程式如何使用 Whisper
有三種實用方案,各有側重。
方案一:OpenAI Whisper API
將錄音檔上傳至 OpenAI,短時間內即可收到文字結果。費用為每分鐘 $0.006,無需本機安裝。適合有零星錄音處理需求的使用者。限制:仍是事後處理,無法即時產生字幕。
方案二:基於 Whisper 的桌面應用程式
MacWhisper(僅限 Mac)和 Buzz(跨平台,免費)等工具提供圖形介面,拖入音訊檔即可取得轉錄結果,無需開啟終端機。同樣只支援事後處理,且沒有說話者標註。
方案三:基於瀏覽器的即時轉錄工具
如果你的目標是在對話過程中看到字幕,就需要使用基於串流式語音辨識的工具。這類工具可直接在瀏覽器中執行,擷取麥克風或瀏覽器分頁的音訊,逐詞推送轉錄結果,無需安裝任何軟體。詳見適合非技術使用者的 Whisper 替代方案指南。
Whisper 與即時轉錄:兩種不同的架構
Whisper 是批次處理模型:等待完整的音訊片段,處理完畢後回傳結果,準確率因能充分利用上下文而較高。
串流式語音辨識的運作方式不同:在每個詞語產生後立即推送部分結果,並隨著上下文累積持續自動修正。MirrorCaption 使用的自研串流 STT 引擎可在說話後 300–500 毫秒內推送第一個詞的字幕。這不是品質高低之分,而是時效需求的差異。
需要會議中的即時字幕,而不是事後轉錄稿?MirrorCaption 可在任何瀏覽器中逐詞推送轉錄與翻譯,無需安裝。
免費試用 →常見問題
OpenAI Whisper 免費嗎?
是的。Whisper 模型權重以 MIT 授權免費發布,允許商業使用。本機執行除硬體成本外無需任何費用。透過 OpenAI API 呼叫時,按每分鐘音訊 $0.006 計費,一小時會議約 $0.36。
Whisper 能即時轉錄 Zoom 會議嗎?
不能。Whisper 以 30 秒為單位批次處理音訊,無法在通話過程中逐詞推送字幕。如需在 Zoom 會議中取得即時字幕,需使用基於串流式語音辨識架構的工具。更多即時與會後工具的差異,可參考2026 年語音轉文字工具總覽。
Whisper 支援中文和日語嗎?
支援。Whisper 涵蓋 99 種語言,包括中文、粵語、日語、韓語和阿拉伯語。large 模型在發音清晰的中文音訊上表現良好,但處理方言和中英文夾雜(code-switching)時準確率會下降。如需查看目前可用的多語言工具比較,可參考2026 年語音轉文字工具總覽。
有沒有不需要安裝的瀏覽器版替代工具?
有。MirrorCaption 等工具可直接在瀏覽器中使用串流式語音辨識,在會議進行中即時推送轉錄與翻譯。無需 Python,無需安裝,無需等到會議結束。免費 1 小時體驗額度(一次性,永不重置),無需綁定信用卡,前往 mirrorcaption.com/app 即可開始。
總結
OpenAI Whisper 是目前公開可用、最準確的語音轉文字系統之一,同時也是對大多數潛在使用者來說門檻最高的工具之一。
如果你有錄好的音訊檔,且不介意完成一些初始設定,Whisper——尤其是透過 OpenAI API 呼叫——能以極低成本為 99 種語言提供接近人工等級的轉錄準確率。
如果你需要在對話過程中就看到字幕,Whisper 的架構無法滿足這個需求。串流式語音辨識工具正是為這種場景而生,可在瀏覽器中執行,幾秒內啟動,無需命令列操作。更多 2026 年語音轉文字工具的完整比較,請參見2026 年最佳語音轉文字工具。