OpenAI Whisper 是一款免費的開源語音轉文字模型,可將音訊轉錄為 99 種語言的文字。要使用它,你需要在電腦上安裝 Python、一個名為 ffmpeg 的音訊函式庫,以及 150 MB 到 3 GB 不等的硬碟空間(取決於你選擇的品質等級)。它不支援即時轉錄。這些是大多數科技媒體報導時傾向略過的事實。

Priya 是新加坡某金融科技公司的合作夥伴經理。2026 年初,她讀到 Whisper 能達到「媲美人類的轉錄準確率」且完全免費。她打開 GitHub 頁面,瀏覽說明文件,滿懷信心地開始嘗試——直到看到「pip install ffmpeg」這幾個字。三個小時後,她面對的是一條關於 CUDA 相容性的神祕錯誤訊息,沒有任何轉錄結果,只能繼續用手動方式記錄會議內容。Whisper 本身確實出色;只是它一開始就不是為 Priya 這類使用者設計的。

Whisper 是為開發者和研究人員打造的。這不代表它是一款糟糕的工具,而是表示它對那些只想在一般通話中即時轉錄中文、又不想寫任何程式碼的使用者來說,可能並不適合。

本文用白話方式解釋 OpenAI Whisper 的運作原理、它的優勢、它本質上做不到的事,以及如果你需要即時會議轉錄時應考慮哪些替代方案。

核心重點

OpenAI Whisper 是什麼?

OpenAI Whisper 是一款語音辨識模型,於 2022 年 9 月以開源形式發布。OpenAI 使用從網際網路收集的 68 萬小時音訊對其進行訓練,涵蓋講座、Podcast、訪談、YouTube 影片、有聲書等多種形式和語言。訓練資料的規模是其準確率出色的重要原因。

它能完成兩項任務:轉錄(將音訊轉為同語言文字)和翻譯(將外語音訊翻譯為英文文字)。注意:它只能翻譯成英文,不支援任意語言對之間的翻譯。

使用 Whisper 有兩種方式。第一,從 GitHub 免費下載模型並在本機執行——無需 API 費用,但需自行完成設定。第二,呼叫 OpenAI Whisper API,按每分鐘音訊 $0.006 計費。API 方式省去了大部分設定工作,但同樣是上傳檔案後再處理,而非即時串流轉錄。

OpenAI Whisper 的運作原理(白話版)

你不需要理解數學原理,只要了解四個步驟——這能幫助你理解它為什麼會有某些限制。

第一步:輸入音訊檔案

你向 Whisper 提供一個錄音檔——MP3、WAV、M4A 等常見格式都可以。它預設無法讀取麥克風的即時音訊串流。

第二步:將聲音轉換為視覺「指紋」

Whisper 將音訊波形轉換為梅爾頻譜圖——可以理解為一張聲音熱力圖,橫軸是時間,縱軸顯示每個時刻的頻率分布。語音、音樂和背景噪音各有不同的視覺特徵。這就是 AI 實際「閱讀」的內容。

第三步:AI 讀取頻譜圖並預測文字

一個 Transformer 模型讀取頻譜圖並預測最可能的詞語序列。模型的一部分負責編碼聲音模式,另一部分負責逐詞解碼為文字,並利用前文脈絡提升預測準確性。

第四步:輸出帶標點的文字

Whisper 輸出帶有句號、逗號和大寫字母的格式化文字——你得到的是可直接使用的轉錄稿,而不是一大段小寫文字。

30 秒視窗限制。Whisper 將音訊切分成 30 秒的片段逐段處理。這正是它無法即時產生字幕的根本原因——每段處理完成後才會輸出結果,而不是逐詞推送。一場 60 分鐘的會議,只有在會議結束後處理完成時,完整的轉錄稿才會出現。

Whisper 擅長什麼

Whisper 做不到什麼(關鍵盲點)

無法即時轉錄

如果你在 Zoom 通話過程中啟動 Whisper,只能在通話結束後才看到轉錄文字,而不是在通話期間。在一般筆電上處理一小時會議錄音,可能需要 20–40 分鐘。這不是 Bug,而是架構層面的設計取捨。

無法區分說話者

Whisper 預設輸出無標註的連續文字,不區分誰說了什麼。在一場雙人銷售電話中,你無法判斷哪些話來自客戶、哪些來自自己。雖然有開源外掛(如 pyannote.audio)可以加上說話者辨識功能,但設定難度也會相應提高。

本機執行需要技術設定

本機執行 Whisper 需要:Python 3.9+;ffmpeg 音訊函式庫(需另外安裝);75 MB 到 3 GB 不等的模型檔案;以及 NVIDIA GPU(若無 GPU,large-v3 模型處理一小時音訊約需 30–40 分鐘)。

API 方式更簡單,但仍非即時

透過 OpenAI API,你無需安裝任何軟體,只要上傳錄音檔並接收文字結果。費用為每分鐘 $0.006,一小時會議約 $0.36。但本質上仍是「錄製完成後上傳」的流程,無法在會議進行中產生字幕。

模型規格比較

模型 檔案大小 CPU 速度(相對於音訊時長) 適用情境
tiny 75 MB 約 10 倍速 快速測試
base 150 MB 約 7 倍速 日常輕量使用
medium 1.5 GB 約 2 倍速 更高準確率,建議搭配 GPU
large-v3 3 GB 約 1 倍速(需 GPU) 最高準確率,GPU 必備

不寫程式如何使用 Whisper

有三種實用方案,各有側重。

方案一:OpenAI Whisper API

將錄音檔上傳至 OpenAI,短時間內即可收到文字結果。費用為每分鐘 $0.006,無需本機安裝。適合有零星錄音處理需求的使用者。限制:仍是事後處理,無法即時產生字幕。

方案二:基於 Whisper 的桌面應用程式

MacWhisper(僅限 Mac)和 Buzz(跨平台,免費)等工具提供圖形介面,拖入音訊檔即可取得轉錄結果,無需開啟終端機。同樣只支援事後處理,且沒有說話者標註。

方案三:基於瀏覽器的即時轉錄工具

如果你的目標是在對話過程中看到字幕,就需要使用基於串流式語音辨識的工具。這類工具可直接在瀏覽器中執行,擷取麥克風或瀏覽器分頁的音訊,逐詞推送轉錄結果,無需安裝任何軟體。詳見適合非技術使用者的 Whisper 替代方案指南

Whisper 與即時轉錄:兩種不同的架構

Whisper 是批次處理模型:等待完整的音訊片段,處理完畢後回傳結果,準確率因能充分利用上下文而較高。

串流式語音辨識的運作方式不同:在每個詞語產生後立即推送部分結果,並隨著上下文累積持續自動修正。MirrorCaption 使用的自研串流 STT 引擎可在說話後 300–500 毫秒內推送第一個詞的字幕。這不是品質高低之分,而是時效需求的差異。

需要會議中的即時字幕,而不是事後轉錄稿?MirrorCaption 可在任何瀏覽器中逐詞推送轉錄與翻譯,無需安裝。

免費試用 →

常見問題

OpenAI Whisper 免費嗎?

是的。Whisper 模型權重以 MIT 授權免費發布,允許商業使用。本機執行除硬體成本外無需任何費用。透過 OpenAI API 呼叫時,按每分鐘音訊 $0.006 計費,一小時會議約 $0.36。

Whisper 能即時轉錄 Zoom 會議嗎?

不能。Whisper 以 30 秒為單位批次處理音訊,無法在通話過程中逐詞推送字幕。如需在 Zoom 會議中取得即時字幕,需使用基於串流式語音辨識架構的工具。更多即時與會後工具的差異,可參考2026 年語音轉文字工具總覽

Whisper 支援中文和日語嗎?

支援。Whisper 涵蓋 99 種語言,包括中文、粵語、日語、韓語和阿拉伯語。large 模型在發音清晰的中文音訊上表現良好,但處理方言和中英文夾雜(code-switching)時準確率會下降。如需查看目前可用的多語言工具比較,可參考2026 年語音轉文字工具總覽

有沒有不需要安裝的瀏覽器版替代工具?

有。MirrorCaption 等工具可直接在瀏覽器中使用串流式語音辨識,在會議進行中即時推送轉錄與翻譯。無需 Python,無需安裝,無需等到會議結束。免費 1 小時體驗額度(一次性,永不重置),無需綁定信用卡,前往 mirrorcaption.com/app 即可開始。

總結

OpenAI Whisper 是目前公開可用、最準確的語音轉文字系統之一,同時也是對大多數潛在使用者來說門檻最高的工具之一。

如果你有錄好的音訊檔,且不介意完成一些初始設定,Whisper——尤其是透過 OpenAI API 呼叫——能以極低成本為 99 種語言提供接近人工等級的轉錄準確率。

如果你需要在對話過程中就看到字幕,Whisper 的架構無法滿足這個需求。串流式語音辨識工具正是為這種場景而生,可在瀏覽器中執行,幾秒內啟動,無需命令列操作。更多 2026 年語音轉文字工具的完整比較,請參見2026 年最佳語音轉文字工具

即時會議轉錄,零設定啟動

MirrorCaption 可在任何瀏覽器中逐詞推送轉錄與翻譯,支援所有視訊通話平台。免費 1 小時體驗,無需信用卡(一次性額度)。

免費試用 MirrorCaption