Is OpenAI Whisper free?

Yes. The Whisper model weights are free to download and use under an MIT license. Running Whisper locally costs nothing beyond your own hardware. The OpenAI Whisper API charges $0.006 per minute of audio processed — a one-hour meeting costs about $0.36.

Can Whisper transcribe a Zoom call live?

No. Whisper processes audio in 30-second batches after recording. It cannot stream transcription word-by-word while someone is speaking. For live Zoom transcription, you need a streaming speech-to-text tool built on a different architecture.

How accurate is OpenAI Whisper?

Whisper large-v3 achieves roughly 2–3% word error rate on clean English audio, which is comparable to professional human transcription. Accuracy drops noticeably on heavy background noise, crosstalk, or low-quality recordings.

Does Whisper support Chinese and Japanese?

Yes. Whisper supports 99 languages including Mandarin, Cantonese, Japanese, Korean, Arabic, and Hindi. Accuracy on non-English languages is generally lower than on English but often still competitive with specialized regional models.

Is there a browser-based Whisper alternative for live meetings?

Yes. Tools like MirrorCaption use streaming speech-to-text to transcribe and translate meetings in real time, directly in a browser tab. No Python, no installation, no waiting for the call to end.

OpenAI Whisper 運作原理詳解——非技術人員白話指南

OpenAI Whisper 是一款免費的開源語音轉文字模型，可將音訊轉錄為 99 種語言的文字。要使用它，你需要在電腦上安裝 Python、一個名為 ffmpeg 的音訊函式庫，以及 150 MB 到 3 GB 不等的硬碟空間（取決於你選擇的品質等級）。它不支援即時轉錄。這些是大多數科技媒體報導時傾向略過的事實。

🏫 真實場景

Priya 是新加坡某金融科技公司的合作夥伴經理。2026 年初，她讀到 Whisper 能達到「媲美人類的轉錄準確率」且完全免費。她打開 GitHub 頁面，瀏覽說明文件，滿懷信心地開始嘗試——直到看到「pip install ffmpeg」這幾個字。三個小時後，她面對的是一條關於 CUDA 相容性的神祕錯誤訊息，沒有任何轉錄結果，只能繼續用手動方式記錄會議內容。Whisper 本身確實出色；只是它一開始就不是為 Priya 這類使用者設計的。

Whisper 是為開發者和研究人員打造的。這不代表它是一款糟糕的工具，而是表示它對那些只想在一般通話中即時轉錄中文、又不想寫任何程式碼的使用者來說，可能並不適合。

本文用白話方式解釋 OpenAI Whisper 的運作原理、它的優勢、它本質上做不到的事，以及如果你需要即時會議轉錄時應考慮哪些替代方案。

核心重點

OpenAI Whisper 是 2022 年 9 月發布的開源語音轉文字模型，使用來自網路的 68 萬小時音訊訓練而成。
支援 99 種語言，英文轉錄準確率接近人工水準，詞錯誤率約為 2–3%。
Whisper 不支援即時轉錄。它以 30 秒為單位處理音訊片段，只有錄製完成後才能產生文字。
本機執行需要 Python 3.9+、ffmpeg，以及 75 MB 至 3 GB 不等的模型檔案。
如需在通話過程中取得即時字幕，需使用串流式語音辨識工具——這是一種與 Whisper 架構不同的技術方案。

OpenAI Whisper 是什麼？

OpenAI Whisper 是一款語音辨識模型，於 2022 年 9 月以開源形式發布。OpenAI 使用從網際網路收集的 68 萬小時音訊對其進行訓練，涵蓋講座、Podcast、訪談、YouTube 影片、有聲書等多種形式和語言。訓練資料的規模是其準確率出色的重要原因。

它能完成兩項任務：轉錄（將音訊轉為同語言文字）和翻譯（將外語音訊翻譯為英文文字）。注意：它只能翻譯成英文，不支援任意語言對之間的翻譯。

使用 Whisper 有兩種方式。第一，從 GitHub 免費下載模型並在本機執行——無需 API 費用，但需自行完成設定。第二，呼叫 OpenAI Whisper API，按每分鐘音訊 $0.006 計費。API 方式省去了大部分設定工作，但同樣是上傳檔案後再處理，而非即時串流轉錄。

OpenAI Whisper 的運作原理（白話版）

你不需要理解數學原理，只要了解四個步驟——這能幫助你理解它為什麼會有某些限制。

第一步：輸入音訊檔案

你向 Whisper 提供一個錄音檔——MP3、WAV、M4A 等常見格式都可以。它預設無法讀取麥克風的即時音訊串流。

第二步：將聲音轉換為視覺「指紋」

Whisper 將音訊波形轉換為梅爾頻譜圖——可以理解為一張聲音熱力圖，橫軸是時間，縱軸顯示每個時刻的頻率分布。語音、音樂和背景噪音各有不同的視覺特徵。這就是 AI 實際「閱讀」的內容。

第三步：AI 讀取頻譜圖並預測文字

一個 Transformer 模型讀取頻譜圖並預測最可能的詞語序列。模型的一部分負責編碼聲音模式，另一部分負責逐詞解碼為文字，並利用前文脈絡提升預測準確性。

第四步：輸出帶標點的文字

Whisper 輸出帶有句號、逗號和大寫字母的格式化文字——你得到的是可直接使用的轉錄稿，而不是一大段小寫文字。

30 秒視窗限制。Whisper 將音訊切分成 30 秒的片段逐段處理。這正是它無法即時產生字幕的根本原因——每段處理完成後才會輸出結果，而不是逐詞推送。一場 60 分鐘的會議，只有在會議結束後處理完成時，完整的轉錄稿才會出現。

Whisper 擅長什麼

英文準確率接近人工水準。large-v3 模型在標準基準測試中的詞錯誤率約為 2–3%，與專業人工轉錄員在清晰音訊上的水準相當。
支援 99 種語言。涵蓋中文、粵語、日語、韓語、阿拉伯語、印地語、俄語、葡萄牙語、西班牙語、德語、法語等。
口音適應性強。由於訓練資料來自真實網路音訊，Whisper 對非母語口音的容忍度優於許多基於錄音室語料訓練的舊式模型。
自動加入標點。無需後處理步驟，逗號、句號和大寫字母都會自動產生。
完全免費。模型權重以 MIT 授權發布，允許商業用途。

Whisper 做不到什麼（關鍵盲點）

無法即時轉錄

如果你在 Zoom 通話過程中啟動 Whisper，只能在通話結束後才看到轉錄文字，而不是在通話期間。在一般筆電上處理一小時會議錄音，可能需要 20–40 分鐘。這不是 Bug，而是架構層面的設計取捨。

無法區分說話者

Whisper 預設輸出無標註的連續文字，不區分誰說了什麼。在一場雙人銷售電話中，你無法判斷哪些話來自客戶、哪些來自自己。雖然有開源外掛（如 pyannote.audio）可以加上說話者辨識功能，但設定難度也會相應提高。

本機執行需要技術設定

本機執行 Whisper 需要：Python 3.9+；ffmpeg 音訊函式庫（需另外安裝）；75 MB 到 3 GB 不等的模型檔案；以及 NVIDIA GPU（若無 GPU，large-v3 模型處理一小時音訊約需 30–40 分鐘）。

API 方式更簡單，但仍非即時

透過 OpenAI API，你無需安裝任何軟體，只要上傳錄音檔並接收文字結果。費用為每分鐘 $0.006，一小時會議約 $0.36。但本質上仍是「錄製完成後上傳」的流程，無法在會議進行中產生字幕。

模型規格比較

模型	檔案大小	CPU 速度（相對於音訊時長）	適用情境
tiny	75 MB	約 10 倍速	快速測試
base	150 MB	約 7 倍速	日常輕量使用
small ★	490 MB	約 4 倍速	筆電性價比首選
medium	1.5 GB	約 2 倍速	更高準確率，建議搭配 GPU
large-v3	3 GB	約 1 倍速（需 GPU）	最高準確率，GPU 必備

不寫程式如何使用 Whisper

有三種實用方案，各有側重。

方案一：OpenAI Whisper API

將錄音檔上傳至 OpenAI，短時間內即可收到文字結果。費用為每分鐘 $0.006，無需本機安裝。適合有零星錄音處理需求的使用者。限制：仍是事後處理，無法即時產生字幕。

方案二：基於 Whisper 的桌面應用程式

MacWhisper（僅限 Mac）和 Buzz（跨平台，免費）等工具提供圖形介面，拖入音訊檔即可取得轉錄結果，無需開啟終端機。同樣只支援事後處理，且沒有說話者標註。

方案三：基於瀏覽器的即時轉錄工具

如果你的目標是在對話過程中看到字幕，就需要使用基於串流式語音辨識的工具。這類工具可直接在瀏覽器中執行，擷取麥克風或瀏覽器分頁的音訊，逐詞推送轉錄結果，無需安裝任何軟體。詳見適合非技術使用者的 Whisper 替代方案指南。

Whisper 與即時轉錄：兩種不同的架構

Whisper 是批次處理模型：等待完整的音訊片段，處理完畢後回傳結果，準確率因能充分利用上下文而較高。

串流式語音辨識的運作方式不同：在每個詞語產生後立即推送部分結果，並隨著上下文累積持續自動修正。MirrorCaption 使用的自研串流 STT 引擎可在說話後 300–500 毫秒內推送第一個詞的字幕。這不是品質高低之分，而是時效需求的差異。

需要會議中的即時字幕，而不是事後轉錄稿？MirrorCaption 可在任何瀏覽器中逐詞推送轉錄與翻譯，無需安裝。

免費試用 →

常見問題

OpenAI Whisper 免費嗎？

是的。Whisper 模型權重以 MIT 授權免費發布，允許商業使用。本機執行除硬體成本外無需任何費用。透過 OpenAI API 呼叫時，按每分鐘音訊 $0.006 計費，一小時會議約 $0.36。

Whisper 能即時轉錄 Zoom 會議嗎？

不能。Whisper 以 30 秒為單位批次處理音訊，無法在通話過程中逐詞推送字幕。如需在 Zoom 會議中取得即時字幕，需使用基於串流式語音辨識架構的工具。更多即時與會後工具的差異，可參考2026 年語音轉文字工具總覽。

Whisper 支援中文和日語嗎？

支援。Whisper 涵蓋 99 種語言，包括中文、粵語、日語、韓語和阿拉伯語。large 模型在發音清晰的中文音訊上表現良好，但處理方言和中英文夾雜（code-switching）時準確率會下降。如需查看目前可用的多語言工具比較，可參考2026 年語音轉文字工具總覽。

有沒有不需要安裝的瀏覽器版替代工具？

有。MirrorCaption 等工具可直接在瀏覽器中使用串流式語音辨識，在會議進行中即時推送轉錄與翻譯。無需 Python，無需安裝，無需等到會議結束。免費 1 小時體驗額度（一次性，永不重置），無需綁定信用卡，前往 mirrorcaption.com/app 即可開始。

總結

OpenAI Whisper 是目前公開可用、最準確的語音轉文字系統之一，同時也是對大多數潛在使用者來說門檻最高的工具之一。

如果你有錄好的音訊檔，且不介意完成一些初始設定，Whisper——尤其是透過 OpenAI API 呼叫——能以極低成本為 99 種語言提供接近人工等級的轉錄準確率。

如果你需要在對話過程中就看到字幕，Whisper 的架構無法滿足這個需求。串流式語音辨識工具正是為這種場景而生，可在瀏覽器中執行，幾秒內啟動，無需命令列操作。更多 2026 年語音轉文字工具的完整比較，請參見2026 年最佳語音轉文字工具。

即時會議轉錄，零設定啟動

MirrorCaption 可在任何瀏覽器中逐詞推送轉錄與翻譯，支援所有視訊通話平台。免費 1 小時體驗，無需信用卡（一次性額度）。

免費試用 MirrorCaption

OpenAI Whisper 運作原理白話解讀