OpenAI Whisper は、99言語にわたって音声をテキストに変換する無料のオープンソース音声認識モデルです。 これを動かすには、コンピュータに Python のインストール、ffmpeg と呼ばれる追加ライブラリが少なくとも 1 つ、そして求める品質レベルに応じて 150 MB から 3 GB の空きディスク容量が必要です。リアルタイム文字起こしには対応していません。こうした事実は、息をのむようなニュースレター記事では見落とされがちです。
Priya はシンガポールのフィンテック企業でパートナーシップを担当しています。2026年初頭、彼女は Whisper が「人間レベルの文字起こし精度」に匹敵し、しかも完全無料だと読みました。GitHub ページを見つけ、手順をざっと読み、まだ「pip install ffmpeg」という言葉に出会っていない人特有の楽観に包まれました。3時間後、彼女の手元には不可解な CUDA 互換性エラーだけが残り、文字起こしはできず、会議メモの残りは手書きで取ることになりました。ツール自体は本当に優秀です。ただ、Priya とは別の人向けに作られていただけでした。
Whisper は開発者や研究者向けに設計されています。だからといって悪いツールというわけではありません。木曜日のスタンドアップ通話を、コードを1行も書かずに中国語で文字起こししたいだけの人には、向いていないということです。
この記事では、OpenAI Whisper が実際にどう動くのかを平易な英語で説明し、何が得意で、何が根本的にできないのか、そして今日ライブ会議の文字起こしが必要ならどの選択肢がより理にかなっているのかを解説します。
- OpenAI Whisper は、2022年9月に公開された無料のオープンソース音声認識モデルで、ウェブ上の音声 680,000 時間で学習されています。
- 99言語に対応し、英語では人間に近い精度に達します。きれいな録音ではおおむね 2〜3% の単語誤り率です。
- Whisper はリアルタイムでは動作しません。話している最中ではなく、録音が終わった後に 30 秒単位で音声を処理します。
- ローカルで動かすには Python 3.9+、ffmpeg、そして 75 MB から 3 GB のモデルファイルが必要です。精度と速度はトレードオフです。
- コードなしでライブ会議の文字起こしをするには、Whisper とは別のアーキテクチャであるストリーミング音声認識が必要です。
OpenAI Whisper とは?
OpenAI Whisper は、2022年9月にオープンソースとして公開された音声認識モデルです。OpenAI は、講義、ポッドキャスト、インタビュー、YouTube 動画、オーディオブックなど、インターネットから収集した 680,000 時間の音声で学習させました。この学習データの規模が、精度の高さの大きな理由です。
できることは 2 つあります。文字起こしは音声を同じ言語のテキストに変換し、翻訳は外国語の音声を英語のテキストに変換します。なお、翻訳先は英語のみで、任意の言語ペア間の翻訳はできません。
Whisper には 2 つの使い方があります。1つ目は、GitHub からモデルの重みを無料でダウンロードし、自分のハードウェアで実行する方法です。API 料金はかからず、レート制限もありませんが、セットアップは自分で行います。2つ目は、OpenAI Whisper API を音声 1 分あたり $0.006 で呼び出す方法です。セットアップの手間は大幅に減りますが、それでもライブストリームではなくファイルアップロードとして音声を処理します。
コマンドラインなしで使えるものが必要なら、ノーコードの選択肢のセクションへ進んでください。Whisper がなぜそのように動くのかを理解したいなら、このまま読み進めてください。できること・できないことを知るうえで重要です。
OpenAI Whisper の仕組み — 平易な解説
Whisper を効果的に使うのに、数学を理解する必要はありません。ただし、Whisper が行う 4 つのステップを理解すると、なぜ制約があるのかが分かります。
ステップ1: 音声ファイルを入力する
Whisper に録音済みの音声ファイルを渡します。MP3、WAV、M4A、その他一般的な形式のほとんどに対応しています。デフォルトではライブのマイク入力は読み取れません。音声は処理されるのを待ちながらディスク上に置かれます。
ステップ2: 音を視覚的な指紋に変換する
Whisper は音声波形をメルスペクトログラムに変換します。これは音のヒートマップのようなもので、横軸が時間、縦軸が各瞬間に存在する周波数を示します。音声は音楽とも背景ノイズとも異なって見えます。この視覚表現こそ、AI が実際に読み取るものです。
ステップ3: AI モデルが指紋を読み取り、単語を予測する
GPT の基盤と同じ種類のアーキテクチャであるトランスフォーマーモデルが、スペクトログラムを読み取り、最も可能性の高い単語列を予測します。モデルの一部は音のパターンをエンコードし、別の部分がそれを 1 トークンずつテキストにデコードします。デコーダーは、音声の前半からの文脈を使って、進むにつれてより良い予測を行います。
ステップ4: 句読点と大文字化されたテキストが出力される
Whisper は、文に適した句読点と大文字化がすでに適用された整形済みテキストを出力します。小文字だけが並ぶ文字列ではなく、そのまま使える文字起こしが得られます。
30秒のウィンドウ — そしてそれが重要な理由。 Whisper は音声を 30 秒ごとのセグメントに分割し、順番に処理します。このチャンク処理こそが、Whisper がライブ字幕を配信できない根本的な理由です。単語ごとに部分結果が出ることはありません。30 秒のブロックが処理を終えた後に、完了したチャンクだけが返されます。60 分の会議なら、最初の部分的な文字起こしが届くのは通話終了から 30 秒後で、完全な文字起こしはすべてのチャンクが終わってからです。
Whisper の優れている点
設計上の制約の範囲内では、Whisper は本当に優秀です。
- 英語で人間に近い精度。 large-v3 モデルは標準ベンチマークでおおむね 2〜3% の単語誤り率を達成し、きれいな音声ではプロの文字起こし担当者に匹敵します。参考までに、旧来の一般向け音声認識は平均 10〜15% の誤り率でした。
- 99言語。 中国語(普通話)、広東語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語、ポルトガル語、スペイン語、ドイツ語、フランス語など多数に対応しています。Whisper の GitHub README には、言語ごとの精度ベンチマーク付きで全対応言語が掲載されています。
- 強い訛りへの耐性。 スタジオ品質の音声ではなく、実際のウェブ音声で学習しているため、狭いデータセットで調整された古い ASR システムよりも非ネイティブの訛りに強いです。
- 自動句読点。 カンマ、ピリオド、大文字化が含まれます。競合するバッチ文字起こしツールの多くは、これに別の後処理が必要です。
- 専門用語。 Whisper は、医療、法律、プログラミング用語などの分野特有の用語を、一般向け音声認識よりうまく扱います。
- 完全無料で利用可能。 モデルの重みは MIT ライセンスで公開されており、商用利用が可能です。ハードウェアが許す限り、追加コストなしで何件でも処理できます。
保存済み音声ファイルの録音後精度を最優先するなら、Whisper に勝つのは簡単ではありません。録音済みのインタビュー、ポッドキャスト、講義、あるいはすでに取得済みのあらゆる音声の文字起こしに適したツールです。
Whisper ができないこと — 誰も説明しない部分
Whisper に関する記事の多くは、開発者が開発者向けに書いています。制限事項はさらっと触れられるだけです。ここでは、その重要性に見合うだけ取り上げます。
リアルタイム文字起こしはできない
Zoom 通話を開始して Whisper を向けても、通話中ではなく終了後に文字起こしが届きます。話してからテキストが見えるまでの遅延は、ハードウェアとモデルサイズによって、短いクリップなら数秒、長い会議なら数分に及びます。
これはバグではありません。設計上の選択です。Whisper の精度は、各音声チャンクを完全な文脈で処理することに一部支えられています。ライブ文字起こしでは、文脈が揃う前に部分結果を即座に送る必要があります。この 2 つのアプローチには根本的なトレードオフがあり、Whisper は遅延を最小化するより精度を最大化するよう作られています。
誰が話しているかは分からない
デフォルトでは、Whisper はラベルのない平坦な文字起こしを出力します。すべての文が連続したブロックとして表示され、誰が何を言ったのかは示されません。2人の営業通話では、どの行が自分の発言で、どの行が見込み客の発言か分かりません。10人のスタンドアップでは、出力は完全に無記名です。
Whisper の上に話者分離を重ねるオープンソースの追加機能(最も一般的なのは pyannote.audio)もあります。そこそこうまく動きますが、追加の Python パッケージ、モデルのダウンロード、設定が必要です。セットアップ時間はおおむね 2 倍になります。
ローカル実行には技術的なセットアップが必要
Whisper を自分のコンピュータで使うには、以下が必要です。
- Python 3.9 以上が正しくインストールされていること
- ffmpeg の音声ライブラリ(多くの OS では別途インストールが必要)
- モデル重みファイル: "tiny" で 75 MB、"medium" で 1.5 GB、"large-v3" で 3 GB
- 十分な速度が欲しいなら最新の GPU。large モデルは、一般的なノート PC の CPU では 1 時間の音声処理に 20〜40 分かかります
Miguel は、バルセロナのスタートアップで 12 人のカスタマーサクセスチームを率いています。彼のチームはスペイン語、カタルーニャ語、英語で通話を扱います。2026年1月、彼はリード開発者に「チーム用に Whisper をセットアップして」と頼みました。開発者は丸 1 週間かけて依存関係をインストールし、解決に 4 時間かかる CUDA バージョンの競合にぶつかり、その後、同僚がターミナルに触れずに録音を送れるよう小さなアップロード画面を作りました。セットアップ総時間: 約 14 時間のエンジニアリング作業です。今ではツールは問題なく動いています。Miguel は感謝しています。ただし、多くのチームには、週末を丸ごと費やせる開発者がいないことも理解しています。
OpenAI API は簡単だが、やはりライブではない
OpenAI Whisper API を使えば、ローカルインストールの問題はなくなります。音声ファイルをシンプルな HTTP リクエストで OpenAI のサーバーに送ると、短いクリップなら通常数秒で文字起こしが返ってきます。料金は 1 分あたり $0.006 で、60 分の会議の文字起こしは約 $0.36 です。
これで技術的なハードルは大きく下がります。しかし API も、ライブストリームではなくファイルアップロード型です。会議が終わった後に完成した録音を送ります。文字起こしはその後すぐに届きます。誰かがまだ話している最中に字幕を読みたいなら、API でも根本的な制約は変わりません。
Whisper のモデルサイズ一覧
Whisper には 5 つの品質段階があります。大きいモデルほど精度は高いですが、遅く重くなります。GPU のない一般的なノート PC では、"small" モデルが速度面での実用上の上限になることが多いです。
| モデル | ファイルサイズ | CPU 速度(音声比) | 最適用途 |
|---|---|---|---|
| tiny | 75 MB | ~10× faster | 素早いテスト、デモ |
| base | 150 MB | ~7× faster | 気軽な利用、素早い試行錯誤 |
| small ★ | 490 MB | ~4× faster | ノート PC での品質と速度のバランスが良い |
| medium | 1.5 GB | ~2× faster | より高精度、GPU 推奨 |
| large-v3 | 3 GB | ~1× (real time on GPU) | 最高精度、実用には GPU 必須 |
ノート PC で試すなら "small" から始めてください。互換性のある NVIDIA GPU があり、英語以外の音声で最高精度が必要なら "large-v3" に進みましょう。精度の向上は small から large-v3 で明確に分かります。CPU での処理時間の増加はかなり大きいです。
コードを書かずに Whisper を使う方法
開発者でない人向けの実用的な選択肢は 3 つあり、それぞれ手間、コスト、タイミングのトレードオフが異なります。
選択肢1: OpenAI Whisper API
OpenAI のインターフェース、または Postman のようなノーコード HTTP クライアント経由で音声ファイルをアップロードします。長さに応じて、数秒から数分で整った文字起こしが返ってきます。料金: $0.006/分。たまに録音を処理したいだけで、何もインストールしたくない場合に最も手軽な方法です。欠点は、やはり録音後の処理であり、ライブ音声の取得ではないことです。
選択肢2: Whisper ベースのデスクトップアプリ
いくつかの開発者が Whisper をクリック操作のインターフェースに包んでいます。MacWhisper(Mac 専用)と Buzz(クロスプラットフォーム、無料)なら、ターミナルを開かずに音声ファイルをドラッグして文字起こしできます。これらは会議後の文字起こしに本当に便利です。ただし、アーキテクチャ上の制約は同じで、ライブ字幕はなく、追加設定なしでは話者ラベルも付きません。
選択肢3: ライブ会議向けのブラウザベースのストリーミングツール
会話が終わった後に文字起こしを取得するのではなく、会話中に字幕を読みたいなら、まったく別のアプローチが必要です。ストリーミング音声認識を使うブラウザベースのツールは、マイクやブラウザタブから音声を取り込み、話しているそばから単語ごとの部分結果を送信します。インストール不要、Python 不要、後処理待ちもありません。
このカテゴリには、非技術者向けに作られた Whisper の代替のようなツールが含まれます。これらは Whisper の事後精度の一部を、ライブ会話に必要な即時性と引き換えにしています。どちらが「優れている」かではなく、会議の後の文字起こしが必要なのか、会議の最中の文字起こしが必要なのか、という違いです。
Whisper とライブ会議の文字起こし — 2 つの異なるアーキテクチャ
Whisper がライブ字幕を配信できない理由を理解するには、バッチ型とストリーミング型の音声認識の違いを理解する必要があります。
Whisper はバッチモデルです。完全な音声チャンクを待ち、完全な文脈で処理し、結果を返します。精度の高さは、その完全な文脈に由来します。モデルは、文の前半が何を言っていたのかを確定する前に、文末を見ることができます。要約する前に段落を 2 回読むようなものです。
ストリーミング音声認識は別の動きをします。各単語が届いた瞬間に部分結果を送り、文脈が蓄積するにつれて自動修正します。MirrorCaption のようなツールは、独自のストリーミング STT エンジン上に構築されており、誰かが話してから 300〜500 ミリ秒以内に字幕の最初の単語を表示できます。トレードオフは、バッチ処理なら後から拾える曖昧な単語で、多少精度が落ちることです。
これは品質比較ではありません。Whisper が録音音声でより正確なのは、まさにより多くの文脈を処理するからです。ストリーミング STT は、即時性と引き換えにわずかな精度低下を受け入れます。ライブ会議では、即時性こそが製品そのものです。
Kenji は東京で、ヨーロッパの顧客に製品を販売するメーカーに勤めています。ミュンヘンのチームとの木曜会議では、重要なフレーズの通訳をバイリンガルの同僚に頼っていました。その同僚が退職した後、Kenji はブラウザベースのストリーミング文字起こしツールを使い始めました。彼は会議中にドイツ語の字幕をリアルタイムで読んでいます。ダウンロード不要、Python 不要、会議終了後に文字起こしが出るのを待つ必要もありません。Whisper との違いは精度ではありません。聞いたことを理解し、返答するまでを、同じ 60 分の会議の中で完結できることです。
会議後の文字起こしではなく、ライブ字幕が必要ですか? MirrorCaption は、会議中にブラウザだけで文字起こしと翻訳をストリーミングします。インストール不要です。
無料で試す →よくある質問
OpenAI Whisper は無料ですか?
はい。Whisper のモデル重みは MIT ライセンスのもとで無料でダウンロード・利用でき、商用アプリケーションも許可されています。Whisper をローカルで動かすのにかかる費用は、自分のハードウェアと電気代以外にはありません。OpenAI Whisper API は音声 1 分あたり $0.006 で、60 分の会議の文字起こしは約 $0.36 です。
Whisper は Zoom 通話をリアルタイムで文字起こしできますか?
いいえ。Whisper は音声を取得した後、30 秒単位で処理します。誰かが話している最中に、単語ごとの字幕を出すことはできません。Zoom 通話を録音してから保存ファイルに Whisper をかければ、きれいな文字起こしは得られますが、会議が終わってからです。ライブの Zoom 字幕には、Whisper ではなくストリーミング音声認識ツールが必要です。私たちの音声認識ソフト比較では、一般的なワークフローごとにリアルタイムと会議後の選択肢を比較しています。
OpenAI Whisper の精度はどのくらいですか?
Whisper large-v3 は、英語の標準 LibriSpeech ベンチマークでおおむね 2〜3% の単語誤り率を達成しており、きれいな音声ではプロの人間による文字起こしに匹敵します。精度は、強い背景ノイズ、複数話者の重なり、非常に速い話し方、低品質マイクでは低下します。英語以外の言語は英語より誤り率が高めですが、それでも多くの古い地域特化モデルを上回ります。文字起こし精度のトレードオフをより広く見るには、リアルタイム翻訳精度のベンチマークをご覧ください。
Whisper は中国語と日本語に対応していますか?
はい。Whisper は、普通話中国語、広東語、日本語、韓国語、アラビア語、ヒンディー語、そして主要なヨーロッパ言語すべてを含む 99 言語をカバーしています。普通話と広東語では、Whisper の large モデルは明瞭に話された音声で良好に動作しますが、強い地域訛りや、同じ文内で中国語と英語が切り替わるコードスイッチングには弱いです。今日利用できる多言語ツールのより広い比較については、音声認識ソフト比較をご覧ください。
ライブ会議で使える、Whisper のブラウザベース代替はありますか?
はい。MirrorCaption のようなブラウザベースのツールは、ストリーミング音声認識を使って、会議中にリアルタイムで文字起こしと翻訳を行います。Python 不要、インストール不要、会議終了待ちもありません。Chrome、Safari、Edge のどれでも、どのデバイスでも動作します。Whisper との違いは、保存済み録音に対する事後精度がやや低い場合があることですが、ライブ会話では即時性こそが重要です。mirrorcaption.com/app で、1回限りの無料 1 時間から始められます。
結論
OpenAI Whisper は、これまで公開された中でも最も高精度な音声認識システムの 1 つです。同時に、その恩恵を最も受けるはずの人々にとって、最も使いにくいものの 1 つでもあります。
保存済みの音声ファイルがあり、多少のセットアップを厭わないなら、Whisper — とくに OpenAI API 経由なら — 99言語にわたって人間に近い文字起こし精度を、ほとんどコストなしで提供します。これは驚くべきエンジニアリング成果です。
誰かが話している最中に、その内容を読みたいなら — 会議の後ではなく、会議の最中に — Whisper のアーキテクチャは合いません。ライブ会議のために、まさにその用途向けのストリーミング音声認識ツールがあります。ブラウザタブで動き、数秒で始まり、コマンドラインを必要としません。
重要なのは、どのツールが優れているかではありません。あなたのタイミング要件に合うのはどれか、です。あらゆる用途を含めた2026年の最適な音声認識ツールについては、完全版の比較記事をご覧ください。
ライブ会議の文字起こし、セットアップ不要
MirrorCaption は、通話中に単語ごとに文字起こしと翻訳をストリーミングします。どのビデオ通話プラットフォームでも、どのブラウザでも動作します。毎月 2 時間無料、クレジットカード不要。
MirrorCaption を無料で試す