録音済み音声ファイルの文字起こしでは、特に英語において Whisper の方が優れた選択肢です。Soniox はリアルタイムストリーミング向けに構築されており、音声が届くのに合わせて WebSocket 経由で低遅延の部分結果を返します。誰かがまだ話している最中に字幕を表示したいなら、Soniox のアーキテクチャが適しています。Whisper も現在はリアルタイム文字起こしのワークフローで使えるようになっていますが、ライブ字幕体験では、ストリーミングネイティブな STT スタックに比べて、依然としてより多くの実装と調整が必要になる傾向があります。
Ahmad はライブ会議字幕のために Whisper の統合に3日かけました。精度は良好でした。しかし字幕は各文のあと 2〜4 秒遅れて表示され、「what do you think about the Berlin office timeline?」が画面に出た頃には、会話はすでに予算の話に移っていました。このギャップは修正すべきバグではありません。Whisper のアーキテクチャの仕組みによる結果です。
Whisper がオープンソース音声認識のゴールドスタンダードだと紹介されているのを見たことがあるかもしれません。その評価は正しいです — 適切なユースケースであれば。この記事では、ライブ会議で字幕が必要なときにベンチマークスコアよりアーキテクチャが重要な理由、Whisper をセルフホストする実際のコスト、そしてあなたの状況に合った明確な判断基準を説明します。
重要ポイント
- Whisper は音声をバッチ処理して完成した文字起こしを返します。サブ秒のストリーミング向けには設計されていません。
- Soniox は低遅延の部分結果向けに構築された WebSocket ストリーミングアーキテクチャを採用しています。
- Whisper large-v3 は英語のクリアな読み上げ音声の精度ベンチマークで先行しており、Soniox は会話音声と多言語音声向けに最適化されています。
- Whisper をローカルで動かしても無料ではありません。リアルタイム推論に対応できる GPU インスタンスは、使用量に応じて月額 $80〜200 かかります。
- 設定不要でライブ会議字幕を使いたいなら、MirrorCaption は Soniox のストリーミングを使い、エンドツーエンドで 500ms 未満を実現します。
Whisper と Soniox はどう違う設計なのか
Whisper: バッチ優先の Transformer
OpenAI は 2022 年 9 月に、680,000 時間の多言語音声で学習したオープンソース ASR モデル Whisper を公開しました。そのアーキテクチャは encoder-decoder Transformer で、音声は log-Mel スペクトログラムに変換され、encoder を通り、text token にデコードされます。Whisper の元論文では large までの元のモデル群が扱われており、その後の model card 更新で large-v3 などの新しいチェックポイントが追加されました。
このアーキテクチャはクリアな音声には強力です。しかし構造的な制約があります。decoder が何かを出力する前に、encoder が固定長の音声ウィンドウを処理する必要があるのです。Whisper のデフォルトウィンドウは 30 秒です。実際には、一定時間音声を集め、そのチャンクをモデルに入力し、文字起こしを受け取ります。結果が表示されるのはチャンク処理完了後であり、発話に合わせて単語ごとに出るわけではありません。
faster-whisper(CTranslate2 バックエンドを使用)や whisper-live のようなサードパーティ製アダプターは、チャンクサイズを小さくし、ウィンドウを重ねることでこれを改善します。十分な性能の GPU で small モデルを使えば、遅延をおおよそ 1〜2 秒まで縮められます。より高精度な large-v3 では、最低でも 2〜4 秒を見込むべきです。500ms 未満の Whisper 字幕は、Whisper を使う価値のある精度を大きく損なわない限り、実用的には達成できません。
Soniox: 後付けではなく、最初からストリーミング向け
Soniox は、ストリーミングアーキテクチャを前提に設計された商用リアルタイム STT API です。WebSocket 接続を開き、音声を段階的に受け取り、文が終わる前に部分トークンを返します。誰かが「The meeting starts at Friday—」と言った時点で、Soniox はすでに「The」「meeting」「starts」を部分トークンとして出力しています。これらのトークンは、より多くの文脈が入るにつれて更新・確定されるため、字幕が後処理ではなく会話に追従しているように感じられます。
これは推論バックエンドを高速化した Whisper ではありません。設計目標そのものが異なります。完全な音声チャンクの後に高精度な最終出力を返すのではなく、永続接続上で低遅延の部分出力を返すことが目的です。アーキテクチャの違いに不慣れなら、Whisper の仕組みを非技術的なレベルで確認できます。
| 機能 | OpenAI Whisper | Soniox |
|---|---|---|
| アーキテクチャ | Encoder-decoder Transformer(バッチ) | ストリーミング WebSocket(部分トークン) |
| リアルタイムストリーミング | 可能だが、ストリーミングネイティブではない | はい — ネイティブ対応 |
| 遅延(ライブ利用) | 最短 1〜3 秒(faster-whisper、GPU) | 低遅延の部分結果 |
| 英語精度 | クリアな音声では最高クラス | 会話音声に強い |
| 対応言語 | 99+ | 主要な世界言語 |
| 話者分離 | 標準搭載ではない(pyannote が必要) | ネイティブ対応 |
| デプロイ | セルフホストまたは OpenAI API(バッチ + リアルタイム) | API のみ(マネージド) |
| オープンソース | はい(Apache 2.0) | いいえ(商用) |
| 最適な用途 | 録音音声、後処理 | ライブ会議、リアルタイム字幕 |
精度: それぞれが強い場面
英語のクリアな読み上げ音声 — ポッドキャスト、ナレーション、明瞭な単一話者による録音講義 — では、Whisper large-v3 はオープンソース・商用を問わず利用可能なモデルの中でも最上位クラスです。LibriSpeech test-clean データセットでは、読み上げ音声において人手文字起こしに匹敵する単語誤り率を達成しています。
Soniox は会話音声向けに調整されています。発話の重なり、訛りのある英語、非ネイティブ話者、言語間のコードスイッチングなどです。MirrorCaption がこれを選んだのは、会議で重要になる種類の誤り — 固有名詞、専門用語、非ネイティブアクセントの話者 — に対して、オーディオブックのような音声向けに最適化されたバッチモデルよりもうまく対応できるからです。
精度の問題は、遅延の問題とも切り離せません。Whisper のバッチ処理は、どのトークンを確定する前にも完全な文脈を得られるため、難しいフレーズでの精度向上に役立ちます。Soniox のストリーミングモデルは、不完全な文脈のまま部分トークンを出し、その後自己修正する必要があります。録音音声なら、精度ではバッチ方式が勝ちます。ライブ会話では、3 秒待つこと自体が別の種類のエラーになります。つまり、返答すべきタイミングを逃すのです。
正直な注意点をひとつ。私たちは同じライブ会議音声で管理された直接比較テストを行っていません。公開ベンチマークについては、Whisper GitHub model card を参照してください。Soniox の公称ベンチマークは soniox.com を直接確認してください。リアルタイム翻訳精度に関する私たちのより広い分析では、複数の STT エンジンでストリーミング条件下において精度がどう低下するかを扱っています。
リアルタイム遅延: アーキテクチャの差
サンパウロのチームとソウルのパートナーによる商談中、韓国側のリーダーが何かを言った瞬間、部屋が静まり返りました。全員が待ちました。通訳は通話に入っていませんでした。MirrorCaption はブラウザタブで動作しており、誰かが「what did he mean?」と聞く前に翻訳が表示されました。チームは同じ呼吸の中で返答する時間を確保できました。
異なる STT アプローチにおける「リアルタイム」の実際の意味は次のとおりです。
- Whisper(デフォルトの 30 秒ウィンドウ): 5〜30 秒の遅れ。モデルは完全な音声チャンクを待ってから出力します。
- faster-whisper、small モデル、高性能 GPU: 1〜2 秒。改善はされますが、依然としてバッチ型です。読んでいるのは「今言われていること」ではなく「言われたこと」です。
- faster-whisper、large-v3、高性能 GPU: 2〜4 秒。精度は高いが、遅延は大きいです。
- Soniox WebSocket ストリーミング: 会話型字幕に十分な速さで部分結果が届き、MirrorCaption のエンドツーエンド翻訳字幕は 500ms 未満を維持します。
この 1〜3 秒の差は、ログを読むことと会話することの違いです。その場で割り込む、確認の質問をする、交渉のニュアンスをつかむ必要があるなら、タイミングが重要です。MirrorCaption は Soniox のストリーミングの上に GPT ベースの翻訳を追加していますが、それでも音声から翻訳字幕までのエンドツーエンド時間は 500ms 未満です。
遅延の違いを自分で確かめてください。MirrorCaption は 1 時間無料、1 回限りで使えます — クレジットカード不要です。
次の会議で試す導入とセットアップ
Whisper の実行: 実際に必要なもの
Whisper のモデル重みは無料です(Apache 2.0)。実行には Python 3.8+、ffmpeg、pip 依存関係が必要です。small モデルを超えるものでは、CUDA 対応 GPU が欲しくなります。large-v3 にはおよそ 10GB の VRAM が必要です。リアルタイム利用ではさらに、音声チャンク分割ロジック、ブラウザから音声をストリーミングするための WebSocket サーバー、そして faster-whisper や whisper-live のようなストリーミングアダプターも必要です。
ミュンヘンと東京の調整をしていた PM の Clara は、開発チームから「Whisper を使えばいい、オープンソースだから」と言われました。彼女は GitHub のリンクを開きました。Python 依存関係が 38 個。CUDA ドライバーに関する注意書き。Windows での ffmpeg に関する別ページ。彼女に必要だったのは 15 分後の字幕でした。代わりに MirrorCaption を開き、URL を貼り付けて Start をクリックし、コーヒーが冷める前にライブ字幕を使い始めました。
Python とクラウドインフラに慣れた開発者なら、Whisper のセルフホストは管理可能です。しかし、ユーザーのブラウザでサーバーインストールなしに字幕が動く製品を作るなら、いずれにせよ API の仲介層が必要です。その時点で、オープンソースの「無料」という利点はインフラコストに置き換わっています。
Soniox: API ファースト、インフラ不要
Soniox は API 専用です。キーで認証し、wss://stt-rt.soniox.com/transcribe-websocket への WebSocket 接続を開き、音声フレームを送信し、トークンを受け取ります。ローカルのモデル重みも、GPU の用意も不要です。開発者なら半日で統合できます。
非開発者にとって、Soniox 自体は直接使えるものではありません。開発者向け API だからです。そこで MirrorCaption vs OpenAI Whisper が重要になります。MirrorCaption は Soniox のストリーミングをブラウザ UI に包み込んでいるため、セットアップ、セルフホスト、API キーなしで 500ms 未満の字幕を利用できます。コード不要の代替手段を広く見たい場合は、コーディング不要の Whisper 代替をご覧ください。
OpenAI Whisper API
OpenAI は Whisper の文字起こし API を $0.006/分 で提供しており、whisper-1 のリアルタイム文字起こしセッションも公開しています。これによりインフラ負担の多くは解消されます。残るトレードオフはアーキテクチャとプロダクトレベルのものです。Whisper は依然として録音音声と後処理に最も強く、低遅延のライブ字幕が要件であれば、Soniox のようなストリーミングネイティブなスタックの方が通常は適しています。
価格: 「オープンソース」は無料ではない
Whisper は無料だと思っている人にとって、このコスト比較は驚きです。
Whisper セルフホスト(月 100 時間のライブ会議利用):
100 時間 = 6,000 分の連続文字起こしです。これを会議のペースでほぼリアルタイムに処理するには、単なるバッチジョブではなく、会議中ずっと稼働する GPU サーバーが必要です。large-v3 を実用速度で動かせる中級クラスのクラウド GPU インスタンス(例: AWS g5.xlarge または同等)は、おおよそ $1〜2/時間 です。月 100 時間の会議なら、GPU 時間だけで $100〜200、さらに統合の構築・保守にかかるエンジニアリング時間が加わります。
OpenAI Whisper API(月 100 時間):
6,000 分 × $0.006 = $36/月。ホスト側のセットアップは不要で、価格も手頃です。リアルタイム文字起こしも利用可能になりましたが、その上に洗練されたライブ字幕プロダクトを構築するには、依然としてストリーミングファーストの API より多くの作業が必要です。
MirrorCaption(エンドユーザー、月 100 時間):
年間プランは €29/年 で 100 時間をカバーします(€0.29/時間)。ライフタイムプランは €49 の一括払いで 200 時間をカバーします。たまに使うユーザー向けには、無料プランで 1 時間無料(1 回限り)を提供しています。
月 20 時間の多言語会議を行うチームなら、MirrorCaption の €29/年 は込みでおよそ €0.12/時間 です。GPU 料金ベースのセルフホスト Whisper は、その 8〜15 倍のコストになります — ストリーミングインフラの構築・保守時間を含める前でもです。
€49 の一括払い。 60+ 言語で 200 時間のライブ字幕。サブスクリプション不要、インフラ不要。
料金を見るどちらを選ぶべきか?
| Whisper を選ぶべき場合 | Soniox を選ぶべき場合 |
|---|---|
| 録音済み音声ファイル(ポッドキャスト、講義、インタビュー)を文字起こししたい | 誰かがまだ話している最中に字幕が必要 |
| コンテンツが主に英語で、音声がクリア | 多言語音声や訛りのある発話を扱う |
| Python と GPU インフラがすでにある | セルフホスト不要のマネージド API が必要 |
| バッチ文字起こしパイプラインを構築している | リアルタイム会議または字幕ツールを構築している |
| 録音音声での最大精度が最優先 | ライブ音声での最小遅延が最優先 |
パイプラインを構築する開発者ではなくエンドユーザーである場合、Whisper も Soniox も UI レイヤーなしでは直接利用できません。MirrorCaption は Soniox に対するそのレイヤーです。ブラウザアプリとして、Soniox の 500ms 未満ストリーミング、60+ 言語での GPT 翻訳、話者検出を、インストール不要で提供します。エンドユーザー向けツールをより広く比較したい場合は、2026 年のおすすめ speech-to-text ソフトのまとめをご覧ください。
MirrorCaption が Soniox を使う理由
MirrorCaption は Soniox のストリーミング STT を中心に構築されています。なぜなら、ユースケースがそれを要求するからです。ライブ会議では、3 秒の遅延は壊れた体験です。話者が次の文に進んだあとに翻訳が表示されるのは字幕ではなく、遅れたログです。私たちが Soniox を選んだのは、後から適応させたのではなく、最初からストリーミング向けに設計されていたからです。
Soniox のストリーミングの上に、MirrorCaption は 60+ 言語対応の GPT ベース翻訳改善と、AES-GCM で暗号化された一時 API キー(TTL 2 秒、Supabase Edge Function 経由で発行)を追加しています。これにより、永続的な認証情報を使って音声が私たちのサーバーを通過することはありません。信頼には具体性が必要だからこそ、アーキテクチャは透明です。私たちは Soniox STT と OpenAI GPT を使っています。「独自のニューラルエンジン」ではありません。
よくある質問
Whisper はリアルタイムで動きますか?
部分的には可能です。OpenAI は現在 whisper-1 のリアルタイム文字起こしを提供しており、セルフホストのアダプターでも Whisper をライブ利用に近づけることはできます。ただし、このモデル群は依然として超低遅延の字幕表示より、録音音声と後処理に強みがあります。ライブ会話に確実についていく字幕が必要なら、Soniox のようなストリーミングネイティブなエンジンの方がシンプルに適しています。
Soniox は Whisper より高精度ですか?
公開されている英語のクリアな読み上げベンチマーク(LibriSpeech)では、Whisper large-v3 が先行しています。訛りのある会話音声、多言語切り替え、ライブ会議条件では差は縮まり、Soniox の会話向け調整が利点になります。単一の答えはありません。正しい比較は、ベンチマークデータセットではなく、それぞれのエンジンがあなたの実際の音声をどう処理するかです。詳しくは、リアルタイム翻訳精度の分析をご覧ください。
Whisper をライブ会議字幕に使えますか?
はい、ただし大きなセットアップが必要です。ストリーミングアダプター(faster-whisper または whisper-live)、ブラウザ音声を受け取る WebSocket サーバー、高速推論が可能な GPU が必要です。十分な性能の GPU で small モデルを使っても、最良で 1〜3 秒の遅延を見込んでください。ほとんどのチームにとって、エンジニアリング負荷とインフラコストは「無料」というラベルに見合いません。特に、マネージドなストリーミング API や MirrorCaption のようなツールと比べるとそうです。
リアルタイム音声認識を最も安く使う方法は何ですか?
MirrorCaption の無料プランでは、Soniox を使ったストリーミング字幕と翻訳を 1 時間無料、1 回限りで利用できます。クレジットカード不要、インストール不要です。たまに多言語会議を行う程度なら、これでほとんどのユーザーをカバーできます。より多く使う場合でも、年間プランの €29/年(100 時間)は €0.29/時間 で、意味のある会議量でクラウド GPU 上のセルフホスト Whisper を使うより安価です。
MirrorCaption はどの STT エンジンを使っていますか?
MirrorCaption は文字起こしに Soniox WebSocket ストリーミング STT を使い、翻訳改善と会議要約に OpenAI GPT を使っています。一時的な Soniox API キーは Supabase Edge Function 経由で TTL 2 秒で発行されます。音声はブラウザから Soniox のサーバーへ直接ストリーミングされ、MirrorCaption のインフラには保存されません。
結論として、Soniox と Whisper は主に異なるユースケースに向いています。Whisper は録音ファイルの高精度なバッチ文字起こしに適しています。Soniox は、完璧なオフライン精度より遅延の少なさが重要な場合に適しています — つまり、あらゆるライブ会議です。
Soniox 搭載字幕を無料で試す
MirrorCaption は Soniox ストリーミング + GPT 翻訳をブラウザタブで提供します。1 時間無料、1 回限り。インストール不要。あらゆるビデオ通話や対面会話で使えます。
MirrorCaption を無料で開く