2026年のほとんどの評価基準では、単一のAI文字起こしツールが全体で勝つことはありません。きれいな英語音声では、Whisper Large v3 と Deepgram Nova-2 が単語誤り率で約3〜6%と先行しています。リアルタイム結果が必要な多言語会議では、MirrorCaptionのようなストリーミングネイティブな多言語STTツールが、英語以外の言語で最も安定した性能を発揮します。どのツールが最も正確かは、いつ文字起こしが必要か、話者がどの言語を使うかで決まります。
昨年9月、Nadiaは多くの精度ベンチマークでは拾えない問題に直面しました。彼女はベルリンの大学で質的研究プログラムを管理しており、国際的な科学者への45分のインタビューに使う文字起こしツールが必要でした。英語は技術的には流暢でも、訛りの強いエンジニアたちです。Whisper Large v3 は彼女のテストクリップで最もきれいな出力を出しました。英語ネイティブ1人、静かな部屋、準備済みのテキストです。同じモデルを、日本人の航空宇宙エンジニアとの40分インタビューにかけると、固有名詞の誤りが19件。完全に落ちた文が2文ありました。ラボで2番目に良いWERスコアだったモデルが、実際の研究では彼女が信頼したものでした。
この比較では、きれいなスタジオ英語、Zoom通話のシミュレーション、英語と中国語のバイリンガルなコードスイッチング、非ネイティブ英語話者という4つの音声条件で7つのツールを評価します。データが示す内容、各ツールの弱点、そしてどの用途に合うかを見ていきます。
要点
- きれいな英語音声では、Whisper Large v3 と Deepgram Nova-2 が約3〜6%のWERを達成しますが、どちらもエンドユーザー向けの会議ツールとしてそのまま使える製品ではありません。
- すべてのツールで、実際の会議条件ではきれいなスタジオ音声に比べてWERが2〜3倍に上がります。
- Otter.ai、Fireflies、Zoom AI Companion は英語中心で、英語以外の精度は大きく低下し、特にアジア言語と中東言語で顕著です。
- MirrorCaption(ストリーミングSTT + GPT)は、60以上の言語で500ms未満の遅延によるリアルタイム配信を実現し、リアルタイム精度と広い言語対応を両立する唯一のエンドユーザーツールです。
- すべての条件で「最も正確」なツールはありません。重要なのは、実際に必要なタイミングと場所での精度です。
「文字起こし精度」とは実際には何か
単語誤り率(WER)の説明
単語誤り率は、音声認識の標準的な精度指標です。計算式は、置換(誤った単語)、挿入(余分な単語)、削除(聞き逃した単語)を数え、基準となる単語数で割ります。WER 5% は、100語あたり約5件の誤りを意味します。1,200語の会議なら60件の誤りです。中には無害なもの("the" と "a")もあれば、重大なもの("we'll approve this" と "we'll review this")もあります。
公開されているWERスコアは通常、LibriSpeech(きれいな朗読音声)や Common Voice のような管理されたデータセットに基づきます。実際の会議は違います。ZoomやTeamsのコーデックで圧縮された音声、複数人の重なり、非ネイティブの訛り、背景ノイズ、そしてモデルの学習データに含まれていなかった専門用語があるからです。会議条件でのWERは、この一覧のどのツールでも、通常ラボWERより2〜3倍高くなります。
WERより重要な問い
精度スコアを比較する前に、これに答えてください。文字起こしは会議中に必要ですか、それとも後ですか? 話者がまだ話している間に結果を返すWER 7%のストリーミングツールは、10分後に届くWER 4%のバッチツールより、会議中の判断には役立つことが多いです。精度は誤り率だけでなく、タイミングも重要です。関連するリアルタイム翻訳精度の記事で、このトレードオフを詳しく扱っています。
これらのツールをどう評価したか
各ツールを次の4つの音声シナリオでテストしました。
- きれいなスタジオ音声、英語ネイティブ1人、制御された音響環境
- 会議条件、Zoom通話のシミュレーション、英語ネイティブ2人、軽い背景ノイズ
- バイリンガル会話、英語と中国語のコードスイッチング、各言語のネイティブ話者1人
- 非ネイティブ英語、中級〜上級の英語力を持つ日本人話者
評価対象ツール: Otter.ai、OpenAI Whisper Large v3、Fireflies.ai、Zoom AI Companion、Deepgram Nova-2、AssemblyAI Universal-2、MirrorCaption。この記事のWER範囲は、公開された学術ベンチマーク、ベンダー資料、そして私たち自身のテストに基づきます。精度は音声条件によって大きく変わるため、点推定ではなく範囲で示しています。あくまで方向性を示すものであり、最終判断ではなく、導入前に自分のコンテンツでテストしてください。
MirrorCaptionがあなたの会議をどう処理するか見る
月2時間無料。インストール不要。どのブラウザでも利用可能。
AI文字起こし精度の比較: 2026年の結果
下の表は、テスト条件ごとの概算WER、リアルタイム対応、対応言語数、そしてエンドユーザー向け製品か開発者向けAPIのみかをまとめたものです。
| ツール | きれいな英語WER | 会議WER | リアルタイム | 言語数 | エンドユーザー製品 |
|---|---|---|---|---|---|
| Whisper Large v3 | ~3–5% | ~12–18% | いいえ(バッチ) | 99 | いいえ(開発が必要) |
| Deepgram Nova-2 | ~4–6% | ~7–12% | はい(API) | 36 | いいえ(APIのみ) |
| AssemblyAI Universal-2 | ~5–8% | ~8–13% | 一部 | 17 | いいえ(APIのみ) |
| Otter.ai | ~8–12% | ~10–16% | はい | 英語中心 | はい |
| MirrorCaption | ~5–8% | ~7–12% | はい(<500ms) | 60+ | はい |
| Fireflies.ai | ~9–14% | ~11–17% | いいえ(通話後) | 60+(通話後) | はい |
| Zoom AI Companion | ~9–13% | ~11–16% | 一部 | ~8 | はい(エンタープライズ) |
WERの範囲は概算で、HuggingFace Open ASR Leaderboard、OpenAIのWhisper技術レポート、ベンダー資料、そして私たち自身のテストを含む公開ベンチマークに基づいています。実際の数値は、音声品質、話者特性、語彙によって変わります。
注目すべき点は3つあります。第一に、きれいな音声と会議音声のWER差は、多くのベンダーの主張より大きいこと。Whisperの約4%から約15%への上昇は、会議ノイズ向けに設計されていないバッチモデルであるため大きく見えます。第二に、API専用ツール(Deepgram、AssemblyAI)は生のWERでは消費者向け製品を一貫して上回りますが、導入にはエンジニアリング作業が必要です。第三に、広い言語対応とリアルタイム性はめったに両立しません。両方を備えるツールはごく少数です。
ツール別の詳細
1. OpenAI Whisper Large v3
Whisperは、きれいな英語音声の精度ベンチマークです。OpenAIは680,000時間の多言語ウェブ音声で学習させており、学習分布内の訛りのある音声でも強い性能を示します。きれいな朗読音声のベンチマークでは、Whisper Large v3 はWER 5%未満を達成します。AMIコーパスのような実際の複数人会議データセットでは、Whisperはバッチモデルであり、ライブストリームではなく完全な音声区間を処理するため、WERは12〜18%に上がります。
根本的な制約は、Whisperが製品ではなくモデルであることです。使うにはPython、計算資源、開発時間が必要です。リアルタイム導入には追加の実装が必要です。それができるなら、Whisperは英語で非常に優秀です。できないなら、実用面の比較としてMirrorCaption vs. Whisperをご覧ください。
2. Deepgram Nova-2
DeepgramのNova-2は、リアルタイムストリーミング精度において開発者向けの最有力候補です。きれいな英語で約4〜6%のWERを達成し、会議条件でも約7〜12%と競争力のある性能を維持します。Deepgramは電話音声と会議音声向けに最適化しているためです。ストリーミング遅延は300ms未満です。対応言語36は多くのチームには十分ですが、広範な多言語対応には足りません。
制約はWhisperと同じです。APIであり、エンジニアリングチームが周辺を構築し、表示し、管理する必要があるデータストリームに対して料金を払う形です。UIはなく、話者ラベルも標準ではなく、AI要約レイヤーもありません。約$0.0043/分の料金は、大量利用では積み上がります。
3. AssemblyAI Universal-2
AssemblyAIは強力な話者分離を提供します。会議の文字起こしでは、誰が何を言ったかが内容と同じくらい重要なため、これは大切です。Universal-2 はきれいな音声で約5〜8%のWERを達成します。リアルタイムストリーミングは利用できますが、Deepgramの提供より成熟度は低めです。対応言語17は、国際チームにとっては大きな制約です。Deepgramと同様、開発者による統合が必要で、エンドユーザー製品はありません。
4. Otter.ai
Otterは、英語の会議文字起こしにおける消費者向けの定番です。明瞭なアメリカ英語でのWERは堅実で、会議条件では約8〜12%と、消費者向け製品としては競争力があります。OtterPilotは会議に自動参加し、音声を記録し、話者ラベル付きのメモとアクションアイテムを生成します。Zoom、Google Meet、Teamsとのカレンダー連携も安定しています。
英語以外ではすぐに弱点が出ます。Otterはリアルタイム翻訳を提供しておらず、英語以外の文字起こし品質は英語性能よりかなり低いです。1ユーザーあたり月額$16.99で、チームではコストが積み上がります。機能ごとの比較は、MirrorCaption vs. Otter.aiの比較をご覧ください。
5. MirrorCaption(ストリーミングSTT + GPT)
MirrorCaptionは、ストリーミングネイティブなWebSocket STTエンジンを使っており、非ネイティブ英語やアジア言語で一貫して高いベンチマークを示します。会議音声でのWERは約7〜12%で、ストリーミング遅延は500ms未満です。ただし、翻訳対応ツールとしては、生のWERだけでは全体像を捉えられません。
各文字起こしセグメントは、直前3〜5セグメントの文脈を使ってGPT翻訳に送られます。日本人クライアントがちょっと難しいです、文字通りには「少し難しいです」と言った場合、翻訳レイヤーは周囲の会話を考慮して、これが物流上のコメントなのか、丁寧な商談上の断りなのかを判断します。意味のレベルでのこの精度は、多くのWERベンチマークでは測れません。
エンドユーザー向けでは、MirrorCaptionはこの一覧で唯一、リアルタイムストリーミング精度、60以上の言語対応、ブラウザタブ経由のボット不要音声取得、インストール不要のUIを兼ね備えています。€49のライフタイムで200時間込み。月2時間は無料です。
- STTエンジン: 低遅延WebSocketストリーミング、<500ms
- 翻訳: 3〜5セグメントの文脈ウィンドウを持つGPT
- 言語: 中国語、日本語、韓国語、アラビア語、ヒンディー語を含む60以上
- プライバシー: ボットなし、サーバー側音声保存なし、ローカルでの文字起こし保持
- 料金: 無料(2時間/月)・年間€29・ライフタイム€49
自分の会議でリアルタイム精度を試す
MirrorCaptionをブラウザで開くだけ。ダウンロードも設定も不要です。
6. Fireflies.ai
Firefliesは会議メモ層に重点を置いています。ボットが通話に参加し、すべてを記録し、AI要約付きの会議後文字起こしを生成します。HubSpotやSalesforceとのCRM連携により、営業チームに人気です。会議条件でのWERは約9〜14%で、要約生成には十分です。数語の誤りではアクションアイテムの意味がほとんど変わらないからです。
制約はタイミングです。Firefliesは通話後ツールです。リアルタイム文字起こしは利用できますが、主力製品ではなく、翻訳は通話後のみです。会議後ではなく会議中に何が言われているかを理解したいなら、Firefliesはその用途に合いません。
7. Zoom AI Companion
Zoom AI Companionは、Zoom内でライブキャプションを適切に処理します。会議条件でのWERは約9〜13%で、プラットフォームネイティブ機能としては妥当です。対応約8言語では、品質は言語ペアによって大きく異なります。英語は強いですが、アジア言語では差が広がります。
厳しい制約は、プラットフォーム固定(Zoomでしか動かない)、翻訳機能にはエンタープライズライセンスが必要、対面会話や他プラットフォームの会議には使えないことです。完全にZoom内で仕事をし、主に英語で会議するチームには、AI Companionは摩擦の少ない選択です。それ以外では、別のツールが必要です。
各ツールの弱点
訛りのある英語と非ネイティブ英語
ここではラボWERスコアはあまり役に立ちません。Otter、Fireflies、Zoom AI Companion は主にネイティブ英語データで学習しています。東アジア、南アジア、中東の訛りを持つ話者では、発話が学習分布から外れると、場合によっては20〜30%のWERまで誤り率が大きく上がります。Whisperは、より広い多言語コーパスで学習しているため、訛りのある英語をよりうまく扱います。MirrorCaptionのストリーミングネイティブな多言語STTエンジンは、消費者向け会議ツールよりも非ネイティブ英語での音素置換が少なくなっています。
バイリンガルとコードスイッチングの会話
コードスイッチング、たとえば日本人話者が文中で英語の技術用語を使う場合や、中国語話者が「我们 schedule 一个 meeting」と言う場合は、ほとんどのSTTモデルを崩します。標準モデルはセッションごとに1言語に固定し、別言語の予期しない単語を誤りとして扱います。Whisperは、混在言語の学習データがあるため、ある程度のコードスイッチングに対応します。MirrorCaptionは、セッション開始時に1言語へ固定するのではなく、セグメントごとに言語検出を行うため、バイリンガル会話をより自然に処理します。多言語文字起こしツールの完全ガイドは、多言語文字起こしガイドをご覧ください。
2月、B2Bソフトウェアの営業チームがこの問題を身をもって知りました。木曜の東京の重要見込み客との通話はうまくいったように見えました。Zoom AI Companion は通話終了9分後に要約を返しました。要約には「Client expressed timing concerns about the evaluation.」とありました。実際の発言は、営業責任者が録画を見返したときに初めて分かったのですが、「We need to pause our evaluation entirely.」でした。どちらの文字起こしも、単語レベルでは技術的には正確でした。しかしZoomの要約は商談上の重要性を失っていました。誰もその場で気づかず、フォローアップの質問をする機会を逃しました。
リアルタイム vs. 後処理: 遅延と精度のトレードオフ
ストリーミングSTTは、音声が追加されるたびに更新される途中結果を出します。ある単語は一度こう認識され、次の単語が文脈を与えることで修正されることがあります。後処理ツールは完全な音声区間を待つため、文脈が揃っていて精度は高いですが、出力が表示されるまで数秒から数分の遅れがあります。ストリーミングとバッチの最終精度差は通常1〜3ポイントです。これは実在する差ですが、まだ行動できるうちに結果が得られる価値に比べれば小さいです。ライブキャプション vs. 文字起こしの記事で、このトレードオフを詳しく扱っています。
あなたの用途で最も正確なのはどのツールか?
英語のみの会議後文字起こし: Whisper Large v3(ラッパー経由またはセルフホスト)か Otter.ai。どちらも洗練された会議後出力を提供します。Otterは非技術ユーザーに扱いやすく、Whisperは開発リソースがあり最大精度を求める場合に優れています。技術的な比較は、ストリーミングSTT vs. Whisperをご覧ください。
多言語のリアルタイム会議: MirrorCaption(ストリーミングSTT + GPT)。リアルタイム配信、60以上の言語、ボットなし、ブラウザベース。ストリーミングSTTと文脈付き翻訳の2層構成により、WERベンチマークでは捉えられない意味レベルの精度が加わります。
開発者向けAPI精度: 英語中心の大量処理には Deepgram Nova-2、強力な話者分離が必要な用途には AssemblyAI Universal-2。どちらもエンジニアリング投資が必要です。
プラットフォームネイティブの手軽さ: Google Workspace に完全に依存しているなら Google Meet Live Captions。すべての会議がZoomなら Zoom AI Companion。設定不要という代償として、プラットフォーム固定を受け入れます。
日本語を学んでいるブラジル人ソフトウェアエンジニアのMarcusは、東京のチームとの隔週の進捗確認にMirrorCaptionを使い始めました。毎回、彼は5〜6個のフレーズを語彙デッキに保存しました。教科書的な日本語ではなく、実際の会議で使われる言い回しです。意見の相違を丁寧に伝える表現、同僚が実際に使う技術用語、意思決定の前に出てくる言い回し。4か月後には、実際の会話から約200フレーズが集まりました。東京の同僚たちは、彼がそれを口にする前に変化に気づきました。
よくある質問
2026年のAI会議文字起こしの精度はどのくらいですか?
最新のAI文字起こしは、きれいな英語音声で3〜8%の単語誤り率を達成します。実際の会議条件では、背景ノイズ、複数話者、音声圧縮により、WERは通常ツールによって8〜17%に上がります。英語以外の言語での精度は大きく異なります。主に英語で学習されたツールは、話者が中国語、日本語、アラビア語、その他の非英語言語を使うと、WERが2倍以上になることがあります。
単語誤り率(WER)とは何ですか?
単語誤り率は、置換(誤った単語)、挿入(余分な単語)、削除(聞き逃した単語)を、基準となる単語数で割ったものです。WER 5% は、100語あたり約5件の誤りを意味します。低いほど良いですが、WERは無害な誤りと重大な誤りを区別しません。"approve" と "disapprove" は、どちらも1回の置換として数えられます。
2026年に最も正確なAI文字起こしツールはどれですか?
きれいな英語音声では、Whisper Large v3 と Deepgram Nova-2 が約3〜6%のWERを達成し、先頭に立っています。リアルタイムの多言語会議では、MirrorCaption がストリーミング精度と対応言語の最良の組み合わせを提供します。すべての面で1つのツールが勝つわけではなく、答えは音声条件、言語の組み合わせ、そして会議中か会議後かで変わります。
AI文字起こしの精度は英語以外で下がりますか?
はい、大きく下がります。Otter.ai、Fireflies、Zoom AI Companion のような消費者向けツールは主に英語データで学習されており、英語以外の精度は特にアジア言語と中東言語で大きく低下します。Whisper と MirrorCaption は、より広い多言語コーパスのおかげで、言語をまたいでもより安定しています。
リアルタイムストリーミングは文字起こし精度にどう影響しますか?
ストリーミングSTTは、文脈が増えるにつれて自己修正する途中結果を出します。同じ音声に対する最終精度は、通常バッチツールより1〜3ポイント高いWERです。会議が進行中に出力が届くことを考えると、これは実在するが小さな差です。詳しくはライブキャプション vs. 文字起こしの記事をご覧ください。
WhisperはOtter.aiより正確ですか?
きれいな英語音声では、Whisper Large v3 は Otter.ai より明らかに低いWERを達成します。実際の会議条件では差は縮まりますが、残ります。Whisperは自分で導入するモデル、またはサードパーティのラッパー経由で使うものです。OtterはUIを備えた完全な製品です。インフラ管理をしたくないエンドユーザーにとって、Otterの精度と手軽さのトレードオフは妥当です。開発リソースがあるチームには、Whisperのほうが英語でより高い精度を提供します。詳細な技術比較は、ストリーミングSTT vs. Whisperをご覧ください。
本当に重要な精度指標
生のWERは有用なベンチマークですが、ラボの数値です。ツールが話者の訛りを処理できるか、結果がまだ行動できるうちに届くか、言語的に正確な文字起こしが実際の意味を捉えているかは分かりません。
会議が英語で行われ、会議後の要約で十分なチームにとっては、Whisper と Otter が現時点での精度上限です。多言語チームがリアルタイムで意思決定する場合、問いは「どのツールが最も低いWERか」から「どのツールが、まだ対応できるうちに十分正確な内容を返してくれるか」に変わります。これは別の評価であり、別の答えになります。
MirrorCaptionは、ストリーミングSTTと文脈付きGPT翻訳を重ねることで、その2つ目の用途に対応します。60以上の言語、500ms未満、ブラウザタブから利用可能です。無料プランは月2時間。次の会議が試す場です。