U většiny hodnoticích kritérií v roce 2026 neexistuje jediný nástroj AI pro přepis, který by vyhrával ve všech směrech. Pro čistý anglický zvuk vedou podle word error rate Whisper Large v3 a Deepgram Nova-2, zhruba 3–6 %. Pro vícejazyčné schůzky, které potřebují výsledky v reálném čase, si nejlépe a nejstabilněji vedou streaming-nativní vícejazyčné STT nástroje jako MirrorCaption napříč neanglickými jazyky. Který nástroj je pro vás nejpřesnější, závisí na tom, kdy přepis potřebujete a jaké jazyky vaši mluvčí používají.

Minulý září narazila Nadia na problém, který většina benchmarků přesnosti nezachytí. Vede program kvalitativního výzkumu na berlínské univerzitě a potřebovala nástroj na přepis 45minutových rozhovorů s mezinárodními vědci, inženýry, jejichž angličtina je technicky plynulá, ale silně přízvuková. Whisper Large v3 vytvořil na jejím testovacím klipu nejčistší výstup: jeden rodilý mluvčí angličtiny, tichá místnost, připravený text. Stejný model spustila na 40minutovém rozhovoru s japonským leteckým inženýrem. Devatenáct chyb ve vlastních jménech. Dvě celé věty úplně chyběly. Model s druhým nejlepším laboratorním WER skóre byl ten, kterému důvěřovala pro skutečný výzkum.

Toto srovnání hodnotí sedm nástrojů ve čtyřech zvukových podmínkách: čistá studiová angličtina, simulovaný Zoom hovor, bilingvní střídání angličtiny a mandarínštiny a nerodilý mluvčí angličtiny. Tady je, co ukazují data, kde jednotlivé nástroje selhávají a který z nich se hodí pro který případ použití.

Klíčové poznatky

Co „přesnost přepisu“ ve skutečnosti znamená

Vysvětlení Word Error Rate (WER)

Word error rate je standardní metrika pro přesnost převodu řeči na text. Vzorec: spočítejte substituce (špatné slovo), vložení (navíc přidané slovo) a vynechání (přehlédnuté slovo) a pak to vydělte celkovým počtem referenčních slov. WER 5 % znamená zhruba pět chyb na 100 slov. Na schůzce o 1 200 slovech je to 60 chyb, některé neškodné („the“ vs. „a“), jiné zásadní („schválíme to“ vs. „probereme to“).

Publikované WER skóre obvykle pochází z kontrolovaných datasetů, jako je LibriSpeech (čistá čtená řeč) nebo Common Voice. Skutečné schůzky jsou jiné: zvuk komprimovaný kodeky Zoomu nebo Teams, více překrývajících se mluvčích, nerodilé přízvuky, šum v pozadí a technický žargon, který nebyl v trénovacích datech modelu. WER v podmínkách schůzky je u každého nástroje v tomto seznamu typicky 2–3× vyšší než laboratorní WER.

Otázka, která je důležitější než WER

Než začnete porovnávat skóre přesnosti, odpovězte si na toto: potřebujete přepis během schůzky, nebo po ní? Streamingový nástroj s WER 7 %, který dodává výsledky ještě ve chvíli, kdy mluvčí stále mluví, je často užitečnější pro rozhodnutí přímo na schůzce než batch nástroj s WER 4 %, který dorazí o deset minut později. Přesnost je stejně tak o načasování jako o chybovosti. Náš doprovodný článek o přesnosti překladu v reálném čase rozebírá tento kompromis do hloubky.

Jak jsme tyto nástroje hodnotili

Každý nástroj jsme otestovali ve čtyřech zvukových scénářích:

  1. Čisté studio, jeden rodilý mluvčí angličtiny, kontrolované akustické prostředí
  2. Podmínky schůzky, simulovaný Zoom hovor, dva rodilí mluvčí angličtiny, lehký šum v pozadí
  3. Bilingvní výměna, střídání angličtiny a mandarínštiny, jeden rodilý mluvčí pro každý jazyk
  4. Nerodilá angličtina, japonský mluvčí se středně pokročilou až pokročilou úrovní angličtiny

Hodnocené nástroje: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2 a MirrorCaption. Rozsahy WER v tomto článku vycházejí z publikovaných akademických benchmarků, dokumentace dodavatelů a našeho vlastního testování. Uvádíme rozsahy, nikoli bodové odhady, protože přesnost se podle zvukových podmínek výrazně mění; berte je jako orientační, ne definitivní, a před závazným rozhodnutím nástroj otestujte na vlastním obsahu.

Podívejte se, jak MirrorCaption zvládá vaše schůzky

2 hodiny zdarma měsíčně. Bez instalace. V libovolném prohlížeči.

Try Free

Srovnání přesnosti AI přepisu: výsledky 2026

Tabulka níže shrnuje přibližný WER napříč testovacími podmínkami, schopnost pracovat v reálném čase, jazykové pokrytí a to, zda je nástroj dostupný jako produkt pro koncové uživatele, nebo pouze jako vývojářské API.

Nástroj WER pro čistou EN WER na schůzce Reálný čas Jazyky Produkt pro koncové uživatele
Whisper Large v3 ~3–5 % ~12–18 % Ne (batch) 99 Ne (vyžaduje vývoj)
Deepgram Nova-2 ~4–6 % ~7–12 % Ano (API) 36 Ne (pouze API)
AssemblyAI Universal-2 ~5–8 % ~8–13 % Částečně 17 Ne (pouze API)
Otter.ai ~8–12 % ~10–16 % Ano EN-primary Ano
MirrorCaption ~5–8 % ~7–12 % Ano (<500 ms) 60+ Ano
Fireflies.ai ~9–14 % ~11–17 % Ne (po hovoru) 60+ (po hovoru) Ano
Zoom AI Companion ~9–13 % ~11–16 % Částečně ~8 Ano (enterprise)

Rozsahy WER jsou přibližné a vycházejí z publikovaných benchmarků včetně HuggingFace Open ASR Leaderboard, technické zprávy OpenAI o Whisper, dokumentace dodavatelů a našeho vlastního testování. Skutečné hodnoty se liší podle kvality zvuku, charakteristik mluvčích a slovní zásoby.

Vynikají tři věci. Za prvé: rozdíl mezi čistým a schůzkovým WER je větší, než naznačují tvrzení většiny dodavatelů; Whisperův skok z ~4 % na ~15 % je dramatický, protože jde o batch model, který není navržen pro šum na schůzkách. Za druhé: API-only nástroje (Deepgram, AssemblyAI) konzistentně překonávají spotřebitelské produkty v surovém WER, ale jejich nasazení vyžaduje vývojářskou práci. Za třetí: široké jazykové pokrytí a schopnost pracovat v reálném čase se jen zřídka vyskytují společně; nástroje, které nabízejí obojí, jsou krátký seznam.

Rozbor jednotlivých nástrojů

1. OpenAI Whisper Large v3

Whisper je měřítkem přesnosti pro čistý anglický zvuk. OpenAI jej trénovala na 680 000 hodinách vícejazyčného webového audia, což mu dává silný výkon na přízvukové řeči v rámci trénovací distribuce. Na benchmarcích čisté čtené řeči dosahuje Whisper Large v3 WER pod 5 %. Na korpusu AMI, datové sadě skutečných vícestranných schůzek, WER stoupá do rozmezí 12–18 %, protože Whisper je batch model: zpracovává celé zvukové segmenty, ne živé streamy.

Zásadní omezení je, že Whisper je model, ne produkt. Jeho použití vyžaduje Python, výpočetní výkon a čas vývojáře. Nasazení v reálném čase potřebuje další inženýrskou práci. Pokud ji máte, Whisper je pro angličtinu vynikající. Pokud ne, podívejte se níže. Pro praktické přímé srovnání si přečtěte naši stránku MirrorCaption vs. Whisper.

2. Deepgram Nova-2

Nova-2 od Deepgramu je nejsilnější vývojářská volba pro přesnost streamování v reálném čase. Na čisté angličtině dosahuje ~4–6 % WER a v podmínkách schůzky si drží konkurenceschopný výkon (~7–12 %), protože Deepgram se specificky optimalizuje pro telefonii a konferenční audio. Latence streamování je pod 300 ms. Šestatřicet podporovaných jazyků je pro mnoho týmů dostačujících, ale pro široké vícejazyčné pokrytí ne.

Omezení je stejné jako u Whisperu: jde o API. Platíte za datový stream, kolem kterého váš vývojářský tým musí postavit řešení, zobrazit ho a spravovat. Žádné UI, žádné označení mluvčích hned po instalaci, žádná AI vrstva se shrnutím. Cena kolem ~$0.0043/min se při vysokém objemu rychle nasčítá.

3. AssemblyAI Universal-2

AssemblyAI nabízí silnou diarizaci mluvčích, což je důležité pro přepisy schůzek, kde je stejně důležité vědět, kdo co řekl, jako samotný obsah. Universal-2 dosahuje na čistém zvuku ~5–8 % WER. Streamování v reálném čase je k dispozici, ale je méně vyspělé než nabídka Deepgramu. Se 17 podporovanými jazyky jde o významné omezení pro mezinárodní týmy. Stejně jako Deepgram vyžaduje integraci vývojářem; neexistuje produkt pro koncové uživatele.

4. Otter.ai

Nejlepší pro týmy pouze s angličtinou

Otter je výchozí spotřebitelská volba pro přepis anglických schůzek. WER na srozumitelné americké angličtině je solidní, zhruba 8–12 % v podmínkách schůzky, což je na spotřebitelský produkt konkurenceschopné. OtterPilot se ke schůzkám připojuje automaticky, zachycuje audio a generuje poznámky a úkoly s označením mluvčích. Integrace kalendáře se Zoomem, Google Meet a Teams je spolehlivá.

Slabiny se rychle projeví mimo angličtinu. Otter nenabízí překlad v reálném čase a kvalita přepisu v neanglických jazycích je výrazně horší než jeho výkon v angličtině. Při ceně $16.99/měsíc na uživatele se náklady pro týmy rychle sčítají. Pro podrobný rozbor funkcí si přečtěte naše úplné srovnání MirrorCaption vs. Otter.ai.

5. MirrorCaption (streaming STT + GPT)

Otestujte přesnost v reálném čase na vlastních schůzkách

Otevřete MirrorCaption v prohlížeči, bez stahování a bez nutného nastavení.

Open MirrorCaption

6. Fireflies.ai

Fireflies se zaměřuje na vrstvu poznámek ze schůzek: bot se připojí k hovoru, zaznamená vše a po schůzce vygeneruje přepisy s AI shrnutími. Integrace s CRM, jako jsou HubSpot a Salesforce, z něj dělají oblíbený nástroj pro obchodní týmy. WER v podmínkách schůzky je zhruba 9–14 %, což je přijatelné pro generování shrnutí, kde několik chyb ve slovech jen zřídka změní význam úkolu.

Omezení je načasování. Fireflies je nástroj po hovoru. Přepis v reálném čase je k dispozici, ale není hlavním produktem a překlad je pouze po hovoru. Pokud potřebujete rozumět tomu, co se říká během schůzky, a ne až po ní, Fireflies tuto potřebu nenaplňuje.

7. Zoom AI Companion

Zoom AI Companion zvládá živé titulky v rámci Zoomu kompetentně, WER zhruba 9–13 % v podmínkách schůzky, což je na nativní funkci platformy rozumné. U přibližně 8 podporovaných jazyků se kvalita výrazně liší podle jazykové dvojice. Angličtina je silná; u asijských jazyků se rozdíl zvětšuje.

Tvrdá omezení: uzamčení na platformu (funguje pouze v Zoomu), pro funkce překladu je nutná enterprise licence a nelze jej použít pro osobní rozhovory ani schůzky na jiných platformách. Pro týmy, které žijí výhradně v Zoomu a scházejí se převážně anglicky, je AI Companion bezproblémová volba. Pro cokoli nad tento rámec budete potřebovat samostatný nástroj.

Kde jednotlivé nástroje selhávají

Přízvuková a nerodilá angličtina

Tady laboratorní WER skóre přestávají být užitečná. Otter, Fireflies a Zoom AI Companion jsou trénovány primárně na datech v angličtině. U mluvčích s východoasijským, jihoasijským nebo blízkovýchodním přízvukem jsou chybovosti výrazně vyšší, v některých případech 20–30 % WER, když se jejich řeč odchyluje od trénovací distribuce. Whisper zvládá přízvukovou angličtinu lépe díky širšímu vícejazyčnému trénovacímu korpusu. Streaming-nativní vícejazyčný STT engine MirrorCaption vykazuje u nerodilé angličtiny méně fonémových záměn než spotřebitelské nástroje pro schůzky.

Bilingvní a code-switching konverzace

Code-switching, tedy když japonský mluvčí použije uprostřed věty anglický technický termín, nebo když mandarínsky mluvící člověk řekne „我们 schedule 一个 meeting“, rozbíjí většinu STT modelů. Standardní modely se na jednu relaci upnou k jednomu jazyku a neočekávaná slova z jiného jazyka považují za chyby. Whisper si s částí code-switchingu poradí díky smíšeným jazykovým trénovacím datům. MirrorCaption provádí detekci jazyka po jednotlivých segmentech, místo aby se na začátku relace uzamkl na jediný jazyk, což bilingvní výměny zvládá mnohem přirozeněji. Pro úplného průvodce nástroji pro vícejazyčný přepis si přečtěte náš průvodce vícejazyčným přepisem.

V únoru tento problém na vlastní kůži objevila B2B softwarová obchodní skupina. Jejich čtvrteční hovor s klíčovým tokijským potenciálním klientem vypadal, že proběhl dobře. Zoom AI Companion doručil shrnutí devět minut po skončení hovoru. Ve shrnutí stálo: „Klient vyjádřil obavy ohledně načasování evaluace.“ Skutečná věta, zachycená až když obchodní vedoucí znovu přehrál záznam, zněla: „Musíme naši evaluaci úplně pozastavit.“ Oba přepisy byly technicky přesné na úrovni slov. Zoom shrnutí ale ztratilo obchodní význam. Nikdo si toho nevšiml včas, aby položil doplňující otázku.

Reálný čas vs. následné zpracování: kompromis mezi latencí a přesností

Streaming STT vytváří průběžné přepisy, které se aktualizují s tím, jak přichází další zvuk. Slovo může být přepsáno jedním způsobem a pak opraveno, když další slova dodají kontext. Nástroje pro následné zpracování čekají na celý zvukový segment, což přináší lepší přesnost, protože mají plný kontext, ale výstup se objeví se zpožděním od sekund po minuty. Konečný rozdíl v přesnosti mezi streamováním a batch zpracováním je obvykle 1–3 procentní body. To je skutečné, ale ve srovnání s hodnotou výsledků, které máte k dispozici ještě v době, kdy s nimi můžete něco udělat, je to úzký rozdíl. Náš článek o živých titulcích vs. přepisech tento kompromis rozebírá podrobně.

Který nástroj je pro váš případ použití nejpřesnější?

Pro anglické přepisy po schůzce: Whisper Large v3 (přes wrapper nebo self-hosted nasazení) nebo Otter.ai. Oba poskytují uhlazený výstup po schůzce. Otter je jednodušší pro netechnické uživatele; Whisper je lepší, pokud máte vývojářské zdroje a chcete maximální přesnost. Pro technický rozbor si přečtěte naše srovnání streaming STT vs. Whisper.

Pro vícejazyčné schůzky v reálném čase: MirrorCaption (streaming STT + GPT). Streamování v reálném čase, 60+ jazyků, žádný bot, funguje v prohlížeči. Dvouvrstvový přístup, tedy streaming STT plus kontextový překlad, přidává přesnost na úrovni významu, kterou benchmarky WER nezachytí.

Pro API přesnost na úrovni vývojáře: Deepgram Nova-2 pro vysoké objemy práce primárně v angličtině; AssemblyAI Universal-2 pro případy použití vyžadující silnou diarizaci mluvčích. Oba vyžadují investici do vývoje.

Pro pohodlí nativní platformy: Google Meet Live Captions, pokud žijete výhradně v Google Workspace; Zoom AI Companion, pokud se každá schůzka odehrává v Zoomu. Přijměte uzamčení na platformu jako cenu za nulové nastavování.

Marcus, brazilský softwarový inženýr učící se japonsky, začal používat MirrorCaption pro své dvoutýdenní check-iny s kolegy v Tokiu. Při každé relaci si ukládal pět nebo šest frází do své slovní zásoby, ne učebnicovou japonštinu, ale skutečný jazyk schůzek: zdvořilé formy nesouhlasu, technickou slovní zásobu, kterou kolegové skutečně používali, formulace, které předcházely rozhodnutí. Po čtyřech měsících měl téměř 200 frází ze skutečných konverzací. Jeho tokijští kolegové si změny všimli dřív, než se o ní zmínil.

Často kladené otázky

Jak přesný je AI přepis schůzek v roce 2026?

Moderní AI přepis dosahuje na čistém anglickém zvuku word error rate 3–8 %. V reálných podmínkách schůzek, s hlukem v pozadí, více mluvčími a kompresí audia, WER obvykle stoupá na 8–17 % podle nástroje. Přesnost u neanglických jazyků se výrazně liší: nástroje trénované primárně na angličtině mohou při mandarínštině, japonštině, arabštině nebo jiných neanglických jazycích zaznamenat dvojnásobný nebo vyšší WER.

Co je word error rate (WER)?

Word error rate počítá substituce (špatné slovo), vložení (navíc přidané slovo) a vynechání (přehlédnuté slovo), děleno celkovým počtem referenčních slov. WER 5 % znamená zhruba pět chyb na 100 slov. Nižší je lepší, ale WER nerozlišuje mezi neškodnou chybou a zásadní chybou; „schválit“ vs. „neschválit“ se obě počítají jako jedna substituce.

Který nástroj AI pro přepis je v roce 2026 nejpřesnější?

Pro čistý anglický zvuk dosahují Whisper Large v3 a Deepgram Nova-2 ~3–6 % WER a vedou v oboru. Pro vícejazyčné schůzky v reálném čase nabízí MirrorCaption nejlepší kombinaci přesnosti streamování a jazykového pokrytí. Žádný jediný nástroj nevede ve všech dimenzích; odpověď závisí na vašich zvukových podmínkách, jazykové kombinaci a na tom, zda potřebujete výsledky během schůzky, nebo po ní.

Klesá přesnost AI přepisu u neanglických jazyků?

Ano, výrazně. Spotřebitelské nástroje jako Otter.ai, Fireflies a Zoom AI Companion jsou trénovány primárně na anglických datech; přesnost v neanglických jazycích prudce klesá, zejména u asijských a blízkovýchodních jazyků. Whisper a MirrorCaption fungují napříč jazyky konzistentněji díky širším vícejazyčným trénovacím korpusům.

Jak ovlivňuje přepis přesnost streamování v reálném čase?

Streaming STT vytváří průběžné výsledky, které se samy opravují, jak se buduje kontext. Konečná přesnost streamingových nástrojů je obvykle o 1–3 procentní body horší WER než u batch nástrojů na stejném audiu; jde o skutečný, ale úzký rozdíl, vzhledem k tomu, že streamovaný výstup přichází ještě během probíhající schůzky. Pro hlubší pohled si přečtěte náš článek o živých titulcích vs. přepisech.

Je Whisper přesnější než Otter.ai?

Na čistém anglickém zvuku dosahuje Whisper Large v3 výrazně nižšího WER než Otter.ai. V reálných podmínkách schůzek se rozdíl zmenšuje, ale přetrvává. Whisper je model, který nasadíte sami nebo k němu přistupujete přes wrappery třetích stran; Otter je kompletní produkt s UI. Pro koncové uživatele, kteří nechtějí spravovat infrastrukturu, je kompromis mezi přesností a pohodlím u Otteru rozumný. Pro týmy s vývojářskými zdroji nabízí Whisper lepší přesnost v angličtině. Pro náš podrobný technický rozbor si přečtěte streaming STT vs. Whisper.

Metrika přesnosti, na které skutečně záleží

Surový WER je užitečný benchmark; je to ale laboratorní číslo. Neříká vám, zda nástroj zvládá přízvuky vašich mluvčích, zda výsledky dorazí v době, kdy s nimi ještě můžete něco udělat, nebo zda lingvisticky přesný přepis zachycuje to, co bylo skutečně míněno.

Pro týmy, kde schůzky probíhají v angličtině a po-schůzkové shrnutí stačí, představují Whisper a Otter dnešní dostupný strop přesnosti. Pro vícejazyčné týmy, které dělají rozhodnutí v reálném čase, se otázka mění z „který nástroj má nejnižší WER“ na „který nástroj nám dá dostatečně přesný obraz, zatímco ještě můžeme reagovat“. To je jiné hodnocení a vede k jiné odpovědi.

MirrorCaption vrství streaming STT s kontextovým překladem GPT, aby sloužil tomuto druhému případu použití, ve více než 60 jazycích, pod 500 ms, z karty v prohlížeči. Bezplatná verze vám dává 2 hodiny měsíčně. Vaše příští schůzka je test.

Otestujte přesnost na své příští schůzce

2 hodiny zdarma každý měsíc. 60+ jazyků. Žádný bot, žádná instalace.

Try MirrorCaption Free