A legtöbb értékelési szempont szerint 2026-ban nincs egyetlen olyan AI átíró eszköz sem, amely mindenben győz. Tiszta angol hanganyag esetén a Whisper Large v3 és a Deepgram Nova-2 vezet a szóhiba-aránynál, nagyjából 3–6%-kal. Többnyelvű, valós idejű eredményt igénylő megbeszéléseknél a streaming-natív többnyelvű STT eszközök, mint a MirrorCaption, teljesítenek a legkövetkezetesebben a nem angol nyelvek között. Az, hogy melyik eszköz a legpontosabb az Ön számára, attól függ, mikor van szüksége az átiratra, és milyen nyelveket használnak a résztvevők.

Tavaly szeptemberben Nadia belefutott egy olyan problémába, amelyet a legtöbb pontossági benchmark nem fog meg. Egy berlini egyetemen vezet kvalitatív kutatási programot, és egy átíró eszközre volt szüksége 45 perces interjúkhoz nemzetközi tudósokkal, mérnökökkel, akiknek az angolja technikailag folyékony, de erősen akcentusos. A Whisper Large v3 adta a legtisztább kimenetet a tesztklipjén: egy anyanyelvi angol beszélő, csendes szoba, előkészített szöveg. Ugyanezt a modellt lefuttatta egy 40 perces interjún egy japán repülőmérnökkel. Tizenkilenc tulajdonnév-hiba. Két teljes mondat teljesen kimaradt. Az a modell, amely a laborban a második legjobb WER-eredményt hozta, bizonyult annak, amelyben a tényleges kutatáshoz megbízott.

Ez az összehasonlítás hét eszközt értékel négy hanganyag-környezetben: tiszta stúdióangol, szimulált Zoom-hívás, kétnyelvű angol–mandarin kódváltás, valamint nem anyanyelvi angol beszélő. Íme, mit mutatnak az adatok, hol törik meg az egyes eszközök, és melyik melyik felhasználási esetre illik.

Fő tanulságok

Mit is jelent valójában az „átírási pontosság”?

A szóhiba-arányszám (WER) magyarázata

A szóhiba-arányszám a beszédből szöveggé alakítás pontosságának szabványos mérőszáma. A képlet: számolja a helyettesítéseket (rossz szó), beszúrásokat (plusz szó) és törléseket (kihagyott szó), majd ossza el a referencia-szavak teljes számával. Az 5%-os WER nagyjából 100 szóra öt hibát jelent. Egy 1200 szavas megbeszélésben ez 60 hiba, amelyek közül néhány ártalmatlan („the” vs. „a”), mások viszont következményesek („jóváhagyjuk ezt” vs. „áttekintjük ezt”).

A publikált WER-eredmények jellemzően olyan kontrollált adathalmazokból származnak, mint a LibriSpeech (tiszta, felolvasott beszéd) vagy a Common Voice. A valós megbeszélések mások: a Zoom vagy Teams kodekek által tömörített hang, több egymásba beszélő résztvevő, nem anyanyelvi akcentusok, háttérzaj és olyan szakzsargon, amely nem szerepelt a modell tanítóadatai között. A megbeszélési környezetben mért WER jellemzően 2–3-szor magasabb, mint a labor-WER minden itt szereplő eszköznél.

A fontosabb kérdés a WER-nél

Mielőtt összehasonlítaná a pontossági eredményeket, válaszoljon erre: az átiratra a megbeszélés közben van szüksége, vagy utána? Egy 7%-os WER-rel működő streaming eszköz, amely akkor ad eredményt, amikor a beszélő még beszél, gyakran hasznosabb egy megbeszélésen belüli döntéshez, mint egy 4%-os WER-rel dolgozó batch eszköz, amely tíz perccel később érkezik. A pontosság legalább annyira az időzítésről szól, mint a hibaarányról. A valós idejű fordítás pontosságáról szóló kísérőcikkünk ezt a kompromisszumot részletesen tárgyalja.

Hogyan értékeltük ezeket az eszközöket

Minden eszközt négy hanganyag-szcenárión futtattunk végig:

  1. Tiszta stúdió, egyetlen anyanyelvi angol beszélő, kontrollált akusztikai környezet
  2. Meghallgatási körülmények, szimulált Zoom-hívás, két anyanyelvi angol beszélő, enyhe háttérzaj
  3. Kétnyelvű párbeszéd, angol és mandarin kódváltás, nyelvenként egy-egy anyanyelvi beszélő
  4. Nem anyanyelvi angol, japán beszélő középhaladó–haladó angol nyelvtudással

Az értékelt eszközök: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2 és MirrorCaption. Az ebben a cikkben szereplő WER-tartományok publikált tudományos benchmarkokból, gyártói dokumentációból és saját tesztelésünkből származnak. Tartományokat közlünk, nem pontos becsléseket, mert a pontosság érdemben változik a hanganyag körülményeitől függően; ezeket iránymutatónak tekintse, ne véglegesnek, és mielőtt elköteleződne egy eszköz mellett, tesztelje a saját anyagán.

Nézze meg, hogyan kezeli a MirrorCaption az Ön megbeszéléseit

Havonta 2 óra ingyen. Nincs telepítés. Bármely böngészőben működik.

Próbálja ki ingyen

AI átírási pontosság összehasonlítása: 2026-os eredmények

Az alábbi táblázat összefoglalja a hozzávetőleges WER-t a tesztkörülmények, a valós idejű képesség, a nyelvi lefedettség, valamint az alapján, hogy az eszköz végfelhasználói termékként vagy kizárólag fejlesztői API-ként érhető-e el.

Eszköz Tiszta EN WER Meghallgatási WER Valós idejű Nyelvek Végfelhasználói termék
Whisper Large v3 ~3–5% ~12–18% Nem (batch) 99 Nem (fejlesztőt igényel)
Deepgram Nova-2 ~4–6% ~7–12% Igen (API) 36 Nem (csak API)
AssemblyAI Universal-2 ~5–8% ~8–13% Részben 17 Nem (csak API)
Otter.ai ~8–12% ~10–16% Igen EN-központú Igen
MirrorCaption ~5–8% ~7–12% Igen (<500ms) 60+ Igen
Fireflies.ai ~9–14% ~11–17% Nem (hívás után) 60+ (hívás után) Igen
Zoom AI Companion ~9–13% ~11–16% Részben ~8 Igen (vállalati)

A WER-tartományok hozzávetőlegesek, és a publikált benchmarkokon alapulnak, beleértve a HuggingFace Open ASR Leaderboardet, az OpenAI Whisper technikai jelentését, a gyártói dokumentációt és a saját tesztelésünket. A tényleges értékek a hangminőségtől, a beszélő jellemzőitől és a szókincstől függően változnak.

Három dolog tűnik ki. Először: a tiszta és a megbeszélési WER közötti rés nagyobb, mint amit a legtöbb gyártói állítás sugall; a Whisper ~4%-ról ~15%-ra ugrása drámai, mert ez egy batch modell, amelyet nem megbeszélési zajra terveztek. Másodszor: az API-központú eszközök (Deepgram, AssemblyAI) nyers WER-ben következetesen felülmúlják a fogyasztói termékeket, de bevezetésükhöz fejlesztői munka kell. Harmadszor: a széles nyelvi lefedettség és a valós idejű képesség ritkán jár együtt; az a rövid lista, amely mindkettőt kínálja, nagyon szűk.

Eszközről eszközre bontás

1. OpenAI Whisper Large v3

A Whisper a tiszta angol hanganyag pontossági mércéje. Az OpenAI 680 000 órányi többnyelvű webes hanganyagon tanította, ami erős teljesítményt ad az akcentusos beszéden a tanítási eloszlásán belül. Tiszta, felolvasott beszéd benchmarkokon a Whisper Large v3 5% alatti WER-t ér el. Az AMI korpuszon, amely valós, több résztvevős megbeszélések adathalmaza, a WER 12–18%-ra emelkedik, mert a Whisper batch modell: teljes hangszegmenseket dolgoz fel, nem élő streameket.

Az alapvető korlát az, hogy a Whisper modell, nem termék. Használatához Python, számítási kapacitás és fejlesztői idő kell. A valós idejű bevezetés további mérnöki munkát igényel. Ha ez rendelkezésre áll, a Whisper kiváló angolra. Ha nem, lásd lentebb. Gyakorlati összehasonlításért olvassa el a MirrorCaption vs. Whisper oldalt.

2. Deepgram Nova-2

A Deepgram Nova-2 a legerősebb fejlesztői opció a valós idejű streaming pontosság terén. Tiszta angol hanganyagon ~4–6% WER-t ér el, és megbeszélési körülmények között is versenyképes marad (~7–12%), mert a Deepgram kifejezetten a telefonos és konferenciahangra optimalizál. A streaming késleltetés 300 ms alatt van. A harminchat támogatott nyelv sok csapatnak elegendő, de széles körű többnyelvű lefedettséghez kevés.

A korlát ugyanaz, mint a Whispernél: ez egy API. Ön egy adatfolyamatért fizet, amely köré a fejlesztőcsapatának rendszert kell építenie, megjelenítenie és üzemeltetnie. Nincs felület, nincsenek alapból beszélőcímkék, nincs AI-összefoglaló réteg. A ~0,0043 €/perc ár nagy volumenű használatnál gyorsan összeadódik.

3. AssemblyAI Universal-2

Az AssemblyAI erős beszélőszétválasztást kínál, ami fontos a megbeszélési átiratoknál, ahol az számít, ki mit mondott, legalább annyira, mint maga a tartalom. A Universal-2 tiszta hanganyagon ~5–8% WER-t ér el. A valós idejű streaming elérhető, de kevésbé kiforrott, mint a Deepgram megoldása. A 17 támogatott nyelv jelentős korlát a nemzetközi csapatok számára. A Deepgramhez hasonlóan fejlesztői integrációt igényel; nincs végfelhasználói termék.

4. Otter.ai

A legjobb angol nyelvű csapatoknak

Az Otter az alapértelmezett fogyasztói választás angol nyelvű megbeszélések átírására. A tiszta amerikai angol WER-e stabil, megbeszélési körülmények között nagyjából 8–12%, ami fogyasztói termékhez mérten versenyképes. Az OtterPilot automatikusan csatlakozik a megbeszélésekhez, rögzíti a hangot, és jegyzeteket, valamint teendőket generál beszélőcímkékkel. A Zoom, a Google Meet és a Teams naptárintegrációja megbízható.

A hiányosságok gyorsan megjelennek az angolon kívül. Az Otter nem kínál valós idejű fordítást, és a nem angol átírás minősége jelentősen gyengébb, mint az angol teljesítménye. A havi 16,99 USD/felhasználó ár csapatoknál gyorsan összeadódik. A funkciónkénti bontásért lásd a teljes MirrorCaption vs. Otter.ai összehasonlítást.

5. MirrorCaption (streaming STT + GPT)

Tesztelje a valós idejű pontosságot a saját megbeszélésein

Nyissa meg a MirrorCaptiont a böngészőjében, letöltés és beállítás nélkül.

MirrorCaption megnyitása

6. Fireflies.ai

A Fireflies a megbeszélési jegyzetek rétegére fókuszál: a bot csatlakozik a híváshoz, mindent rögzít, és AI-összefoglalókkal ellátott, hívás utáni átiratokat készít. A HubSpot és Salesforce CRM-integrációk miatt népszerű az értékesítési csapatok körében. A megbeszélési körülmények között mért WER nagyjából 9–14%, ami elfogadható összefoglalók készítéséhez, ahol néhány szóhiba ritkán változtatja meg egy teendő jelentését.

A korlát az időzítés. A Fireflies hívás utáni eszköz. A valós idejű átírás elérhető, de nem ez a fő termék, és a fordítás is csak hívás után érhető el. Ha azt kell megértenie, hogy mi hangzik el a megbeszélés közben, nem pedig utána, a Fireflies nem erre a feladatra való.

7. Zoom AI Companion

A Zoom AI Companion kompetensen kezeli az élő feliratokat a Zoomon belül, megbeszélési körülmények között nagyjából 9–13% WER-rel, ami egy platformnatív funkcióhoz képest elfogadható. A körülbelül 8 támogatott nyelv esetében a minőség nyelvpáronként jelentősen eltér. Az angol erős; az ázsiai nyelveknél a különbség nagyobb.

A kemény korlátok: platformhoz kötöttség (csak Zoomon működik), a fordítási funkciókhoz vállalati licenc szükséges, és nem használható személyes beszélgetésekhez vagy más platformokon zajló megbeszélésekhez. Azoknak a csapatoknak, amelyek teljesen a Zoomban élnek és főként angolul találkoznak, az AI Companion súrlódásmentes választás. Ezen a kereten túl külön eszközre lesz szükség.

Hol törik meg az egyes eszközök

Akcentusos és nem anyanyelvi angol

Itt válnak használhatatlanná a labor-WER eredmények. Az Otter, a Fireflies és a Zoom AI Companion elsősorban anyanyelvi angol adatokon tanul. A kelet-ázsiai, dél-ázsiai vagy közel-keleti akcentussal beszélők esetében jelentősen magasabb hibaarány látható, egyes esetekben 20–30% WER, amikor a beszédük eltér a tanítási eloszlástól. A Whisper jobban kezeli az akcentusos angolt a szélesebb többnyelvű tanítókorpusza miatt. A MirrorCaption streaming-natív többnyelvű STT motorja kevesebb fonémahelyettesítést mutat nem anyanyelvi angolnál, mint a fogyasztói megbeszélési eszközök.

Kétnyelvű és kódváltó beszélgetések

A kódváltás, amikor egy japán beszélő egy angol szakkifejezést használ a mondat közepén, vagy egy mandarin beszélő azt mondja, hogy „我们 schedule 一个 meeting”, a legtöbb STT modellt megtöri. A szabványos modellek egy munkameneten belül egyetlen nyelvhez ragaszkodnak, és a másik nyelvből váratlanul felbukkanó szavakat hibának tekintik. A Whisper bizonyos kódváltásokat kezel, mert vegyes nyelvű tanítóadatai vannak. A MirrorCaption szegmensenkénti nyelvfelismerést használ ahelyett, hogy a munkamenet elején egyetlen nyelvhez rögzülne, így a kétnyelvű párbeszédeket rugalmasabban kezeli. A többnyelvű átírási eszközökről szóló teljes útmutatóért lásd a többnyelvű átírási útmutatónkat.

Februárban egy B2B szoftverértékesítési csapat saját bőrén tapasztalta meg ezt a problémát. A csütörtöki hívásuk egy fontos tokiói érdeklődővel látszólag jól ment. A Zoom AI Companion kilenc perccel a hívás vége után elküldte az összefoglalót. Az összefoglaló ezt írta: „Az ügyfél időzítési aggályokat fogalmazott meg az értékeléssel kapcsolatban.” A tényleges mondat, amelyet csak akkor hallottak meg, amikor az értékesítési vezető visszanézte a felvételt, ez volt: „Teljesen szüneteltetnünk kell az értékelést.” Mindkét átirat technikailag pontos volt szó szinten. A Zoom összefoglaló elvesztette az üzleti jelentőséget. Senki sem vette észre időben, hogy feltegyen egy utólagos kérdést.

Valós idő vs. utófeldolgozás: a késleltetés és pontosság kompromisszuma

A streaming STT részleges átiratokat készít, amelyek frissülnek, ahogy újabb hang érkezik. Egy szó először így lehet átírva, majd a következő szavak kontextusa alapján korrigálódik. Az utófeldolgozó eszközök megvárják a teljes hangszegmenst, ezért pontosabbak, mert teljes kontextussal dolgoznak, viszont a kimenet másodpercekkel vagy percekkel később jelenik meg. A streaming és a batch közötti végső pontossági különbség jellemzően 1–3 százalékpont. Ez valós különbség, de szűk ahhoz képest, hogy az eredményeket még akkor kapja meg, amikor még tud rájuk reagálni. A élő feliratok vs. átiratok című cikkünk részletesen tárgyalja ezt a kompromisszumot.

Melyik eszköz a legpontosabb az Ön felhasználási esetére?

Csak angol nyelvű, megbeszélés utáni átiratokhoz: Whisper Large v3 (wrapperen keresztül vagy saját hosztolású telepítéssel) vagy Otter.ai. Mindkettő kifinomult, megbeszélés utáni kimenetet ad. Az Otter könnyebb a nem technikai felhasználóknak; a Whisper jobb, ha vannak fejlesztői erőforrásai, és a maximális pontosságot szeretné. A technikai bontásért olvassa el a streaming STT vs. Whisper összehasonlítást.

Multilingual valós idejű megbeszélésekhez: MirrorCaption (streaming STT + GPT). Valós idejű streamelés, 60+ nyelv, bot nélkül, böngészőalapon. A kétlépcsős megközelítés, vagyis a streaming STT és a kontextuális fordítás, olyan jelentésszintű pontosságot ad, amelyet a WER-benchmarkok nem ragadnak meg.

Fejlesztői szintű API-pontossághoz: Deepgram Nova-2 angol-központú, nagy volumenű munkaterhelésekhez; AssemblyAI Universal-2 olyan esetekhez, ahol erős beszélőszétválasztás szükséges. Mindkettő mérnöki befektetést igényel.

Platformnatív kényelemhez: Google Meet Live Captions, ha teljesen a Google Workspace-ben él; Zoom AI Companion, ha minden megbeszélés a Zoomon zajlik. Fogadja el a platformhoz kötöttséget a nulla beállítás áraként.

Marcus, egy japánul tanuló brazil szoftvermérnök, elkezdte használni a MirrorCaptiont a kétheti egyeztetéseihez a tokiói csapatával. Minden alkalommal öt-hat kifejezést mentett el a szókincslistájába, nem tankönyvi japánt, hanem valódi megbeszélési nyelvet: udvarias formákat az egyet nem értéshez, azt a szakmai szókincset, amelyet a kollégái ténylegesen használtak, és azt a megfogalmazást, amely egy döntés előtt elhangzott. Négy hónap után közel 200 kifejezése volt valós beszélgetésekből. A tokiói csapattársai észrevették a változást, mielőtt ő maga említette volna.

Gyakran ismételt kérdések

Mennyire pontos az AI megbeszélés-átírás 2026-ban?

A modern AI átírás tiszta angol hanganyagon 3–8% szóhiba-arányszámot ér el. Valós megbeszélési körülmények között a háttérzaj, a több beszélő és a hangtömörítés miatt a WER jellemzően 8–17%-ra emelkedik az eszköztől függően. A nem angol nyelvek pontossága jelentősen eltér: az elsősorban angolra tanított eszközöknél a WER megduplázódhat vagy még jobban nőhet, amikor a beszélők mandarinul, japánul, arabul vagy más nem angol nyelven beszélnek.

Mi az a szóhiba-arányszám (WER)?

A szóhiba-arányszám a helyettesítéseket (rossz szó), beszúrásokat (plusz szó) és törléseket (kihagyott szó) számolja, majd elosztja a referencia-szavak teljes számával. Az 5%-os WER nagyjából 100 szóra öt hibát jelent. Az alacsonyabb jobb, de a WER nem különbözteti meg az ártalmatlan hibát a következményestől: az „approve” és a „disapprove” is egy-egy helyettesítésnek számít.

Melyik AI átíró eszköz a legpontosabb 2026-ban?

Tiszta angol hanganyagon a Whisper Large v3 és a Deepgram Nova-2 ~3–6% WER-t ér el, és vezeti a mezőnyt. Valós idejű többnyelvű megbeszéléseknél a MirrorCaption kínálja a streaming pontosság és a nyelvi lefedettség legjobb kombinációját. Nincs egyetlen eszköz, amely minden dimenzióban vezetne; a válasz a hangkörülményektől, a nyelvi összetételtől és attól függ, hogy a megbeszélés közben vagy után van-e szüksége az eredményre.

Csökken az AI átírás pontossága nem angol nyelveknél?

Igen, jelentősen. Az olyan fogyasztói eszközök, mint az Otter.ai, a Fireflies és a Zoom AI Companion, elsősorban angol adatokon tanulnak, ezért a nem angol pontosság meredeken romlik, különösen az ázsiai és közel-keleti nyelveknél. A Whisper és a MirrorCaption következetesebben teljesít nyelvek között a szélesebb többnyelvű tanítókorpuszok miatt.

Hogyan befolyásolja a valós idejű streamelés az átírás pontosságát?

A streaming STT részleges eredményeket ad, amelyek a kontextus bővülésével önjavítanak. A streaming eszközök végső pontossága jellemzően 1–3 százalékponttal magasabb WER-t mutat, mint a batch eszközök ugyanazon a hanganyagon; ez valós, de szűk különbség, tekintve, hogy a streaming kimenet akkor érkezik, amikor a megbeszélés még tart. A élő feliratok vs. átiratok című cikkünk mélyebben is foglalkozik ezzel.

Pontosabb a Whisper, mint az Otter.ai?

Tiszta angol hanganyagon a Whisper Large v3 érezhetően alacsonyabb WER-t ér el, mint az Otter.ai. Valós megbeszélési körülmények között a különbség szűkül, de megmarad. A Whisper egy olyan modell, amelyet saját maga telepít vagy harmadik féltől származó wrapperen keresztül ér el; az Otter egy teljes termék felülettel. Azoknak a végfelhasználóknak, akik nem akarnak infrastruktúrát kezelni, az Otter pontosság és kényelem közötti kompromisszuma elfogadható. A fejlesztői erőforrásokkal rendelkező csapatoknak a Whisper jobb pontosságot kínál angol nyelven. A részletes technikai bontásért olvassa el a streaming STT vs. Whisper cikket.

Az a pontossági mérőszám, amely valóban számít

A nyers WER hasznos benchmark; de laborérték. Nem mondja meg, hogy az eszköz kezeli-e a beszélők akcentusát, hogy az eredmények akkor érkeznek-e, amikor még tud rájuk reagálni, vagy hogy egy nyelvileg pontos átirat valóban azt ragadja-e meg, amit mondani akartak.

Azoknál a csapatoknál, ahol a megbeszélések angolul zajlanak, és a megbeszélés utáni összefoglalók elegendőek, a Whisper és az Otter jelentik a ma elérhető pontossági csúcsot. A valós idejű döntéseket hozó többnyelvű csapatoknál a kérdés átalakul: nem az, hogy „melyik eszköznek a legalacsonyabb a WER-e”, hanem az, hogy „melyik ad elég pontos képet akkor, amikor még reagálni tudunk”. Ez másfajta értékelés, és más választ eredményez.

A MirrorCaption a streaming STT-t kontextuális GPT-fordítással rétegezi, hogy ezt a második felhasználási esetet szolgálja ki, 60+ nyelven, 500 ms alatt, böngészőfülből. Az ingyenes csomag havi 2 órát ad. A következő megbeszélése lesz a teszt.

Tesztelje a pontosságot a következő megbeszélésén

Havonta 2 óra ingyen. 60+ nyelv. Nincs bot, nincs telepítés.

Próbálja ki a MirrorCaptiont ingyen