Az OpenAI Whisper egy ingyenes, nyílt forráskódú beszédből szöveget készítő modell, amely 99 nyelven alakítja át a kimondott hangot írott szöveggé. A futtatásához a számítógépeden telepített Pythonra, legalább egy további, ffmpeg nevű könyvtárra, valamint a kívánt minőségi szinttől függően 150 MB és 3 GB közötti szabad lemezterületre van szükség. Valós időben nem készít átiratot. Ezek azok a tények, amelyeket a lihegő hírlevél-beszámolók hajlamosak kihagyni.
Priya egy szingapúri fintech cégnél kezeli a partnerkapcsolatokat. 2026 elején azt olvasta, hogy a Whisper „emberi szintű átírási pontosságot” tud, és teljesen ingyenes. Megtalálta a GitHub-oldalt, átfutotta az útmutatót, és átélte annak az embernek az optimizmusát, aki még nem találkozott a „pip install ffmpeg” kifejezéssel. Három órával később egy rejtélyes CUDA-kompatibilitási hibával küzdött, nem volt átirata, és a megbeszélés hátralévő jegyzeteit kézzel készítette el. Az eszköz valóban kiváló. Egyszerűen nem Priyának készült.
A Whispert fejlesztőknek és kutatóknak tervezték. Ez nem azt jelenti, hogy rossz eszköz — hanem azt, hogy rossz választás azoknak, akik egyszerűen csak szeretnék leírni a csütörtöki standup hívást mandarin nyelven, egyetlen sor kód megírása nélkül.
Ez a cikk közérthetően elmagyarázza, hogyan működik valójában az OpenAI Whisper, miben jó, mit nem tud alapvetően megcsinálni, és mely opciók ésszerűbbek, ha ma élő megbeszélés-átírásra van szükséged.
- Az OpenAI Whisper egy ingyenes, nyílt forráskódú beszédből szöveget készítő modell, amelyet 2022 szeptemberében adtak ki, és 680 000 órányi, internetről származó hanganyagon tanítottak.
- 99 nyelvet támogat, és angol nyelven közel emberi pontosságot ér el — tiszta felvételeken nagyjából 2–3% szóhibaaránnyal.
- A Whisper nem működik valós időben. A hanganyagot 30 másodperces darabokban dolgozza fel a felvétel elkészülte után, nem pedig miközben valaki beszél.
- Helyi futtatásához Python 3.9+, ffmpeg és egy 75 MB és 3 GB közötti modellfájl szükséges. A pontosság és a sebesség együtt skálázódik.
- Élő megbeszélés-átíráshoz kódolás nélkül streaming beszédfelismerésre van szükség — ez egy másik architektúra, amelyet a Whisper nem erre a célra terveztek.
Mi az az OpenAI Whisper?
Az OpenAI Whisper egy beszédfelismerő modell, amelyet 2022 szeptemberében nyílt forráskódúként adtak ki. Az OpenAI 680 000 órányi, internetről gyűjtött hanganyagon tanította — előadásokon, podcastokon, interjúkon, YouTube-videókon, hangoskönyveken — több tucat nyelven. A tanítóadatok mérete nagyban hozzájárul ahhoz, hogy a pontossága ilyen jó.
Két dolgot tud: átírást, vagyis a hangot ugyanazon a nyelven szöveggé alakítja, illetve fordítást, vagyis egy idegen nyelvű hanganyagot angol szöveggé alakít. Fontos, hogy csak angolra fordít, nem tetszőleges nyelvpárok között.
Kétféleképpen férhetsz hozzá a Whisperhez. Először is, ingyen letöltheted a modell súlyfájljait a GitHubról, és futtathatod a saját hardvereden — nincs API-költség, nincs sebességkorlát, de a beállítást neked kell elvégezned. Másodszor, használhatod az OpenAI Whisper API-t 0,006 $ per perc hanganyag áron, ami megszünteti a legtöbb beállítási terhet, de továbbra is fájlfeltöltésként dolgozza fel a hangot, nem élő streamként.
Ha valami olyasmire van szükséged, ami parancssor nélkül is működik, ugorj a kódolás nélküli opciók részhez. Ha meg akarod érteni, miért úgy működik a Whisper, ahogy, olvass tovább — ez számít annak megértésében, mit tud és mit nem tud.
Hogyan működik az OpenAI Whisper — közérthető áttekintés
Nem kell értened a matematikát ahhoz, hogy hatékonyan használd a Whispert. De ha megérted a négy lépést, az segít megmagyarázni, miért vannak azok a korlátai, amelyek vannak.
1. lépés: A hang fájlként kerül be
Adsz a Whispernek egy rögzített hangfájlt — MP3-at, WAV-ot, M4A-t vagy a legtöbb más elterjedt formátumot. Alapértelmezés szerint nem tud élő mikrofonfolyamot olvasni. A hang a lemezen várakozik a feldolgozásra.
2. lépés: A Whisper a hangot vizuális lenyomattá alakítja
A Whisper a hanghullámot mel-spektrogrammá alakítja — gondolj rá úgy, mint a hang hőtérképére, ahol a vízszintes tengely az időt, a függőleges pedig azt mutatja, mely frekvenciák vannak jelen az adott pillanatban. A beszéd másképp néz ki, mint a zene, és másképp, mint a háttérzaj. Ezt a vizuális ábrázolást olvassa valójában az AI.
3. lépés: Egy AI-modell elolvassa a lenyomatot és szavakat jósol
Egy transzformer modell — ugyanaz az architektúratípus, amely a GPT mögött is áll — elolvassa a spektrogramot, és megjósolja a szavak legvalószínűbb sorrendjét. A modell egyik része kódolja a hangmintázatot; egy másik része tokenenként dekódolja azt szöveggé. A dekóder a korábbi hangrészletek kontextusát használja, hogy menet közben jobb előrejelzéseket adjon.
4. lépés: A szöveg formázva, írásjelekkel és nagybetűkkel jelenik meg
A Whisper formázott szöveget ad vissza, amelyben a mondatoknak megfelelő írásjelek és a nagybetűk már alkalmazva vannak. Használható átiratot kapsz, nem egy nagy, kisbetűs szóhalmazt.
A 30 másodperces ablak — és miért fontos. A Whisper 30 másodperces szegmensekre bontja a hanganyagot, és ezeket egymás után dolgozza fel. Ez a darabolt megközelítés az elsődleges oka annak, hogy a Whisper nem tud élő feliratot streamelni. Nincs részleges eredmény minden szó után. Csak egy kész darab van minden 30 másodperces blokk feldolgozása után. Egy 60 perces megbeszélésnél ez azt jelenti, hogy az első részleges átiratot 30 másodperccel a hívás vége után kapod meg — a teljes átiratot pedig csak akkor, amikor az összes darab elkészült.
Miben jó a Whisper
A tervezési korlátain belül a Whisper valóban lenyűgöző.
- Közel emberi pontosság angol nyelven. A large-v3 modell körülbelül 2–3% szóhibaarányt ér el a szokásos benchmarkokon — ez tiszta hanganyagon a profi emberi átírók szintjével vetekszik. Összehasonlításképp: a régebbi fogyasztói beszédfelismerők átlagosan 10–15% hibaarányt produkáltak.
- 99 nyelv. Mandarin, kantoni, japán, koreai, arab, hindi, orosz, portugál, spanyol, német, francia és még sok más. A Whisper GitHub README felsorolja a teljes nyelvkészletet nyelvenkénti pontossági benchmarkokkal együtt.
- Erős akcentustűrés. Mivel valós webes hanganyagon tanították, nem pedig stúdióminőségű beszéden, a Whisper jobban kezeli a nem anyanyelvi akcentusokat, mint sok régebbi ASR-rendszer, amelyet szűk adathalmazokra hangoltak.
- Automatikus írásjelezés. A vesszők, pontok és a nagybetűk is benne vannak. A legtöbb versenytárs kötegelt átíróeszköz külön utófeldolgozási lépést igényel ehhez.
- Technikai szókincs. A Whisper jobban kezeli a szakterminológiát — orvosi, jogi, programozási kifejezéseket —, mint az általános célú fogyasztói beszédfelismerés.
- Teljesen ingyenesen használható. A modell súlyfájljai MIT licenc alatt érhetők el, amely engedélyezi a kereskedelmi felhasználást. Annyi felvételt dolgozhatsz fel, amennyit a hardvered elbír, nulla marginális költséggel.
Ha a mentett hangfájl utólagos pontossága a prioritásod, a Whispert nehéz felülmúlni. Ez a megfelelő eszköz rögzített interjúk, podcast-epizódok, előadások vagy bármilyen már rögzített hanganyag átírására.
Amire a Whisper nem képes — amit senki sem magyaráz el
A Whisperről szóló cikkek többségét fejlesztők írják fejlesztőknek. A korlátokat csak mellékesen említik. Itt megkapják a nekik járó figyelmet.
Nem készít átiratot valós időben
Ha elindítasz egy Zoom-hívást, és a Whispert ráirányítod, az átiratot a hívás végén kapod meg — nem közben. A beszéd és a szöveg megjelenése közötti késés néhány másodperctől több percig terjedhet rövid klipeknél, illetve hosszú megbeszéléseknél, a hardvertől és a modell méretétől függően.
Ez nem hiba. Ez tervezési döntés. A Whisper pontossága részben abból fakad, hogy minden hangdarabot teljes kontextussal dolgoz fel. Az élő átírás viszont azt igényli, hogy a részleges eredményeket azonnal elküldje, még mielőtt a kontextus rendelkezésre állna. A két megközelítés alapvető kompromisszummal jár, és a Whispert arra építették, hogy a pontosságot maximalizálja, ne a késleltetést minimalizálja.
Nem tudja megmondani, ki beszél
Alapértelmezés szerint a Whisper egy sík, címkézetlen átiratot készít. Minden mondat egy folyamatos blokkban jelenik meg, anélkül hogy jelezné, melyik résztvevő mit mondott. Egy kétfős értékesítési hívásban nem fogod tudni, mely sorok voltak a tieid és melyek a potenciális ügyfélé. Egy tízfős standupon a kimenet teljesen névtelen.
Léteznek nyílt forráskódú kiegészítők (a pyannote.audio a leggyakoribb), amelyek a Whisper fölé rétegeznek beszélőazonosítást. Ezek elfogadhatóan jól működnek, de további Python-csomagokat, modellletöltéseket és konfigurációt igényelnek. A beállítási idő nagyjából megduplázódik.
A helyi futtatás technikai beállítást igényel
Ahhoz, hogy a Whispert a saját számítógépeden használd, szükséged van:
- helyesen telepített Python 3.9-re vagy újabbra
- az ffmpeg hangkönyvtárra (a legtöbb operációs rendszeren külön telepítendő)
- a modell súlyfájljára: 75 MB a „tiny”-hoz, 1,5 GB a „medium”-hoz, 3 GB a „large-v3”-hoz
- modern GPU-ra, ha elfogadható sebességet szeretnél — a large modell egy átlagos laptop CPU-ján egy óra hang feldolgozásához 20–40 percet vesz igénybe
Miguel egy 12 fős ügyfélsiker-csapatot vezet egy barcelonai startupnál. A csapata spanyol, katalán és angol nyelvű hívásokat kezel. 2026 januárjában megkérte a vezető fejlesztőjét, hogy „állítsa be a Whispert a csapatnak”. A fejlesztő egy teljes hétvégét töltött a függőségek telepítésével, belefutott egy CUDA-verzióütközésbe, amelynek megoldása négy órát vett igénybe, majd készített egy kis feltöltőfelületet, hogy a csapattagok a terminál érintése nélkül tudjanak felvételeket beküldeni. Teljes beállítási idő: körülbelül 14 óra fejlesztői munka. Az eszköz most jól működik. Miguel hálás. Azt is elismeri azonban, hogy a legtöbb csapatnak nincs olyan fejlesztője, akinek lenne egy szabad hétvégéje erre.
Az OpenAI API egyszerűbb — de még mindig nem élő
Az OpenAI Whisper API megszünteti a helyi telepítés problémáját. Egy egyszerű HTTP-kéréssel elküldöd a hangfájlt az OpenAI szervereire, és az átiratot általában másodperceken belül visszakapod rövid klipeknél. A költség 0,006 $ percenként — egy 60 perces megbeszélés átirata körülbelül 0,36 $.
Ez jelentősen csökkenti a technikai akadályt. De az API továbbra is fájlfeltöltéses modell, nem élő stream. A kész felvételt a hívás vége után küldöd el. Az átirat röviddel ezután érkezik meg. Ha az a célod, hogy valaki beszéde közben olvass feliratot, az API nem változtat az alapvető korláton.
A Whisper modellméretei egy pillantásra
A Whisper öt minőségi szinten érhető el. A nagyobb modellek pontosabbak, de lassabbak és nehezebbek. Egy átlagos, GPU nélküli fogyasztói laptopon a „small” modell általában a gyakorlati sebességhatár.
| Modell | Fájlméret | CPU-sebesség (a hanghoz viszonyítva) | Legjobb erre |
|---|---|---|---|
| tiny | 75 MB | ~10× gyorsabb | Gyors tesztek, demók |
| base | 150 MB | ~7× gyorsabb | Alkalmi használat, gyors iteráció |
| small ★ | 490 MB | ~4× gyorsabb | Jó minőség/sebesség egyensúly laptopokon |
| medium | 1,5 GB | ~2× gyorsabb | Nagyobb pontosság, GPU ajánlott |
| large-v3 | 3 GB | ~1× (valós időben GPU-n) | Maximális pontosság, gyakorlati használathoz GPU szükséges |
Kezdd a „small”-lal, ha laptopon tesztelsz. Válts „large-v3”-ra, ha van kompatibilis NVIDIA GPU-d, és a lehető legjobb pontosságra van szükséged nem angol hanganyagon. A pontosság ugrása a small és a large-v3 között észrevehető. A CPU-n mért feldolgozási idő ugrása viszont jelentős.
Hogyan használd a Whispert kódírás nélkül
Három gyakorlati opció létezik nem fejlesztők számára, mindegyik más-más kompromisszumot kínál az erőfeszítés, a költség és az időzítés között.
1. opció: Az OpenAI Whisper API
Töltsd fel a hangfájlodat az OpenAI felületén keresztül vagy egy kódolás nélküli HTTP-klienst, például a Postmant használva. Tiszta átiratot kapsz vissza másodperceken vagy perceken belül, a hosszúságtól függően. Költség: 0,006 $/perc. Ez a legkisebb súrlódású út, ha csak alkalmanként vannak felvételeid, és nem akarsz semmit telepíteni. Hátránya: továbbra is utólag dolgozod fel a felvételeket, nem élő beszédet rögzítesz.
2. opció: Whisperre épülő asztali alkalmazások
Több fejlesztő is kattintható felületté csomagolta a Whispert. A MacWhisper (csak Mac) és a Buzz (platformfüggetlen, ingyenes) lehetővé teszi, hogy behúzz egy hangfájlt, és terminál megnyitása nélkül kapj átiratot. Ezek valóban hasznosak utólagos átíráshoz. Ugyanazt az architekturális korlátot osztják meg — nincs élő felirat, és nincs beszélőcímkézés további konfiguráció nélkül.
3. opció: Böngészőalapú streaming eszközök élő megbeszélésekhez
Ha az a célod, hogy egy beszélgetés közben olvass feliratot — nem pedig hogy a végén kapj átiratot —, akkor teljesen más megközelítésre van szükséged. A streaming beszédfelismerést használó böngészőalapú eszközök a mikrofonodból vagy a böngészőfüledből rögzítik a hangot, és a beszéd közben szavanként küldik a részleges eredményeket. Nincs telepítés, nincs Python, nincs utófeldolgozási várakozás.
Ebben a kategóriában olyan eszközök szerepelnek, mint a nem technikai felhasználóknak készült Whisper-alternatívák, amelyek a Whisper utólagos pontosságának egy részét feláldozzák azért az azonnaliságért, amelyre az élő beszélgetéseknek szükségük van. A választás közöttük nem arról szól, melyik „jobb” — hanem arról, hogy egy megbeszélés átírására vagy közbeni követésére van-e szükséged.
Whisper vs. élő megbeszélés-átírás — két különböző architektúra
Annak megértéséhez, miért nem tud a Whisper élő feliratot streamelni, meg kell érteni a kötegelt és a streaming beszédfelismerés közötti különbséget.
A Whisper kötegelt modell. Megvár egy teljes hangdarabot, teljes kontextussal feldolgozza, majd eredményt ad vissza. A pontossági előny ebből a teljes kontextusból származik: a modell láthatja a mondat végét, mielőtt megerősítené, mit mondott az eleje. Olyan ez, mintha egy bekezdést kétszer olvasnál el, mielőtt összefoglalnád.
A streaming beszédfelismerés másképp működik. Amint egy szó megérkezik, részleges eredményt küld, majd a kontextus bővülésével automatikusan javítja magát. Az olyan eszközök, mint a MirrorCaption, amely a saját streaming STT motorunkra épül, képesek a felirat első szavát 300–500 ezredmásodpercen belül megjeleníteni attól, hogy valaki kimondta. A kompromisszum az, hogy az egyértelműtlen szavaknál valamivel csökken a pontosság, amelyet a kötegelt feldolgozás utólag ki tudna javítani.
Ez nem minőségi összehasonlítás. A Whisper a rögzített hanganyagon vitathatóan pontosabb éppen azért, mert több kontextust dolgoz fel. A streaming STT elfogad egy kis pontosságveszteséget az azonnaliságért cserébe. Élő megbeszéléseknél az azonnaliság maga a termék.
Kenji Tokióban dolgozik egy olyan gyártócégnél, amely európai ügyfeleknek értékesít. A müncheni csapattal folytatott csütörtöki hívásokon korábban egy kétnyelvű kolléga segített a kulcskifejezések értelmezésében. Amikor az a kolléga elment, Kenji egy böngészőalapú streaming átíróeszközt kezdett használni. Valós időben olvassa a német feliratokat a hívás közben. Nincs letöltés, nincs Python, nincs várakozás arra, hogy az átirat megjelenjen a megbeszélés után. A különbség a Whisperhez képest nem a pontosság. Hanem az a képesség, hogy valamit hallasz, megérted, és reagálsz — mindezt ugyanazon a 60 perces híváson belül.
Élő feliratra van szükséged, nem utólagos átiratra? A MirrorCaption a megbeszélés alatt, bármely böngészőben streameli az átírást és a fordítást. Nincs szükség telepítésre.
Próbáld ki ingyen →Gyakran ismételt kérdések
Ingyenes az OpenAI Whisper?
Igen. A Whisper modell súlyfájljai ingyenesen letölthetők és használhatók az MIT licenc alatt, amely engedélyezi a kereskedelmi alkalmazásokat. A Whisper helyi futtatása a saját hardvereden és az áramon kívül semmibe sem kerül. Az OpenAI Whisper API 0,006 $/perc hanganyagot számít fel — egy 60 perces megbeszélés átirata nagyjából 0,36 $.
Tud a Whisper valós időben átírni egy Zoom-hívást?
Nem. A Whisper 30 másodperces darabokban dolgozza fel a hangot, miután az rögzítésre került. Nem tud szóról szóra feliratot adni, miközben valaki beszél. Ha felveszel egy Zoom-hívást, majd a mentett fájlon futtatod a Whispert, tiszta átiratot kapsz — de csak a megbeszélés vége után. Élő Zoom-feliratokhoz streaming beszédfelismerő eszközre van szükség, nem Whisperre. A beszédből szöveget készítő szoftverek összefoglalónk összehasonlítja a valós idejű és az utólagos opciókat a gyakori munkafolyamatokban.
Mennyire pontos az OpenAI Whisper?
A Whisper large-v3 körülbelül 2–3% szóhibaarányt ér el az angol nyelvű, szabványos LibriSpeech benchmarkon, ami tiszta hanganyagon a profi emberi átírással vetekszik. A pontosság romlik erős háttérzaj, átfedő beszélők, nagyon gyors beszéd vagy gyenge minőségű mikrofon esetén. A nem angol nyelvek átlagosan magasabb hibaarányt mutatnak, mint az angol, bár így is felülmúlnak sok régebbi, régióspecifikus modellt. Az átírási pontosság kompromisszumainak szélesebb áttekintéséhez lásd a valós idejű fordítási pontossági benchmarkjainkat.
Támogatja a Whisper a kínai és a japán nyelvet?
Igen. A Whisper 99 nyelvet fed le, köztük a mandarin kínait, a kantoni nyelvet, a japánt, a koreait, az arabot, a hindit és az összes nagy európai nyelvet. Mandarin és kantoni esetén a Whisper nagy modellje jól teljesít jól érthető hanganyagon, bár nehezebben boldogul az erős regionális akcentusokkal és azzal, ha ugyanazon mondaton belül kínai és angol között váltanak. A ma elérhető többnyelvű eszközök szélesebb összehasonlításához lásd a beszédből szöveget készítő szoftverek összefoglalónkat.
Létezik böngészőalapú alternatíva a Whisperre, amely élő megbeszéléseknél működik?
Igen. Az olyan böngészőalapú eszközök, mint a MirrorCaption, streaming beszédfelismerést használnak, hogy a megbeszélés alatt valós időben készítsenek átiratot és fordítást — nincs Python, nincs telepítés, nincs várakozás a hívás végéig. Chrome-ban, Safari-ban vagy Edge-ben működnek bármilyen eszközön. A Whisperhez képest a kompromisszum az, hogy egy mentett felvétel utólagos pontossága valamivel alacsonyabb lehet, de élő beszélgetéseknél az azonnaliság a lényeg. Kezdd 1 ingyenes órával, egyszeri alkalommal a mirrorcaption.com/app oldalon.
A lényeg
Az OpenAI Whisper az egyik legpontosabb beszédből szöveget készítő rendszer, amelyet valaha nyilvánosan elérhetővé tettek. Ugyanakkor az egyik legkevésbé hozzáférhető is azok számára, akiknek a legnagyobb hasznára válna.
Ha van egy mentett hangfájlod, és van türelmed némi beállításhoz, a Whisper — különösen az OpenAI API-n keresztül — közel emberi átírási pontosságot nyújt 99 nyelven, szinte semmi költséggel. Ez figyelemre méltó mérnöki teljesítmény.
Ha azt kell olvasnod, amit valaki éppen mond — megbeszélés közben, nem utána —, akkor a Whisper architektúrája nem megfelelő. Pont erre a felhasználási esetre léteznek streaming beszédfelismerő eszközök. Böngészőfülben működnek, másodperceken belül elindulnak, és nem igényelnek parancssort.
A kérdés nem az, melyik eszköz jobb. A kérdés az, melyik eszköz illeszkedik az időzítési igényedhez. A 2026 legjobb beszédből szöveget készítő eszközeiről szóló teljes összefoglalónk minden felhasználási esetet lefed.
Élő megbeszélés-átírás, beállítás nélkül
A MirrorCaption szó szerint szóról szóra streameli az átírást és a fordítást a hívásod alatt. Bármely böngészőben működik bármely videóhívás-platformon. Havonta 2 óra ingyenes, bankkártya nélkül.
Próbáld ki a MirrorCaptiont ingyen