OpenAI Whisper je bezplatný open-source model pro převod řeči na text, který převádí mluvený zvuk do psaného textu ve 99 jazycích. Abyste jej mohli spustit, potřebujete mít v počítači nainstalovaný Python, alespoň jednu další knihovnu zvanou ffmpeg a podle požadované úrovně kvality také někde mezi 150 MB a 3 GB volného místa na disku. Nepřepisuje v reálném čase. To jsou fakta, která se v nadšeném newsletterovém pokrytí obvykle vynechávají.

Priya má na starosti partnerství ve fintech společnosti v Singapuru. Na začátku roku 2026 si přečetla, že Whisper dokáže dosáhnout „přesnosti přepisu na úrovni člověka“ a že je zcela zdarma. Našla stránku na GitHubu, prolétla si pokyny a cítila optimismus někoho, kdo ještě nenarazil na frázi „pip install ffmpeg“. O tři hodiny později měla záhadnou chybu kompatibility CUDA, žádný přepis a zbytek poznámek ze schůzky si dopsala ručně. Ten nástroj je skutečně vynikající. Jen byl jednoduše vytvořen pro někoho jiného než pro Priyu.

Whisper byl navržen pro vývojáře a výzkumníky. To z něj nedělá špatný nástroj — jen ten nesprávný pro lidi, kteří si chtějí jednoduše přepsat čtvrteční standup hovor v mandarínštině, aniž by napsali jediný řádek kódu.

Tento článek vysvětluje, jak OpenAI Whisper ve skutečnosti funguje, co umí dobře, co zásadně neumí a které možnosti dávají větší smysl, pokud dnes potřebujete živý přepis schůzek.

Klíčové poznatky

Co je OpenAI Whisper?

OpenAI Whisper je model pro rozpoznávání řeči vydaný jako open-source v září 2022. OpenAI jej trénovala na 680 000 hodinách zvuku sesbíraného z internetu — přednáškách, podcastech, rozhovorech, videích na YouTube, audioknihách — napříč desítkami jazyků. Právě rozsah těchto trénovacích dat je velkou částí toho, proč je jeho přesnost tak dobrá.

Umí dvě věci: přepis, tedy převod zvuku na text ve stejném jazyce, a překlad, tedy převod zvuku v cizím jazyce do anglického textu. Všimněte si, že překládá pouze do angličtiny, nikoli mezi libovolnými jazykovými páry.

Whisper můžete používat dvěma způsoby. Zaprvé si můžete zdarma stáhnout váhy modelu z GitHubu a spustit jej na vlastním hardwaru — bez nákladů na API, bez limitů rychlosti, ale nastavení je na vás. Zadruhé můžete využít OpenAI Whisper API za $0.006 za minutu zvuku, což odstraní většinu starostí s nastavením, ale stále zpracovává zvuk jako nahraný soubor, nikoli jako živý stream.

Pokud potřebujete něco, co funguje bez příkazové řádky, přeskočte na sekci s možnostmi bez kódu. Pokud chcete pochopit, proč Whisper funguje tak, jak funguje, čtěte dál — je to důležité pro pochopení toho, co umí a co neumí.

Jak OpenAI Whisper funguje — srozumitelně a krok za krokem

Nemusíte rozumět matematice, abyste Whisper používali efektivně. Ale pochopení čtyř kroků, kterými prochází, pomáhá vysvětlit, proč má právě taková omezení.

Krok 1: Zvuk vstupuje jako soubor

Whisperu předáte nahraný zvukový soubor — MP3, WAV, M4A nebo většinu dalších běžných formátů. Ve výchozím nastavení neumí číst živý vstup z mikrofonu. Zvuk leží na disku a čeká na zpracování.

Krok 2: Whisper převede zvuk na vizuální otisk

Whisper transformuje zvukovou vlnu na mel spektrogram — představte si ho jako tepelnou mapu zvuku, kde vodorovná osa je čas a svislá osa ukazuje, které frekvence jsou v daném okamžiku přítomné. Řeč vypadá jinak než hudba a ta zase jinak než šum v pozadí. Právě tuto vizuální reprezentaci AI skutečně čte.

Krok 3: Model AI čte otisk a předpovídá slova

Transformerový model — stejný typ architektury, na které stojí GPT — čte spektrogram a předpovídá nejpravděpodobnější posloupnost slov. Jedna část modelu kóduje zvukový vzor; druhá jej dekóduje do textu, token po tokenu. Dekodér využívá kontext z dřívější části zvuku, aby průběžně dělal lepší předpovědi.

Krok 4: Vznikne text s interpunkcí a velkými písmeny

Whisper generuje formátovaný text s interpunkcí a kapitalizací už aplikovanou podle potřeb vět. Dostanete použitelný přepis, ne souvislý blok slov psaných malými písmeny.

30sekundové okno — a proč je důležité. Whisper rozděluje zvuk na 30sekundové segmenty a zpracovává je postupně. Tento způsob po částech je hlavním důvodem, proč Whisper neumí živé titulky ve streamu. Po každém slově nevzniká žádný průběžný výsledek. Výsledek je až po dokončení každého 30sekundového bloku. U 60minutové schůzky to znamená, že první částečný přepis dostanete 30 sekund po skončení hovoru — a celý přepis až ve chvíli, kdy jsou hotové všechny bloky.

V čem Whisper vyniká

V rámci svých konstrukčních omezení je Whisper skutečně působivý.

Pokud je vaší prioritou přesnost po nahrání u uloženého zvukového souboru, Whisper je těžké překonat. Je to správný nástroj pro přepis nahraných rozhovorů, podcastových epizod, přednášek nebo jakéhokoli zvuku, který už máte zachycený.

Co Whisper neumí — část, kterou nikdo nevysvětluje

Většinu článků o Whisperu píší vývojáři pro vývojáře. Omezení zmiňují jen okrajově. Tady dostanou pozornost, kterou si zaslouží.

Nepřepisuje v reálném čase

Když spustíte hovor na Zoomu a nasměrujete na něj Whisper, přepis dostanete až po skončení hovoru — ne během něj. Zpoždění mezi mluvením a zobrazením textu se pohybuje od několika sekund u krátkých klipů až po několik minut u dlouhé schůzky, podle vašeho hardwaru a velikosti modelu.

To není chyba. Je to záměr. Přesnost Whisperu částečně vychází z toho, že každý zvukový blok zpracovává s plným kontextem. Živý přepis vyžaduje okamžité posílání částečných výsledků ještě předtím, než je k dispozici kontext. Tyto dva přístupy představují zásadní kompromis a Whisper byl vytvořen tak, aby maximalizoval přesnost, nikoli minimalizoval latenci.

Neumí určit, kdo mluví

Ve výchozím nastavení Whisper vytváří plochý, neoznačený přepis. Každá věta se objeví v souvislém bloku bez informace o tom, který účastník co řekl. U dvoučlenného obchodního hovoru nebudete vědět, které řádky byly vaše a které patřily vašemu potenciálnímu zákazníkovi. U standupu s deseti lidmi není výstup vůbec přiřazený.

Existují open-source doplňky (nejčastěji pyannote.audio), které nad Whisper přidávají diarizaci mluvčích. Fungují poměrně dobře, ale vyžadují další Python balíčky, stažení modelů a konfiguraci. Doba nastavení se zhruba zdvojnásobí.

Spuštění lokálně vyžaduje technické nastavení

Abyste mohli Whisper používat na vlastním počítači, potřebujete:

Miguel vede 12členný tým zákaznického úspěchu ve startupu v Barceloně. Jeho tým vyřizuje hovory ve španělštině, katalánštině a angličtině. V lednu 2026 požádal svého hlavního vývojáře, aby „nastavil Whisper pro tým“. Vývojář strávil celý víkend instalací závislostí, narazil na konflikt verzí CUDA, jehož řešení trvalo čtyři hodiny, a pak vytvořil malé rozhraní pro nahrávání, aby kolegové mohli posílat záznamy bez práce s terminálem. Celkový čas nastavení: asi 14 hodin inženýrské práce. Nástroj teď funguje dobře. Miguel je vděčný. Zároveň ale uznává, že většina týmů nemá vývojáře s volným víkendem, který by tomu mohl věnovat.

OpenAI API je jednodušší — ale stále ne živé

OpenAI Whisper API odstraňuje problém s lokální instalací. Pošlete zvukový soubor na servery OpenAI pomocí jednoduchého HTTP požadavku a přepis obdržíte zpět, obvykle během několika sekund u krátkých klipů. Cena je $0.006 za minutu — přepis 60minutové schůzky stojí asi $0.36.

To výrazně snižuje technickou bariéru. API je ale stále model pro nahraný soubor, ne živý stream. Po skončení hovoru odešlete hotovou nahrávku. Přepis dorazí krátce poté. Pokud je vaším cílem číst titulky, zatímco někdo stále mluví, API na základním omezení nic nemění.

Přehled velikostí modelů Whisper

Whisper existuje v pěti úrovních kvality. Větší modely jsou přesnější, ale pomalejší a náročnější. Na běžném spotřebitelském notebooku bez GPU je model „small“ obvykle praktickým stropem z hlediska rychlosti.

Model Velikost souboru Rychlost na CPU (vůči zvuku) Nejlepší pro
tiny 75 MB ~10× rychlejší Rychlé testy, ukázky
base 150 MB ~7× rychlejší Běžné použití, rychlé iterace
medium 1.5 GB ~2× rychlejší Vyšší přesnost, doporučeno GPU
large-v3 3 GB ~1× (v reálném čase na GPU) Maximální přesnost, pro praktické použití je nutné GPU

Začněte s modelem „small“, pokud testujete na notebooku. Přejděte na „large-v3“, pokud máte kompatibilní GPU NVIDIA a potřebujete nejlepší přesnost u neanglického zvuku. Skok v přesnosti mezi small a large-v3 je znatelný. Skok v době zpracování na CPU je výrazný.

Jak používat Whisper bez psaní kódu

Pro neprogramátory existují tři praktické možnosti, z nichž každá představuje jiný kompromis mezi námahou, cenou a načasováním.

Možnost 1: OpenAI Whisper API

Nahrajte svůj zvukový soubor přes rozhraní OpenAI nebo pomocí no-code HTTP klienta, jako je Postman. Čistý přepis dostanete zpět během několika sekund až minut podle délky. Cena: $0.006/minutu. To je cesta s nejmenším třením, pokud máte jen občasné nahrávky a nechcete nic instalovat. Nevýhoda: stále zpracováváte nahrávky až zpětně, nikoli zachycujete řeč živě.

Možnost 2: Desktopové aplikace postavené na Whisperu

Několik vývojářů zabalilo Whisper do klikacího rozhraní. MacWhisper (pouze Mac) a Buzz (multiplatformní, zdarma) vám umožní přetáhnout zvukový soubor a získat přepis bez otevření terminálu. To je skutečně užitečné pro přepis po hovoru. Sdílejí stejné architektonické omezení — žádné živé titulky, žádné štítky mluvčích bez další konfigurace.

Možnost 3: Prohlížečové streamingové nástroje pro živé schůzky

Pokud je vaším cílem číst titulky během probíhající konverzace — ne získat přepis až po jejím skončení — potřebujete úplně jiný přístup. Prohlížečové nástroje využívající streamingový převod řeči na text zachycují zvuk z mikrofonu nebo z karty prohlížeče a posílají průběžné výsledky po jednotlivých slovech, jak lidé mluví. Žádná instalace, žádný Python, žádné čekání na následné zpracování.

Tato kategorie zahrnuje nástroje jako alternativy k Whisperu vytvořené pro netechnické uživatele, které obětují část zpětné přesnosti Whisperu ve prospěch okamžitosti, kterou živé konverzace vyžadují. Volba mezi nimi není o tom, co je „lepší“ — jde o to, zda potřebujete přepis schůzky, nebo přepis během ní.

Whisper vs. živý přepis schůzek — dvě různé architektury

Pochopit, proč Whisper neumí streamovat živé titulky, znamená pochopit rozdíl mezi dávkovým a streamingovým převodem řeči na text.

Whisper je dávkový model. Počká na celý zvukový blok, zpracuje jej s plným kontextem a vrátí výsledek. Výhoda přesnosti plyne právě z tohoto plného kontextu: model může vidět konec věty dřív, než potvrdí, co zaznělo na začátku. Je to jako přečíst odstavec dvakrát, než jej shrnete.

Streamingový převod řeči na text funguje jinak. Posílá průběžné výsledky ve chvíli, kdy dorazí každé slovo, a pak je automaticky opravuje, jak se kontext hromadí. Nástroje jako MirrorCaption, postavené na našem vlastním streamingovém STT enginu, dokážou doručit první slovo titulku během 300–500 milisekund od jeho vyslovení. Kompromisem je určitá ztráta přesnosti u nejednoznačných slov, která by dávkové zpracování zpětně zachytilo.

Tohle není srovnání kvality. Whisper je u nahraného zvuku pravděpodobně přesnější právě proto, že zpracovává více kontextu. Streamingové STT přijímá malou ztrátu přesnosti výměnou za okamžitost. U živých schůzek je okamžitost celý produkt.

Kenji pracuje v Tokiu pro výrobce, který prodává evropským klientům. Jeho čtvrteční hovory s týmem v Mnichově se dříve spoléhaly na dvojjazyčného kolegu, který tlumočil klíčové fráze. Když ten kolega odešel, začal Kenji používat prohlížečový streamingový nástroj pro přepis. Německé titulky čte v reálném čase během hovoru. Žádné stahování, žádný Python, žádné čekání, až se po schůzce objeví přepis. Rozdíl oproti Whisperu není v přesnosti. Je v možnosti něco slyšet, pochopit to a reagovat — vše během stejného 60minutového hovoru.

Potřebujete živé titulky, ne přepisy po hovoru? MirrorCaption streamuje přepis i překlad v jakémkoli prohlížeči během vaší schůzky. Bez instalace.

Vyzkoušet zdarma →

Často kladené otázky

Je OpenAI Whisper zdarma?

Ano. Váhy modelu Whisper lze zdarma stáhnout a používat pod licencí MIT, která umožňuje i komerční aplikace. Spuštění Whisperu lokálně nestojí nic navíc kromě vašeho vlastního hardwaru a elektřiny. OpenAI Whisper API účtuje $0.006 za minutu zvuku — přepis 60minutové schůzky stojí přibližně $0.36.

Dokáže Whisper přepsat hovor na Zoomu v reálném čase?

Ne. Whisper zpracovává zvuk po 30sekundových blocích až po jeho zachycení. Nedokáže poskytovat titulky po jednotlivých slovech, zatímco někdo mluví. Pokud hovor na Zoomu nahrajete a pak na uložený soubor spustíte Whisper, dostanete čistý přepis — ale až po skončení schůzky. Pro živé titulky na Zoomu potřebujete streamingový nástroj pro převod řeči na text, ne Whisper. Náš přehled softwaru pro převod řeči na text porovnává možnosti v reálném čase i po schůzce napříč běžnými pracovními postupy.

Jak přesný je OpenAI Whisper?

Whisper large-v3 dosahuje na standardním benchmarku LibriSpeech pro angličtinu zhruba 2–3% chybovosti slov, což je srovnatelné s profesionálním lidským přepisem u čistého zvuku. Přesnost klesá při silném hluku v pozadí, překrývajících se mluvčích, velmi rychlé řeči nebo nekvalitních mikrofonech. U neanglických jazyků bývá chybovost vyšší než u angličtiny, přesto ale stále překonávají mnoho starších regionálně specifických modelů. Pro širší pohled na kompromisy v přesnosti přepisu se podívejte na naše benchmarky přesnosti překladu v reálném čase.

Podporuje Whisper čínštinu a japonštinu?

Ano. Whisper pokrývá 99 jazyků včetně mandarínské čínštiny, kantonštiny, japonštiny, korejštiny, arabštiny, hindštiny a všech hlavních evropských jazyků. U mandarínštiny a kantonštiny si velký model Whisper vede dobře u jasně vysloveného zvuku, i když má potíže s výraznými regionálními akcenty a přepínáním kódů mezi čínštinou a angličtinou v jedné větě. Pro širší srovnání vícejazyčných nástrojů dostupných dnes se podívejte na náš přehled softwaru pro převod řeči na text.

Existuje prohlížečová alternativa k Whisperu, která funguje pro živé schůzky?

Ano. Prohlížečové nástroje jako MirrorCaption používají streamingový převod řeči na text k přepisu a překladu v reálném čase během vaší schůzky — žádný Python, žádná instalace, žádné čekání na konec hovoru. Fungují v Chromu, Safari nebo Edge na jakémkoli zařízení. Kompromisem oproti Whisperu je, že zpětná přesnost u uložené nahrávky může být o něco nižší, ale u živých konverzací je právě okamžitost to podstatné. Začněte s 1 hodinou zdarma, jednorázově na mirrorcaption.com/app.

Závěr

OpenAI Whisper je jeden z nejpřesnějších systémů pro převod řeči na text, jaké byly kdy veřejně zpřístupněny. Zároveň je jedním z nejméně přístupných pro lidi, kteří by z něj měli největší užitek.

Pokud máte uložený zvukový soubor a trpělivost na určité nastavení, Whisper — zejména přes OpenAI API — poskytuje téměř lidskou přesnost přepisu ve 99 jazycích za téměř nulové náklady. To je pozoruhodný inženýrský úspěch.

Pokud potřebujete číst, co někdo říká, zatímco to říká — během schůzky, ne až po ní — architektura Whisperu není vhodná. Streamingové nástroje pro převod řeči na text existují přesně pro tento případ použití. Fungují v kartě prohlížeče, spustí se během několika sekund a nevyžadují příkazovou řádku.

Otázka není, který nástroj je lepší. Otázka je, který nástroj odpovídá vašemu požadavku na načasování. Pro nejlepší nástroje pro převod řeči na text v roce 2026 napříč všemi případy použití pokrývá náš kompletní přehled celý trh.

Živý přepis schůzek, bez nutnosti nastavení

MirrorCaption streamuje přepis i překlad po jednotlivých slovech během vašeho hovoru. Funguje v jakémkoli prohlížeči na jakékoli platformě pro videohovory. 2 hodiny zdarma každý měsíc, bez platební karty.

Vyzkoušet MirrorCaption zdarma