OpenAI Whisper to darmowy, open-source’owy model mowy na tekst, który zamienia wypowiadany dźwięk na tekst pisany w 99 językach. Aby go uruchomić, potrzebujesz Pythona zainstalowanego na komputerze, co najmniej jednej dodatkowej biblioteki o nazwie ffmpeg oraz od 150 MB do 3 GB wolnego miejsca na dysku, w zależności od poziomu jakości, którego oczekujesz. Nie transkrybuje w czasie rzeczywistym. To są fakty, które zwykle pomija zadyszana newsletterowa relacja.

Priya zarządza partnerstwami w firmie fintech w Singapurze. Na początku 2026 roku przeczytała, że Whisper może dorównać „dokładności transkrypcji na poziomie człowieka” i jest całkowicie darmowy. Znalazła stronę GitHub, przejrzała instrukcje i poczuła optymizm kogoś, kto jeszcze nie zetknął się z frazą „pip install ffmpeg”. Trzy godziny później miała enigmatyczny błąd zgodności CUDA, brak transkryptu i resztę notatek ze spotkania spisała ręcznie. To narzędzie jest naprawdę świetne. Po prostu zostało stworzone dla kogoś innego niż Priya.

Whisper został zaprojektowany dla programistów i badaczy. To nie czyni go złym narzędziem — czyni go niewłaściwym narzędziem dla osób, które po prostu chcą przepisać czwartkowy standup po mandaryńsku, nie pisząc ani jednej linijki kodu.

Ten artykuł wyjaśnia prostym językiem, jak OpenAI Whisper naprawdę działa, w czym jest dobry, czego zasadniczo nie potrafi oraz jakie opcje mają więcej sensu, jeśli dziś potrzebujesz transkrypcji spotkań na żywo.

Najważniejsze wnioski

Czym jest OpenAI Whisper?

OpenAI Whisper to model rozpoznawania mowy wydany jako open-source we wrześniu 2022 roku. OpenAI wytrenowało go na 680 000 godzin audio zebranych z internetu — wykładach, podcastach, wywiadach, filmach z YouTube, audiobookach — w dziesiątkach języków. Skala tych danych treningowych jest dużą częścią tego, dlaczego jego dokładność jest tak wysoka.

Potrafi robić dwie rzeczy: transkrypcję, czyli zamianę audio na tekst w tym samym języku, oraz tłumaczenie, czyli zamianę audio w języku obcym na tekst angielski. Zwróć uwagę, że tłumaczy wyłącznie na angielski, a nie między dowolnymi parami języków.

Do Whispera możesz uzyskać dostęp na dwa sposoby. Po pierwsze, możesz pobrać wagi modelu za darmo z GitHub i uruchomić go na własnym sprzęcie — bez kosztów API, bez limitów zapytań, ale z własną konfiguracją. Po drugie, możesz korzystać z OpenAI Whisper API za 0,006 USD za minutę audio, co usuwa większość problemów z konfiguracją, ale nadal przetwarza audio jako przesłany plik, a nie strumień na żywo.

Jeśli potrzebujesz czegoś, co działa bez wiersza poleceń, przejdź od razu do sekcji z opcjami bez kodowania. Jeśli chcesz zrozumieć, dlaczego Whisper działa tak, jak działa, czytaj dalej — to ma znaczenie, gdy chcesz wiedzieć, co potrafi, a czego nie.

Jak działa OpenAI Whisper — wyjaśnienie prostym językiem

Nie musisz rozumieć matematyki, żeby skutecznie korzystać z Whispera. Ale zrozumienie czterech kroków, które wykonuje, pomaga wyjaśnić, skąd biorą się jego ograniczenia.

Krok 1: Audio trafia jako plik

Przekazujesz Whisperowi nagrany plik audio — MP3, WAV, M4A lub większość innych popularnych formatów. Domyślnie nie potrafi odczytać strumienia z mikrofonu na żywo. Audio leży na dysku i czeka na przetworzenie.

Krok 2: Whisper zamienia dźwięk w wizualny odcisk

Whisper przekształca przebieg fali audio w mel-spektrogram — wyobraź sobie mapę cieplną dźwięku, gdzie oś pozioma to czas, a pionowa pokazuje, jakie częstotliwości są obecne w danej chwili. Mowa wygląda inaczej niż muzyka, a ta z kolei inaczej niż szum tła. To właśnie tę wizualną reprezentację AI faktycznie odczytuje.

Krok 3: Model AI odczytuje odcisk i przewiduje słowa

Model transformer — ten sam typ architektury, na którym opiera się GPT — odczytuje spektrogram i przewiduje najbardziej prawdopodobną sekwencję słów. Jedna część modelu koduje wzorzec dźwięku; druga dekoduje go do tekstu, token po tokenie. Dekoder wykorzystuje kontekst z wcześniejszej części audio, aby z każdym krokiem trafniej przewidywać kolejne słowa.

Krok 4: Tekst wychodzi już z interpunkcją i wielkimi literami

Whisper zwraca sformatowany tekst z odpowiednią interpunkcją i wielkimi literami już zastosowanymi. Dostajesz użyteczny transkrypt, a nie ścianę słów zapisanych małymi literami.

30-sekundowe okno — i dlaczego ma znaczenie. Whisper dzieli audio na 30-sekundowe segmenty i przetwarza je kolejno. To podejście oparte na fragmentach jest głównym powodem, dla którego Whisper nie może przesyłać napisów na żywo. Nie ma częściowego wyniku po każdym słowie. Jest tylko ukończony fragment po zakończeniu przetwarzania każdego 30-sekundowego bloku. W przypadku 60-minutowego spotkania oznacza to, że pierwszy częściowy transkrypt otrzymasz 30 sekund po zakończeniu rozmowy — a pełny transkrypt dopiero wtedy, gdy wszystkie fragmenty zostaną przetworzone.

W czym Whisper jest dobry

W granicach swojego projektu Whisper jest naprawdę imponujący.

Jeśli priorytetem jest dla Ciebie dokładność po nagraniu na zapisanym pliku audio, Whisper trudno przebić. To właściwe narzędzie do transkrypcji nagranych wywiadów, odcinków podcastów, wykładów lub dowolnego audio, które już masz.

Czego Whisper nie potrafi — część, której nikt nie wyjaśnia

Większość artykułów o Whisperze piszą programiści dla programistów. Wspominają o ograniczeniach mimochodem. Tutaj dostają należną im uwagę.

Nie transkrybuje w czasie rzeczywistym

Jeśli rozpoczniesz rozmowę na Zoomie i skierujesz na nią Whispera, transkrypt otrzymasz po zakończeniu rozmowy — nie w trakcie jej trwania. Opóźnienie między wypowiedzeniem słów a zobaczeniem tekstu waha się od kilku sekund w przypadku krótkich klipów do kilku minut przy długim spotkaniu, w zależności od sprzętu i rozmiaru modelu.

To nie jest błąd. To świadoma decyzja projektowa. Dokładność Whispera wynika częściowo z przetwarzania każdego fragmentu audio z pełnym kontekstem. Transkrypcja na żywo wymaga natychmiastowego wysyłania częściowych wyników, zanim kontekst będzie dostępny. Te dwa podejścia wiążą się z fundamentalnym kompromisem, a Whisper został zbudowany tak, by maksymalizować dokładność, a nie minimalizować opóźnienie.

Nie potrafi rozpoznać, kto mówi

Domyślnie Whisper tworzy płaski, nieoznaczony transkrypt. Każde zdanie pojawia się w jednym ciągłym bloku bez wskazania, który uczestnik co powiedział. W dwuosobowej rozmowie sprzedażowej nie będziesz wiedzieć, które kwestie należały do Ciebie, a które do potencjalnego klienta. W standupie z dziesięcioma osobami wynik jest całkowicie bez przypisania.

Są dodatki open-source (najczęściej pyannote.audio), które nakładają diarizację mówców na Whispera. Działają całkiem dobrze, ale wymagają dodatkowych pakietów Pythona, pobrania modeli i konfiguracji. Czas konfiguracji mniej więcej się podwaja.

Uruchomienie lokalnie wymaga technicznej konfiguracji

Aby korzystać z Whispera na własnym komputerze, potrzebujesz:

Miguel kieruje 12-osobowym zespołem customer success w startupie w Barcelonie. Jego zespół obsługuje rozmowy po hiszpańsku, katalońsku i angielsku. W styczniu 2026 roku poprosił głównego programistę, aby „skonfigurował Whispera dla zespołu”. Programista spędził cały weekend na instalowaniu zależności, natrafił na konflikt wersji CUDA, którego rozwiązanie zajęło cztery godziny, a potem zbudował prosty interfejs do przesyłania plików, żeby współpracownicy mogli wysyłać nagrania bez dotykania terminala. Łączny czas konfiguracji: około 14 godzin pracy inżynierskiej. Narzędzie teraz działa dobrze. Miguel jest wdzięczny. Przyznaje też, że większość zespołów nie ma programisty z wolnym weekendem, który mógłby poświęcić na taki projekt.

OpenAI API jest prostsze — ale nadal nie działa na żywo

OpenAI Whisper API usuwa problem lokalnej instalacji. Wysyłasz plik audio na serwery OpenAI prostym żądaniem HTTP i otrzymujesz transkrypt z powrotem, zwykle w ciągu kilku sekund w przypadku krótkich klipów. Koszt to 0,006 USD za minutę — transkrypt 60-minutowego spotkania kosztuje około 0,36 USD.

To znacząco obniża barierę techniczną. Ale API nadal działa jako model przesyłania pliku, a nie strumienia na żywo. Wysyłasz gotowe nagranie po zakończeniu rozmowy. Transkrypt pojawia się krótko potem. Jeśli Twoim celem jest czytanie napisów, gdy ktoś jeszcze mówi, API nie zmienia podstawowego ograniczenia.

Rozmiary modeli Whispera w skrócie

Whisper występuje w pięciu poziomach jakości. Większe modele są dokładniejsze, ale wolniejsze i cięższe. Na typowym laptopie konsumenckim bez GPU model „small” jest zwykle praktycznym limitem pod względem szybkości.

Model Rozmiar pliku Szybkość CPU (względem audio) Najlepszy do
tiny 75 MB ~10× szybciej Szybkie testy, demo
base 150 MB ~7× szybciej Okazjonalne użycie, szybkie iteracje
medium 1,5 GB ~2× szybciej Wyższa dokładność, zalecane GPU
large-v3 3 GB ~1× (czas rzeczywisty na GPU) Maksymalna dokładność, do praktycznego użycia wymagane GPU

Zacznij od „small”, jeśli testujesz na laptopie. Przejdź do „large-v3”, jeśli masz kompatybilny GPU NVIDIA i potrzebujesz najlepszej dokładności dla audio w językach innych niż angielski. Skok dokładności z small do large-v3 jest zauważalny. Skok czasu przetwarzania na CPU jest duży.

Jak korzystać z Whispera bez pisania kodu

Istnieją trzy praktyczne opcje dla osób nietechnicznych, z których każda wiąże się z innym kompromisem między wysiłkiem, kosztem i czasem.

Opcja 1: OpenAI Whisper API

Prześlij plik audio przez interfejs OpenAI lub za pomocą no-code klienta HTTP, takiego jak Postman. Otrzymasz czysty transkrypt w ciągu sekund do minut, zależnie od długości. Koszt: 0,006 USD/minutę. To ścieżka o najmniejszym tarciu, jeśli masz nagrania okazjonalnie i nie chcesz niczego instalować. Minusem jest to, że nadal przetwarzasz nagrania po fakcie, a nie przechwytujesz mowę na żywo.

Opcja 2: Aplikacje desktopowe zbudowane na Whisperze

Kilku twórców opakowało Whispera w klikalny interfejs. MacWhisper (tylko Mac) i Buzz (wieloplatformowy, darmowy) pozwalają przeciągnąć plik audio i otrzymać transkrypt bez otwierania terminala. To naprawdę przydatne do transkrypcji po rozmowie. Mają to samo ograniczenie architektoniczne — brak napisów na żywo, brak etykiet mówców bez dodatkowej konfiguracji.

Opcja 3: Narzędzia streamingowe w przeglądarce do spotkań na żywo

Jeśli Twoim celem jest czytanie napisów w trakcie rozmowy — a nie pobranie transkryptu po jej zakończeniu — potrzebujesz zupełnie innego podejścia. Narzędzia działające w przeglądarce, które używają streaming speech-to-text, przechwytują audio z mikrofonu lub karty przeglądarki i wysyłają częściowe wyniki słowo po słowie, gdy ludzie mówią. Bez instalacji, bez Pythona, bez czekania na postprocessing.

Do tej kategorii należą narzędzia takie jak alternatywy dla Whispera stworzone dla użytkowników nietechnicznych, które poświęcają część post-hoc dokładności Whispera na rzecz natychmiastowości wymaganej przez rozmowy na żywo. Wybór między nimi nie dotyczy tego, które jest „lepsze” — chodzi o to, czy potrzebujesz transkrypcji spotkania, czy w trakcie spotkania.

Whisper a transkrypcja spotkań na żywo — dwie różne architektury

Zrozumienie, dlaczego Whisper nie może przesyłać napisów na żywo, wymaga zrozumienia różnicy między batch a streaming speech-to-text.

Whisper jest modelem wsadowym. Czeka na kompletny fragment audio, przetwarza go z pełnym kontekstem i zwraca wynik. Przewaga dokładności wynika właśnie z tego pełnego kontekstu: model może zobaczyć koniec zdania, zanim potwierdzi, co powiedział jego początek. To jak przeczytanie akapitu dwa razy przed jego streszczeniem.

Streaming speech-to-text działa inaczej. Wysyła częściowe wyniki w momencie, gdy pojawia się każde słowo, a następnie automatycznie je koryguje, gdy przybywa kontekst. Narzędzia takie jak MirrorCaption, zbudowane na naszym własnym silniku streaming STT, mogą dostarczyć pierwsze słowo napisu w ciągu 300–500 milisekund od wypowiedzenia go przez rozmówcę. Kompromisem jest pewna utrata dokładności w przypadku niejednoznacznych słów, które przetwarzanie wsadowe wychwyciłoby z perspektywy czasu.

To nie jest porównanie jakości. Whisper jest prawdopodobnie dokładniejszy w przypadku nagranego audio właśnie dlatego, że przetwarza więcej kontekstu. Streaming STT akceptuje niewielką stratę dokładności w zamian za natychmiastowość. W przypadku spotkań na żywo natychmiastowość jest całym produktem.

Kenji pracuje w Tokio dla producenta sprzedającego europejskim klientom. Jego czwartkowe rozmowy z zespołem z Monachium wcześniej opierały się na dwujęzycznym współpracowniku, który tłumaczył kluczowe frazy. Gdy ten współpracownik odszedł, Kenji zaczął korzystać z przeglądarkowego narzędzia do transkrypcji streamingowej. Czyta niemieckie napisy w czasie rzeczywistym podczas rozmowy. Bez pobierania, bez Pythona, bez czekania, aż transkrypt pojawi się po zakończeniu spotkania. Różnica względem Whispera nie polega na dokładności. Polega na możliwości usłyszenia czegoś, zrozumienia tego i odpowiedzi — wszystko w trakcie tego samego 60-minutowego calla.

Potrzebujesz napisów na żywo, a nie transkryptów po rozmowie? MirrorCaption przesyła transkrypcję i tłumaczenie w dowolnej przeglądarce, podczas spotkania. Bez instalacji.

Wypróbuj za darmo →

Często zadawane pytania

Czy OpenAI Whisper jest darmowy?

Tak. Wagi modelu Whisper można pobrać i używać za darmo na licencji MIT, która pozwala na zastosowania komercyjne. Uruchamianie Whispera lokalnie nic nie kosztuje poza własnym sprzętem i energią elektryczną. OpenAI Whisper API pobiera 0,006 USD za minutę audio — transkrypt 60-minutowego spotkania kosztuje około 0,36 USD.

Czy Whisper może transkrybować rozmowę na Zoomie w czasie rzeczywistym?

Nie. Whisper przetwarza audio w 30-sekundowych fragmentach po jego zarejestrowaniu. Nie może dostarczać napisów słowo po słowie, gdy ktoś mówi. Jeśli nagrasz rozmowę na Zoomie, a potem uruchomisz Whisper na zapisanym pliku, otrzymasz czysty transkrypt — ale dopiero po zakończeniu spotkania. Do napisów na żywo w Zoomie potrzebujesz narzędzia streaming speech-to-text, a nie Whispera. Nasze zestawienie oprogramowania speech-to-text porównuje opcje w czasie rzeczywistym i po spotkaniu w typowych workflowach.

Jak dokładny jest OpenAI Whisper?

Whisper large-v3 osiąga około 2–3% błędu słów na standardowym benchmarku LibriSpeech dla języka angielskiego, co jest porównywalne z profesjonalną ludzką transkrypcją przy czystym audio. Dokładność spada przy dużym hałasie w tle, nakładających się mówcach, bardzo szybkim tempie mowy lub niskiej jakości mikrofonach. Języki inne niż angielski mają średnio wyższy poziom błędów niż angielski, choć nadal wyprzedzają wiele starszych modeli regionalnych. Szersze spojrzenie na kompromisy w dokładności transkrypcji znajdziesz w naszych benchmarkach dokładności tłumaczenia w czasie rzeczywistym.

Czy Whisper obsługuje chiński i japoński?

Tak. Whisper obejmuje 99 języków, w tym chiński mandaryński, kantoński, japoński, koreański, arabski, hindi i wszystkie główne języki europejskie. W przypadku mandaryńskiego i kantońskiego duży model Whispera dobrze radzi sobie z wyraźnie wypowiadanym audio, choć ma trudności przy silnych regionalnych akcentach i przełączaniu kodów między chińskim a angielskim w tym samym zdaniu. Szersze porównanie dostępnych dziś narzędzi wielojęzycznych znajdziesz w naszym zestawieniu oprogramowania speech-to-text.

Czy istnieje przeglądarkowa alternatywa dla Whispera, która działa na żywo podczas spotkań?

Tak. Narzędzia działające w przeglądarce, takie jak MirrorCaption, używają streaming speech-to-text do transkrypcji i tłumaczenia w czasie rzeczywistym podczas spotkania — bez Pythona, bez instalacji, bez czekania na zakończenie rozmowy. Działają w Chrome, Safari lub Edge na dowolnym urządzeniu. Kompromisem względem Whispera jest to, że dokładność po fakcie na zapisanym nagraniu może być nieco niższa, ale w przypadku rozmów na żywo liczy się natychmiastowość. Zacznij od 1 darmowej godziny, jednorazowo na mirrorcaption.com/app.

Najważniejsze wnioski

OpenAI Whisper to jeden z najdokładniejszych systemów mowy na tekst, jakie kiedykolwiek udostępniono publicznie. Jest też jednym z najmniej dostępnych dla osób, które najbardziej mogłyby na nim skorzystać.

Jeśli masz zapisany plik audio i cierpliwość do pewnej konfiguracji, Whisper — zwłaszcza przez OpenAI API — zapewnia dokładność transkrypcji bliską ludzkiej w 99 językach za niemal zerowy koszt. To niezwykłe osiągnięcie inżynieryjne.

Jeśli potrzebujesz czytać to, co ktoś mówi, w chwili gdy to mówi — podczas spotkania, a nie po nim — architektura Whispera nie pasuje. Narzędzia streaming speech-to-text istnieją dokładnie do tego zastosowania. Działają w karcie przeglądarki, startują w kilka sekund i nie wymagają wiersza poleceń.

Pytanie nie brzmi, które narzędzie jest lepsze. Pytanie brzmi, które narzędzie pasuje do Twojego wymogu czasowego. W naszym pełnym zestawieniu najlepszych narzędzi speech-to-text w 2026 roku dla wszystkich zastosowań znajdziesz cały krajobraz rozwiązań.

Transkrypcja spotkań na żywo, bez konfiguracji

MirrorCaption przesyła transkrypcję i tłumaczenie słowo po słowie podczas rozmowy. Działa w dowolnej przeglądarce na każdej platformie do wideokonferencji. 2 godziny za darmo co miesiąc, bez karty kredytowej.

Wypróbuj MirrorCaption za darmo