OpenAI Whisper is een gratis, open-source spraak-naar-tekstmodel dat gesproken audio omzet in geschreven tekst in 99 talen. Om het te draaien, moet Python op je computer geïnstalleerd zijn, minstens één extra bibliotheek genaamd ffmpeg, en ergens tussen 150 MB en 3 GB vrije schijfruimte, afhankelijk van het kwaliteitsniveau dat je wilt. Het transcribeert niet in realtime. Dit zijn de feiten die de hijgerige nieuwsbriefverslaggeving meestal overslaat.
Priya beheert partnerships bij een fintechbedrijf in Singapore. Begin 2026 las ze dat Whisper "transcriptienauwkeurigheid op menselijk niveau" kon evenaren en volledig gratis was. Ze vond de GitHub-pagina, scande de instructies en voelde het optimisme van iemand die de uitdrukking "pip install ffmpeg" nog niet is tegengekomen. Drie uur later had ze een cryptische CUDA-compatibiliteitsfout, geen transcript en had ze de rest van de vergadernotities met de hand gemaakt. De tool is oprecht uitstekend. Hij was alleen gebouwd voor iemand anders dan Priya.
Whisper is ontworpen voor ontwikkelaars en onderzoekers. Dat maakt het geen slechte tool — het maakt het de verkeerde tool voor mensen die gewoon de stand-upcall van donderdag in het Mandarijn willen transcriberen zonder ook maar één regel code te schrijven.
Dit artikel legt in gewone taal uit hoe OpenAI Whisper echt werkt, waar het goed in is, wat het fundamenteel niet kan, en welke opties logischer zijn als je vandaag live vergadertranscriptie nodig hebt.
- OpenAI Whisper is een gratis, open-source spraak-naar-tekstmodel dat in september 2022 werd uitgebracht en is getraind op 680.000 uur audio van het web.
- Het ondersteunt 99 talen en haalt bijna menselijke nauwkeurigheid in het Engels — ongeveer 2–3% woordfoutpercentage op schone opnames.
- Whisper werkt niet in realtime. Het verwerkt audio in segmenten van 30 seconden nadat een opname klaar is, niet terwijl iemand spreekt.
- Lokaal draaien vereist Python 3.9+, ffmpeg en een modelbestand tussen 75 MB en 3 GB. Nauwkeurigheid en snelheid schalen samen.
- Voor live vergadertranscriptie zonder coderen heb je streaming spraak-naar-tekst nodig — een andere architectuur die Whisper niet ontworpen is om te bieden.
Wat is OpenAI Whisper?
OpenAI Whisper is een spraakherkenningsmodel dat in september 2022 als open source werd uitgebracht. OpenAI trainde het op 680.000 uur audio die van internet werd verzameld — colleges, podcasts, interviews, YouTube-video's, audioboeken — in tientallen talen. De schaal van die trainingsdata is een groot deel van waarom de nauwkeurigheid zo goed is.
Het kan twee dingen doen: transcriptie, waarbij audio wordt omgezet naar tekst in dezelfde taal, en vertaling, waarbij audio in een vreemde taal wordt omgezet naar Engelse tekst. Let op: het vertaalt alleen naar het Engels, niet tussen willekeurige taalparen.
Je kunt Whisper op twee manieren gebruiken. Ten eerste kun je de modelgewichten gratis downloaden van GitHub en het op je eigen hardware draaien — geen API-kosten, geen snelheidslimieten, maar je moet de installatie zelf doen. Ten tweede kun je de OpenAI Whisper API gebruiken voor $0.006 per minuut audio, waarmee het grootste deel van de installatieverdichting verdwijnt, maar audio nog steeds als bestandsupload wordt verwerkt in plaats van als live stream.
Als je iets nodig hebt dat werkt zonder command line, sla dan door naar de sectie met no-code-opties. Als je wilt begrijpen waarom Whisper werkt zoals het werkt, lees dan verder — dat is belangrijk om te weten wat het wel en niet kan.
Hoe OpenAI Whisper werkt — uitgelegd in gewone taal
Je hoeft de wiskunde niet te begrijpen om Whisper effectief te gebruiken. Maar als je de vier stappen begrijpt, wordt duidelijk waarom het de beperkingen heeft die het heeft.
Stap 1: Audio komt binnen als bestand
Je geeft Whisper een opgenomen audiobestand — MP3, WAV, M4A of de meeste andere gangbare formaten. Standaard kan het geen live microfoostream lezen. De audio staat op je schijf te wachten om verwerkt te worden.
Stap 2: Whisper zet geluid om in een visuele vingerafdruk
Whisper transformeert de audiogolfvorm in een mel-spectrogram — zie het als een warmtekaart van het geluid, waarbij de horizontale as tijd is en de verticale as laat zien welke frequenties op elk moment aanwezig zijn. Spraak ziet er anders uit dan muziek, en muziek ziet er anders uit dan achtergrondgeluid. Deze visuele weergave is wat de AI daadwerkelijk leest.
Stap 3: Een AI-model leest de vingerafdruk en voorspelt woorden
Een transformer-model — hetzelfde type architectuur als onder GPT — leest het spectrogram en voorspelt de meest waarschijnlijke reeks woorden. Een deel van het model codeert het geluidspatroon; een ander deel decodeert het naar tekst, één token tegelijk. De decoder gebruikt context uit eerdere audio om gaandeweg betere voorspellingen te doen.
Stap 4: Tekst komt eruit, met interpunctie en hoofdletters
Whisper geeft opgemaakte tekst uit met passende interpunctie en hoofdletters al toegepast. Je krijgt een bruikbaar transcript, geen muur van kleine letters.
Het venster van 30 seconden — en waarom dat belangrijk is. Whisper verdeelt je audio in segmenten van 30 seconden en verwerkt die sequentieel. Deze chunk-aanpak is de belangrijkste reden waarom Whisper geen live ondertiteling kan streamen. Er is geen gedeeltelijk resultaat na elk woord. Er is alleen een voltooid segment nadat elk blok van 30 seconden klaar is met verwerken. Voor een vergadering van 60 minuten betekent dat dat je je eerste gedeeltelijke transcript 30 seconden nadat het gesprek eindigt ontvangt — en het volledige transcript pas wanneer alle segmenten klaar zijn.
Waar Whisper goed in is
Binnen de grenzen van het ontwerp is Whisper echt indrukwekkend.
- Bijna menselijke nauwkeurigheid in het Engels. Het large-v3-model haalt ongeveer 2–3% woordfoutpercentage op standaardbenchmarks — vergelijkbaar met professionele menselijke transcribenten op schone audio. Ter vergelijking: oudere consumentenspraakherkenning zat gemiddeld op 10–15% foutpercentages.
- 99 talen. Mandarijn, Kantonees, Japans, Koreaans, Arabisch, Hindi, Russisch, Portugees, Spaans, Duits, Frans en tientallen meer. De Whisper GitHub README vermeldt de volledige talenlijst met nauwkeurigheidsbenchmarks per taal.
- Sterke tolerantie voor accenten. Omdat het is getraind op echte webaudio in plaats van studiokwaliteitsspraak, gaat Whisper beter om met niet-moedertaalaccenten dan veel oudere ASR-systemen die op smalle datasets zijn afgestemd.
- Automatische interpunctie. Komma's, punten en hoofdletters zijn inbegrepen. De meeste concurrerende batch-transcriptietools vereisen hiervoor een aparte nabewerkingsstap.
- Technische woordenschat. Whisper gaat beter om met vakspecifieke terminologie — medisch, juridisch, programmeertermen — dan algemene consumentenspraakherkenning.
- Volledig gratis te gebruiken. De modelgewichten worden uitgebracht onder de MIT-licentie, die commercieel gebruik toestaat. Je kunt zoveel opnames verwerken als je hardware aankan, zonder marginale kosten.
Als nauwkeurigheid na de opname op een opgeslagen audiobestand je prioriteit is, is Whisper moeilijk te overtreffen. Het is de juiste tool voor het transcriberen van opgenomen interviews, podcastafleveringen, colleges of andere audio die je al hebt vastgelegd.
Wat Whisper niet kan — het deel dat niemand uitlegt
De meeste artikelen over Whisper zijn geschreven door ontwikkelaars voor ontwikkelaars. Ze noemen beperkingen terloops. Hier krijgen ze de aandacht die ze verdienen.
Het transcribeert niet in realtime
Als je een Zoom-gesprek start en Whisper erop richt, krijg je een transcript wanneer het gesprek voorbij is — niet terwijl het gaande is. De vertraging tussen spreken en tekst zien varieert van een paar seconden voor korte clips tot enkele minuten voor een lange vergadering, afhankelijk van je hardware en modelgrootte.
Dit is geen bug. Het is een ontwerpkeuze. De nauwkeurigheid van Whisper komt deels voort uit het verwerken van elk audioblok met volledige context. Live transcriptie vereist dat gedeeltelijke resultaten meteen worden verstuurd, voordat die context beschikbaar is. De twee benaderingen brengen een fundamentele afweging met zich mee, en Whisper is gebouwd om nauwkeurigheid te maximaliseren in plaats van latentie te minimaliseren.
Het kan niet zien wie er spreekt
Standaard produceert Whisper een vlak transcript zonder labels. Elke zin verschijnt in een doorlopende blok zonder aanwijzing welke deelnemer wat zei. In een verkoopgesprek met twee personen weet je niet welke regels van jou waren en welke van je prospect. In een stand-up met tien personen is de output volledig zonder toeschrijving.
Er zijn open-source add-ons (pyannote.audio is de meest voorkomende) die speaker diarization bovenop Whisper leggen. Ze werken redelijk goed, maar vereisen extra Python-pakketten, modeldownloads en configuratie. De installatietijd verdubbelt ongeveer.
Lokaal draaien vereist technische installatie
Om Whisper op je eigen computer te gebruiken, heb je nodig:
- Python 3.9 of hoger, correct geïnstalleerd
- De ffmpeg-audiobibliotheek (op de meeste besturingssystemen een aparte installatie)
- Het modelgewichtenbestand: 75 MB voor "tiny", 1,5 GB voor "medium", 3 GB voor "large-v3"
- Een moderne GPU als je redelijke snelheid wilt — het large-model heeft op een typische laptop-CPU 20–40 minuten nodig om één uur audio te verwerken
Miguel leidt een customer-success-team van 12 personen bij een startup in Barcelona. Zijn team behandelt gesprekken in het Spaans, Catalaans en Engels. In januari 2026 vroeg hij zijn lead developer om "Whisper voor het team in te stellen". De ontwikkelaar bracht een heel weekend door met het installeren van afhankelijkheden, liep tegen een CUDA-versieconflict aan dat vier uur kostte om op te lossen, en bouwde daarna een kleine uploadinterface zodat teamleden opnames konden indienen zonder de terminal aan te raken. Totale installatietijd: ongeveer 14 uur aan engineeringwerk. De tool werkt nu goed. Miguel is dankbaar. Hij erkent ook dat de meeste teams geen ontwikkelaar hebben met een vrij weekend om eraan te besteden.
De OpenAI API is eenvoudiger — maar nog steeds niet live
De OpenAI Whisper API neemt het probleem van lokale installatie weg. Je stuurt een audiobestand via een eenvoudige HTTP-request naar de servers van OpenAI en ontvangt het transcript terug, meestal binnen enkele seconden voor korte clips. De kosten zijn $0.006 per minuut — een transcript van een vergadering van 60 minuten kost ongeveer $0.36.
Dit verlaagt de technische drempel aanzienlijk. Maar de API is nog steeds een model voor bestandsupload, geen live stream. Je stuurt de voltooide opname nadat het gesprek is afgelopen. Het transcript komt kort daarna binnen. Als je doel is om ondertiteling te lezen terwijl iemand nog aan het praten is, verandert de API niets aan de onderliggende beperking.
Whisper-modelgroottes in één oogopslag
Whisper komt in vijf kwaliteitsniveaus. Grotere modellen zijn nauwkeuriger, maar trager en zwaarder. Op een typische consumentenlaptop zonder GPU is het "small"-model meestal het praktische maximum qua snelheid.
| Model | Bestandsgrootte | CPU-snelheid (t.o.v. audio) | Het meest geschikt voor |
|---|---|---|---|
| tiny | 75 MB | ~10× sneller | Snelle tests, demo's |
| base | 150 MB | ~7× sneller | Casual gebruik, snel itereren |
| small ★ | 490 MB | ~4× sneller | Goede balans tussen kwaliteit en snelheid op laptops |
| medium | 1,5 GB | ~2× sneller | Hogere nauwkeurigheid, GPU aanbevolen |
| large-v3 | 3 GB | ~1× (realtime op GPU) | Maximale nauwkeurigheid, GPU vereist voor praktisch gebruik |
Begin met "small" als je test op een laptop. Ga naar "large-v3" als je een compatibele NVIDIA GPU hebt en de beste nauwkeurigheid nodig hebt voor niet-Engelse audio. De sprong van small naar large-v3 in nauwkeurigheid is merkbaar. De sprong in verwerkingstijd op CPU is fors.
Hoe je Whisper gebruikt zonder code te schrijven
Er zijn drie praktische opties voor niet-ontwikkelaars, elk met een andere afweging tussen moeite, kosten en timing.
Optie 1: De OpenAI Whisper API
Upload je audiobestand via de interface van OpenAI of via een no-code HTTP-client zoals Postman. Je krijgt binnen seconden tot minuten een schoon transcript terug, afhankelijk van de lengte. Kosten: $0.006/minuut. Dit is de minst omslachtige route als je af en toe opnames hebt en niets wilt installeren. Nadeel: je verwerkt nog steeds opnames achteraf, niet live spraak.
Optie 2: Desktoptoepassingen gebouwd op Whisper
Verschillende ontwikkelaars hebben Whisper in een klikbare interface verpakt. MacWhisper (alleen Mac) en Buzz (platformonafhankelijk, gratis) laten je een audiobestand slepen en een transcript krijgen zonder een terminal te openen. Deze zijn echt nuttig voor transcriptie na een gesprek. Ze delen dezelfde architectonische beperking — geen live ondertiteling, geen sprekerlabels zonder extra configuratie.
Optie 3: Browsergebaseerde streamingtools voor live vergaderingen
Als je doel is om ondertiteling te lezen terwijl een gesprek plaatsvindt — niet om een transcript op te halen nadat het is afgelopen — heb je een heel andere aanpak nodig. Browsergebaseerde tools die streaming spraak-naar-tekst gebruiken, vangen audio op van je microfoon of browsertabblad en sturen gedeeltelijke resultaten woord voor woord terwijl mensen spreken. Geen installatie, geen Python, geen wachttijd voor nabewerking.
Deze categorie omvat tools zoals Whisper-alternatieven die zijn gebouwd voor niet-technische gebruikers, die een deel van Whisper's achterafnauwkeurigheid inruilen voor de directheid die live gesprekken vereisen. De keuze tussen deze opties gaat niet over welke "beter" is — het gaat erom of je transcriptie van een vergadering nodig hebt of tijdens een vergadering.
Whisper vs. live vergadertranscriptie — twee verschillende architecturen
Om te begrijpen waarom Whisper geen live ondertiteling kan streamen, moet je het verschil begrijpen tussen batch- en streaming-spraak-naar-tekst.
Whisper is een batchmodel. Het wacht op een volledig audioblok, verwerkt het met volledige context en geeft een resultaat terug. Het nauwkeurigheidsvoordeel komt uit die volledige context: het model kan het einde van een zin zien voordat het bevestigt wat het begin zei. Het is alsof je een alinea twee keer leest voordat je hem samenvat.
Streaming spraak-naar-tekst werkt anders. Het stuurt gedeeltelijke resultaten op het moment dat elk woord binnenkomt en corrigeert automatisch naarmate de context zich opstapelt. Tools zoals MirrorCaption, gebouwd op onze eigen streaming STT-engine, kunnen het eerste woord van een ondertitel binnen 300–500 milliseconden nadat iemand het uitspreekt leveren. De afweging is enig verlies aan nauwkeurigheid bij dubbelzinnige woorden die batchverwerking achteraf zou opvangen.
Dit is geen kwaliteitsvergelijking. Whisper is op opgenomen audio waarschijnlijk nauwkeuriger juist omdat het meer context verwerkt. Streaming STT accepteert een kleine nauwkeurigheidsboete in ruil voor directheid. Voor live vergaderingen is directheid het hele product.
Kenji werkt in Tokio voor een fabrikant die aan Europese klanten verkoopt. Zijn donderdaggesprekken met een team in München vertrouwden vroeger op een tweetalige collega om belangrijke zinnen te interpreteren. Toen die collega vertrok, begon Kenji een browsergebaseerde streamingtranscriptietool te gebruiken. Hij leest de Duitse ondertiteling in realtime tijdens het gesprek. Geen downloads, geen Python, geen wachten tot er na de vergadering een transcript verschijnt. Het verschil met Whisper is niet de nauwkeurigheid. Het is het vermogen om iets te horen, het te begrijpen en te reageren — allemaal binnen hetzelfde gesprek van 60 minuten.
Live ondertiteling nodig, geen transcript na het gesprek? MirrorCaption streamt transcriptie en vertaling in elke browser, tijdens je vergadering. Geen installatie vereist.
Probeer gratis →Veelgestelde vragen
Is OpenAI Whisper gratis?
Ja. De Whisper-modelgewichten zijn gratis te downloaden en te gebruiken onder de MIT-licentie, die commerciële toepassingen toestaat. Whisper lokaal draaien kost niets behalve je eigen hardware en elektriciteit. De OpenAI Whisper API rekent $0.006 per minuut audio — een transcript van een vergadering van 60 minuten kost ongeveer $0.36.
Kan Whisper een Zoom-gesprek in realtime transcriberen?
Nee. Whisper verwerkt audio in segmenten van 30 seconden nadat de audio is vastgelegd. Het kan geen woord-voor-woord ondertiteling leveren terwijl iemand spreekt. Als je een Zoom-gesprek opneemt en daarna Whisper op het opgeslagen bestand draait, krijg je een schoon transcript — maar pas nadat de vergadering is afgelopen. Voor live Zoom-ondertiteling heb je een streaming spraak-naar-teksttool nodig, niet Whisper. Onze overzichtspagina van spraak-naar-tekstsoftware vergelijkt realtime- en na-vergaderingopties voor veelvoorkomende workflows.
Hoe nauwkeurig is OpenAI Whisper?
Whisper large-v3 haalt ongeveer 2–3% woordfoutpercentage op de standaard LibriSpeech-benchmark voor Engels, wat vergelijkbaar is met professionele menselijke transcriptie op schone audio. De nauwkeurigheid daalt bij veel achtergrondgeluid, overlappende sprekers, zeer snelle spraak of microfoons van lage kwaliteit. Niet-Engelse talen hebben gemiddeld hogere foutpercentages dan Engels, al presteren ze nog steeds beter dan veel oudere modelspecifieke systemen per regio. Voor een breder beeld van afwegingen in transcriptienauwkeurigheid, zie onze benchmarks voor realtime vertaalnauwkeurigheid.
Ondersteunt Whisper Chinees en Japans?
Ja. Whisper dekt 99 talen, waaronder Mandarijn Chinees, Kantonees, Japans, Koreaans, Arabisch, Hindi en alle grote Europese talen. Voor Mandarijn en Kantonees presteert het large-model van Whisper goed op duidelijk uitgesproken audio, al heeft het moeite met zware regionale accenten en code-switching tussen Chinees en Engels in dezelfde zin. Voor een bredere vergelijking van meertalige tools die vandaag beschikbaar zijn, zie onze overzichtspagina van spraak-naar-tekstsoftware.
Is er een browsergebaseerd alternatief voor Whisper dat werkt voor live vergaderingen?
Ja. Browsergebaseerde tools zoals MirrorCaption gebruiken streaming spraak-naar-tekst om tijdens je vergadering in realtime te transcriberen en te vertalen — geen Python, geen installatie, geen wachten tot het gesprek eindigt. Ze werken in Chrome, Safari of Edge op elk apparaat. De afweging ten opzichte van Whisper is dat de nauwkeurigheid achteraf op een opgeslagen opname iets lager kan zijn, maar voor live gesprekken is directheid juist het punt. Begin met 1 gratis uur, eenmalig op mirrorcaption.com/app.
De kern
OpenAI Whisper is een van de nauwkeurigste spraak-naar-tekstsystemen die ooit publiek beschikbaar zijn gemaakt. Het is ook een van de minst toegankelijke voor de mensen die er het meest van zouden profiteren.
Als je een opgeslagen audiobestand hebt en geduld voor wat installatie, levert Whisper — vooral via de OpenAI API — bijna menselijke transcriptienauwkeurigheid in 99 talen voor bijna geen kosten. Dat is een opmerkelijke technische prestatie.
Als je wilt lezen wat iemand zegt terwijl die persoon het zegt — tijdens een vergadering, niet erna — dan past de architectuur van Whisper niet. Streaming spraak-naar-teksttools bestaan precies voor deze use case. Ze werken in een browsertabblad, starten binnen enkele seconden en vereisen geen command line.
De vraag is niet welke tool beter is. De vraag is welke tool past bij je timingvereiste. Voor de beste spraak-naar-teksttools in 2026 voor alle use cases behandelt ons volledige overzicht het landschap.
Live vergadertranscriptie, geen installatie vereist
MirrorCaption streamt transcriptie en vertaling woord voor woord tijdens je gesprek. Werkt in elke browser op elk videobelplatform. 2 uur gratis per maand, geen creditcard.
Probeer MirrorCaption gratis