Is OpenAI Whisper free?

Yes. The Whisper model weights are free to download and use under an MIT license. Running Whisper locally costs nothing beyond your own hardware. The OpenAI Whisper API charges $0.006 per minute of audio processed — a one-hour meeting costs about $0.36.

Can Whisper transcribe a Zoom call live?

No. Whisper processes audio in 30-second batches after recording. It cannot stream transcription word-by-word while someone is speaking. For live Zoom transcription, you need a streaming speech-to-text tool built on a different architecture.

How accurate is OpenAI Whisper?

Whisper large-v3 achieves roughly 2–3% word error rate on clean English audio, which is comparable to professional human transcription. Accuracy drops noticeably on heavy background noise, crosstalk, or low-quality recordings.

Does Whisper support Chinese and Japanese?

Yes. Whisper supports 99 languages including Mandarin, Cantonese, Japanese, Korean, Arabic, and Hindi. Accuracy on non-English languages is generally lower than on English but often still competitive with specialized regional models.

Is there a browser-based Whisper alternative for live meetings?

Yes. Tools like MirrorCaption use streaming speech-to-text to transcribe and translate meetings in real time, directly in a browser tab. No Python, no installation, no waiting for the call to end.

Wie OpenAI Whisper funktioniert — verständlich erklärt

OpenAI Whisper ist ein kostenloses, quelloffenes Spracherkennungsmodell, das gesprochene Sprache in 99 Sprachen in Text umwandelt. Um es zu nutzen, benötigen Sie Python auf Ihrem Computer, eine Bibliothek namens ffmpeg und je nach gewählter Qualitätsstufe zwischen 150 MB und 3 GB freiem Speicherplatz. Echtzeit-Transkription ist nicht möglich. Das sind die Fakten, die in vielen Berichten gerne übergangen werden.

🏫 Ein reales Szenario

Priya leitet das Partnerschaftsmanagement bei einem Fintech-Unternehmen in Singapur. Anfang 2026 las sie, dass Whisper "menschliche Transkriptionsgenauigkeit" erreiche und völlig kostenlos sei. Sie öffnete die GitHub-Seite, überflog die Anleitung — und stieß schon bald auf die Worte "pip install ffmpeg." Drei Stunden später hatte sie eine kryptische CUDA-Fehlermeldung, keine Transkription und musste das Protokoll wieder von Hand schreiben. Whisper ist tatsächlich leistungsstark. Es wurde schlicht für jemand anderen entwickelt.

Whisper wurde für Entwickler und Forscher konzipiert. Das macht es nicht zu einem schlechten Werkzeug — es macht es zum falschen Werkzeug für Menschen, die einfach ihr Meeting auf Mandarin transkribieren möchten, ohne auch nur eine Zeile Code schreiben zu müssen.

Dieser Artikel erklärt, wie OpenAI Whisper funktioniert, was es gut kann, was es grundsätzlich nicht leisten kann — und welche Alternativen sinnvoll sind, wenn Sie Live-Transkription benötigen.

Die wichtigsten Punkte

OpenAI Whisper ist ein kostenloses, quelloffenes STT-Modell, das im September 2022 veröffentlicht wurde. Es wurde mit 680.000 Stunden Audiomaterial aus dem Web trainiert.
Es unterstützt 99 Sprachen und erreicht bei Englisch eine Genauigkeit nahe dem menschlichen Niveau — etwa 2–3 % Wortfehlerrate bei klaren Aufnahmen.
Whisper funktioniert nicht in Echtzeit. Es verarbeitet Audio in 30-Sekunden-Blöcken nach der Aufnahme.
Für den lokalen Betrieb sind Python 3.9+, ffmpeg und eine Modelldatei zwischen 75 MB und 3 GB erforderlich.
Für Live-Untertitel während eines Meetings benötigen Sie Streaming-Spracherkennung — eine andere Architektur, für die Whisper nicht ausgelegt ist.

Was ist OpenAI Whisper?

OpenAI Whisper ist ein Spracherkennungsmodell, das im September 2022 als Open-Source veröffentlicht wurde. OpenAI trainierte es auf 680.000 Stunden Audiomaterial aus dem Internet — Vorlesungen, Podcasts, Interviews, YouTube-Videos, Hörbücher — in Dutzenden von Sprachen. Dieser Trainingsumfang ist ein wesentlicher Grund für die hohe Genauigkeit.

Whisper kann zwei Dinge: Transkription (Audio in derselben Sprache zu Text) und Übersetzung (Fremdsprach-Audio zu englischem Text). Wichtig: Die Übersetzung funktioniert nur ins Englische, nicht zwischen beliebigen Sprachpaaren.

Es gibt zwei Zugangswege. Erstens: die Modelldateien kostenlos von GitHub herunterladen und lokal betreiben — keine API-Kosten, aber eigene Einrichtung erforderlich. Zweitens: die OpenAI Whisper API für $0,006 pro Audiominute nutzen, was die meisten Einrichtungsschritte entfallen lässt, aber ebenfalls ein Datei-Upload-Modell ohne Live-Streaming ist.

Wie OpenAI Whisper funktioniert — einfach erklärt

Vier Schritte genügen, um zu verstehen, warum Whisper bestimmte Grenzen hat.

Schritt 1: Eine Audiodatei wird übergeben

Sie übergeben Whisper eine aufgezeichnete Audiodatei — MP3, WAV, M4A und die meisten anderen Formate werden unterstützt. Live-Mikrofon-Streaming ist standardmäßig nicht möglich.

Schritt 2: Whisper wandelt Klang in ein visuelles Muster um

Die Audiowelle wird in ein Mel-Spektrogramm umgewandelt — eine Art Wärmekarte des Klangs, auf der horizontale Achse die Zeit und auf der vertikalen die Frequenzverteilung abgebildet sind. Sprache, Musik und Hintergrundgeräusche sehen visuell unterschiedlich aus. Das ist es, was das KI-Modell tatsächlich "liest."

Schritt 3: Ein KI-Modell liest das Muster und sagt Wörter vorher

Ein Transformer-Modell liest das Spektrogramm und sagt die wahrscheinlichste Wortfolge vorher. Ein Teil kodiert das Klangmuster, der andere dekodiert es Wort für Wort zu Text, wobei der bisherige Kontext jede Vorhersage verbessert.

Schritt 4: Text mit Zeichensetzung erscheint

Whisper gibt formatierten Text mit Kommas, Punkten und Großschreibung aus — keine unstrukturierte Wortfolge, sondern ein direkt verwendbares Transkript.

Das 30-Sekunden-Fenster. Whisper teilt Audio in 30-Sekunden-Segmente auf und verarbeitet sie nacheinander. Das ist der Kerngrund, warum keine Live-Untertitel möglich sind: Ergebnisse werden erst nach Abschluss jedes Blocks geliefert, nicht Wort für Wort während der Aufnahme.

Was Whisper gut kann

Nahezu menschliche Genauigkeit bei Englisch. Das large-v3-Modell erreicht auf Standard-Benchmarks eine Wortfehlerrate von etwa 2–3 % — vergleichbar mit professionellen Transkriptionisten bei klarem Audiomaterial.
99 Sprachen. Darunter Mandarin, Kantonesisch, Japanisch, Koreanisch, Arabisch, Hindi, Russisch, Portugiesisch, Spanisch, Deutsch und Französisch.
Akzenttoleranz. Da das Modell auf echtem Web-Audio trainiert wurde, kommt es mit nicht-muttersprachlichen Akzenten besser zurecht als ältere, auf Studioaufnahmen spezialisierte Systeme.
Automatische Zeichensetzung. Kommas, Punkte und Großschreibung werden ohne zusätzlichen Nachbearbeitungsschritt eingefügt.
Völlig kostenlos. Die Modellgewichte sind unter der MIT-Lizenz für auch kommerzielle Nutzung freigegeben.

Was Whisper nicht kann — der entscheidende Teil

Keine Echtzeit-Transkription

Wenn Sie Whisper während eines Zoom-Calls starten, erhalten Sie das Transkript erst nach dem Anruf — nicht während er läuft. Auf einem gewöhnlichen Laptop ohne GPU kann die Verarbeitung einer einstündigen Aufnahme 20–40 Minuten in Anspruch nehmen. Das ist keine Fehlfunktion, sondern eine architektonische Entscheidung zugunsten von Genauigkeit gegenüber Latenz.

Keine Sprechererkennung

Standardmäßig produziert Whisper einen nicht zugeordneten Fließtext ohne Angabe, wer was gesagt hat. In einem Zwei-Personen-Verkaufsgespräch lässt sich nicht nachvollziehen, welche Aussagen vom Kunden und welche von Ihnen stammen. Es gibt Open-Source-Erweiterungen (z. B. pyannote.audio), die Sprechererkennung ergänzen, aber diese erfordern zusätzliche Konfiguration.

Lokaler Betrieb erfordert technisches Setup

Für den lokalen Betrieb benötigen Sie: Python 3.9+, ffmpeg (separate Installation erforderlich), Modelldateien von 75 MB bis 3 GB sowie idealerweise eine NVIDIA-GPU — ohne GPU benötigt das large-v3-Modell rund 30–40 Minuten für eine einstündige Aufnahme.

Die API ist einfacher — aber ebenfalls nicht live

Über die OpenAI API laden Sie eine Audiodatei hoch und erhalten in Sekunden das Transkript zurück, ohne etwas installieren zu müssen. Der Preis liegt bei $0,006 pro Minute. Das senkt die Hürde erheblich — ändert jedoch nichts daran, dass es sich um ein nachgelagertes Datei-Upload-Modell handelt, nicht um Live-Streaming.

Whisper-Modellgrößen im Überblick

Modell	Dateigröße	CPU-Geschwindigkeit	Empfohlen für
tiny	75 MB	ca. 10× schneller	Schnelltests
base	150 MB	ca. 7× schneller	Gelegentliche Nutzung
small ★	490 MB	ca. 4× schneller	Gutes Verhältnis auf Laptops
medium	1,5 GB	ca. 2× schneller	Höhere Genauigkeit, GPU empfohlen
large-v3	3 GB	ca. 1× (Echtzeit mit GPU)	Maximale Genauigkeit, GPU erforderlich

Whisper ohne Programmieren nutzen

Drei praktische Optionen stehen zur Verfügung, jede mit eigenem Kompromiss.

Option 1: Die OpenAI Whisper API

Audiodatei hochladen, Transkript erhalten — in der Regel innerhalb von Sekunden bis wenigen Minuten. Kosten: $0,006/Minute. Kein lokales Setup erforderlich. Nachteil: ausschließlich Nachbearbeitung, keine Echtzeit-Untertitel.

Option 2: Desktop-Anwendungen auf Whisper-Basis

MacWhisper (nur Mac) und Buzz (plattformübergreifend, kostenlos) bieten grafische Oberflächen ohne Terminal. Audiodatei hineinziehen, Transkript erhalten. Dieselbe architektonische Einschränkung gilt: keine Live-Untertitel, keine Sprecherzuordnung ohne Zusatzkonfiguration.

Option 3: Browserbasierte Streaming-Tools für Live-Meetings

Wenn Sie Untertitel während eines laufenden Gesprächs benötigen, brauchen Sie Streaming-Spracherkennung. Diese Tools laufen direkt im Browser, erfassen Mikrofon- oder Tab-Audio und liefern Ergebnisse Wort für Wort — ohne Installation, ohne Python, ohne Wartezeit nach dem Meeting. Mehr dazu in unserem Leitfaden zu Whisper-Alternativen ohne Programmierkenntnisse.

Whisper vs. Live-Transkription — zwei verschiedene Architekturen

Whisper ist ein Batch-Modell: Es wartet auf vollständige Audio-Chunks, verarbeitet sie mit vollem Kontext und liefert dann ein Ergebnis. Die hohe Genauigkeit ergibt sich gerade daraus, dass der gesamte Kontext vorliegt.

Streaming-Spracherkennung funktioniert anders: Sie liefert Teilresultate sofort nach jedem Wort und korrigiert sich nachträglich, wenn mehr Kontext verfügbar wird. Das von MirrorCaption verwendete eigene Streaming-STT kann die ersten Untertitel innerhalb von 300–500 Millisekunden nach dem gesprochenen Wort liefern. Das ist kein Qualitätsvergleich — es ist ein Zeitlichkeitsvergleich. Für Live-Meetings ist Zeitlichkeit das entscheidende Kriterium.

Live-Untertitel während des Meetings statt Transkript danach? MirrorCaption liefert Transkription und Übersetzung in Echtzeit — direkt im Browser, ohne Installation.

Kostenlos testen →

Häufig gestellte Fragen

Ist OpenAI Whisper kostenlos?

Ja. Die Modellgewichte sind unter der MIT-Lizenz kostenlos verfügbar und erlauben auch kommerzielle Nutzung. Lokaler Betrieb verursacht keine zusätzlichen Kosten. Die OpenAI API berechnet $0,006 pro Audiominute — eine einstündige Aufnahme kostet rund $0,36.

Kann Whisper ein Zoom-Meeting live transkribieren?

Nein. Whisper verarbeitet Audio in 30-Sekunden-Blöcken nach der Aufnahme. Wort-für-Wort-Untertitel während eines laufenden Gesprächs sind nicht möglich. Für Live-Untertitel in Zoom benötigen Sie ein Streaming-Spracherkennungs-Tool. Einen Überblick über Echtzeit- und nachgelagerte Optionen bietet unser großer STT-Vergleich.

Wie genau ist OpenAI Whisper?

Das large-v3-Modell erreicht auf dem LibriSpeech-Benchmark für Englisch eine Wortfehlerrate von etwa 2–3 %, vergleichbar mit professionellen menschlichen Transkriptionisten bei klarem Audiomaterial. Bei starkem Hintergrundlärm, Überlappungen oder schlechter Aufnahmequalität sinkt die Genauigkeit spürbar. Einen breiteren Überblick über Genauigkeitsgrenzen in Live-Tools bietet unser Benchmark zur Echtzeit-Übersetzungsgenauigkeit.

Gibt es eine browserbasierte Alternative für Live-Meetings?

Ja. MirrorCaption nutzt Streaming-Spracherkennung, um während Ihres Meetings in Echtzeit zu transkribieren und zu übersetzen — direkt im Browser, ohne Python, ohne Installation, ohne Warten bis zum Ende des Calls. Jeden Monat 2 Stunden kostenlos, keine Kreditkarte erforderlich: mirrorcaption.com/app.

Fazit

OpenAI Whisper gehört zu den genauesten Spracherkennungssystemen, die je öffentlich zugänglich gemacht wurden. Es ist gleichzeitig für viele potenzielle Nutzer das am schwersten zugängliche.

Wer eine aufgezeichnete Audiodatei hat und etwas Einrichtungsaufwand nicht scheut, bekommt mit Whisper — insbesondere über die OpenAI API — nahezu menschliche Transkriptionsgenauigkeit in 99 Sprachen zu minimalen Kosten.

Wer während eines Gesprächs Untertitel in Echtzeit benötigt, stößt mit Whispers Architektur an eine grundlegende Grenze. Streaming-Tools lösen genau dieses Problem — sie laufen im Browser, starten in Sekunden und erfordern keine Kommandozeile. Einen vollständigen Überblick über die besten Spracherkennungstools 2026 bietet unser großer STT-Vergleich.

Live-Transkription für Meetings — kein Setup nötig

MirrorCaption liefert Transkription und Übersetzung Wort für Wort während Ihres Calls — in jedem Browser, auf jeder Videokonferenzplattform. 2 Stunden monatlich kostenlos, ohne Kreditkarte.

MirrorCaption kostenlos testen

Wie OpenAI Whisper funktioniertverständlich erklärt