Soniox vs Whisper: Echtzeit-STT im Vergleich [2026]

Whisper ist die bessere Wahl für die Transkription aufgenommener Audiodateien, insbesondere auf Englisch. Soniox wurde für Echtzeit-Streaming entwickelt — es liefert partielle Ergebnisse mit niedriger Latenz über WebSocket, sobald Sprache eintrifft. Wenn Untertitel erscheinen sollen, während jemand noch spricht, ist Soniox die passendere Architektur. Whisper lässt sich inzwischen auch in Realtime-Transkriptions-Workflows einsetzen, erfordert für Live-Untertitel aber meist mehr Engineering und Tuning als ein streaming-nativer STT-Stack.

Die wichtigsten Punkte

Whisper verarbeitet Audio in Batches und liefert abgeschlossene Transkripte; es wurde nicht für Sub-Sekunden-Streaming konzipiert.
Soniox verwendet eine WebSocket-Streaming-Architektur, die auf niedrig-latente partielle Ergebnisse ausgelegt ist.
Whisper large-v3 führt bei Genauigkeitsbenchmarks für englisches Vorlesungsaudio; Soniox ist für Gesprächssprache und mehrsprachige Unterhaltungen optimiert.
Whisper selbst zu hosten ist nicht kostenlos: Ein leistungsfähiger GPU-Server für Echtzeit-Inferenz kostet $80–200 pro Monat.
Für Live-Meeting-Untertitel ohne Einrichtungsaufwand nutzt MirrorCaption Soniox-Streaming mit unter 500 ms End-to-End-Latenz.

Wie Whisper und Soniox aufgebaut sind

Whisper: Der Batch-First-Transformer

OpenAI veröffentlichte Whisper im September 2022 als Open-Source-Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachigen Audios trainiert wurde. Die Architektur ist ein Encoder-Decoder-Transformer: Audio wird in ein Log-Mel-Spektrogramm umgewandelt, durch den Encoder verarbeitet und vom Decoder in Text umgewandelt.

Diese Architektur liefert bei klarem Audio hervorragende Ergebnisse, hat aber eine strukturelle Einschränkung: Der Encoder verarbeitet ein vollständiges Audio-Fenster, bevor der Decoder irgendetwas ausgibt. Whispers Standard-Fenster beträgt 30 Sekunden. In der Praxis sammeln Sie Audio, übergeben den Block an das Modell und erhalten erst dann ein Transkript — nicht Wort für Wort in Echtzeit.

Adapter wie faster-whisper reduzieren dies durch kleinere Chunks und optimierte Inferenz-Backends auf etwa 1–2 Sekunden (kleines Modell, GPU). Mit large-v3 für bessere Genauigkeit sind 2–4 Sekunden realistisch. Untertitel unter 500 ms sind mit Whisper praktisch nicht erreichbar, ohne die Genauigkeit erheblich zu opfern.

Soniox: Für Streaming gebaut, nicht nachgerüstet

Soniox ist eine kommerzielle Echtzeit-STT-API mit einer nativen Streaming-Architektur. Sie empfängt Audio über eine WebSocket-Verbindung und gibt partielle Token zurück, sobald Sprache eintrifft — noch bevor ein Satz abgeschlossen ist. Wenn jemand sagt „Das Meeting beginnt am Freitag—", hat Soniox bereits „Das", „Meeting", „beginnt" als partielle Token gesendet, bevor der Satz endet.

Merkmal	OpenAI Whisper	Soniox
Architektur	Encoder-Decoder-Transformer (Batch)	WebSocket-Streaming (partielle Token)
Echtzeit-Streaming	Nein — Workarounds erforderlich	Ja — nativ
Latenz (live)	Mind. 1–3 s (faster-whisper, GPU)	Niedrig-latente partielle Ergebnisse
Englische Genauigkeit	Beste Klasse bei klarem Audio	Stark bei Gesprächssprache
Sprachen	99+	Wichtige Weltsprachen
Sprechertrennung	Nicht eingebaut (pyannote nötig)	Nativ
Bereitstellung	Self-hosted oder OpenAI-APIs (Batch + Realtime)	Nur API (verwaltet)
Am besten geeignet für	Aufgezeichnetes Audio, Nachbearbeitung	Live-Meetings, Echtzeit-Untertitel

Echtzeit-Latenz: Der Architekturunterschied

Was „Echtzeit" je nach Ansatz bedeutet:

Whisper Standard (30-Sekunden-Fenster): 5–30 Sekunden Verzögerung. Das Modell wartet auf ein vollständiges Audio-Chunk.
faster-whisper, kleines Modell, GPU: ca. 1–2 Sekunden. Verbessert, aber weiterhin Batch-Modus.
Soniox WebSocket-Streaming: Partielle Ergebnisse kommen schnell genug für echte Live-Untertitel; MirrorCaptions übersetzte End-to-End-Untertitel bleiben unter 500 ms.

Diese 1–3 Sekunden machen den Unterschied zwischen einem Gesprächsprotokoll und einem echten Gespräch. Wenn Sie unterbrechen, eine Folgefrage stellen oder eine Nuance in einer Verhandlung erfassen müssen, zählt der Zeitpunkt. MirrorCaption ergänzt Soniox-Streaming mit GPT-Übersetzung — die End-to-End-Zeit von Sprache bis zum übersetzten Untertitel liegt noch immer unter 500 ms.

Erleben Sie den Latenz-Unterschied selbst. MirrorCaption ist 2 Stunden pro Monat kostenlos.

Im nächsten Meeting ausprobieren

Bereitstellung und Einrichtung

Whispers Modellgewichte sind frei verfügbar (Apache 2.0). Der Betrieb erfordert Python 3.8+, ffmpeg und pip-Abhängigkeiten. Für large-v3 benötigen Sie eine CUDA-GPU mit etwa 10 GB VRAM. Für Echtzeit-Nutzung kommen Audio-Chunking-Logik, ein WebSocket-Server und ein Streaming-Adapter wie faster-whisper hinzu.

Soniox ist ausschließlich als API verfügbar. Sie authentifizieren sich mit einem API-Schlüssel, öffnen eine WebSocket-Verbindung zu wss://stt-rt.soniox.com/transcribe-websocket, senden Audio-Frames und empfangen Token. Kein lokales Modell, keine GPU-Bereitstellung.

Für Nicht-Entwickler ist Soniox nicht direkt zugänglich — es ist eine Entwickler-API. MirrorCaption ist die Anwendungsschicht: Sie verpackt Soniox-Streaming in eine Browser-Oberfläche, sodass Sie Untertitel unter 500 ms ohne Einrichtung, Self-Hosting oder API-Schlüssel erhalten. Einen Vergleich finden Sie unter MirrorCaption vs. OpenAI Whisper sowie in unserem Leitfaden zu Whisper-Alternativen ohne Programmierung.

Preise: Open-Source ist nicht kostenlos

Whisper selbst gehostet (100 Stunden/Monat Echtzeit-Meeting):
100 Stunden = 6.000 Minuten. Eine GPU-Instanz für large-v3 in annähernder Echtzeit kostet etwa $1–2/Stunde. Bei 100 Stunden Meetingzeit: $100–200 allein für GPU-Zeit, zuzüglich Engineering-Aufwand.

OpenAI Whisper API (100 Stunden/Monat):
6.000 Minuten × $0,006 = $36/Monat. Hosting-seitig praktisch ohne Setup, und inzwischen auch mit Realtime-Transkription. Der Unterschied bleibt die Produktseite: Für eine ausgereifte Live-Untertitel-Erfahrung ist ein streaming-nativer Ansatz meist einfacher umzusetzen.

MirrorCaption (100 Stunden/Monat):
Jahresabo €29/Jahr (100 Stunden = €0,29/Stunde). Lifetime-Lizenz €49 einmalig (200 Stunden). Für gelegentliche Nutzer: 2 Stunden/Monat kostenlos.

Was sollten Sie wählen?

Whisper wählen, wenn…	Soniox wählen, wenn…
Sie aufgenommene Audiodateien transkribieren	Untertitel erscheinen sollen, während jemand noch spricht
Der Inhalt hauptsächlich englischsprachig und klar ist	Sie mehrsprachige oder akzentbehaftete Sprache verarbeiten
Sie Python- und GPU-Infrastruktur haben	Sie eine verwaltete API ohne Self-Hosting benötigen
Sie eine Batch-Transkriptionspipeline aufbauen	Sie ein Echtzeit-Meeting- oder Untertitel-Tool aufbauen

Warum MirrorCaption Soniox verwendet

MirrorCaption basiert auf Soniox-Streaming-STT, weil der Anwendungsfall es verlangt. Bei einem Live-Meeting ist eine 3-Sekunden-Latenz ein inakzeptables Erlebnis. Wir haben Soniox gewählt, weil es von Anfang an für Streaming entwickelt wurde. Zusätzlich fügt MirrorCaption GPT-Übersetzung und AES-GCM-verschlüsselte temporäre API-Schlüssel hinzu — Ihr Audio fließt direkt von Ihrem Browser zu Sonioxs Servern und wird nicht auf MirrorCaptions Infrastruktur gespeichert.

Soniox-gestützte Live-Untertitel kostenlos testen

MirrorCaption bietet Soniox-Streaming und GPT-Übersetzung im Browser-Tab. 2 Stunden/Monat kostenlos. Keine Installation. Funktioniert in jedem Videoanruf und persönlichen Gespräch.

MirrorCaption kostenlos öffnen

Soniox vs Whisper:Echtzeit-STT im Vergleich