Whisper ist die bessere Wahl für die Transkription aufgenommener Audiodateien, insbesondere auf Englisch. Soniox wurde für Echtzeit-Streaming entwickelt — es liefert partielle Ergebnisse mit niedriger Latenz über WebSocket, sobald Sprache eintrifft. Wenn Untertitel erscheinen sollen, während jemand noch spricht, ist Soniox die passendere Architektur. Whisper lässt sich inzwischen auch in Realtime-Transkriptions-Workflows einsetzen, erfordert für Live-Untertitel aber meist mehr Engineering und Tuning als ein streaming-nativer STT-Stack.

Die wichtigsten Punkte

Wie Whisper und Soniox aufgebaut sind

Whisper: Der Batch-First-Transformer

OpenAI veröffentlichte Whisper im September 2022 als Open-Source-Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachigen Audios trainiert wurde. Die Architektur ist ein Encoder-Decoder-Transformer: Audio wird in ein Log-Mel-Spektrogramm umgewandelt, durch den Encoder verarbeitet und vom Decoder in Text umgewandelt.

Diese Architektur liefert bei klarem Audio hervorragende Ergebnisse, hat aber eine strukturelle Einschränkung: Der Encoder verarbeitet ein vollständiges Audio-Fenster, bevor der Decoder irgendetwas ausgibt. Whispers Standard-Fenster beträgt 30 Sekunden. In der Praxis sammeln Sie Audio, übergeben den Block an das Modell und erhalten erst dann ein Transkript — nicht Wort für Wort in Echtzeit.

Adapter wie faster-whisper reduzieren dies durch kleinere Chunks und optimierte Inferenz-Backends auf etwa 1–2 Sekunden (kleines Modell, GPU). Mit large-v3 für bessere Genauigkeit sind 2–4 Sekunden realistisch. Untertitel unter 500 ms sind mit Whisper praktisch nicht erreichbar, ohne die Genauigkeit erheblich zu opfern.

Soniox: Für Streaming gebaut, nicht nachgerüstet

Soniox ist eine kommerzielle Echtzeit-STT-API mit einer nativen Streaming-Architektur. Sie empfängt Audio über eine WebSocket-Verbindung und gibt partielle Token zurück, sobald Sprache eintrifft — noch bevor ein Satz abgeschlossen ist. Wenn jemand sagt „Das Meeting beginnt am Freitag—", hat Soniox bereits „Das", „Meeting", „beginnt" als partielle Token gesendet, bevor der Satz endet.

Merkmal OpenAI Whisper Soniox
Architektur Encoder-Decoder-Transformer (Batch) WebSocket-Streaming (partielle Token)
Echtzeit-Streaming Nein — Workarounds erforderlich Ja — nativ
Latenz (live) Mind. 1–3 s (faster-whisper, GPU) Niedrig-latente partielle Ergebnisse
Englische Genauigkeit Beste Klasse bei klarem Audio Stark bei Gesprächssprache
Sprachen 99+ Wichtige Weltsprachen
Sprechertrennung Nicht eingebaut (pyannote nötig) Nativ
Bereitstellung Self-hosted oder OpenAI-APIs (Batch + Realtime) Nur API (verwaltet)
Am besten geeignet für Aufgezeichnetes Audio, Nachbearbeitung Live-Meetings, Echtzeit-Untertitel

Echtzeit-Latenz: Der Architekturunterschied

Was „Echtzeit" je nach Ansatz bedeutet:

Diese 1–3 Sekunden machen den Unterschied zwischen einem Gesprächsprotokoll und einem echten Gespräch. Wenn Sie unterbrechen, eine Folgefrage stellen oder eine Nuance in einer Verhandlung erfassen müssen, zählt der Zeitpunkt. MirrorCaption ergänzt Soniox-Streaming mit GPT-Übersetzung — die End-to-End-Zeit von Sprache bis zum übersetzten Untertitel liegt noch immer unter 500 ms.

Erleben Sie den Latenz-Unterschied selbst. MirrorCaption ist 2 Stunden pro Monat kostenlos.

Im nächsten Meeting ausprobieren

Bereitstellung und Einrichtung

Whispers Modellgewichte sind frei verfügbar (Apache 2.0). Der Betrieb erfordert Python 3.8+, ffmpeg und pip-Abhängigkeiten. Für large-v3 benötigen Sie eine CUDA-GPU mit etwa 10 GB VRAM. Für Echtzeit-Nutzung kommen Audio-Chunking-Logik, ein WebSocket-Server und ein Streaming-Adapter wie faster-whisper hinzu.

Soniox ist ausschließlich als API verfügbar. Sie authentifizieren sich mit einem API-Schlüssel, öffnen eine WebSocket-Verbindung zu wss://stt-rt.soniox.com/transcribe-websocket, senden Audio-Frames und empfangen Token. Kein lokales Modell, keine GPU-Bereitstellung.

Für Nicht-Entwickler ist Soniox nicht direkt zugänglich — es ist eine Entwickler-API. MirrorCaption ist die Anwendungsschicht: Sie verpackt Soniox-Streaming in eine Browser-Oberfläche, sodass Sie Untertitel unter 500 ms ohne Einrichtung, Self-Hosting oder API-Schlüssel erhalten. Einen Vergleich finden Sie unter MirrorCaption vs. OpenAI Whisper sowie in unserem Leitfaden zu Whisper-Alternativen ohne Programmierung.

Preise: Open-Source ist nicht kostenlos

Whisper selbst gehostet (100 Stunden/Monat Echtzeit-Meeting):
100 Stunden = 6.000 Minuten. Eine GPU-Instanz für large-v3 in annähernder Echtzeit kostet etwa $1–2/Stunde. Bei 100 Stunden Meetingzeit: $100–200 allein für GPU-Zeit, zuzüglich Engineering-Aufwand.

OpenAI Whisper API (100 Stunden/Monat):
6.000 Minuten × $0,006 = $36/Monat. Hosting-seitig praktisch ohne Setup, und inzwischen auch mit Realtime-Transkription. Der Unterschied bleibt die Produktseite: Für eine ausgereifte Live-Untertitel-Erfahrung ist ein streaming-nativer Ansatz meist einfacher umzusetzen.

MirrorCaption (100 Stunden/Monat):
Jahresabo €29/Jahr (100 Stunden = €0,29/Stunde). Lifetime-Lizenz €49 einmalig (200 Stunden). Für gelegentliche Nutzer: 2 Stunden/Monat kostenlos.

Was sollten Sie wählen?

Whisper wählen, wenn… Soniox wählen, wenn…
Sie aufgenommene Audiodateien transkribieren Untertitel erscheinen sollen, während jemand noch spricht
Der Inhalt hauptsächlich englischsprachig und klar ist Sie mehrsprachige oder akzentbehaftete Sprache verarbeiten
Sie Python- und GPU-Infrastruktur haben Sie eine verwaltete API ohne Self-Hosting benötigen
Sie eine Batch-Transkriptionspipeline aufbauen Sie ein Echtzeit-Meeting- oder Untertitel-Tool aufbauen

Warum MirrorCaption Soniox verwendet

MirrorCaption basiert auf Soniox-Streaming-STT, weil der Anwendungsfall es verlangt. Bei einem Live-Meeting ist eine 3-Sekunden-Latenz ein inakzeptables Erlebnis. Wir haben Soniox gewählt, weil es von Anfang an für Streaming entwickelt wurde. Zusätzlich fügt MirrorCaption GPT-Übersetzung und AES-GCM-verschlüsselte temporäre API-Schlüssel hinzu — Ihr Audio fließt direkt von Ihrem Browser zu Sonioxs Servern und wird nicht auf MirrorCaptions Infrastruktur gespeichert.

Soniox-gestützte Live-Untertitel kostenlos testen

MirrorCaption bietet Soniox-Streaming und GPT-Übersetzung im Browser-Tab. 2 Stunden/Monat kostenlos. Keine Installation. Funktioniert in jedem Videoanruf und persönlichen Gespräch.

MirrorCaption kostenlos öffnen