Can I use Speechmatics without coding?

No. Speechmatics is an API-only platform that requires API credentials and code to call its WebSocket or REST endpoints. There is no standalone desktop app or ready-made meeting UI included.

Is there a free trial of MirrorCaption?

Yes. Every new MirrorCaption account includes 1 hour of hosted transcription credit — one-time, no monthly reset, no credit card required. Upgrade to Annual (€54.99/year) or Premium (€99 one-time) for more hours.

Does MirrorCaption work with Zoom, Teams, and Google Meet?

Yes. MirrorCaption Meet mode captures audio from a browser tab in desktop Chrome or Microsoft Edge, so it works alongside browser-based Zoom, Teams, Google Meet, and Webex without joining the call as a bot.

What languages does MirrorCaption support?

MirrorCaption supports 50+ selectable languages including Mandarin, Japanese, Korean, Arabic, Hebrew, Hindi, Russian, Spanish, French, German, Portuguese, and more.

Does MirrorCaption store my meeting audio?

No. Audio is streamed through your browser for real-time transcription and then discarded. Transcripts are saved locally in your browser. Meeting audio is never stored on MirrorCaption servers.

Speechmatics Alternative: MirrorCaption für Meetings

MirrorCaption ist die Speechmatics-Alternative für Echtzeit-Spracherfassung ohne Code — Speechmatics Pro startet bei 0,24 $ pro Stunde für den reinen API-Zugriff, während MirrorCaption eine fertige Browser-App mit bilingualen Untertiteln in unter einer Sekunde, einer nebeneinander angezeigten Übersetzung und einem einmaligen Premium-Plan für 99 € ist. Diese Seite richtet sich an die Person im Meeting, nicht an den Entwickler, der das Meeting-Tool baut.

Wichtige Erkenntnisse

Speechmatics ist eine Entwickler-API — sie liefert JSON-Transkripte ohne Meeting-UI oder bilingualen Anzeigemodus
MirrorCaption ist eine Browser-App, die jeder öffnen kann; Untertitel in unter einer Sekunde erscheinen ohne Code
Speechmatics Pro in Echtzeit kostet ab 0,24 $/Std.; MirrorCaption Premium kostet einmalig 99 € für 200 Std. gehostetes Transkriptionsguthaben
MirrorCaption zeigt Original und Übersetzung nebeneinander; tippe auf ein übersetztes Wort, um das Quellwort zu sehen, aus dem es stammt
Der Meet-Modus erfasst Browser-Tab-Audio in Desktop-Chrome oder Edge — kein Bot im Meeting, keine Admin-Installation für andere Teilnehmer nötig

Was Speechmatics tatsächlich ist

Speechmatics ist eine Enterprise-Plattform für Sprach-KI — genauer gesagt eine Entwickler-API. Du authentifizierst dich mit einem API-Schlüssel, verbindest dich mit einem WebSocket-Endpunkt, streamst Audio und erhältst Transkripte und Übersetzungen als strukturierte Daten. Es gibt keine herunterladbare App, kein Browser-Widget und keine mit dem Produkt ausgelieferte Meeting-Integration. Es ist Infrastruktur, auf der du aufbaust.

Dieses Design ist Absicht. Speechmatics richtet sich an Entwickler, die sprachfähige Produkte bauen: Call-Center-Intelligence-Plattformen, Live-Untertitelung für Broadcasts, Tools für klinische Dokumentation und Pipelines für Voice Agents. Für diese Anwendungsfälle ist eine flexible API mit 56+ unterstützten Sprachen, Übersetzungsunterstützung über die API und starken Genauigkeitsversprechen genau das richtige Werkzeug.

Ihre veröffentlichten Benchmarks sind es wert, ernst genommen zu werden. G2-Rezensenten geben Speechmatics 4,8 von 5 Punkten und loben durchgehend die Genauigkeit bei akzentierter und mehrsprachiger Sprache, den reaktionsschnellen Support und die Modellleistung. Ihre ISO-27001-, GDPR-, HIPAA- und SOC-2-Type-II-Zertifizierungen sind echte Compliance-Nachweise für regulierte Branchen.

All diese Funktionen werden als API-Endpunkt bereitgestellt. Wenn du möchtest, dass Transkription in deinem nächsten Meeting — heute Nachmittag — funktioniert, reicht die API allein nicht aus.

Was du aufgibst, wenn es kein Frontend gibt

Keine Untertitelanzeige im Gespräch

Wenn Speechmatics dein Audio verarbeitet, liefert es den Transkripttext an den von dir konfigurierten Endpunkt. Es öffnet kein Fenster in deinem Browser. Es blendet keine Untertitel über dein Zoom- oder Teams-Meeting ein. Es zeigt keine bilinguale Ansicht nebeneinander an.

Untertitel neben einem Meeting anzuzeigen erfordert den Bau einer Browser-Erweiterung, einer Electron-App oder einer benutzerdefinierten Webseite, die die API aufruft und die Ausgabe in Echtzeit rendert. Das ist ein Engineering-Projekt — und sobald man Wiederverbindungslogik, Latenzausgleich und Sprecherkennzeichnung berücksichtigt, kein triviales.

Übersetzung kommt als Rohtext an

Speechmatics gibt übersetzten Text zusammen mit dem Quelltranskript im selben API-Antwort-Payload zurück. Technisch ist das elegant. Aber ein Layout nebeneinander, die Verknüpfung auf Wortebene mit der Quelle und die Möglichkeit, auf ein übersetztes Wort zu tippen, um zu sehen, woher es im Original stammt — das sind UI-Funktionen, die in der API-Antwort nicht existieren. Jede einzelne davon ist ein eigener Design- und Entwicklungs-Sprint, bevor sie in einem Meeting nutzbar ist.

Die Kosten pro Minute summieren sich im kleinen Maßstab

Bei 0,24 $ pro Stunde für Pro in Echtzeit kosten 200 Stunden API-Nutzung ungefähr 48 $. Diese Zahl wirkt überschaubar, bis man bedenkt, dass man dafür rohe Rechenleistung und Transkriptionsdaten erhält, die an einen Endpunkt geliefert werden — ohne UI, ohne Zusammenfassungen und ohne Vokabel-Builder. Eine Fachkraft, die drei bis vier mehrsprachige Calls pro Woche besucht, sammelt etwa 12 Stunden pro Monat an, was bei der reinen Speechmatics-API ungefähr 3 $/Monat entspricht — aber zusammen mit den laufenden Frontend-Entwicklungskosten sieht die Gesamtinvestition ganz anders aus.

Beispielszenario

Eine freiberufliche Dolmetscherin testet die Speechmatics-API für Videocalls mit Kunden. Die Genauigkeit bei Deutsch-Englisch-Paaren ist ausgezeichnet. Drei Wochen später prototypisiert sie immer noch eine Anzeigeschicht — eine benutzerdefinierte Seite, die Untertitel neben dem Browser-Tab rendert, in dem die Meetings stattfinden. In der Zwischenzeit liefen die Meetings einfach weiter. Die Entscheidung wurde schließlich: weiterbauen oder etwas bereits Fertiges nutzen. Speechmatics war für ihre Situation nicht falsch. Es war für eine andere Rolle im Stack gedacht.

Wie MirrorCaption als Speechmatics-Alternative funktioniert

MirrorCaption ist das fertige Produkt, das ein Entwickler irgendwann auf Basis einer Sprach-API bauen würde — nur dass es bereits gebaut ist und als Browser-App ausgeliefert wird. Es übernimmt Echtzeitübersetzung für mehrsprachige Remote-Teams, ohne dass du Backend-Arbeit leisten musst.

So sieht eine erste Sitzung aus [Beispiel-Workflow]:

mirrorcaption.com/app in Desktop-Chrome oder Microsoft Edge öffnen
Den Modus „Meet“ auswählen, um das Audio deines Meeting-Tabs zu erfassen, oder „Talk“, um dein Mikrofon zu verwenden
Eine Ausgangssprache und eine Zielsprache aus 50+ auswählbaren Optionen wählen
Deinen Zoom-, Teams-, Google-Meet- oder Webex-Call in einem separaten Browser-Tab starten
Untertitel erscheinen Wort für Wort innerhalb einer Sekunde nach dem Sprechen — Original links, Übersetzung rechts
Auf ein beliebiges übersetztes Wort tippen, um das genaue Quellwort anzuzeigen, aus dem es stammt

Während das Meeting fortschreitet, aktualisiert sich eine KI-Zusammenfassung automatisch in der Seitenleiste — nützlich, wenn du spät dazugestoßen bist oder zwischen Abschnitten aufholen musst. Wörter, die du dir merken möchtest, können für später in einem Vokabel-Builder gespeichert werden.

Das Meeting-Audio wird für die Echtzeitverarbeitung über deinen Browser gestreamt und danach verworfen. Transkripte werden lokal in deinem Browser gespeichert. MirrorCaption tritt niemals als Bot dem Call bei, daher sehen andere Teilnehmer es nicht in der Teilnehmerliste.

Überzeuge dich selbst: Jedes neue Konto enthält 1 kostenlose Stunde gehosteter Transkription — keine Kreditkarte erforderlich, kein monatlicher Reset. MirrorCaption kostenlos öffnen →

Funktionsvergleich — Speechmatics vs. MirrorCaption

Funktion	MirrorCaption	Speechmatics
Für wen es gedacht ist	Jeder mit einem Browser	Entwickler, die Produkte bauen
Einrichtung	Einen Browser-Tab öffnen	API-Schlüssel + Code + benutzerdefiniertes Frontend
Untertitelanzeige im Gespräch	✓ In unter einer Sekunde, im Browser	Selbst bauen
Übersetzung nebeneinander	✓ Ansicht mit Original + Übersetzung	Rohtext in der API-Antwort
Tippen, um Quellwort zu sehen	✓	Nicht enthalten
KI-Meeting-Zusammenfassungen	✓ Aktualisiert sich automatisch	Nicht enthalten
Sprachen	50+ auswählbar	56+ STT-Sprachen; Übersetzung über API
Sprechererkennung	✓	✓ über API
Vokabel-Builder	✓	Nicht enthalten
Kein Bot im Meeting	✓ Browser-Tab-Erfassung	Hängt von deiner Architektur ab
Face-to-Face-Modus	✓ Talk-Modus auf mobilem Chrome	Nicht enthalten
Kostenlose Stufe	1 Std. gehostetes Guthaben, keine Kreditkarte	2.400 Min./Monat (Programmierung erforderlich)
Preisgestaltung	€99 einmalig Premium (200 Std. Guthaben)	Ab 0,24 $/Std. in Echtzeit
Compliance	Audio wird serverseitig nicht gespeichert	ISO 27001, GDPR, HIPAA, SOC 2 Type II

Preisvergleich

Speechmatics: nutzungsabhängige API-Abrechnung

Der Pro-Plan von Speechmatics beginnt bei 0,24 $ pro Stunde für Echtzeit-Transkription. Eine kostenlose Stufe bietet 2.400 Minuten (40 Stunden) pro Monat, aber die Nutzung erfordert von Anfang an API-Zugangsdaten und Code. Es gibt keine Möglichkeit, Speechmatics ohne Entwickler-Setup auszuprobieren.

Rabattierte Preise sind in kostenpflichtigen Plänen verfügbar, und Enterprise-Preise gibt es für höhere Volumina. Wenn du Tausende Stunden Audio in einem Produkt verarbeitest, das du baust, werden diese Rabatte relevant. Die Preisstruktur ist genau für diesen Maßstab und dieses Nutzungsmuster ausgelegt.

MirrorCaption: ein Preis, vollständiges Produkt

Die Preisgestaltung von MirrorCaption basiert auf gehosteten Transkriptions-Guthabenstunden:

Kostenlos: 1 Stunde gehostete Transkription, einmalig, kein monatlicher Reset, keine Kreditkarte. Voller Zugriff auf die Modi Meet und Talk, 50+ auswählbare Sprachen, Sprechererkennung, KI-Zusammenfassungen und Vokabel-Builder.
Jährlich — 54,99 €/Jahr: 100 Stunden gehostetes Transkriptionsguthaben inklusive. Alle aktuellen Funktionen und ein Jahr Produkt-Updates.
Premium — 99 € einmalig: 200 Stunden gehostetes Transkriptionsguthaben inklusive. Alle zukünftigen Produkt-Updates mit Prioritätszugang, sobald sie erscheinen. Premium ist außerdem der kosteneffizienteste Plan für Voice Pack-Aufladungen — der Stundenpreis ist bei Premium am niedrigsten.
Voice Packs (auf allen Plänen separat erhältlich): 5 Stunden für 2,99 € (0,60 €/Std.), 15 Stunden für 7,99 € (0,53 €/Std.). Jederzeit aufladen, kein Abonnement erforderlich.

Der wichtigste Vergleich: 200 Stunden Speechmatics-Pro-API-Nutzung kosten ungefähr 48 $ — und diese 48 $ liefern rohe Transkriptionsdaten an einen Endpunkt ohne enthaltene UI. 200 Stunden MirrorCaption Premium kosten einmalig 99 € und beinhalten die vollständige bilinguale Anzeige, KI-Zusammenfassungen, den Vokabel-Builder, Sprechererkennung und alle zukünftigen Funktionen. Premium bedeutet nicht unbegrenzte gehostete Transkription für immer — sobald das 200-Stunden-Guthaben aufgebraucht ist, kommen zusätzliche Stunden aus Voice Packs (separat erhältlich) zum besten Stundenpreis, der in einem MirrorCaption-Plan verfügbar ist.

Wann Speechmatics die richtige Wahl ist

Speechmatics ist für bestimmte Anwendungsfälle eine ausgezeichnete Wahl. Ziehe es in Betracht, wenn:

du ein Produkt baust, das im Backend eine Sprach-API benötigt — Contact-Center-Software, Broadcast-Untertitelung, klinische Dokumentation oder eine Voice-Agent-Pipeline
du Enterprise-Compliance-Zertifizierungen brauchst — HIPAA, SOC 2 Type II, ISO 27001 — für eine regulierte Branche und ein Engineering-Team hast, das das Frontend umsetzt
dein Nutzungsvolumen mehrere hundert Stunden pro Monat übersteigt, wo die Volumenpreise von Speechmatics vorteilhaft werden
du eine benutzerdefinierte Vokabelkontrolle auf API-Ebene brauchst — domänenspezifische Produktnamen, klinische Terminologie oder Eigennamen, die Standardmodelle übersehen

Für diese Szenarien ist Speechmatics eine echte Top-Wahl. Die Genauigkeitsversprechen und Compliance-Nachweise werden durch veröffentlichte Benchmarks und Zertifizierungen gestützt.

Du baust kein Produkt?

Wenn du in deinem nächsten Meeting Live-Untertitel in zwei Sprachen brauchst — kein API-Integrationsprojekt — ist MirrorCaption jetzt bereit. Kein Code. Kein Bot. Eine kostenlose Stunde zum Start.

MirrorCaption kostenlos testen

Wann MirrorCaption die richtige Wahl ist

Wähle MirrorCaption, wenn:

du die Person im Meeting bist, nicht der Entwickler, der das Meeting-Tool baut — du brauchst bilinguale Untertitel in deinem nächsten Call, nicht nach einem Engineering-Sprint
dein Team mehrsprachige Calls führt auf browserbasiertem Zoom, Teams, Google Meet oder Webex, und alle während des Calls in ihrer eigenen Sprache folgen müssen
deine IT-Richtlinie Bots vom Beitritt zu Meetings ausschließt — MirrorCaption nutzt Browser-Tab-Audioerfassung, sodass die meisten Teams ohne IT-Freigabeantrag selbst starten können
du eine einmalige Zahlung möchtest statt laufender API-Abrechnung — 99 € Premium ersetzt eine offene, minutenbasierte Abrechnungsbeziehung
du Sprachlernender oder grenzüberschreitend tätig bist und Original und Übersetzung nebeneinander sehen sowie aus echten Gesprächen Vokabeln aufbauen möchtest

Für einen breiteren Vergleich der Tools in diesem Bereich siehe unseren Leitfaden zur mehrsprachigen Transkription, der die gesamte Landschaft der Optionen für nicht-englische Meetings abdeckt.

Beispielszenario

Eine Produktmanagerin in einem europäischen Unternehmen führt wöchentliche Abstimmungen mit einem Lieferanten in Japan durch. Früher erforderte das Meeting einen Dolmetscher, der sich als dritte Partei einwählte. Mit MirrorCaption, geöffnet in einem Browser-Tab, liest sie japanische Sprache Wort für Wort ins Englische übersetzt, während ihr Gegenüber spricht. Er liest ihre englische Sprache auf seinem eigenen Bildschirm ins Japanische übersetzt. Keiner musste etwas installieren; keiner musste einen Bot einladen. Die Dolmetscherzeit wurde durch 40 Minuten direkter Unterhaltung ersetzt.

Häufig gestellte Fragen

Kann ich Speechmatics ohne Programmierung verwenden?

Nein. Speechmatics ist eine reine API-Plattform. Die Nutzung erfordert API-Zugangsdaten, Code zum Aufruf der WebSocket- oder REST-Endpunkte und ein benutzerdefiniertes Frontend zur Anzeige der Ergebnisse. Es gibt keine eigenständige Desktop-App oder Browser-Erweiterung. Wenn du Transkription ohne Code brauchst, sind Tools wie MirrorCaption oder Otter.ai für genau diesen Anwendungsfall gemacht.

Gibt es eine kostenlose Testphase für MirrorCaption?

Ja. Jedes neue MirrorCaption-Konto enthält 1 Stunde gehostetes Transkriptionsguthaben — einmalig, kein monatlicher Reset, keine Kreditkarte erforderlich. Das reicht aus, um ein komplettes Meeting von Anfang bis Ende durchzuführen und die bilinguale Anzeige, die KI-Zusammenfassung und die Sprechererkennung zu bewerten. Wechsle zu Annual (54,99 €/Jahr, 100 Std.) oder Premium (99 € einmalig, 200 Std.), wenn du mehr brauchst.

Funktioniert MirrorCaption mit Zoom, Teams und Google Meet?

Ja. Der MirrorCaption-Meet-Modus erfasst Audio aus einem Browser-Tab in Desktop-Chrome oder Microsoft Edge, sodass er zusammen mit browserbasiertem Zoom, Teams, Google Meet und Webex funktioniert. MirrorCaption tritt dem Call nicht als Teilnehmer bei — es läuft in einem separaten Tab und liest das Audio, das dein Browser bereits verarbeitet. Andere Teilnehmer sehen es im Meeting nicht.

Welche Sprachen unterstützt MirrorCaption?

MirrorCaption unterstützt 50+ auswählbare Sprachen, darunter Mandarin, Japanisch, Koreanisch, Arabisch, Hebräisch, Hindi, Russisch, Spanisch, Französisch, Deutsch, Portugiesisch und mehr. Sowohl die Transkriptions-Quelle als auch das Übersetzungsziel sind unabhängig auswählbar, sodass du jedes vom Meeting benötigte Sprachpaar konfigurieren kannst.

Speichert MirrorCaption mein Meeting-Audio?

Nein. Audio wird für die Echtzeit-Transkription über deinen Browser gestreamt und danach verworfen. Transkripte werden lokal in deinem Browser mit IndexedDB gespeichert — die Daten gehören dir. Meeting-Audio wird niemals auf den Servern von MirrorCaption gespeichert. Die einzigen serverseitig aufbewahrten Daten sind die für die Abrechnung benötigten Kontingentminuten. Für weiteren Kontext zum Datenschutz bei KI-Tools siehe unseren Überblick zum Datenschutz bei KI-Meetings.

Das Fazit

Speechmatics und MirrorCaption konkurrieren nicht um dieselbe Aufgabe. Speechmatics ist Infrastruktur für Teams, die Sprach-KI in Produkte integrieren. Seine Genauigkeits-Benchmarks, Compliance-Zertifizierungen und API-Flexibilität sind für diesen Anwendungsfall echte Vorteile. Für Entwickler, die eine zuverlässige, genaue Sprach-API auf Enterprise-Niveau brauchen, verdient es seinen Ruf.

MirrorCaption ist für die Person im Meeting. Es liefert die bilinguale Anzeige, Untertitel in unter einer Sekunde, KI-Zusammenfassungen und den Vokabel-Builder, deren Aufbau auf einer rohen API sonst Monate dauern würde. Du öffnest einen Browser-Tab, und es funktioniert.

Wenn du nach einer Speechmatics-Alternative suchst, weil du in deinem nächsten Meeting Echtzeit-Untertitel in mehreren Sprachen willst — nicht ein API-Integrationsprojekt — ist die kostenlose Stunde der schnellste Weg zu sehen, ob MirrorCaption passt.

Starte dein erstes Meeting

1 kostenlose Stunde gehosteter Transkription. Keine Kreditkarte. Kein monatlicher Reset. Keine Installation für andere Teilnehmer.

MirrorCaption kostenlos öffnen

MirrorCaption vs. Speechmatics