Whisper — более сильный вариант для расшифровки записанных аудиофайлов, особенно на английском. Soniox создан для потоковой обработки в реальном времени — он выдаёт частичные результаты с низкой задержкой через WebSocket по мере поступления речи. Если вам нужно, чтобы субтитры появлялись, пока человек ещё говорит, Soniox — правильная архитектура. Whisper теперь тоже можно использовать в сценариях транскрибации в реальном времени, но для live-captioning он по-прежнему обычно требует больше инженерной работы и настройки, чем STT-стек, изначально созданный для стриминга.

Ахмад потратил три дня на интеграцию Whisper для живых субтитров на встречах. Точность была хорошей. Но субтитры появлялись через 2–4 секунды после каждого предложения — к тому моменту, когда на экране появлялось «что вы думаете о сроках по берлинскому офису?», разговор уже перешёл к бюджетам. Этот разрыв — не баг, который можно исправить. Это следствие того, как устроена архитектура Whisper.

Скорее всего, вы уже видели, как Whisper называют золотым стандартом open-source распознавания речи. Эта репутация заслужена — в правильном сценарии. В этой статье мы объясним, почему архитектура важнее benchmark-оценок, когда вам нужны субтитры на живой встрече, разберём реальную стоимость самостоятельного хостинга Whisper и дадим понятную схему выбора для вашей конкретной ситуации.

Ключевые выводы

Чем различается архитектура Whisper и Soniox

Whisper: Transformer с пакетной обработкой в основе

OpenAI выпустила Whisper в сентябре 2022 года как open-source модель ASR, обученную на 680 000 часов многоязычного аудио. Её архитектура — encoder-decoder Transformer: аудио преобразуется в log-Mel spectrogram, проходит через encoder и декодируется в текстовые токены. В оригинальной статье о Whisper описано исходное семейство моделей до large; более поздние обновления model card добавили новые чекпойнты, такие как large-v3.

Эта архитектура мощна для чистого аудио. Но у неё есть структурное ограничение: encoder обрабатывает фиксированное аудиоокно до того, как decoder вообще что-то выдаст. Окно по умолчанию у Whisper — 30 секунд. На практике вы собираете аудио в течение некоторого времени, подаёте этот фрагмент в модель и получаете транскрипт. Результат появляется после завершения фрагмента — не слово за словом по мере речи.

Сторонние адаптеры, такие как faster-whisper (на backend CTranslate2) и whisper-live, уменьшают эту задержку за счёт меньших фрагментов и перекрывающихся окон. На мощном GPU с маленькой моделью можно снизить задержку примерно до 1–2 секунд. С large-v3 для лучшей точности ожидайте минимум 2–4 секунды. Субтитры Whisper с задержкой менее 500 мс на практике недостижимы без серьёзного ущерба для той самой точности, ради которой Whisper вообще стоит использовать.

Soniox: создан для стриминга, а не адаптирован под него

Soniox — это коммерческий STT API для реального времени, спроектированный вокруг потоковой архитектуры. Он открывает WebSocket-соединение, получает аудио постепенно и возвращает частичные токены по мере поступления речи — ещё до завершения предложения. Когда кто-то говорит «Встреча начинается в пятницу—», Soniox уже выдал «Встреча», «начинается» как частичные токены. Эти токены обновляются и финализируются по мере поступления дополнительного контекста — именно поэтому субтитры ощущаются как часть разговора, а не как постобработка.

Это не Whisper с более быстрым backend для инференса. Это другая цель проектирования: частичный вывод с низкой задержкой по постоянному соединению, а не высокоточный финальный вывод после завершения полного аудиофрагмента. Если вы только знакомитесь с различиями в архитектуре, можете подробнее почитать о том, как работает Whisper на нетехническом уровне.

Функция OpenAI Whisper Soniox
Архитектура Encoder-decoder Transformer (пакетная обработка) Потоковый WebSocket (частичные токены)
Потоковая работа в реальном времени Возможна, но не является нативной Да — нативно
Задержка (в live-использовании) Мин. 1–3 с (faster-whisper, GPU) Частичные результаты с низкой задержкой
Точность на английском Лучшая в классе на чистом аудио Сильна на разговорной речи
Языки 99+ Основные мировые языки
Разделение по спикерам Не встроено (нужен pyannote) Нативно
Развёртывание Self-hosted или OpenAI APIs (batch + realtime) Только API (managed)
Open-source Да (Apache 2.0) Нет (коммерческий)
Лучше всего подходит для Записанного аудио, постобработки Живых встреч, субтитров в реальном времени

Точность: где выигрывает каждый движок

Для чистого английского аудио с чтением по тексту — подкастов, озвучки, записанных лекций с одним чётким спикером — Whisper large-v3 входит в число лучших доступных моделей, как open-source, так и коммерческих. На датасете LibriSpeech test-clean он показывает word error rate, сопоставимый с человеческой транскрибацией на читаемой речи.

Soniox настроен на разговорную речь: пересекающиеся реплики, английский с акцентом, неносители языка и переключение между языками. MirrorCaption выбрал его именно потому, что он лучше справляется с ошибками, которые действительно важны на встречах — именами собственными, техническими терминами, спикерами с ненативным акцентом — чем пакетные модели, оптимизированные под аудио в стиле аудиокниг.

Вопрос точности также неотделим от вопроса задержки. Пакетная обработка Whisper даёт ему полный контекст до фиксации любого токена, что помогает с точностью на сложных фразах. Потоковая модель Soniox должна выдавать частичные токены при неполном контексте, а затем исправлять себя. Для записи пакетный режим выигрывает по точности. Для живого разговора ожидание в 3 секунды создаёт другой тип ошибки: неправильный момент для ответа.

Одна честная оговорка: мы не проводили контролируемое прямое сравнение на одном и том же аудио живой встречи. Для опубликованных бенчмарков смотрите model card Whisper на GitHub. Для заявленных бенчмарков Soniox проверьте soniox.com напрямую. Наш более широкий разбор точности перевода в реальном времени показывает, как точность снижается в потоковых условиях у нескольких STT-движков.

Задержка в реальном времени: разрыв в архитектуре

Во время коммерческих переговоров между командой в Сан-Паулу и партнёром в Сеуле корейский руководитель сказал что-то, после чего в комнате повисла тишина. Все ждали. Переводчика на звонке не было. MirrorCaption работал во вкладке браузера — и перевод появился раньше, чем кто-то успел спросить: «что он имел в виду?» У команды было время ответить в тот же момент.

Вот что на самом деле означает «в реальном времени» для разных подходов к STT:

Этот разрыв в 1–3 секунды — разница между чтением лога и участием в разговоре. Если вам нужно перебить, задать уточняющий вопрос или уловить нюанс переговоров в моменте, тайминг имеет значение. MirrorCaption добавляет поверх потокового Soniox перевод на базе GPT — и время от речи до переведённого субтитра всё равно остаётся менее 500 мс.

Посмотрите разницу в задержке сами. MirrorCaption бесплатен на 1 час, один раз — без банковской карты.

Попробуйте на следующей встрече

Развёртывание и настройка

Запуск Whisper: что для этого реально нужно

Веса модели Whisper бесплатны (Apache 2.0). Для запуска нужны Python 3.8+, ffmpeg и зависимости pip. Для чего-то больше маленькой модели вам понадобится GPU с поддержкой CUDA: large-v3 требует примерно 10 ГБ VRAM. Для использования в реальном времени также нужна логика нарезки аудио на фрагменты, WebSocket-сервер для передачи аудио из браузера и потоковый адаптер вроде faster-whisper или whisper-live.

Кларе, PM, координирующей работу между Мюнхеном и Токио, команда разработчиков сказала: «Просто используй Whisper, он open-source». Она открыла ссылку на GitHub. Тридцать восемь Python-зависимостей. Примечание о драйверах CUDA. Отдельная страница про ffmpeg на Windows. Ей нужны были субтитры через 15 минут. Вместо этого она открыла MirrorCaption — вставила URL, нажала Start и получила живые субтитры ещё до того, как её кофе успел остыть.

Если вы разработчик, уверенно работающий с Python и облачной инфраструктурой, самостоятельный хостинг Whisper вполне реален. Если же вы создаёте продукт, где субтитры должны работать в браузере пользователя без установки сервера, вам в любом случае нужен промежуточный API-слой. В этот момент «бесплатное» преимущество open-source уже превращается в инфраструктурные расходы.

Soniox: API-first, без инфраструктуры

Soniox работает только как API. Вы проходите аутентификацию по ключу, открываете WebSocket-соединение с wss://stt-rt.soniox.com/transcribe-websocket, отправляете аудиофреймы и получаете токены. Никаких локальных весов модели, никакого выделения GPU. Разработчик может интегрировать это за один день.

Для неразработчиков сам Soniox напрямую недоступен — это API для разработчиков. Именно здесь становится актуально MirrorCaption vs OpenAI Whisper: MirrorCaption оборачивает потоковый Soniox в браузерный UI, так что вы получаете субтитры с задержкой менее 500 мс без какой-либо настройки, self-hosting или API-ключей. Для более широкого обзора решений без кода смотрите альтернативы Whisper без программирования.

OpenAI Whisper API

OpenAI предлагает транскрибацию Whisper через API по цене $0.006/минута, а также предоставляет realtime transcription sessions для whisper-1. Это снимает значительную часть инфраструктурной нагрузки. Оставшийся компромисс — архитектурный и продуктовый: Whisper по-прежнему сильнее всего на записанном аудио и постобработке, тогда как потоковый стек вроде Soniox обычно проще подходит, когда продукту нужны живые субтитры с низкой задержкой.

Цены: «Open-source» не значит бесплатно

Сравнение стоимости удивляет большинство людей, которые считают Whisper бесплатным.

Whisper self-hosted (100 часов живых встреч в месяц):
100 часов = 6 000 минут непрерывной транскрибации. Чтобы обрабатывать это в темпе встреч почти в реальном времени, вам нужен GPU-сервер, работающий во время встреч, а не просто пакетная задача. Облачный GPU-инстанс среднего уровня, способный запускать large-v3 с приемлемой скоростью (например, AWS g5.xlarge или аналог), стоит примерно $1–2/час. При 100 часах встреч в месяц это $100–200 только на GPU-время, плюс инженерное время на создание и поддержку интеграции.

OpenAI Whisper API (100 часов/месяц):
6 000 минут × $0.006 = $36/месяц. Доступно по цене и без настройки на стороне хостинга. Realtime transcription теперь тоже доступна, но создание отполированного продукта для живых субтитров поверх этого всё ещё требует больше работы, чем API, изначально созданный для стриминга.

MirrorCaption (конечный пользователь, 100 часов/месяц):
Годовой план за €29/год покрывает 100 часов (€0.29/час). Пожизненный план за €49 покрывает 200 часов единоразовым платежом. Для редких пользователей бесплатный тариф даёт 1 час (один раз) без оплаты.

Для команды с 20 часами многоязычных встреч в месяц €29/год у MirrorCaption составляют примерно €0.12/час «под ключ». Self-hosted Whisper по GPU-ценам обходится в 8–15 раз дороже — ещё до учёта времени на создание и поддержку потоковой инфраструктуры.

€49 один раз. 200 часов живых субтитров на 60+ языках. Без подписки, без инфраструктуры.

Посмотреть цены

Что выбрать?

Выбирайте Whisper, если... Выбирайте Soniox, если...
Вы расшифровываете записанные аудиофайлы (подкасты, лекции, интервью) Вам нужны субтитры, пока человек ещё говорит
Ваш контент в основном на английском и с чистым аудио Вы работаете с многоязычной речью или акцентами
У вас уже есть Python и GPU-инфраструктура Вам нужен managed API без self-hosting
Вы строите пакетный pipeline транскрибации Вы создаёте инструмент для встреч или субтитров в реальном времени
Максимальная точность на записанном аудио — главный приоритет Минимальная задержка на живом аудио — главный приоритет

Если вы конечный пользователь, а не разработчик, строящий pipeline, ни Whisper, ни Soniox напрямую недоступны без UI-слоя. MirrorCaption — это такой слой для Soniox: браузерное приложение, которое даёт вам потоковую обработку Soniox с задержкой менее 500 мс, перевод GPT на 60+ языков и определение спикеров — без установки чего-либо. Посмотрите наш обзор лучшего speech-to-text ПО в 2026 году для более широкого сравнения пользовательских инструментов.

Почему MirrorCaption использует Soniox

MirrorCaption построен вокруг потокового STT Soniox, потому что этого требует сам сценарий использования. На живой встрече задержка в 3 секунды — это сломанный опыт: перевод, появляющийся после того, как спикер уже перешёл к следующему предложению, — это не субтитр, а запоздалый лог. Мы выбрали Soniox именно потому, что он был спроектирован для стриминга с самого начала, а не адаптирован под него.

Поверх потокового Soniox MirrorCaption добавляет доработку перевода на базе GPT для поддержки 60+ языков и временные API-ключи, зашифрованные AES-GCM (TTL 2 секунды, выдаются через Supabase Edge Function), так что ваше аудио никогда не проходит через наши серверы с постоянными учётными данными. Архитектура прозрачна, потому что доверие требует конкретики: мы используем Soniox STT и OpenAI GPT. Никакого «проприетарного нейросетевого движка».

Часто задаваемые вопросы

Работает ли Whisper в реальном времени?

Частично. OpenAI теперь предоставляет realtime transcription для whisper-1, а self-hosted адаптеры могут приблизить Whisper к live-использованию. Но семейство моделей по-прежнему сильнее на записанном аудио и постобработке, чем на сверхнизкозадержочных субтитрах. Если вам нужны субтитры, которые стабильно успевают за живым разговором, потоковый движок вроде Soniox всё ещё является более простым вариантом.

Soniox точнее, чем Whisper?

В опубликованных бенчмарках на чистом английском чтении (LibriSpeech) лидирует Whisper large-v3. На разговорной речи с акцентами, переключением языков и в условиях живых встреч разрыв сокращается, и разговорная настройка Soniox становится преимуществом. Единого ответа нет — правильное сравнение заключается в том, что каждый движок делает именно с вашим аудио, а не с benchmark-датасетом. Для более глубокого разбора смотрите наш анализ точности перевода в реальном времени.

Можно ли использовать Whisper для живых субтитров на встречах?

Да, но с серьёзной настройкой. Вам нужен потоковый адаптер (faster-whisper или whisper-live), WebSocket-сервер для приёма аудио из браузера и GPU, способный быстро выполнять инференс. Даже в лучшем случае ожидайте 1–3 секунды задержки с маленькой моделью на мощном GPU. Для большинства команд инженерные затраты и стоимость инфраструктуры перевешивают ярлык «бесплатно», особенно по сравнению с managed streaming API или инструментами вроде MirrorCaption.

Какой самый дешёвый способ получить распознавание речи в реальном времени?

Бесплатный тариф MirrorCaption даёт 1 час (один раз) потоковых субтитров на базе Soniox с переводом — без банковской карты и без установки. Для разовой оценки этого достаточно большинству пользователей. Для постоянного использования годовой план за €29/год (100 часов) даёт цену €0.29/час, что дешевле self-hosted Whisper на облачном GPU при любом заметном объёме встреч.

Какой STT-движок использует MirrorCaption?

MirrorCaption использует потоковый STT Soniox через WebSocket для транскрибации и OpenAI GPT для доработки перевода и кратких итогов встреч. Временные API-ключи Soniox выдаются с TTL 2 секунды через Supabase Edge Function — ваше аудио передаётся напрямую из браузера на серверы Soniox и не хранится в инфраструктуре MirrorCaption.

Итог: Soniox и Whisper решают разные основные задачи. Whisper — правильный выбор для высокоточной пакетной транскрибации записанных файлов. Soniox — правильный выбор, когда задержка важнее идеальной офлайн-точности, а это любая живая встреча.

Попробуйте бесплатные субтитры на базе Soniox

MirrorCaption даёт вам потоковый Soniox + перевод GPT во вкладке браузера. 1 бесплатный час (один раз). Без установки. Работает в любом видеозвонке или разговоре лицом к лицу.

Открыть MirrorCaption бесплатно