По большинству критериев оценки в 2026 году ни один инструмент ИИ-транскрипции не лидирует во всём сразу. Для чистого английского аудио Whisper Large v3 и Deepgram Nova-2 показывают наилучшую частоту ошибок — около 3–6%. Для многоязычных совещаний с результатами в реальном времени потоковые многоязычные инструменты STT, такие как MirrorCaption, работают наиболее стабильно на не-английских языках. Какой инструмент наиболее точен для вас — зависит от того, когда вам нужна расшифровка и какие языки используют ваши участники.

В прошлом сентябре Надя столкнулась с проблемой, которую большинство тестов точности не улавливают. Она руководит программой качественных исследований в берлинском университете и искала инструмент транскрипции для 45-минутных интервью с учёными-иностранцами — инженерами, чей английский технически беглый, но с сильным акцентом. Whisper Large v3 выдал наиболее чистый результат на её тестовом фрагменте: один носитель английского языка, тихая комната, подготовленный текст. Она запустила ту же модель на 40-минутном интервью с японским авиационным инженером. Девятнадцать ошибок в именах собственных. Два предложения выпали полностью. Модель со вторым по качеству результатом WER в лабораторных условиях оказалась той, которой она доверилась в реальной работе.

В этом сравнении оцениваются семь инструментов в четырёх условиях звука: чистая студийная запись на английском, смоделированный звонок Zoom, двуязычное переключение между английским и китайским и не-носитель английского языка. Вот что показывают данные, где каждый инструмент даёт сбой и какой подходит для каждого сценария использования.

Ключевые выводы

Что на самом деле означает «точность транскрипции»

Частота ошибок по словам (WER): объяснение

Частота ошибок по словам — стандартная метрика точности распознавания речи. Формула: подсчитайте замены (неверное слово), вставки (лишнее слово) и пропуски (пропущенное слово), затем разделите на общее количество слов в эталоне. WER 5% означает примерно пять ошибок на 100 слов. На совещании в 1 200 слов это 60 ошибок — одни безобидны («the» против «a»), другие критичны («мы одобрим это» против «мы рассмотрим это»).

Опубликованные значения WER обычно получены на контролируемых наборах данных, таких как LibriSpeech (чистая речь при чтении) или Common Voice. Реальные совещания иные: аудио, сжатое кодеками Zoom или Teams, несколько перебивающих друг друга участников, иностранные акценты, фоновый шум и профессиональный жаргон, которого не было в обучающих данных модели. WER в условиях совещания обычно в 2–3 раза выше лабораторного WER для каждого инструмента из этого списка.

Вопрос важнее, чем WER

Прежде чем сравнивать показатели точности, ответьте на вопрос: вам нужна расшифровка во время совещания или после? Потоковый инструмент с WER 7%, доставляющий результаты пока говорящий ещё разговаривает, часто полезнее для принятия решений на совещании, чем пакетный инструмент с WER 4%, который приходит через десять минут после. Точность — это вопрос времени не меньше, чем вопрос частоты ошибок. Наша дополнительная статья о точности перевода в реальном времени подробно рассматривает этот компромисс.

Как мы оценивали эти инструменты

Мы прогоняли каждый инструмент через четыре аудиосценария:

  1. Чистая студия, один носитель английского языка, контролируемая акустическая среда
  2. Условия совещания, смоделированный звонок Zoom, два носителя английского языка, лёгкий фоновый шум
  3. Двуязычный обмен, переключение между английским и китайским, по одному носителю каждого языка
  4. Не-носитель английского, японский говорящий среднего и продвинутого уровня владения английским

Оцениваемые инструменты: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2 и MirrorCaption. Диапазоны WER в этой статье основаны на опубликованных академических тестах, документации производителей и наших собственных испытаниях. Мы указываем диапазоны, а не точечные оценки, поскольку точность существенно меняется в зависимости от условий аудио — воспринимайте их как ориентировочные, а не окончательные, и тестируйте на собственном контенте перед выбором инструмента.

Посмотрите, как MirrorCaption справляется с вашими совещаниями

2 часа бесплатно в месяц. Без установки. Любой браузер.

Попробовать бесплатно

Сравнение точности ИИ-транскрипции: результаты 2026 года

В таблице ниже суммированы приблизительные значения WER по условиям тестирования, возможность работы в реальном времени, охват языков и является ли инструмент готовым продуктом для пользователя или только API для разработчиков.

Инструмент WER (чистый EN) WER (совещание) Реальное время Языки Готовый продукт
Whisper Large v3 ~3–5% ~12–18% Нет (пакетный) 99 Нет (нужен разраб.)
Deepgram Nova-2 ~4–6% ~7–12% Да (API) 36 Нет (только API)
AssemblyAI Universal-2 ~5–8% ~8–13% Частично 17 Нет (только API)
Otter.ai ~8–12% ~10–16% Да Преим. EN Да
MirrorCaption ~5–8% ~7–12% Да (<500мс) 60+ Да
Fireflies.ai ~9–14% ~11–17% Нет (после звонка) 60+ (после звонка) Да
Zoom AI Companion ~9–13% ~11–16% Частично ~8 Да (корпоратив.)

Диапазоны WER являются приблизительными, основанными на опубликованных тестах, в том числе HuggingFace Open ASR Leaderboard, техническом отчёте OpenAI по Whisper, документации производителей и наших собственных тестах. Реальные значения варьируются в зависимости от качества аудио, характеристик говорящего и словарного состава.

Три вещи бросаются в глаза. Первое: разрыв между чистым аудио и условиями совещания больше, чем предполагают большинство заявлений производителей — скачок Whisper с ~4% до ~15% значителен, поскольку это пакетная модель, не предназначенная для шума совещания. Второе: инструменты только с API (Deepgram, AssemblyAI) стабильно превосходят потребительские продукты по чистому WER, но требуют инженерной работы для развёртывания. Третье: широкий охват языков и возможность работы в реальном времени редко сочетаются вместе — инструментов, предлагающих и то, и другое, крайне мало.

Разбор каждого инструмента

1. OpenAI Whisper Large v3

Whisper — эталон точности для чистого английского аудио. OpenAI обучил его на 680 000 часах многоязычного веб-аудио, что обеспечивает высокую производительность на акцентированной речи в пределах его обучающего распределения. На тестах чистой читаемой речи Whisper Large v3 достигает WER менее 5%. На корпусе AMI — наборе данных реальных многосторонних совещаний — WER повышается до диапазона 12–18%, поскольку Whisper является пакетной моделью: она обрабатывает полные аудиосегменты, а не живые потоки.

Принципиальное ограничение: Whisper — это модель, а не продукт. Для работы с ней нужны Python, вычислительные ресурсы и время разработчиков. Развёртывание в реальном времени требует дополнительной инженерной работы. Если у вас это есть, Whisper отличен для английского. Если нет — смотрите ниже. Для практического сравнения прочитайте нашу страницу MirrorCaption vs. Whisper.

2. Deepgram Nova-2

Nova-2 от Deepgram — сильнейший вариант для разработчиков, работающих с точностью потоковой передачи в реальном времени. На чистом английском он достигает ~4–6% WER и сохраняет конкурентоспособную производительность в условиях совещания (~7–12%), поскольку Deepgram специально оптимизирован для телефонного и конференц-аудио. Задержка потоковой передачи — менее 300 мс. Поддержка 36 языков достаточна для многих команд, но недостаточна для широкого многоязычного охвата.

Ограничение идентично Whisper: это API. Вы платите за поток данных, вокруг которого ваша инженерная команда должна построить, отрендерить и поддерживать весь продукт. Нет UI, нет меток говорящих по умолчанию, нет слоя ИИ-резюме. Ценообразование ~$0,0043/мин накапливается при больших объёмах.

3. AssemblyAI Universal-2

AssemblyAI предлагает сильную диаризацию говорящих, важную для расшифровок совещаний, где знание того, кто что сказал, важно столь же, сколько само содержание. Universal-2 достигает ~5–8% WER на чистом аудио. Потоковая передача в реальном времени доступна, но менее зрелая, чем у Deepgram. При 17 поддерживаемых языках это существенное ограничение для международных команд. Как и Deepgram, требует интеграции разработчиков — готового продукта для конечного пользователя нет.

4. Otter.ai

Лучший выбор для команд только на английском

Otter — стандартный потребительский выбор для транскрипции совещаний на английском. WER на чистом американском английском устойчив — около 8–12% в условиях совещания, конкурентоспособно для потребительского продукта. OtterPilot автоматически подключается к совещаниям, записывает аудио и генерирует заметки и задачи с метками говорящих. Интеграция календаря с Zoom, Google Meet и Teams стабильна.

Слабые места проявляются сразу за пределами английского. Otter не предлагает перевод в реальном времени, а качество транскрипции на не-английских языках значительно хуже, чем на английском. При $16,99/месяц с пользователя стоимость накапливается для команд. Полное пофункциональное сравнение — в нашей статье MirrorCaption vs. Otter.ai.

5. MirrorCaption (потоковый STT + GPT)

Проверьте точность в реальном времени на ваших совещаниях

Откройте MirrorCaption в браузере — без загрузки, без настройки.

Открыть MirrorCaption

6. Fireflies.ai

Fireflies сосредоточен на слое заметок о совещании: бот подключается к вашему звонку, записывает всё и генерирует расшифровки после звонка с резюме от ИИ. Интеграции с CRM — HubSpot и Salesforce — делают его популярным среди отделов продаж. WER в условиях совещания — около 9–14%, приемлемо для генерации резюме, где несколько ошибок редко меняют смысл пункта действий.

Ограничение — в сроках. Fireflies — инструмент после звонка. Транскрипция в реальном времени доступна, но не является основным продуктом, и перевод — только после звонка. Если вам нужно понимать, что говорится во время совещания, а не после него, Fireflies не подходит.

7. Zoom AI Companion

Zoom AI Companion компетентно обрабатывает живые субтитры в Zoom — WER около 9–13% в условиях совещания, разумно для встроенной функции платформы. Для ~8 поддерживаемых языков качество значительно варьируется в зависимости от языковой пары. Английский — сильный; разрыв расширяется для азиатских языков.

Жёсткие ограничения: привязка к платформе (работает только в Zoom), корпоративное лицензирование для функций перевода и невозможность использовать его для разговоров лицом к лицу или на других платформах. Для команд, которые полностью работают в Zoom и общаются преимущественно на английском, AI Companion — беспроблемный выбор. За пределами этого — нужен отдельный инструмент.

Где каждый инструмент даёт сбой

Акцентированный и не-носительский английский

Здесь лабораторные оценки WER перестают быть полезными. Otter, Fireflies и Zoom AI Companion обучаются преимущественно на данных носителей английского. Говорящие с восточноазиатским, южноазиатским или ближневосточным акцентом видят значительно более высокие частоты ошибок — в некоторых случаях 20–30% WER, когда их речь отклоняется от обучающего распределения. Whisper лучше справляется с акцентированным английским благодаря более широкому многоязычному обучающему корпусу. Потоковый многоязычный STT-движок MirrorCaption демонстрирует меньше замен фонем на не-носительском английском, чем потребительские инструменты для совещаний.

Двуязычные разговоры и переключение кодов

Переключение кодов — японский говорящий использует английский технический термин в середине предложения, или китайский говорящий произносит «我们 schedule 一个 meeting» — ломает большинство моделей STT. Стандартные модели привязываются к одному языку на сессию и трактуют неожиданные слова из другого языка как ошибки. Whisper справляется с некоторым переключением кодов благодаря своим смешанным языковым обучающим данным. MirrorCaption выполняет обнаружение языка по сегментам, а не закрепляется за одним языком в начале сессии, что более грамотно обрабатывает двуязычные обмены. Для полного руководства по многоязычному транскрипционному инструментарию смотрите наше руководство по многоязычной транскрипции.

В феврале команда B2B-продаж программного обеспечения обнаружила эту проблему на собственном опыте. Их звонок в четверг с ключевым токийским клиентом, казалось, прошёл хорошо. Zoom AI Companion доставил своё резюме через девять минут после завершения звонка. В резюме говорилось: «Клиент выразил обеспокоенность сроками оценки». Фактическая фраза, которую руководитель по продажам уловил только при повторном просмотре записи, была: «Нам нужно полностью приостановить нашу оценку». Обе расшифровки были технически точны на уровне слов. Резюме Zoom утратило коммерческое значение. Никто не успел задать уточняющий вопрос вовремя.

Реальное время vs. постобработка: компромисс между задержкой и точностью

Потоковый STT производит частичные расшифровки, которые обновляются по мере поступления аудио. Слово может быть расшифровано одним образом, а затем исправлено, когда следующие слова дают контекст. Инструменты постобработки ожидают полного аудиосегмента — лучшая точность за счёт полного контекста, но с задержкой от секунд до минут. Окончательный разрыв в точности между потоковым и пакетным методом обычно составляет 1–3 процентных пункта. Это реально, но невелико относительно ценности получения результатов, пока вы ещё можете на них действовать. Наша статья о живых субтитрах vs. расшифровках подробно рассматривает этот компромисс.

Какой инструмент наиболее точен для вашего сценария?

Для расшифровок после совещания только на английском: Whisper Large v3 (через обёртку или самостоятельное развёртывание) или Otter.ai. Оба обеспечивают отполированный результат после совещания. Otter проще для нетехнических пользователей; Whisper лучше, если у вас есть ресурсы разработчиков и нужна максимальная точность. Прочитайте наше сравнение потокового STT vs. Whisper для технического разбора.

Для многоязычных совещаний в реальном времени: MirrorCaption (потоковый STT + GPT). Потоковая передача в реальном времени, 60+ языков, без бота, браузерный. Двухуровневый подход — потоковый STT плюс контекстуальный перевод — добавляет точность на уровне смысла, которую тесты WER не фиксируют.

Для точности API разработческого уровня: Deepgram Nova-2 для высокообъёмных нагрузок с преобладанием английского; AssemblyAI Universal-2 для сценариев, требующих сильной диаризации говорящих. Оба требуют инженерных вложений.

Для удобства встроенного в платформу: Google Meet Live Captions, если вы полностью работаете в Google Workspace; Zoom AI Companion, если каждое совещание происходит в Zoom. Примите привязку к платформе как цену за нулевую настройку.

Маркос, бразильский разработчик программного обеспечения, изучающий японский, начал использовать MirrorCaption на своих двухнедельных встречах с токийскими коллегами. На каждой сессии он сохранял пять-шесть фраз в свою карточную колоду — не учебный японский, а реальный язык совещаний: вежливые формы несогласия, технический словарь, который фактически использовали коллеги, формулировки, звучавшие перед принятием решения. За четыре месяца у него накопилось почти 200 фраз из реальных разговоров. Токийские коллеги заметили перемену раньше, чем он сам об этом упомянул.

Часто задаваемые вопросы

Насколько точна ИИ-транскрипция совещаний в 2026 году?

Современная ИИ-транскрипция достигает 3–8% WER на чистом английском аудио. В реальных условиях совещания — фоновый шум, несколько говорящих, сжатие аудио — WER обычно поднимается до 8–17% в зависимости от инструмента. Точность на не-английских языках существенно варьируется: инструменты, обученные преимущественно на английском, могут видеть удвоение WER и выше при использовании мандаринского, японского, арабского или других не-английских языков.

Что такое частота ошибок по словам (WER)?

WER подсчитывает замены (неверное слово), вставки (лишнее слово) и пропуски (пропущенное слово), делит на общее количество слов в эталоне. WER 5% означает примерно пять ошибок на 100 слов. Меньше — лучше, но WER не различает безобидную ошибку и критическую — «одобрить» vs. «отклонить» оба считаются одной заменой.

Какой инструмент ИИ-транскрипции наиболее точен в 2026 году?

Для чистого английского аудио Whisper Large v3 и Deepgram Nova-2 достигают ~3–6% WER и лидируют в области. Для многоязычных совещаний в реальном времени MirrorCaption предлагает лучшую комбинацию потоковой точности и охвата языков. Ни один инструмент не лидирует по всем параметрам — ответ зависит от условий аудио, языкового состава и от того, нужны ли вам результаты во время или после совещания.

Снижается ли точность ИИ-транскрипции для не-английских языков?

Да, значительно. Потребительские инструменты, такие как Otter.ai, Fireflies и Zoom AI Companion, обучены преимущественно на английских данных — точность для не-английских языков резко падает, особенно для азиатских и ближневосточных. Whisper и MirrorCaption работают более стабильно в разных языках благодаря более широким многоязычным обучающим корпусам.

Как потоковая передача в реальном времени влияет на точность транскрипции?

Потоковый STT производит частичные результаты, которые самокорректируются по мере накопления контекста. Конечная точность потоковых инструментов обычно на 1–3 процентных пункта выше WER, чем у пакетных инструментов на том же аудио — реальный, но узкий разрыв, учитывая что потоковый вывод поступает пока совещание ещё продолжается. Смотрите нашу статью о живых субтитрах vs. расшифровках для более глубокого погружения.

Whisper точнее Otter.ai?

На чистом английском аудио Whisper Large v3 достигает заметно более низкого WER, чем Otter.ai. В реальных условиях совещания разрыв сужается, но сохраняется. Whisper — это модель, которую вы разворачиваете самостоятельно или используете через сторонние обёртки; Otter — готовый продукт с UI. Для конечных пользователей, не желающих управлять инфраструктурой, компромисс Otter между точностью и удобством разумен. Для команд с ресурсами разработчиков Whisper обеспечивает лучшую точность на английском. Для детального технического разбора прочитайте потоковый STT vs. Whisper.

Метрика точности, которая действительно важна

Чистый WER — полезный ориентир, но это лабораторная цифра. Он не говорит вам, справляется ли инструмент с акцентами ваших говорящих, приходят ли результаты, пока вы ещё можете на них действовать, и отражает ли лингвистически точная расшифровка то, что действительно имелось в виду.

Для команд, где совещания проходят на английском и постсовещательные резюме достаточны, Whisper и Otter представляют доступный сегодня потолок точности. Для многоязычных команд, принимающих решения в реальном времени, вопрос смещается от «у какого инструмента самый низкий WER» к «какой инструмент даст нам достаточно точное понимание, пока мы ещё можем ответить». Это иная оценка, и она даёт иной ответ.

MirrorCaption объединяет потоковый STT с контекстуальным GPT-переводом для этого второго сценария — на 60+ языках, менее 500 мс, из браузерной вкладки. Бесплатный тариф даёт вам 2 часа в месяц. Ваше следующее совещание — это тест.

Проверьте точность на вашем следующем совещании

2 часа бесплатно каждый месяц. 60+ языков. Без бота, без установки.

Попробовать MirrorCaption бесплатно