Is OpenAI Whisper free?

Yes. The Whisper model weights are free to download and use under an MIT license. Running Whisper locally costs nothing beyond your own hardware. The OpenAI Whisper API charges $0.006 per minute of audio processed — a one-hour meeting costs about $0.36.

Can Whisper transcribe a Zoom call live?

No. Whisper processes audio in 30-second batches after recording. It cannot stream transcription word-by-word while someone is speaking. For live Zoom transcription, you need a streaming speech-to-text tool built on a different architecture.

How accurate is OpenAI Whisper?

Whisper large-v3 achieves roughly 2–3% word error rate on clean English audio, which is comparable to professional human transcription. Accuracy drops noticeably on heavy background noise, crosstalk, or low-quality recordings.

Does Whisper support Chinese and Japanese?

Yes. Whisper supports 99 languages including Mandarin, Cantonese, Japanese, Korean, Arabic, and Hindi. Accuracy on non-English languages is generally lower than on English but often still competitive with specialized regional models.

Is there a browser-based Whisper alternative for live meetings?

Yes. Tools like MirrorCaption use streaming speech-to-text to transcribe and translate meetings in real time, directly in a browser tab. No Python, no installation, no waiting for the call to end.

Как работает OpenAI Whisper — без сложных терминов

OpenAI Whisper — это бесплатная open-source модель преобразования речи в текст, которая переводит устную речь в письменный текст на 99 языках. Чтобы её запустить, на компьютере должен быть установлен Python, как минимум одна дополнительная библиотека под названием ffmpeg и от 150 МБ до 3 ГБ свободного места на диске в зависимости от нужного уровня качества. Она не расшифровывает речь в реальном времени. Именно эти факты обычно упускают восторженные рассылки.

🏫 Реальный сценарий

Прия руководит партнёрствами в финтех-компании в Сингапуре. В начале 2026 года она прочитала, что Whisper может обеспечить «точность транскрипции на уровне человека» и при этом полностью бесплатен. Она нашла страницу на GitHub, бегло просмотрела инструкции и испытала оптимизм человека, который ещё не сталкивался с фразой «pip install ffmpeg». Через три часа у неё была загадочная ошибка совместимости CUDA, никакой расшифровки и оставшиеся заметки со встречи, записанные вручную. Инструмент действительно отличный. Просто он создан не для такого пользователя, как Прия.

Whisper создавался для разработчиков и исследователей. Это не делает его плохим инструментом — это делает его неподходящим инструментом для людей, которые просто хотят расшифровать четверговый стендап на мандаринском китайском, не написав ни строчки кода.

В этой статье простым языком объясняется, как на самом деле работает OpenAI Whisper, что он делает хорошо, чего принципиально не может делать и какие варианты имеют больше смысла, если вам нужна транскрипция встреч в реальном времени уже сегодня.

Ключевые выводы

OpenAI Whisper — это бесплатная open-source модель преобразования речи в текст, выпущенная в сентябре 2022 года и обученная на 680 000 часов аудио из интернета.
Она поддерживает 99 языков и достигает почти человеческой точности на английском — примерно 2–3% ошибок по словам на чистых записях.
Whisper не работает в реальном времени. Он обрабатывает аудио 30-секундными фрагментами после завершения записи, а не пока человек говорит.
Для локального запуска нужны Python 3.9+, ffmpeg и файл модели размером от 75 МБ до 3 ГБ. Точность и скорость растут вместе.
Для транскрипции встреч в реальном времени без программирования нужен потоковый speech-to-text — другая архитектура, для которой Whisper не предназначен.

Что такое OpenAI Whisper?

OpenAI Whisper — это модель распознавания речи, выпущенная как open-source в сентябре 2022 года. OpenAI обучила её на 680 000 часов аудио, собранного из интернета: лекции, подкасты, интервью, видео на YouTube, аудиокниги — на десятках языков. Масштаб этих обучающих данных — важная причина её высокой точности.

Она умеет делать две вещи: транскрипцию, то есть преобразование аудио в текст на том же языке, и перевод, то есть преобразование аудио на иностранном языке в английский текст. Важно: она переводит только на английский, а не между произвольными языковыми парами.

Получить доступ к Whisper можно двумя способами. Во-первых, можно бесплатно скачать веса модели с GitHub и запускать её на своём оборудовании — без затрат на API и без лимитов, но настройкой занимаетесь вы. Во-вторых, можно использовать OpenAI Whisper API по цене $0.006 за минуту аудио, что снимает большую часть нагрузки по настройке, но всё равно обрабатывает аудио как загружаемый файл, а не как живой поток.

Если вам нужно решение без командной строки, переходите сразу к разделу с вариантами без кода. Если хотите понять, почему Whisper работает именно так, читайте дальше — это важно, чтобы понимать, что он может и чего не может.

Как работает OpenAI Whisper — простое объяснение

Чтобы эффективно использовать Whisper, не нужно понимать математику. Но понимание четырёх шагов его работы помогает объяснить его ограничения.

Шаг 1: аудио подаётся как файл

Вы даёте Whisper записанный аудиофайл — MP3, WAV, M4A или большинство других распространённых форматов. По умолчанию он не умеет читать поток с живого микрофона. Аудио лежит на диске и ждёт обработки.

Шаг 2: Whisper превращает звук в визуальный отпечаток

Whisper преобразует звуковую волну в мел-спектрограмму — представьте это как тепловую карту звука, где по горизонтали идёт время, а по вертикали показано, какие частоты присутствуют в каждый момент. Речь выглядит иначе, чем музыка, а музыка — иначе, чем фоновый шум. Именно это визуальное представление и «читает» ИИ.

Шаг 3: ИИ-модель читает отпечаток и предсказывает слова

Модель-трансформер — тот же тип архитектуры, что лежит в основе GPT, — читает спектрограмму и предсказывает наиболее вероятную последовательность слов. Одна часть модели кодирует звуковой паттерн, другая декодирует его в текст, по одному токену за раз. Декодер использует контекст из предыдущих частей аудио, чтобы по ходу делать более точные предсказания.

Шаг 4: на выходе получается текст с пунктуацией и заглавными буквами

Whisper выдаёт форматированный текст с уже расставленными знаками препинания и заглавными буквами там, где нужно по смыслу. Вы получаете пригодную к использованию расшифровку, а не стену слов в нижнем регистре.

30-секундное окно — и почему это важно. Whisper делит аудио на 30-секундные сегменты и обрабатывает их последовательно. Именно этот подход с фрагментами — главная причина, почему Whisper не может выдавать живые субтитры в потоке. Нет частичного результата после каждого слова. Есть только завершённый фрагмент после обработки каждого 30-секундного блока. Для 60-минутной встречи это означает, что первую частичную расшифровку вы получите через 30 секунд после окончания звонка, а полную — только когда будут обработаны все фрагменты.

Что Whisper делает хорошо

В рамках своих архитектурных ограничений Whisper действительно впечатляет.

Почти человеческая точность на английском. Модель large-v3 показывает примерно 2–3% ошибок по словам на стандартных бенчмарках — это сопоставимо с профессиональными расшифровщиками на чистом аудио. Для сравнения: старые потребительские системы распознавания речи обычно давали 10–15% ошибок.
99 языков. Мандаринский китайский, кантонский, японский, корейский, арабский, хинди, русский, португальский, испанский, немецкий, французский и десятки других. В README Whisper на GitHub перечислен полный набор языков с бенчмарками точности по каждому языку.
Хорошая устойчивость к акцентам. Поскольку модель обучалась на реальном веб-аудио, а не на студийной речи, Whisper лучше справляется с неносительскими акцентами, чем многие старые ASR-системы, обученные на узких датасетах.
Автоматическая пунктуация. Запятые, точки и заглавные буквы уже включены. У большинства конкурирующих пакетных инструментов транскрипции для этого нужен отдельный этап постобработки.
Техническая лексика. Whisper лучше, чем универсальные потребительские системы распознавания речи, справляется с терминологией из конкретных областей — медицинской, юридической, программной.
Полностью бесплатное использование. Веса модели выпущены по лицензии MIT, которая разрешает коммерческое использование. Вы можете обрабатывать столько записей, сколько позволяет ваше оборудование, без дополнительных затрат на каждую новую запись.

Если для вас главное — точность после записи на сохранённом аудиофайле, Whisper трудно превзойти. Это правильный инструмент для расшифровки записанных интервью, выпусков подкастов, лекций или любого аудио, которое у вас уже есть.

Чего Whisper не умеет — та часть, которую никто не объясняет

Большинство статей о Whisper написаны разработчиками для разработчиков. Ограничения там упоминаются вскользь. Здесь им уделено заслуженное внимание.

Он не расшифровывает речь в реальном времени

Если вы начнёте звонок в Zoom и направите на него Whisper, вы получите расшифровку после окончания звонка — а не во время него. Задержка между произнесённой речью и появлением текста составляет от нескольких секунд для коротких фрагментов до нескольких минут для длинной встречи — в зависимости от вашего оборудования и размера модели.

Это не баг. Это особенность архитектуры. Точность Whisper частично обеспечивается тем, что каждый аудиофрагмент обрабатывается с полным контекстом. Для живой транскрипции нужно отправлять частичные результаты сразу, ещё до появления полного контекста. Эти два подхода предполагают фундаментальный компромисс, и Whisper создавался для максимальной точности, а не минимальной задержки.

Он не умеет определять, кто говорит

По умолчанию Whisper выдаёт плоскую расшифровку без меток. Все предложения идут сплошным блоком без указания, какой участник что сказал. В звонке по продажам на двоих вы не поймёте, какие реплики были вашими, а какие — потенциального клиента. На стендапе из десяти человек вывод вообще не будет привязан к говорящим.

Есть open-source дополнения (чаще всего используют pyannote.audio), которые добавляют поверх Whisper диаризацию спикеров. Они работают довольно неплохо, но требуют дополнительных Python-пакетов, загрузки моделей и настройки. Время на установку примерно удваивается.

Для локального запуска нужна техническая настройка

Чтобы использовать Whisper на своём компьютере, вам понадобятся:

Корректно установленный Python 3.9 или выше
Аудиобиблиотека ffmpeg (отдельная установка в большинстве операционных систем)
Файл весов модели: 75 МБ для "tiny", 1.5 ГБ для "medium", 3 ГБ для "large-v3"
Современный GPU, если вам нужна приемлемая скорость — большая модель обрабатывает один час аудио за 20–40 минут на типичном CPU ноутбука

🏫 Реальный сценарий

Мигель руководит командой customer success из 12 человек в стартапе в Барселоне. Его команда ведёт звонки на испанском, каталанском и английском. В январе 2026 года он попросил ведущего разработчика «настроить Whisper для команды». Разработчик потратил целые выходные на установку зависимостей, столкнулся с конфликтом версий CUDA, на решение которого ушло четыре часа, а затем собрал небольшой интерфейс загрузки, чтобы коллеги могли отправлять записи, не касаясь терминала. Общее время настройки: около 14 часов инженерной работы. Теперь инструмент работает хорошо. Мигель благодарен. Но он также признаёт, что у большинства команд нет разработчика, готового потратить на это свободные выходные.

API OpenAI проще — но всё равно не для живого потока

OpenAI Whisper API снимает проблему локальной установки. Вы отправляете аудиофайл на серверы OpenAI простым HTTP-запросом и получаете расшифровку обратно, обычно за секунды для коротких фрагментов. Стоимость — $0.006 за минуту: расшифровка 60-минутной встречи стоит около $0.36.

Это заметно снижает технический порог входа. Но API всё равно работает с загрузкой файла, а не с живым потоком. Вы отправляете готовую запись после окончания звонка. Расшифровка приходит вскоре после этого. Если ваша цель — читать субтитры, пока человек ещё говорит, API не меняет базовое ограничение.

Размеры моделей Whisper с первого взгляда

Whisper доступен в пяти уровнях качества. Более крупные модели точнее, но медленнее и тяжелее. На типичном потребительском ноутбуке без GPU модель "small" обычно является практическим пределом по скорости.

Модель	Размер файла	Скорость CPU (относительно аудио)	Лучше всего подходит для
tiny	75 MB	~10× быстрее	Быстрые тесты, демо
base	150 MB	~7× быстрее	Повседневное использование, быстрая итерация
small ★	490 MB	~4× быстрее	Хороший баланс качества и скорости на ноутбуках
medium	1.5 GB	~2× быстрее	Более высокая точность, рекомендуется GPU
large-v3	3 GB	~1× (в реальном времени на GPU)	Максимальная точность, для практического использования нужен GPU

Начните с "small", если тестируете на ноутбуке. Переходите на "large-v3", если у вас есть совместимый NVIDIA GPU и вам нужна лучшая точность на неанглийском аудио. Разница в точности между small и large-v3 заметна. Разница во времени обработки на CPU — очень серьёзная.

Как использовать Whisper без написания кода

Для неразработчиков есть три практичных варианта, и каждый предполагает свой компромисс между усилиями, стоимостью и временем.

Вариант 1: OpenAI Whisper API

Загрузите аудиофайл через интерфейс OpenAI или через no-code HTTP-клиент вроде Postman. Вы получите чистую расшифровку за время от секунд до минут в зависимости от длины. Стоимость: $0.006/минута. Это путь с наименьшим трением, если у вас бывают редкие записи и вы не хотите ничего устанавливать. Минус в том, что вы всё равно обрабатываете записи постфактум, а не захватываете речь вживую.

Вариант 2: десктопные приложения на базе Whisper

Несколько разработчиков обернули Whisper в кликабельный интерфейс. MacWhisper (только для Mac) и Buzz (кроссплатформенный, бесплатный) позволяют перетащить аудиофайл и получить расшифровку без открытия терминала. Это действительно полезно для транскрипции после звонка. Но у них то же архитектурное ограничение — никаких живых субтитров и никаких меток спикеров без дополнительной настройки.

Вариант 3: браузерные потоковые инструменты для живых встреч

Если ваша цель — читать субтитры во время разговора, а не получать расшифровку после его окончания, вам нужен совершенно другой подход. Браузерные инструменты с потоковым speech-to-text захватывают аудио с микрофона или вкладки браузера и отправляют частичные результаты слово за словом по мере речи. Никакой установки, никакого Python, никакого ожидания постобработки.

В эту категорию входят инструменты вроде альтернатив Whisper для нетехнических пользователей, которые жертвуют частью постфактум-точности Whisper ради мгновенности, необходимой для живых разговоров. Выбор между ними — не вопрос того, что «лучше», а вопрос того, нужна ли вам транскрипция встречи или во время встречи.

Whisper и транскрипция живых встреч — две разные архитектуры

Чтобы понять, почему Whisper не может выдавать живые субтитры в потоке, нужно понять разницу между пакетным и потоковым speech-to-text.

Whisper — пакетная модель. Она ждёт завершённого аудиофрагмента, обрабатывает его с полным контекстом и возвращает результат. Преимущество в точности даёт именно этот полный контекст: модель может увидеть конец предложения, прежде чем окончательно понять, что было сказано в начале. Это похоже на то, как если бы вы дважды прочитали абзац перед тем, как его пересказать.

Потоковый speech-to-text работает иначе. Он отправляет частичные результаты в момент появления каждого слова, а затем автоматически исправляет их по мере накопления контекста. Инструменты вроде MirrorCaption, построенные на нашем собственном потоковом STT-движке, могут показать первое слово субтитра через 300–500 миллисекунд после того, как человек его произнёс. Компромисс — небольшая потеря точности на неоднозначных словах, которые пакетная обработка смогла бы уточнить задним числом.

Это не сравнение качества. Whisper, возможно, точнее на записанном аудио именно потому, что обрабатывает больше контекста. Потоковый STT принимает небольшое снижение точности в обмен на мгновенность. Для живых встреч мгновенность и есть весь продукт.

🏫 Реальный сценарий

Кэндзи работает в Токио в производственной компании, которая продаёт продукцию европейским клиентам. Раньше на его четверговых звонках с командой из Мюнхена ключевые фразы переводил двуязычный коллега. Когда этот коллега ушёл, Кэндзи начал использовать браузерный инструмент потоковой транскрипции. Он читает немецкие субтитры в реальном времени прямо во время звонка. Никаких загрузок, никакого Python, никакого ожидания расшифровки после окончания встречи. Отличие от Whisper — не в точности. А в возможности что-то услышать, понять и ответить — всё в рамках одного 60-минутного звонка.

Нужны живые субтитры, а не расшифровки после звонка? MirrorCaption транслирует транскрипцию и перевод в любом браузере прямо во время встречи. Установка не требуется.

Попробовать бесплатно →

Часто задаваемые вопросы

OpenAI Whisper бесплатный?

Да. Веса модели Whisper можно бесплатно скачать и использовать по лицензии MIT, которая разрешает коммерческие приложения. Локальный запуск Whisper ничего не стоит, кроме вашего оборудования и электричества. OpenAI Whisper API стоит $0.006 за минуту аудио — расшифровка 60-минутной встречи обходится примерно в $0.36.

Может ли Whisper расшифровывать звонок в Zoom в реальном времени?

Нет. Whisper обрабатывает аудио 30-секундными фрагментами после захвата звука. Он не может выдавать субтитры слово за словом, пока человек говорит. Если вы запишете звонок в Zoom, а затем прогоните сохранённый файл через Whisper, вы получите чистую расшифровку — но только после окончания встречи. Для живых субтитров в Zoom нужен потоковый speech-to-text инструмент, а не Whisper. В нашем обзоре программ speech-to-text сравниваются варианты для реального времени и для постобработки в типичных сценариях.

Насколько точен OpenAI Whisper?

Whisper large-v3 показывает примерно 2–3% ошибок по словам на стандартном английском бенчмарке LibriSpeech, что сопоставимо с профессиональной человеческой транскрипцией на чистом аудио. Точность падает при сильном фоновом шуме, наложении голосов, очень быстрой речи или низкокачественных микрофонах. Для неанглийских языков средний уровень ошибок выше, чем для английского, хотя они всё равно превосходят многие старые региональные модели. Более широкий взгляд на компромиссы точности транскрипции есть в наших бенчмарках точности перевода в реальном времени.

Поддерживает ли Whisper китайский и японский?

Да. Whisper поддерживает 99 языков, включая китайский путунхуа, кантонский, японский, корейский, арабский, хинди и все основные европейские языки. Для путунхуа и кантонского большая модель Whisper хорошо работает на чётко произнесённом аудио, хотя испытывает трудности с сильными региональными акцентами и переключением между китайским и английским в одном предложении. Более широкое сравнение доступных сегодня многоязычных инструментов смотрите в нашем обзоре программ speech-to-text.

Есть ли браузерная альтернатива Whisper, которая подходит для живых встреч?

Да. Браузерные инструменты вроде MirrorCaption используют потоковый speech-to-text для транскрипции и перевода в реальном времени прямо во время встречи — без Python, без установки, без ожидания окончания звонка. Они работают в Chrome, Safari и Edge на любом устройстве. Компромисс по сравнению с Whisper в том, что постфактум-точность на сохранённой записи может быть немного ниже, но для живых разговоров важна именно мгновенность. Начните с 1 бесплатного часа (единоразово) на mirrorcaption.com/app.

Итог

OpenAI Whisper — одна из самых точных систем преобразования речи в текст, когда-либо ставших публично доступными. И одновременно одна из самых недоступных для тех людей, которым она могла бы принести наибольшую пользу.

Если у вас есть сохранённый аудиофайл и терпение на небольшую настройку, Whisper — особенно через OpenAI API — обеспечивает почти человеческую точность транскрипции на 99 языках почти без затрат. Это выдающееся инженерное достижение.

Если вам нужно читать то, что человек говорит, пока он это говорит — во время встречи, а не после неё, — архитектура Whisper вам не подходит. Для этого сценария существуют потоковые speech-to-text инструменты. Они работают во вкладке браузера, запускаются за секунды и не требуют командной строки.

Вопрос не в том, какой инструмент лучше. Вопрос в том, какой инструмент соответствует вашим требованиям по времени. Если вам нужны лучшие speech-to-text инструменты в 2026 году для всех сценариев, наш полный обзор охватывает весь рынок.

Транскрипция живых встреч без настройки

MirrorCaption транслирует транскрипцию и перевод слово за словом прямо во время звонка. Работает в любом браузере на любой платформе видеозвонков. 1 бесплатный час (единоразово), без банковской карты.

Попробовать MirrorCaption бесплатно

Как работает OpenAI Whisperбез сложных терминов

Что такое OpenAI Whisper?

Как работает OpenAI Whisper — простое объяснение

Шаг 1: аудио подаётся как файл

Шаг 2: Whisper превращает звук в визуальный отпечаток

Шаг 3: ИИ-модель читает отпечаток и предсказывает слова

Шаг 4: на выходе получается текст с пунктуацией и заглавными буквами

Что Whisper делает хорошо

Чего Whisper не умеет — та часть, которую никто не объясняет

Он не расшифровывает речь в реальном времени

Он не умеет определять, кто говорит

Для локального запуска нужна техническая настройка

API OpenAI проще — но всё равно не для живого потока

Размеры моделей Whisper с первого взгляда

Как использовать Whisper без написания кода

Вариант 1: OpenAI Whisper API

Вариант 2: десктопные приложения на базе Whisper

Вариант 3: браузерные потоковые инструменты для живых встреч

Whisper и транскрипция живых встреч — две разные архитектуры

Часто задаваемые вопросы

OpenAI Whisper бесплатный?

Может ли Whisper расшифровывать звонок в Zoom в реальном времени?

Насколько точен OpenAI Whisper?

Поддерживает ли Whisper китайский и японский?

Есть ли браузерная альтернатива Whisper, которая подходит для живых встреч?

Итог

Транскрипция живых встреч без настройки

Как работает OpenAI Whisper
без сложных терминов