OpenAI Whisper — это бесплатная open-source модель преобразования речи в текст, которая переводит устную речь в письменный текст на 99 языках. Чтобы её запустить, на компьютере должен быть установлен Python, как минимум одна дополнительная библиотека под названием ffmpeg и от 150 МБ до 3 ГБ свободного места на диске в зависимости от нужного уровня качества. Она не расшифровывает речь в реальном времени. Именно эти факты обычно упускают восторженные рассылки.

Прия руководит партнёрствами в финтех-компании в Сингапуре. В начале 2026 года она прочитала, что Whisper может обеспечить «точность транскрипции на уровне человека» и при этом полностью бесплатен. Она нашла страницу на GitHub, бегло просмотрела инструкции и испытала оптимизм человека, который ещё не сталкивался с фразой «pip install ffmpeg». Через три часа у неё была загадочная ошибка совместимости CUDA, никакой расшифровки и оставшиеся заметки со встречи, записанные вручную. Инструмент действительно отличный. Просто он создан не для такого пользователя, как Прия.

Whisper создавался для разработчиков и исследователей. Это не делает его плохим инструментом — это делает его неподходящим инструментом для людей, которые просто хотят расшифровать четверговый стендап на мандаринском китайском, не написав ни строчки кода.

В этой статье простым языком объясняется, как на самом деле работает OpenAI Whisper, что он делает хорошо, чего принципиально не может делать и какие варианты имеют больше смысла, если вам нужна транскрипция встреч в реальном времени уже сегодня.

Ключевые выводы

Что такое OpenAI Whisper?

OpenAI Whisper — это модель распознавания речи, выпущенная как open-source в сентябре 2022 года. OpenAI обучила её на 680 000 часов аудио, собранного из интернета: лекции, подкасты, интервью, видео на YouTube, аудиокниги — на десятках языков. Масштаб этих обучающих данных — важная причина её высокой точности.

Она умеет делать две вещи: транскрипцию, то есть преобразование аудио в текст на том же языке, и перевод, то есть преобразование аудио на иностранном языке в английский текст. Важно: она переводит только на английский, а не между произвольными языковыми парами.

Получить доступ к Whisper можно двумя способами. Во-первых, можно бесплатно скачать веса модели с GitHub и запускать её на своём оборудовании — без затрат на API и без лимитов, но настройкой занимаетесь вы. Во-вторых, можно использовать OpenAI Whisper API по цене $0.006 за минуту аудио, что снимает большую часть нагрузки по настройке, но всё равно обрабатывает аудио как загружаемый файл, а не как живой поток.

Если вам нужно решение без командной строки, переходите сразу к разделу с вариантами без кода. Если хотите понять, почему Whisper работает именно так, читайте дальше — это важно, чтобы понимать, что он может и чего не может.

Как работает OpenAI Whisper — простое объяснение

Чтобы эффективно использовать Whisper, не нужно понимать математику. Но понимание четырёх шагов его работы помогает объяснить его ограничения.

Шаг 1: аудио подаётся как файл

Вы даёте Whisper записанный аудиофайл — MP3, WAV, M4A или большинство других распространённых форматов. По умолчанию он не умеет читать поток с живого микрофона. Аудио лежит на диске и ждёт обработки.

Шаг 2: Whisper превращает звук в визуальный отпечаток

Whisper преобразует звуковую волну в мел-спектрограмму — представьте это как тепловую карту звука, где по горизонтали идёт время, а по вертикали показано, какие частоты присутствуют в каждый момент. Речь выглядит иначе, чем музыка, а музыка — иначе, чем фоновый шум. Именно это визуальное представление и «читает» ИИ.

Шаг 3: ИИ-модель читает отпечаток и предсказывает слова

Модель-трансформер — тот же тип архитектуры, что лежит в основе GPT, — читает спектрограмму и предсказывает наиболее вероятную последовательность слов. Одна часть модели кодирует звуковой паттерн, другая декодирует его в текст, по одному токену за раз. Декодер использует контекст из предыдущих частей аудио, чтобы по ходу делать более точные предсказания.

Шаг 4: на выходе получается текст с пунктуацией и заглавными буквами

Whisper выдаёт форматированный текст с уже расставленными знаками препинания и заглавными буквами там, где нужно по смыслу. Вы получаете пригодную к использованию расшифровку, а не стену слов в нижнем регистре.

30-секундное окно — и почему это важно. Whisper делит аудио на 30-секундные сегменты и обрабатывает их последовательно. Именно этот подход с фрагментами — главная причина, почему Whisper не может выдавать живые субтитры в потоке. Нет частичного результата после каждого слова. Есть только завершённый фрагмент после обработки каждого 30-секундного блока. Для 60-минутной встречи это означает, что первую частичную расшифровку вы получите через 30 секунд после окончания звонка, а полную — только когда будут обработаны все фрагменты.

Что Whisper делает хорошо

В рамках своих архитектурных ограничений Whisper действительно впечатляет.

Если для вас главное — точность после записи на сохранённом аудиофайле, Whisper трудно превзойти. Это правильный инструмент для расшифровки записанных интервью, выпусков подкастов, лекций или любого аудио, которое у вас уже есть.

Чего Whisper не умеет — та часть, которую никто не объясняет

Большинство статей о Whisper написаны разработчиками для разработчиков. Ограничения там упоминаются вскользь. Здесь им уделено заслуженное внимание.

Он не расшифровывает речь в реальном времени

Если вы начнёте звонок в Zoom и направите на него Whisper, вы получите расшифровку после окончания звонка — а не во время него. Задержка между произнесённой речью и появлением текста составляет от нескольких секунд для коротких фрагментов до нескольких минут для длинной встречи — в зависимости от вашего оборудования и размера модели.

Это не баг. Это особенность архитектуры. Точность Whisper частично обеспечивается тем, что каждый аудиофрагмент обрабатывается с полным контекстом. Для живой транскрипции нужно отправлять частичные результаты сразу, ещё до появления полного контекста. Эти два подхода предполагают фундаментальный компромисс, и Whisper создавался для максимальной точности, а не минимальной задержки.

Он не умеет определять, кто говорит

По умолчанию Whisper выдаёт плоскую расшифровку без меток. Все предложения идут сплошным блоком без указания, какой участник что сказал. В звонке по продажам на двоих вы не поймёте, какие реплики были вашими, а какие — потенциального клиента. На стендапе из десяти человек вывод вообще не будет привязан к говорящим.

Есть open-source дополнения (чаще всего используют pyannote.audio), которые добавляют поверх Whisper диаризацию спикеров. Они работают довольно неплохо, но требуют дополнительных Python-пакетов, загрузки моделей и настройки. Время на установку примерно удваивается.

Для локального запуска нужна техническая настройка

Чтобы использовать Whisper на своём компьютере, вам понадобятся:

Мигель руководит командой customer success из 12 человек в стартапе в Барселоне. Его команда ведёт звонки на испанском, каталанском и английском. В январе 2026 года он попросил ведущего разработчика «настроить Whisper для команды». Разработчик потратил целые выходные на установку зависимостей, столкнулся с конфликтом версий CUDA, на решение которого ушло четыре часа, а затем собрал небольшой интерфейс загрузки, чтобы коллеги могли отправлять записи, не касаясь терминала. Общее время настройки: около 14 часов инженерной работы. Теперь инструмент работает хорошо. Мигель благодарен. Но он также признаёт, что у большинства команд нет разработчика, готового потратить на это свободные выходные.

API OpenAI проще — но всё равно не для живого потока

OpenAI Whisper API снимает проблему локальной установки. Вы отправляете аудиофайл на серверы OpenAI простым HTTP-запросом и получаете расшифровку обратно, обычно за секунды для коротких фрагментов. Стоимость — $0.006 за минуту: расшифровка 60-минутной встречи стоит около $0.36.

Это заметно снижает технический порог входа. Но API всё равно работает с загрузкой файла, а не с живым потоком. Вы отправляете готовую запись после окончания звонка. Расшифровка приходит вскоре после этого. Если ваша цель — читать субтитры, пока человек ещё говорит, API не меняет базовое ограничение.

Размеры моделей Whisper с первого взгляда

Whisper доступен в пяти уровнях качества. Более крупные модели точнее, но медленнее и тяжелее. На типичном потребительском ноутбуке без GPU модель "small" обычно является практическим пределом по скорости.

Модель Размер файла Скорость CPU (относительно аудио) Лучше всего подходит для
tiny 75 MB ~10× быстрее Быстрые тесты, демо
base 150 MB ~7× быстрее Повседневное использование, быстрая итерация
medium 1.5 GB ~2× быстрее Более высокая точность, рекомендуется GPU
large-v3 3 GB ~1× (в реальном времени на GPU) Максимальная точность, для практического использования нужен GPU

Начните с "small", если тестируете на ноутбуке. Переходите на "large-v3", если у вас есть совместимый NVIDIA GPU и вам нужна лучшая точность на неанглийском аудио. Разница в точности между small и large-v3 заметна. Разница во времени обработки на CPU — очень серьёзная.

Как использовать Whisper без написания кода

Для неразработчиков есть три практичных варианта, и каждый предполагает свой компромисс между усилиями, стоимостью и временем.

Вариант 1: OpenAI Whisper API

Загрузите аудиофайл через интерфейс OpenAI или через no-code HTTP-клиент вроде Postman. Вы получите чистую расшифровку за время от секунд до минут в зависимости от длины. Стоимость: $0.006/минута. Это путь с наименьшим трением, если у вас бывают редкие записи и вы не хотите ничего устанавливать. Минус в том, что вы всё равно обрабатываете записи постфактум, а не захватываете речь вживую.

Вариант 2: десктопные приложения на базе Whisper

Несколько разработчиков обернули Whisper в кликабельный интерфейс. MacWhisper (только для Mac) и Buzz (кроссплатформенный, бесплатный) позволяют перетащить аудиофайл и получить расшифровку без открытия терминала. Это действительно полезно для транскрипции после звонка. Но у них то же архитектурное ограничение — никаких живых субтитров и никаких меток спикеров без дополнительной настройки.

Вариант 3: браузерные потоковые инструменты для живых встреч

Если ваша цель — читать субтитры во время разговора, а не получать расшифровку после его окончания, вам нужен совершенно другой подход. Браузерные инструменты с потоковым speech-to-text захватывают аудио с микрофона или вкладки браузера и отправляют частичные результаты слово за словом по мере речи. Никакой установки, никакого Python, никакого ожидания постобработки.

В эту категорию входят инструменты вроде альтернатив Whisper для нетехнических пользователей, которые жертвуют частью постфактум-точности Whisper ради мгновенности, необходимой для живых разговоров. Выбор между ними — не вопрос того, что «лучше», а вопрос того, нужна ли вам транскрипция встречи или во время встречи.

Whisper и транскрипция живых встреч — две разные архитектуры

Чтобы понять, почему Whisper не может выдавать живые субтитры в потоке, нужно понять разницу между пакетным и потоковым speech-to-text.

Whisper — пакетная модель. Она ждёт завершённого аудиофрагмента, обрабатывает его с полным контекстом и возвращает результат. Преимущество в точности даёт именно этот полный контекст: модель может увидеть конец предложения, прежде чем окончательно понять, что было сказано в начале. Это похоже на то, как если бы вы дважды прочитали абзац перед тем, как его пересказать.

Потоковый speech-to-text работает иначе. Он отправляет частичные результаты в момент появления каждого слова, а затем автоматически исправляет их по мере накопления контекста. Инструменты вроде MirrorCaption, построенные на нашем собственном потоковом STT-движке, могут показать первое слово субтитра через 300–500 миллисекунд после того, как человек его произнёс. Компромисс — небольшая потеря точности на неоднозначных словах, которые пакетная обработка смогла бы уточнить задним числом.

Это не сравнение качества. Whisper, возможно, точнее на записанном аудио именно потому, что обрабатывает больше контекста. Потоковый STT принимает небольшое снижение точности в обмен на мгновенность. Для живых встреч мгновенность и есть весь продукт.

Кэндзи работает в Токио в производственной компании, которая продаёт продукцию европейским клиентам. Раньше на его четверговых звонках с командой из Мюнхена ключевые фразы переводил двуязычный коллега. Когда этот коллега ушёл, Кэндзи начал использовать браузерный инструмент потоковой транскрипции. Он читает немецкие субтитры в реальном времени прямо во время звонка. Никаких загрузок, никакого Python, никакого ожидания расшифровки после окончания встречи. Отличие от Whisper — не в точности. А в возможности что-то услышать, понять и ответить — всё в рамках одного 60-минутного звонка.

Нужны живые субтитры, а не расшифровки после звонка? MirrorCaption транслирует транскрипцию и перевод в любом браузере прямо во время встречи. Установка не требуется.

Попробовать бесплатно →

Часто задаваемые вопросы

OpenAI Whisper бесплатный?

Да. Веса модели Whisper можно бесплатно скачать и использовать по лицензии MIT, которая разрешает коммерческие приложения. Локальный запуск Whisper ничего не стоит, кроме вашего оборудования и электричества. OpenAI Whisper API стоит $0.006 за минуту аудио — расшифровка 60-минутной встречи обходится примерно в $0.36.

Может ли Whisper расшифровывать звонок в Zoom в реальном времени?

Нет. Whisper обрабатывает аудио 30-секундными фрагментами после захвата звука. Он не может выдавать субтитры слово за словом, пока человек говорит. Если вы запишете звонок в Zoom, а затем прогоните сохранённый файл через Whisper, вы получите чистую расшифровку — но только после окончания встречи. Для живых субтитров в Zoom нужен потоковый speech-to-text инструмент, а не Whisper. В нашем обзоре программ speech-to-text сравниваются варианты для реального времени и для постобработки в типичных сценариях.

Насколько точен OpenAI Whisper?

Whisper large-v3 показывает примерно 2–3% ошибок по словам на стандартном английском бенчмарке LibriSpeech, что сопоставимо с профессиональной человеческой транскрипцией на чистом аудио. Точность падает при сильном фоновом шуме, наложении голосов, очень быстрой речи или низкокачественных микрофонах. Для неанглийских языков средний уровень ошибок выше, чем для английского, хотя они всё равно превосходят многие старые региональные модели. Более широкий взгляд на компромиссы точности транскрипции есть в наших бенчмарках точности перевода в реальном времени.

Поддерживает ли Whisper китайский и японский?

Да. Whisper поддерживает 99 языков, включая китайский путунхуа, кантонский, японский, корейский, арабский, хинди и все основные европейские языки. Для путунхуа и кантонского большая модель Whisper хорошо работает на чётко произнесённом аудио, хотя испытывает трудности с сильными региональными акцентами и переключением между китайским и английским в одном предложении. Более широкое сравнение доступных сегодня многоязычных инструментов смотрите в нашем обзоре программ speech-to-text.

Есть ли браузерная альтернатива Whisper, которая подходит для живых встреч?

Да. Браузерные инструменты вроде MirrorCaption используют потоковый speech-to-text для транскрипции и перевода в реальном времени прямо во время встречи — без Python, без установки, без ожидания окончания звонка. Они работают в Chrome, Safari и Edge на любом устройстве. Компромисс по сравнению с Whisper в том, что постфактум-точность на сохранённой записи может быть немного ниже, но для живых разговоров важна именно мгновенность. Начните с 1 бесплатного часа (единоразово) на mirrorcaption.com/app.

Итог

OpenAI Whisper — одна из самых точных систем преобразования речи в текст, когда-либо ставших публично доступными. И одновременно одна из самых недоступных для тех людей, которым она могла бы принести наибольшую пользу.

Если у вас есть сохранённый аудиофайл и терпение на небольшую настройку, Whisper — особенно через OpenAI API — обеспечивает почти человеческую точность транскрипции на 99 языках почти без затрат. Это выдающееся инженерное достижение.

Если вам нужно читать то, что человек говорит, пока он это говорит — во время встречи, а не после неё, — архитектура Whisper вам не подходит. Для этого сценария существуют потоковые speech-to-text инструменты. Они работают во вкладке браузера, запускаются за секунды и не требуют командной строки.

Вопрос не в том, какой инструмент лучше. Вопрос в том, какой инструмент соответствует вашим требованиям по времени. Если вам нужны лучшие speech-to-text инструменты в 2026 году для всех сценариев, наш полный обзор охватывает весь рынок.

Транскрипция живых встреч без настройки

MirrorCaption транслирует транскрипцию и перевод слово за словом прямо во время звонка. Работает в любом браузере на любой платформе видеозвонков. 1 бесплатный час (единоразово), без банковской карты.

Попробовать MirrorCaption бесплатно