OpenAI Whisper — це безкоштовна модель розпізнавання мовлення з відкритим кодом, яка перетворює усне аудіо на письмовий текст 99 мовами. Щоб запустити її, на вашому комп’ютері має бути встановлено Python, принаймні одна додаткова бібліотека під назвою ffmpeg, а також від 150 МБ до 3 ГБ вільного місця на диску залежно від потрібного рівня якості. Вона не транскрибує в реальному часі. Це факти, які зазвичай випускають із виду в захоплених новинних розсилках.
Прія керує партнерствами у фінтех-компанії в Сінгапурі. На початку 2026 року вона прочитала, що Whisper може зрівнятися з «точністю транскрипції на рівні людини» і є повністю безкоштовним. Вона знайшла сторінку GitHub, переглянула інструкції й відчула оптимізм людини, яка ще не стикалася з фразою «pip install ffmpeg». Через три години в неї була загадкова помилка сумісності CUDA, не було транскрипту, а решту нотаток із зустрічі вона робила вручну. Інструмент справді чудовий. Просто він був створений для іншої людини, ніж Прія.
Whisper створювали для розробників і дослідників. Це не робить його поганим інструментом — це робить його неправильним інструментом для людей, які просто хочуть транскрибувати четверговий стендап-дзвінок мандаринською, не написавши жодного рядка коду.
У цій статті простими словами пояснюється, як OpenAI Whisper насправді працює, що в нього виходить добре, чого він принципово не може робити і які варіанти мають більше сенсу, якщо вам потрібна жива транскрипція зустрічей уже сьогодні.
- OpenAI Whisper — це безкоштовна модель розпізнавання мовлення з відкритим кодом, випущена у вересні 2022 року, навчена на 680 000 годинах аудіо з інтернету.
- Вона підтримує 99 мов і досягає майже людської точності англійською — приблизно 2–3% помилки слів на чистих записах.
- Whisper не працює в реальному часі. Він обробляє аудіо порціями по 30 секунд після завершення запису, а не під час того, як хтось говорить.
- Для локального запуску потрібні Python 3.9+, ffmpeg і файл моделі розміром від 75 МБ до 3 ГБ. Точність і швидкість зростають разом.
- Для живої транскрипції зустрічей без кодування потрібен потоковий speech-to-text — інша архітектура, яку Whisper не був створений забезпечувати.
Що таке OpenAI Whisper?
OpenAI Whisper — це модель розпізнавання мовлення, випущена як open-source у вересні 2022 року. OpenAI навчила її на 680 000 годинах аудіо, зібраного з інтернету — лекціях, подкастах, інтерв’ю, відео YouTube, аудіокнигах — десятками мов. Масштаб цих навчальних даних значною мірою пояснює, чому її точність така висока.
Вона може робити дві речі: транскрипцію, тобто перетворювати аудіо на текст тією самою мовою, і переклад, тобто перетворювати аудіо іноземною мовою на англійський текст. Зверніть увагу, що вона перекладає лише англійською, а не між довільними мовними парами.
Доступ до Whisper можна отримати двома способами. По-перше, ви можете безкоштовно завантажити ваги моделі з GitHub і запускати її на власному обладнанні — без витрат на API, без обмежень швидкості, але з налаштуванням на вашому боці. По-друге, ви можете викликати OpenAI Whisper API за $0.006 за хвилину аудіо, що знімає більшість клопоту з налаштуванням, але все одно обробляє аудіо як завантаження файлу, а не як живий потік.
Якщо вам потрібне щось, що працює без командного рядка, перейдіть до розділу варіантів без коду. Якщо ж ви хочете зрозуміти, чому Whisper працює саме так, читайте далі — це важливо, щоб знати, що він може, а чого не може.
Як працює OpenAI Whisper — пояснення простими словами
Щоб ефективно користуватися Whisper, не потрібно розуміти математику. Але розуміння чотирьох кроків, які він виконує, допомагає пояснити, чому в нього є саме такі обмеження.
Крок 1: Аудіо надходить як файл
Ви даєте Whisper записаний аудіофайл — MP3, WAV, M4A або більшість інших поширених форматів. За замовчуванням він не може читати живий потік із мікрофона. Аудіо лежить на вашому диску в очікуванні обробки.
Крок 2: Whisper перетворює звук на візуальний відбиток
Whisper перетворює аудіохвилю на мел-спектрограму — уявіть її як теплову карту звуку, де горизонтальна вісь — це час, а вертикальна показує, які частоти присутні в кожен момент. Мова виглядає інакше, ніж музика, інакше, ніж фоновий шум. Саме цю візуальну репрезентацію й читає ШІ.
Крок 3: Модель ШІ читає відбиток і прогнозує слова
Модель-трансформер — той самий тип архітектури, що лежить в основі GPT, — читає спектрограму й прогнозує найімовірнішу послідовність слів. Одна частина моделі кодує звуковий патерн; інша декодує його в текст, по одному токену за раз. Декодер використовує контекст із попереднього аудіо, щоб із кожним кроком робити кращі прогнози.
Крок 4: На виході з’являється текст із пунктуацією та великими літерами
Whisper виводить відформатований текст із уже застосованими розділовими знаками та великими літерами, доречними для речень. Ви отримуєте придатний до використання транскрипт, а не суцільну стіну слів у нижньому регістрі.
30-секундне вікно — і чому це важливо. Whisper ділить ваше аудіо на 30-секундні сегменти й обробляє їх послідовно. Саме цей поділ на фрагменти є головною причиною, чому Whisper не може передавати живі субтитри. Після кожного слова немає проміжного результату. Є лише завершений фрагмент після того, як обробка кожного 30-секундного блоку закінчиться. Для 60-хвилинної зустрічі це означає, що перший частковий транскрипт ви отримаєте через 30 секунд після завершення дзвінка — а повний транскрипт лише тоді, коли всі фрагменти будуть готові.
Що Whisper робить добре
У межах своїх дизайнерських обмежень Whisper справді вражає.
- Майже людська точність англійською. Модель large-v3 досягає приблизно 2–3% помилки слів на стандартних бенчмарках — на рівні професійних людських транскрибаторів на чистому аудіо. Для порівняння, старі споживчі системи розпізнавання мовлення мали в середньому 10–15% помилок.
- 99 мов. Мандаринська, кантонська, японська, корейська, арабська, хінді, російська, португальська, іспанська, німецька, французька та десятки інших. Whisper GitHub README містить повний перелік мов із бенчмарками точності для кожної з них.
- Стійкість до акцентів. Оскільки модель навчали на реальному веб-аудіо, а не на студійно чистому мовленні, Whisper краще справляється з не рідними акцентами, ніж багато старіших ASR-систем, налаштованих на вузьких наборах даних.
- Автоматична пунктуація. Коми, крапки та великі літери вже включені. Більшість конкуруючих пакетних інструментів транскрипції потребують окремого етапу постобробки для цього.
- Технічна лексика. Whisper краще обробляє термінологію з конкретних сфер — медичну, юридичну, програмістську — ніж універсальне споживче розпізнавання мовлення.
- Повністю безкоштовне використання. Ваги моделі поширюються за ліцензією MIT, яка дозволяє комерційне використання. Ви можете обробляти стільки записів, скільки дозволяє ваше обладнання, без жодних додаткових витрат.
Якщо для вас пріоритетом є точність після запису на збереженому аудіофайлі, Whisper важко перевершити. Це правильний інструмент для транскрибування записаних інтерв’ю, епізодів подкастів, лекцій або будь-якого аудіо, яке ви вже зберегли.
Чого Whisper не може робити — частина, яку ніхто не пояснює
Більшість статей про Whisper написані розробниками для розробників. Вони згадують обмеження побіжно. Тут вони отримають належну увагу.
Він не транскрибує в реальному часі
Якщо ви почнете дзвінок у Zoom і направите Whisper на нього, ви отримаєте транскрипт після завершення дзвінка — не під час нього. Затримка між мовленням і появою тексту коливається від кількох секунд для коротких кліпів до кількох хвилин для довгої зустрічі, залежно від вашого обладнання та розміру моделі.
Це не баг. Це дизайнерське рішення. Точність Whisper частково пояснюється тим, що кожен аудіофрагмент обробляється з повним контекстом. Жива транскрипція вимагає негайно надсилати часткові результати, ще до того, як контекст стане доступним. Ці два підходи передбачають фундаментальний компроміс, і Whisper створювали так, щоб максимізувати точність, а не мінімізувати затримку.
Він не може визначити, хто говорить
За замовчуванням Whisper створює плоский, неіменований транскрипт. Кожне речення з’являється в суцільному блоці без жодної вказівки на те, який учасник що сказав. У дзвінку між двома людьми з продажів ви не знатимете, які рядки були вашими, а які — вашого потенційного клієнта. На стендапі з десятьма людьми результат взагалі не має атрибуції.
Існують open-source доповнення (найпоширеніше — pyannote.audio), які накладають діаризацію мовців поверх Whisper. Вони працюють досить добре, але потребують додаткових пакетів Python, завантаження моделей і налаштування. Час на підготовку приблизно подвоюється.
Локальний запуск вимагає технічного налаштування
Щоб використовувати Whisper на власному комп’ютері, вам потрібно:
- Правильно встановлений Python 3.9 або новіший
- Аудіобібліотека ffmpeg (окрема інсталяція на більшості операційних систем)
- Файл ваг моделі: 75 МБ для "tiny", 1.5 ГБ для "medium", 3 ГБ для "large-v3"
- Сучасний GPU, якщо вам потрібна прийнятна швидкість — велика модель обробляє одну годину аудіо за 20–40 хвилин на типовому CPU ноутбука
Мігель керує командою customer success із 12 людей у стартапі в Барселоні. Його команда обробляє дзвінки іспанською, каталонською та англійською. У січні 2026 року він попросив свого провідного розробника «налаштувати Whisper для команди». Розробник провів цілий вікенд, встановлюючи залежності, натрапив на конфлікт версій CUDA, на вирішення якого пішло чотири години, а потім створив невеликий інтерфейс завантаження, щоб колеги могли надсилати записи, не торкаючись термінала. Загальний час налаштування: близько 14 годин інженерної роботи. Тепер інструмент працює добре. Мігель вдячний. Але він також визнає, що в більшості команд немає розробника з вільним вікендом, який можна було б на це витратити.
OpenAI API простіший — але все одно не живий
OpenAI Whisper API усуває проблему локальної інсталяції. Ви надсилаєте аудіофайл на сервери OpenAI через простий HTTP-запит і отримуєте транскрипт назад, зазвичай за кілька секунд для коротких кліпів. Вартість — $0.006 за хвилину, тобто транскрипт 60-хвилинної зустрічі коштує приблизно $0.36.
Це суттєво знижує технічний бар’єр. Але API все одно працює як завантаження файлу, а не як живий потік. Ви надсилаєте готовий запис після завершення дзвінка. Транскрипт приходить невдовзі після цього. Якщо ваша мета — читати субтитри, поки хтось ще говорить, API не змінює базове обмеження.
Розміри моделей Whisper на одному погляді
Whisper доступний у п’яти рівнях якості. Більші моделі точніші, але повільніші й важчі. На типовому споживчому ноутбуці без GPU модель "small" зазвичай є практичною межею за швидкістю.
| Модель | Розмір файлу | Швидкість на CPU (відносно аудіо) | Найкраще для |
|---|---|---|---|
| tiny | 75 MB | ~10× швидше | Швидкі тести, демо |
| base | 150 MB | ~7× швидше | Невимушене використання, швидкі ітерації |
| small ★ | 490 MB | ~4× швидше | Хороший баланс якості та швидкості на ноутбуках |
| medium | 1.5 GB | ~2× швидше | Вища точність, рекомендовано GPU |
| large-v3 | 3 GB | ~1× (реальний час на GPU) | Максимальна точність, для практичного використання потрібен GPU |
Почніть із "small", якщо тестуєте на ноутбуці. Перейдіть на "large-v3", якщо у вас є сумісний NVIDIA GPU і вам потрібна найкраща точність для неангломовного аудіо. Перехід від small до large-v3 у точності помітний. Перехід у часі обробки на CPU — значний.
Як використовувати Whisper без написання коду
Для нетехнічних користувачів існує три практичні варіанти, і кожен із них по-різному балансує зусилля, вартість і час.
Варіант 1: OpenAI Whisper API
Завантажте аудіофайл через інтерфейс OpenAI або через no-code HTTP-клієнт, наприклад Postman. Ви отримаєте чистий транскрипт за секунди або хвилини залежно від тривалості. Вартість: $0.006/хвилину. Це найменш обтяжливий шлях, якщо у вас є лише інколи записи й ви не хочете нічого встановлювати. Недолік: ви все одно обробляєте записи постфактум, а не захоплюєте мовлення в реальному часі.
Варіант 2: Десктопні застосунки на базі Whisper
Деякі розробники загорнули Whisper у клікабельний інтерфейс. MacWhisper (лише Mac) і Buzz (кросплатформний, безкоштовний) дозволяють перетягнути аудіофайл і отримати транскрипт без відкриття термінала. Це справді корисно для транскрипції після дзвінка. Вони мають те саме архітектурне обмеження — без живих субтитрів, без міток мовців без додаткового налаштування.
Варіант 3: Браузерні потокові інструменти для живих зустрічей
Якщо ваша мета — читати субтитри під час розмови, а не отримати транскрипт після її завершення, вам потрібен зовсім інший підхід. Браузерні інструменти, що використовують потоковий speech-to-text, захоплюють аудіо з мікрофона або вкладки браузера й надсилають часткові результати слово за словом у міру того, як люди говорять. Без інсталяції, без Python, без очікування постобробки.
До цієї категорії належать інструменти на кшталт альтернатив Whisper, створених для нетехнічних користувачів, які обмінюють частину постфактумної точності Whisper на миттєвість, потрібну для живих розмов. Вибір між ними — це не питання, що «краще», а питання, чи потрібна вам транскрипція зустрічі чи під час неї.
Whisper проти живої транскрипції зустрічей — дві різні архітектури
Щоб зрозуміти, чому Whisper не може передавати живі субтитри, потрібно зрозуміти різницю між пакетним і потоковим speech-to-text.
Whisper — це пакетна модель. Вона чекає на повний аудіофрагмент, обробляє його з повним контекстом і повертає результат. Перевага в точності виникає саме завдяки цьому повному контексту: модель може побачити кінець речення, перш ніж підтвердити, що сказано на початку. Це як двічі прочитати абзац перед тим, як його підсумувати.
Потоковий speech-to-text працює інакше. Він надсилає часткові результати в момент, коли надходить кожне слово, а потім автоматично виправляє їх у міру накопичення контексту. Інструменти на кшталт MirrorCaption, побудовані на нашому власному потоковому STT-рушії, можуть показати перше слово субтитра через 300–500 мілісекунд після того, як його було сказано. Компроміс — деяка втрата точності на неоднозначних словах, які пакетна обробка змогла б уточнити заднім числом.
Це не порівняння якості. Whisper, ймовірно, точніший на записаному аудіо саме тому, що обробляє більше контексту. Потоковий STT приймає невеликий штраф у точності в обмін на миттєвість. Для живих зустрічей миттєвість і є всім продуктом.
Кенджі працює в Токіо на виробника, який продає продукцію європейським клієнтам. Його четвергові дзвінки з командою в Мюнхені раніше покладалися на двомовного колегу, який перекладав ключові фрази. Коли той колега пішов, Кенджі почав користуватися браузерним інструментом потокової транскрипції. Він читає німецькі субтитри в реальному часі під час дзвінка. Без завантажень, без Python, без очікування, поки транскрипт з’явиться після завершення зустрічі. Різниця з Whisper не в точності. Вона в здатності щось почути, зрозуміти й відповісти — усе в межах одного 60-хвилинного дзвінка.
Потрібні живі субтитри, а не транскрипти після дзвінка? MirrorCaption транслює транскрипцію та переклад у будь-якому браузері під час вашої зустрічі. Інсталяція не потрібна.
Спробувати безкоштовно →Часті запитання
Чи є OpenAI Whisper безкоштовним?
Так. Ваги моделі Whisper можна безкоштовно завантажувати й використовувати за ліцензією MIT, яка дозволяє комерційні застосування. Локальний запуск Whisper нічого не коштує, окрім вашого обладнання та електроенергії. OpenAI Whisper API коштує $0.006 за хвилину аудіо — транскрипт 60-хвилинної зустрічі обійдеться приблизно в $0.36.
Чи може Whisper транскрибувати дзвінок у Zoom у реальному часі?
Ні. Whisper обробляє аудіо порціями по 30 секунд після того, як аудіо вже записано. Він не може видавати субтитри слово за словом, поки хтось говорить. Якщо ви запишете дзвінок у Zoom, а потім запустите Whisper на збереженому файлі, ви отримаєте чистий транскрипт — але лише після завершення зустрічі. Для живих субтитрів у Zoom потрібен потоковий інструмент speech-to-text, а не Whisper. Наш огляд програм для speech-to-text порівнює варіанти в реальному часі та після зустрічі для поширених сценаріїв роботи.
Наскільки точний OpenAI Whisper?
Whisper large-v3 досягає приблизно 2–3% помилки слів на стандартному бенчмарку LibriSpeech для англійської, що можна порівняти з професійною людською транскрипцією на чистому аудіо. Точність знижується за сильного фонового шуму, накладання голосів, дуже швидкого мовлення або низькоякісних мікрофонів. Для неанглійських мов середній рівень помилок вищий, ніж для англійської, хоча вони все одно перевершують багато старіших регіональних моделей. Для ширшого погляду на компроміси точності транскрипції дивіться наші бенчмарки точності перекладу в реальному часі.
Чи підтримує Whisper китайську та японську?
Так. Whisper охоплює 99 мов, зокрема мандаринську китайську, кантонську, японську, корейську, арабську, хінді та всі основні європейські мови. Для мандаринської та кантонської мов велика модель Whisper добре працює на чітко вимовленому аудіо, хоча їй важко даються сильні регіональні акценти та змішування китайської й англійської в одному реченні. Для ширшого порівняння багатомовних інструментів, доступних сьогодні, дивіться наш огляд програм для speech-to-text.
Чи є браузерна альтернатива Whisper, яка працює для живих зустрічей?
Так. Браузерні інструменти на кшталт MirrorCaption використовують потоковий speech-to-text, щоб транскрибувати й перекладати в реальному часі під час вашої зустрічі — без Python, без інсталяції, без очікування завершення дзвінка. Вони працюють у Chrome, Safari або Edge на будь-якому пристрої. Компроміс порівняно з Whisper полягає в тому, що точність постфактум на збереженому записі може бути трохи нижчою, але для живих розмов саме миттєвість і є сенсом. Почніть із 1 безкоштовної години, одноразово на mirrorcaption.com/app.
Підсумок
OpenAI Whisper — одна з найточніших систем speech-to-text, коли-небудь доступних публічно. Водночас це одна з найменш доступних для тих, хто міг би отримати від неї найбільшу користь.
Якщо у вас є збережений аудіофайл і терпіння на певне налаштування, Whisper — особливо через OpenAI API — забезпечує майже людську точність транскрипції 99 мовами майже безкоштовно. Це видатне інженерне досягнення.
Якщо вам потрібно читати те, що говорить людина, поки вона це говорить — під час зустрічі, а не після неї — архітектура Whisper не підходить. Для цього існують потокові інструменти speech-to-text. Вони працюють у вкладці браузера, запускаються за кілька секунд і не потребують командного рядка.
Питання не в тому, який інструмент кращий. Питання в тому, який інструмент відповідає вашим вимогам до часу. Для найкращих інструментів speech-to-text у 2026 році для всіх сценаріїв наш повний огляд охоплює весь ландшафт.
Жива транскрипція зустрічей без налаштування
MirrorCaption транслює транскрипцію та переклад слово за словом під час вашого дзвінка. Працює в будь-якому браузері на будь-якій платформі відеодзвінків. 2 години безкоштовно щомісяця, без кредитної картки.
Спробувати MirrorCaption безкоштовно