OpenAI Whisper ialah model pertuturan-ke-teks sumber terbuka yang percuma, yang menukar audio lisan kepada teks bertulis merentasi 99 bahasa. Untuk menjalankannya, anda perlu memasang Python pada komputer anda, sekurang-kurangnya satu pustaka tambahan yang dipanggil ffmpeg, dan ruang cakera kosong antara 150 MB hingga 3 GB bergantung pada tahap kualiti yang anda mahukan. Ia tidak menyalin secara masa nyata. Inilah fakta-fakta yang sering diabaikan oleh liputan newsletter yang terlalu teruja.
Priya mengurus perkongsian di sebuah syarikat fintech di Singapura. Pada awal 2026, dia membaca bahawa Whisper boleh menyamai "ketepatan transkripsi setaraf manusia" dan percuma sepenuhnya. Dia menemui halaman GitHub, membaca sepintas lalu arahan pemasangan, dan merasakan optimisme seseorang yang belum pernah menemui frasa "pip install ffmpeg." Tiga jam kemudian dia berdepan ralat keserasian CUDA yang samar, tiada transkrip, dan terpaksa menulis baki nota mesyuarat dengan tangan. Alat ini sememangnya sangat baik. Cuma ia dibina untuk orang yang berbeza daripada Priya.
Whisper direka untuk pembangun dan penyelidik. Itu tidak menjadikannya alat yang buruk — ia hanya menjadikannya alat yang salah untuk orang yang sekadar mahu menyalin panggilan standup hari Khamis dalam bahasa Mandarin tanpa menulis satu baris kod pun.
Artikel ini menerangkan cara OpenAI Whisper sebenarnya berfungsi dalam bahasa yang mudah, apa yang dilakukannya dengan baik, apa yang secara asasnya tidak dapat dilakukannya, dan pilihan mana yang lebih masuk akal jika anda memerlukan transkripsi mesyuarat secara langsung hari ini.
- OpenAI Whisper ialah model pertuturan-ke-teks sumber terbuka yang percuma, dikeluarkan pada September 2022, dan dilatih menggunakan 680,000 jam audio dari web.
- Ia menyokong 99 bahasa dan mencapai ketepatan hampir setaraf manusia dalam bahasa Inggeris — kira-kira kadar ralat perkataan 2–3% pada rakaman yang bersih.
- Whisper tidak berfungsi secara masa nyata. Ia memproses audio dalam potongan 30 saat selepas rakaman selesai, bukan semasa seseorang sedang bercakap.
- Menjalankannya secara tempatan memerlukan Python 3.9+, ffmpeg, dan fail model antara 75 MB hingga 3 GB. Ketepatan dan kelajuan meningkat bersama-sama.
- Untuk transkripsi mesyuarat secara langsung tanpa pengekodan, anda memerlukan pertuturan-ke-teks penstriman — seni bina berbeza yang Whisper tidak direka untuk sediakan.
Apakah OpenAI Whisper?
OpenAI Whisper ialah model pengecaman pertuturan yang dikeluarkan sebagai sumber terbuka pada September 2022. OpenAI melatihnya menggunakan 680,000 jam audio yang dikumpulkan dari internet — kuliah, podcast, temu bual, video YouTube, buku audio — merentasi berpuluh-puluh bahasa. Skala data latihan itu merupakan sebahagian besar sebab ketepatannya begitu baik.
Ia boleh melakukan dua perkara: transkripsi, iaitu menukar audio kepada teks dalam bahasa yang sama, dan terjemahan, iaitu menukar audio dalam bahasa asing kepada teks bahasa Inggeris. Perhatikan bahawa ia hanya menterjemah ke bahasa Inggeris, bukan antara pasangan bahasa secara rawak.
Anda boleh mengakses Whisper dengan dua cara. Pertama, anda boleh memuat turun berat model secara percuma dari GitHub dan menjalankannya pada perkakasan anda sendiri — tiada kos API, tiada had kadar, tetapi anda perlu melakukan persediaan. Kedua, anda boleh menggunakan OpenAI Whisper API pada kadar $0.006 seminit audio, yang mengurangkan sebahagian besar beban persediaan tetapi masih memproses audio sebagai muat naik fail, bukannya strim langsung.
Jika anda memerlukan sesuatu yang berfungsi tanpa baris arahan, teruskan ke bahagian pilihan tanpa kod. Jika anda mahu memahami mengapa Whisper berfungsi seperti itu, teruskan membaca — ini penting untuk mengetahui apa yang boleh dan tidak boleh dilakukannya.
Cara OpenAI Whisper Berfungsi — Penjelasan Mudah
Anda tidak perlu memahami matematik untuk menggunakan Whisper dengan berkesan. Tetapi memahami empat langkah yang dilaluinya membantu menjelaskan mengapa ia mempunyai batasan yang ada.
Langkah 1: Audio masuk sebagai fail
Anda memberikan Whisper fail audio yang dirakam — MP3, WAV, M4A, atau kebanyakan format biasa yang lain. Secara lalai, ia tidak boleh membaca strim mikrofon secara langsung. Audio itu berada di cakera anda menunggu untuk diproses.
Langkah 2: Whisper menukar bunyi menjadi cap jari visual
Whisper menukar bentuk gelombang audio kepada mel spectrogram — bayangkan ia sebagai peta haba bunyi, di mana paksi mendatar ialah masa dan paksi menegak menunjukkan frekuensi yang hadir pada setiap detik. Pertuturan kelihatan berbeza daripada muzik, dan muzik pula berbeza daripada bunyi latar. Perwakilan visual inilah yang sebenarnya dibaca oleh AI.
Langkah 3: Model AI membaca cap jari dan meramalkan perkataan
Sebuah model transformer — jenis seni bina yang sama yang menjadi asas GPT — membaca spectrogram dan meramalkan urutan perkataan yang paling mungkin. Satu bahagian model mengekod corak bunyi; bahagian lain menyahkodnya menjadi teks, satu token pada satu masa. Penyahkod menggunakan konteks daripada audio sebelumnya untuk membuat ramalan yang lebih baik semasa ia bergerak.
Langkah 4: Teks keluar, dengan tanda baca dan huruf besar
Whisper mengeluarkan teks berformat dengan tanda baca dan huruf besar yang sesuai dengan ayat sudah pun diterapkan. Anda mendapat transkrip yang boleh digunakan, bukan deretan perkataan huruf kecil semata-mata.
Tetingkap 30 saat — dan mengapa ia penting. Whisper membahagikan audio anda kepada segmen 30 saat dan memprosesnya secara berurutan. Pendekatan berpecah ini ialah sebab utama Whisper tidak boleh menstrim kapsyen langsung. Tiada hasil separa selepas setiap perkataan. Hanya ada potongan yang selesai selepas setiap blok 30 saat selesai diproses. Untuk mesyuarat 60 minit, ini bermakna anda menerima transkrip separa pertama 30 saat selepas panggilan tamat — dan transkrip penuh hanya apabila semua potongan selesai.
Apa yang Whisper Lakukan dengan Baik
Dalam batas reka bentuknya, Whisper sememangnya mengagumkan.
- Ketepatan hampir setaraf manusia dalam bahasa Inggeris. Model large-v3 mencapai kira-kira kadar ralat perkataan 2–3% pada penanda aras standard — setanding dengan jurutranskipsi manusia profesional pada audio yang bersih. Sebagai rujukan, pengecaman pertuturan pengguna yang lebih lama purata kadar ralat 10–15%.
- 99 bahasa. Mandarin, Kantonis, Jepun, Korea, Arab, Hindi, Rusia, Portugis, Sepanyol, Jerman, Perancis, dan berpuluh-puluh lagi. README GitHub Whisper menyenaraikan set bahasa penuh bersama penanda aras ketepatan bagi setiap bahasa.
- Toleransi aksen yang kuat. Oleh sebab ia dilatih pada audio web dunia sebenar dan bukannya pertuturan berkualiti studio, Whisper mengendalikan aksen bukan penutur asli dengan lebih baik berbanding banyak sistem ASR lama yang ditala pada set data sempit.
- Tanda baca automatik. Koma, noktah, dan huruf besar disertakan. Kebanyakan alat transkripsi kelompok pesaing memerlukan langkah pasca-pemprosesan berasingan untuk ini.
- Perbendaharaan kata teknikal. Whisper mengendalikan istilah khusus bidang — perubatan, undang-undang, istilah pengaturcaraan — dengan lebih baik berbanding pengecaman pertuturan pengguna umum.
- Percuma sepenuhnya untuk digunakan. Berat model dikeluarkan di bawah lesen MIT, yang membenarkan penggunaan komersial. Anda boleh memproses sebanyak mana rakaman yang dibenarkan oleh perkakasan anda tanpa kos marginal.
Jika ketepatan selepas rakaman pada fail audio yang disimpan ialah keutamaan anda, Whisper memang sukar ditandingi. Ia ialah alat yang tepat untuk menyalin temu bual yang dirakam, episod podcast, kuliah, atau apa-apa audio yang telah anda tangkap.
Apa yang Whisper Tidak Boleh Lakukan — Bahagian yang Tiada Orang Terangkan
Kebanyakan artikel tentang Whisper ditulis oleh pembangun untuk pembangun. Mereka menyebut batasan secara sepintas lalu. Di sini, batasan itu mendapat perhatian yang sewajarnya.
Ia tidak menyalin secara masa nyata
Jika anda memulakan panggilan Zoom dan menghalakan Whisper kepadanya, anda akan menerima transkrip apabila panggilan tamat — bukan semasa ia berlangsung. Kelewatan antara pertuturan dan teks yang muncul berkisar daripada beberapa saat untuk klip pendek hingga beberapa minit untuk mesyuarat yang panjang, bergantung pada perkakasan dan saiz model anda.
Ini bukan pepijat. Ini ialah pilihan reka bentuk. Ketepatan Whisper sebahagiannya datang daripada memproses setiap potongan audio dengan konteks penuh. Transkripsi langsung memerlukan penghantaran hasil separa dengan segera, sebelum konteks tersedia. Kedua-dua pendekatan ini melibatkan pertukaran asas, dan Whisper dibina untuk memaksimumkan ketepatan, bukannya meminimumkan latensi.
Ia tidak boleh mengenal pasti siapa yang bercakap
Secara lalai, Whisper menghasilkan transkrip rata tanpa label. Setiap ayat muncul dalam blok berterusan tanpa petunjuk peserta mana yang menyebut apa. Dalam panggilan jualan dua orang, anda tidak akan tahu baris mana milik anda dan baris mana milik prospek anda. Dalam standup sepuluh orang, outputnya langsung tidak mempunyai atribusi.
Terdapat tambahan sumber terbuka (pyannote.audio ialah yang paling biasa) yang menambah diarization penutur di atas Whisper. Ia berfungsi dengan agak baik tetapi memerlukan pakej Python tambahan, muat turun model, dan konfigurasi. Masa persediaan meningkat kira-kira dua kali ganda.
Menjalankannya secara tempatan memerlukan persediaan teknikal
Untuk menggunakan Whisper pada komputer anda sendiri, anda memerlukan:
- Python 3.9 atau lebih tinggi dipasang dengan betul
- Pustaka audio ffmpeg (pemasangan berasingan pada kebanyakan sistem operasi)
- Fail berat model: 75 MB untuk "tiny," 1.5 GB untuk "medium," 3 GB untuk "large-v3"
- GPU moden jika anda mahukan kelajuan yang munasabah — model besar mengambil masa 20–40 minit untuk memproses satu jam audio pada CPU komputer riba biasa
Miguel mengetuai pasukan kejayaan pelanggan seramai 12 orang di sebuah syarikat pemula di Barcelona. Pasukannya mengendalikan panggilan dalam bahasa Sepanyol, Catalan, dan Inggeris. Pada Januari 2026, dia meminta pembangun utama untuk "sediakan Whisper untuk pasukan." Pembangun itu menghabiskan seluruh hujung minggu memasang kebergantungan, berdepan konflik versi CUDA yang mengambil masa empat jam untuk diselesaikan, kemudian membina antara muka muat naik kecil supaya rakan sepasukan boleh menghantar rakaman tanpa menyentuh terminal. Jumlah masa persediaan: kira-kira 14 jam kerja kejuruteraan. Alat itu kini berfungsi dengan baik. Miguel bersyukur. Dia juga mengakui bahawa kebanyakan pasukan tidak mempunyai pembangun dengan hujung minggu lapang untuk menghabiskannya.
API OpenAI lebih mudah — tetapi masih bukan langsung
OpenAI Whisper API menghapuskan masalah pemasangan tempatan. Anda menghantar fail audio ke pelayan OpenAI melalui permintaan HTTP yang mudah dan menerima transkrip kembali, biasanya dalam beberapa saat untuk klip pendek. Kosnya ialah $0.006 seminit — transkrip mesyuarat 60 minit berharga kira-kira $0.36.
Ini menurunkan halangan teknikal dengan ketara. Tetapi API ini masih merupakan model muat naik fail, bukan strim langsung. Anda menghantar rakaman yang telah siap selepas panggilan tamat. Transkrip tiba tidak lama selepas itu. Jika matlamat anda ialah membaca kapsyen semasa seseorang masih bercakap, API tidak mengubah kekangan asas tersebut.
Saiz Model Whisper Sekilas Pandang
Whisper hadir dalam lima tahap kualiti. Model yang lebih besar lebih tepat tetapi lebih perlahan dan lebih berat. Pada komputer riba pengguna biasa tanpa GPU, model "small" biasanya ialah had praktikal dari segi kelajuan.
| Model | Saiz fail | Kelajuan CPU (berbanding audio) | Paling sesuai untuk |
|---|---|---|---|
| tiny | 75 MB | ~10× lebih pantas | Ujian pantas, demo |
| base | 150 MB | ~7× lebih pantas | Penggunaan santai, iterasi pantas |
| small ★ | 490 MB | ~4× lebih pantas | Imbangan kualiti/kelajuan yang baik pada komputer riba |
| medium | 1.5 GB | ~2× lebih pantas | Ketepatan lebih tinggi, GPU disyorkan |
| large-v3 | 3 GB | ~1× (masa nyata pada GPU) | Ketepatan maksimum, GPU diperlukan untuk penggunaan praktikal |
Mula dengan "small" jika anda sedang menguji pada komputer riba. Beralih ke "large-v3" jika anda mempunyai GPU NVIDIA yang serasi dan memerlukan ketepatan terbaik pada audio bukan Inggeris. Lonjakan ketepatan daripada small ke large-v3 memang ketara. Lonjakan masa pemprosesan pada CPU pula sangat besar.
Cara Menggunakan Whisper Tanpa Menulis Kod
Terdapat tiga pilihan praktikal untuk bukan pembangun, masing-masing membuat pertukaran berbeza antara usaha, kos, dan masa.
Pilihan 1: OpenAI Whisper API
Muat naik fail audio anda melalui antara muka OpenAI atau melalui klien HTTP tanpa kod seperti Postman. Anda akan menerima transkrip yang kemas dalam beberapa saat hingga minit bergantung pada panjangnya. Kos: $0.006/minit. Ini ialah laluan paling rendah geseran jika anda hanya sesekali mempunyai rakaman dan tidak mahu memasang apa-apa. Kelemahannya: anda masih memproses rakaman selepas fakta, bukan menangkap pertuturan secara langsung.
Pilihan 2: Aplikasi desktop yang dibina atas Whisper
Beberapa pembangun telah membungkus Whisper dalam antara muka yang boleh diklik. MacWhisper (khusus Mac) dan Buzz (merentas platform, percuma) membolehkan anda menyeret masuk fail audio dan mendapatkan transkrip tanpa membuka terminal. Ini sememangnya berguna untuk transkripsi selepas panggilan. Ia berkongsi kekangan seni bina yang sama — tiada kapsyen langsung, tiada label penutur tanpa konfigurasi tambahan.
Pilihan 3: Alat penstriman berasaskan pelayar untuk mesyuarat langsung
Jika matlamat anda ialah membaca kapsyen semasa perbualan sedang berlaku — bukan mendapatkan transkrip selepas ia tamat — anda memerlukan pendekatan yang sama sekali berbeza. Alat berasaskan pelayar yang menggunakan pertuturan-ke-teks penstriman menangkap audio daripada mikrofon atau tab pelayar anda dan menghantar hasil separa perkataan demi perkataan semasa orang bercakap. Tiada pemasangan, tiada Python, tiada menunggu pasca-pemprosesan.
Kategori ini termasuk alat seperti alternatif Whisper yang dibina untuk pengguna bukan teknikal, yang menukar sedikit ketepatan selepas rakaman Whisper demi kepantasan yang diperlukan oleh perbualan langsung. Pilihan antara keduanya bukan soal mana yang "lebih baik" — ia soal sama ada anda memerlukan transkripsi tentang mesyuarat atau semasa mesyuarat.
Whisper vs. Transkripsi Mesyuarat Langsung — Dua Seni Bina Berbeza
Memahami mengapa Whisper tidak boleh menstrim kapsyen langsung memerlukan pemahaman tentang perbezaan antara pertuturan-ke-teks kelompok dan penstriman.
Whisper ialah model kelompok. Ia menunggu potongan audio yang lengkap, memprosesnya dengan konteks penuh, dan mengembalikan hasil. Kelebihan ketepatan datang daripada konteks penuh itu: model boleh melihat penghujung ayat sebelum mengesahkan apa yang dikatakan pada permulaan. Ia seperti membaca satu perenggan dua kali sebelum meringkaskannya.
Pertuturan-ke-teks penstriman berfungsi secara berbeza. Ia menghantar hasil separa sebaik sahaja setiap perkataan tiba, kemudian membetulkannya secara automatik apabila konteks bertambah. Alat seperti MirrorCaption, yang dibina atas enjin STT penstriman kami sendiri, boleh menghantar perkataan pertama kapsyen dalam masa 300–500 milisaat selepas seseorang menyebutnya. Pertukarannya ialah sedikit kehilangan ketepatan pada perkataan yang samar-samar yang akan ditangkap oleh pemprosesan kelompok dengan kelebihan pandangan belakang.
Ini bukan perbandingan kualiti. Whisper boleh dikatakan lebih tepat pada audio yang dirakam kerana ia memproses lebih banyak konteks. STT penstriman menerima penalti ketepatan yang kecil sebagai pertukaran untuk kepantasan. Untuk mesyuarat langsung, kepantasan itulah keseluruhan produk.
Kenji bekerja di Tokyo untuk sebuah pengeluar yang menjual kepada pelanggan Eropah. Panggilan hari Khamisnya dengan pasukan Munich sebelum ini bergantung pada seorang rakan sekerja dwibahasa untuk mentafsir frasa penting. Apabila rakan sekerja itu pergi, Kenji mula menggunakan alat transkripsi penstriman berasaskan pelayar. Dia membaca kapsyen bahasa Jerman secara masa nyata semasa panggilan. Tiada muat turun, tiada Python, tiada menunggu transkrip muncul selepas mesyuarat tamat. Perbezaannya dengan Whisper bukan pada ketepatan. Ia ialah keupayaan untuk mendengar sesuatu, memahaminya, dan membalas — semuanya dalam panggilan 60 minit yang sama.
Perlu kapsyen langsung, bukan transkrip selepas panggilan? MirrorCaption menstrim transkripsi dan terjemahan dalam mana-mana pelayar, semasa mesyuarat anda. Tiada pemasangan diperlukan.
Cuba Percuma →Soalan Lazim
Adakah OpenAI Whisper percuma?
Ya. Berat model Whisper percuma untuk dimuat turun dan digunakan di bawah lesen MIT, yang membenarkan aplikasi komersial. Menjalankan Whisper secara tempatan tidak memerlukan kos selain perkakasan dan elektrik anda sendiri. OpenAI Whisper API mengenakan caj $0.006 seminit audio — transkrip mesyuarat 60 minit berharga kira-kira $0.36.
Bolehkah Whisper menyalin panggilan Zoom secara masa nyata?
Tidak. Whisper memproses audio dalam potongan 30 saat selepas audio dirakam. Ia tidak boleh memberikan kapsyen perkataan demi perkataan semasa seseorang sedang bercakap. Jika anda merakam panggilan Zoom dan kemudian menjalankan Whisper pada fail yang disimpan, anda akan mendapat transkrip yang kemas — tetapi hanya selepas mesyuarat tamat. Untuk kapsyen Zoom secara langsung, anda memerlukan alat pertuturan-ke-teks penstriman, bukan Whisper. Rumusan perisian pertuturan-ke-teks kami membandingkan pilihan masa nyata dan selepas mesyuarat merentas aliran kerja biasa.
Sejauh mana tepat OpenAI Whisper?
Whisper large-v3 mencapai kira-kira kadar ralat perkataan 2–3% pada penanda aras LibriSpeech standard untuk bahasa Inggeris, yang setanding dengan transkripsi manusia profesional pada audio yang bersih. Ketepatan menurun apabila terdapat bunyi latar yang kuat, penutur bertindih, pertuturan yang sangat laju, atau mikrofon berkualiti rendah. Bahasa bukan Inggeris secara purata mempunyai kadar ralat yang lebih tinggi daripada bahasa Inggeris, walaupun ia masih mengatasi banyak model lama khusus wilayah. Untuk melihat lebih luas pertukaran ketepatan transkripsi, lihat penanda aras ketepatan terjemahan masa nyata kami.
Adakah Whisper menyokong bahasa Cina dan Jepun?
Ya. Whisper merangkumi 99 bahasa termasuk bahasa Cina Mandarin, Kantonis, Jepun, Korea, Arab, Hindi, dan semua bahasa utama Eropah. Untuk Mandarin dan Kantonis, model besar Whisper berprestasi baik pada audio yang diucapkan dengan jelas, walaupun ia menghadapi kesukaran dengan aksen serantau yang kuat dan pertukaran kod antara bahasa Cina dan Inggeris dalam ayat yang sama. Untuk perbandingan lebih luas tentang alat berbilang bahasa yang tersedia hari ini, lihat rumusan perisian pertuturan-ke-teks kami.
Adakah terdapat alternatif berasaskan pelayar kepada Whisper yang berfungsi untuk mesyuarat langsung?
Ya. Alat berasaskan pelayar seperti MirrorCaption menggunakan pertuturan-ke-teks penstriman untuk menyalin dan menterjemah secara masa nyata semasa mesyuarat anda — tiada Python, tiada pemasangan, tiada menunggu panggilan tamat. Ia berfungsi dalam Chrome, Safari, atau Edge pada mana-mana peranti. Pertukaran berbanding Whisper ialah ketepatan selepas rakaman pada rakaman yang disimpan mungkin sedikit lebih rendah, tetapi untuk perbualan langsung, kepantasan itulah tujuannya. Mulakan dengan 1 jam percuma, sekali sahaja di mirrorcaption.com/app.
Kesimpulannya
OpenAI Whisper ialah salah satu sistem pertuturan-ke-teks paling tepat yang pernah tersedia kepada umum. Ia juga antara yang paling sukar diakses oleh orang yang paling akan mendapat manfaat daripadanya.
Jika anda mempunyai fail audio yang disimpan dan kesabaran untuk sedikit persediaan, Whisper — terutamanya melalui OpenAI API — memberikan ketepatan transkripsi hampir setaraf manusia merentasi 99 bahasa dengan kos yang hampir sifar. Itu merupakan pencapaian kejuruteraan yang luar biasa.
Jika anda perlu membaca apa yang seseorang katakan semasa mereka mengatakannya — semasa mesyuarat, bukan selepas — seni bina Whisper tidak sesuai. Alat pertuturan-ke-teks penstriman wujud khusus untuk kes penggunaan ini. Ia berfungsi dalam tab pelayar, bermula dalam beberapa saat, dan tidak memerlukan baris arahan.
Persoalannya bukan alat mana yang lebih baik. Persoalannya ialah alat mana yang sepadan dengan keperluan masa anda. Untuk alat pertuturan-ke-teks terbaik pada 2026 merentas semua kes penggunaan, rumusan penuh kami merangkumi keseluruhan landskap.
Transkripsi mesyuarat langsung, tanpa persediaan diperlukan
MirrorCaption menstrim transkripsi dan terjemahan perkataan demi perkataan semasa panggilan anda. Berfungsi dalam mana-mana pelayar pada mana-mana platform panggilan video. 2 jam percuma setiap bulan, tiada kad kredit.
Cuba MirrorCaption Percuma