OpenAI Whisper adalah model speech-to-text gratis dan open-source yang mengubah audio lisan menjadi teks tertulis dalam 99 bahasa. Untuk menjalankannya, Anda perlu Python terpasang di komputer, setidaknya satu pustaka tambahan bernama ffmpeg, dan ruang kosong di disk antara 150 MB hingga 3 GB, tergantung pada tingkat kualitas yang Anda inginkan. Whisper tidak mentranskripsikan secara real time. Inilah fakta-fakta yang sering dilewatkan oleh liputan newsletter yang terlalu heboh.

Priya mengelola kemitraan di sebuah perusahaan fintech di Singapura. Pada awal 2026, ia membaca bahwa Whisper bisa menyamai "akurasi transkripsi setingkat manusia" dan sepenuhnya gratis. Ia menemukan halaman GitHub-nya, membaca sekilas instruksinya, lalu merasakan optimisme seseorang yang belum pernah menemui frasa "pip install ffmpeg." Tiga jam kemudian, ia mendapat error kompatibilitas CUDA yang membingungkan, belum ada transkrip, dan sisa catatan rapat harus ia tulis dengan tangan. Alat ini memang sangat bagus. Hanya saja, alat ini dibuat untuk orang yang berbeda dari Priya.

Whisper dirancang untuk developer dan peneliti. Itu bukan berarti alat ini buruk — artinya alat ini bukan alat yang tepat bagi orang yang hanya ingin mentranskripsikan panggilan standup hari Kamis dalam bahasa Mandarin tanpa menulis satu baris kode pun.

Artikel ini menjelaskan cara kerja OpenAI Whisper dalam bahasa yang sederhana, apa yang dilakukannya dengan baik, apa yang secara mendasar tidak bisa dilakukannya, dan opsi mana yang lebih masuk akal jika Anda membutuhkan transkripsi rapat langsung hari ini.

Poin Utama

Apa Itu OpenAI Whisper?

OpenAI Whisper adalah model pengenalan suara yang dirilis sebagai open-source pada September 2022. OpenAI melatihnya dengan 680.000 jam audio yang dikumpulkan dari internet — kuliah, podcast, wawancara, video YouTube, audiobook — dalam puluhan bahasa. Skala data pelatihan itulah salah satu alasan utama akurasinya sangat baik.

Whisper dapat melakukan dua hal: transkripsi, yaitu mengubah audio menjadi teks dalam bahasa yang sama, dan terjemahan, yaitu mengubah audio dalam bahasa asing menjadi teks bahasa Inggris. Perlu dicatat bahwa Whisper hanya menerjemahkan ke bahasa Inggris, bukan antar pasangan bahasa sembarang.

Anda bisa mengakses Whisper dengan dua cara. Pertama, Anda dapat mengunduh bobot modelnya secara gratis dari GitHub dan menjalankannya di perangkat keras Anda sendiri — tanpa biaya API, tanpa batas rate limit, tetapi Anda yang melakukan penyiapannya. Kedua, Anda dapat memanggil OpenAI Whisper API dengan biaya $0.006 per menit audio, yang mengurangi sebagian besar beban penyiapan tetapi tetap memproses audio sebagai unggahan file, bukan sebagai streaming langsung.

Jika Anda membutuhkan sesuatu yang bisa digunakan tanpa command line, lompat ke bagian opsi tanpa kode. Jika Anda ingin memahami mengapa Whisper bekerja seperti itu, lanjutkan membaca — ini penting untuk mengetahui apa yang bisa dan tidak bisa dilakukannya.

Cara Kerja OpenAI Whisper — Penjelasan Sederhana

Anda tidak perlu memahami matematikanya untuk menggunakan Whisper secara efektif. Namun, memahami empat langkah yang dilaluinya membantu menjelaskan mengapa ia memiliki keterbatasan seperti itu.

Langkah 1: Audio masuk sebagai file

Anda memberikan Whisper file audio yang direkam — MP3, WAV, M4A, atau sebagian besar format umum lainnya. Secara default, Whisper tidak bisa membaca aliran mikrofon langsung. Audio tersimpan di disk Anda sambil menunggu diproses.

Langkah 2: Whisper mengubah suara menjadi sidik jari visual

Whisper mengubah gelombang audio menjadi mel spectrogram — bayangkan sebagai peta panas dari suara, di mana sumbu horizontal adalah waktu dan sumbu vertikal menunjukkan frekuensi apa saja yang hadir pada setiap momen. Ucapan terdengar berbeda dari musik, dan musik berbeda dari noise latar. Representasi visual inilah yang sebenarnya dibaca oleh AI.

Langkah 3: Model AI membaca sidik jari dan memprediksi kata

Model transformer — jenis arsitektur yang sama dengan yang mendasari GPT — membaca spectrogram dan memprediksi urutan kata yang paling mungkin. Satu bagian model mengodekan pola suara; bagian lain mendekodenya menjadi teks, satu token demi satu token. Decoder menggunakan konteks dari bagian audio sebelumnya untuk membuat prediksi yang lebih baik seiring proses berjalan.

Langkah 4: Teks keluar, dengan tanda baca dan kapitalisasi

Whisper menghasilkan teks terformat dengan tanda baca dan kapitalisasi yang sesuai kalimat sudah diterapkan. Anda mendapatkan transkrip yang siap pakai, bukan deretan kata huruf kecil tanpa format.

Jendela 30 detik — dan mengapa ini penting. Whisper membagi audio Anda menjadi segmen 30 detik dan memprosesnya secara berurutan. Pendekatan berbasis potongan ini adalah alasan utama mengapa Whisper tidak bisa melakukan live caption. Tidak ada hasil parsial setelah setiap kata. Yang ada hanya potongan yang selesai setelah setiap blok 30 detik selesai diproses. Untuk rapat 60 menit, itu berarti Anda menerima transkrip parsial pertama 30 detik setelah panggilan berakhir — dan transkrip lengkap hanya ketika semua potongan selesai.

Apa yang Dilakukan Whisper dengan Baik

Dalam batasan desainnya, Whisper memang sangat mengesankan.

Jika akurasi setelah rekaman pada file audio yang tersimpan adalah prioritas Anda, Whisper sulit dikalahkan. Ini adalah alat yang tepat untuk mentranskripsikan wawancara yang direkam, episode podcast, kuliah, atau audio apa pun yang sudah Anda tangkap.

Apa yang Tidak Bisa Dilakukan Whisper — Bagian yang Tidak Dijelaskan Siapa Pun

Sebagian besar artikel tentang Whisper ditulis oleh developer untuk developer. Mereka menyebut keterbatasannya sekilas. Di sini, keterbatasan itu mendapat perhatian yang layak.

Whisper tidak mentranskripsikan secara real time

Jika Anda memulai panggilan Zoom dan mengarahkan Whisper ke sana, Anda akan menerima transkrip ketika panggilan selesai — bukan saat panggilan berlangsung. Jeda antara saat berbicara dan melihat teks berkisar dari beberapa detik untuk klip pendek hingga beberapa menit untuk rapat panjang, tergantung pada perangkat keras dan ukuran model Anda.

Ini bukan bug. Ini adalah pilihan desain. Akurasi Whisper sebagian berasal dari pemrosesan setiap potongan audio dengan konteks penuh. Transkripsi langsung mengharuskan hasil parsial dikirim segera, sebelum konteks tersedia. Kedua pendekatan ini melibatkan trade-off mendasar, dan Whisper dibangun untuk memaksimalkan akurasi, bukan meminimalkan latensi.

Whisper tidak bisa mengetahui siapa yang berbicara

Secara default, Whisper menghasilkan transkrip datar tanpa label. Setiap kalimat muncul dalam blok berkelanjutan tanpa indikasi peserta mana yang mengatakan apa. Dalam panggilan penjualan dua orang, Anda tidak akan tahu baris mana yang milik Anda dan mana yang milik calon klien Anda. Dalam standup sepuluh orang, output-nya sama sekali tidak memiliki atribusi.

Ada add-on open-source (pyannote.audio adalah yang paling umum) yang menambahkan speaker diarization di atas Whisper. Alat ini bekerja cukup baik tetapi memerlukan paket Python tambahan, unduhan model, dan konfigurasi. Waktu penyiapan kira-kira menjadi dua kali lipat.

Menjalankannya secara lokal memerlukan penyiapan teknis

Untuk menggunakan Whisper di komputer Anda sendiri, Anda memerlukan:

Miguel memimpin tim customer success beranggotakan 12 orang di sebuah startup Barcelona. Timnya menangani panggilan dalam bahasa Spanyol, Katalan, dan Inggris. Pada Januari 2026, ia meminta lead developer-nya untuk "menyiapkan Whisper untuk tim." Developer itu menghabiskan satu akhir pekan penuh untuk memasang dependensi, menghadapi konflik versi CUDA yang butuh empat jam untuk diselesaikan, lalu membangun antarmuka unggah kecil agar rekan tim bisa mengirim rekaman tanpa menyentuh terminal. Total waktu penyiapan: sekitar 14 jam kerja engineering. Sekarang alat ini bekerja dengan baik. Miguel bersyukur. Ia juga mengakui bahwa kebanyakan tim tidak memiliki developer dengan akhir pekan kosong untuk mengerjakannya.

API OpenAI lebih mudah — tetapi tetap bukan live

OpenAI Whisper API menghilangkan masalah instalasi lokal. Anda mengirim file audio ke server OpenAI melalui permintaan HTTP sederhana dan menerima transkrip kembali, biasanya dalam hitungan detik untuk klip pendek. Biayanya $0.006 per menit — transkrip rapat 60 menit biayanya sekitar $0.36.

Ini menurunkan hambatan teknis secara signifikan. Namun, API ini tetap model unggah file, bukan streaming langsung. Anda mengirim rekaman yang sudah selesai setelah panggilan berakhir. Transkrip tiba tak lama setelahnya. Jika tujuan Anda adalah membaca caption saat seseorang masih berbicara, API tidak mengubah batasan dasarnya.

Gambaran Singkat Ukuran Model Whisper

Whisper hadir dalam lima tingkat kualitas. Model yang lebih besar lebih akurat tetapi lebih lambat dan lebih berat. Pada laptop konsumen biasa tanpa GPU, model "small" biasanya menjadi batas praktis untuk kecepatan.

Model Ukuran file Kecepatan CPU (vs audio) Paling cocok untuk
tiny 75 MB ~10× lebih cepat Uji cepat, demo
base 150 MB ~7× lebih cepat Penggunaan santai, iterasi cepat
medium 1.5 GB ~2× lebih cepat Akurasi lebih tinggi, GPU direkomendasikan
large-v3 3 GB ~1× (real time di GPU) Akurasi maksimum, GPU diperlukan untuk penggunaan praktis

Mulailah dengan "small" jika Anda sedang menguji di laptop. Beralih ke "large-v3" jika Anda memiliki GPU NVIDIA yang kompatibel dan membutuhkan akurasi terbaik pada audio non-Inggris. Lonjakan akurasi dari small ke large-v3 terasa jelas. Lonjakan waktu pemrosesan di CPU sangat besar.

Cara Menggunakan Whisper Tanpa Menulis Kode

Ada tiga opsi praktis untuk non-developer, masing-masing dengan trade-off berbeda antara usaha, biaya, dan waktu.

Opsi 1: OpenAI Whisper API

Unggah file audio Anda melalui antarmuka OpenAI atau lewat klien HTTP tanpa kode seperti Postman. Anda akan menerima transkrip yang rapi dalam hitungan detik hingga menit, tergantung panjangnya. Biaya: $0.006/menit. Ini adalah jalur dengan hambatan paling rendah jika Anda hanya sesekali memiliki rekaman dan tidak ingin memasang apa pun. Kekurangannya: Anda tetap memproses rekaman setelah kejadian, bukan menangkap ucapan secara langsung.

Opsi 2: Aplikasi desktop berbasis Whisper

Beberapa developer telah membungkus Whisper dalam antarmuka yang bisa diklik. MacWhisper (khusus Mac) dan Buzz (lintas platform, gratis) memungkinkan Anda menyeret file audio dan mendapatkan transkrip tanpa membuka terminal. Ini benar-benar berguna untuk transkripsi setelah panggilan. Mereka memiliki batasan arsitektur yang sama — tidak ada live caption, tidak ada label pembicara tanpa konfigurasi tambahan.

Opsi 3: Alat streaming berbasis browser untuk rapat langsung

Jika tujuan Anda adalah membaca caption saat percakapan sedang berlangsung — bukan mengambil transkrip setelah selesai — Anda membutuhkan pendekatan yang sama sekali berbeda. Alat berbasis browser yang menggunakan streaming speech-to-text menangkap audio dari mikrofon atau tab browser Anda dan mengirim hasil parsial kata demi kata saat orang berbicara. Tanpa instalasi, tanpa Python, tanpa menunggu pascaproses.

Kategori ini mencakup alat seperti alternatif Whisper yang dibuat untuk pengguna non-teknis, yang menukar sebagian akurasi pascakejadian Whisper demi kecepatan yang dibutuhkan percakapan langsung. Pilihan di antara keduanya bukan soal mana yang "lebih baik" — melainkan apakah Anda membutuhkan transkripsi tentang rapat atau saat rapat berlangsung.

Whisper vs. Transkripsi Rapat Langsung — Dua Arsitektur Berbeda

Memahami mengapa Whisper tidak bisa melakukan live caption mengharuskan kita memahami perbedaan antara batch dan streaming speech-to-text.

Whisper adalah model batch. Ia menunggu potongan audio lengkap, memprosesnya dengan konteks penuh, lalu mengembalikan hasil. Keunggulan akurasinya berasal dari konteks penuh itu: model dapat melihat akhir kalimat sebelum memastikan apa yang dikatakan di awal. Ini seperti membaca satu paragraf dua kali sebelum meringkasnya.

Streaming speech-to-text bekerja berbeda. Ia mengirim hasil parsial begitu setiap kata masuk, lalu mengoreksinya otomatis seiring konteks bertambah. Alat seperti MirrorCaption, yang dibangun di atas mesin STT streaming kami sendiri, dapat mengirim kata pertama dari sebuah caption dalam 300–500 milidetik setelah seseorang mengucapkannya. Trade-off-nya adalah sedikit penurunan akurasi pada kata-kata ambigu yang akan tertangkap oleh pemrosesan batch dengan melihat ke belakang.

Ini bukan perbandingan kualitas. Whisper bisa dibilang lebih akurat pada audio yang direkam justru karena ia memproses lebih banyak konteks. STT streaming menerima penalti akurasi kecil sebagai imbalan atas kecepatan. Untuk rapat langsung, kecepatan itulah seluruh produknya.

Kenji bekerja di Tokyo untuk sebuah produsen yang menjual ke klien Eropa. Panggilan hari Kamisnya dengan tim di Munich dulu bergantung pada rekan kerja bilingual untuk menerjemahkan frasa-frasa penting. Ketika rekan itu pergi, Kenji mulai menggunakan alat transkripsi streaming berbasis browser. Ia membaca caption bahasa Jerman secara real time selama panggilan. Tanpa unduhan, tanpa Python, tanpa menunggu transkrip muncul setelah rapat selesai. Perbedaannya dengan Whisper bukan pada akurasi. Perbedaannya adalah kemampuan untuk mendengar sesuatu, memahaminya, dan merespons — semuanya dalam panggilan 60 menit yang sama.

Butuh caption langsung, bukan transkrip setelah panggilan? MirrorCaption melakukan streaming transkripsi dan terjemahan di browser apa pun, selama rapat Anda. Tidak perlu instalasi.

Coba Gratis →

Pertanyaan yang Sering Diajukan

Apakah OpenAI Whisper gratis?

Ya. Bobot model Whisper gratis untuk diunduh dan digunakan di bawah lisensi MIT, yang mengizinkan aplikasi komersial. Menjalankan Whisper secara lokal tidak memerlukan biaya selain perangkat keras dan listrik Anda sendiri. OpenAI Whisper API mengenakan biaya $0.006 per menit audio — transkrip rapat 60 menit biayanya sekitar $0.36.

Bisakah Whisper mentranskripsikan panggilan Zoom secara real time?

Tidak. Whisper memproses audio dalam potongan 30 detik setelah audio direkam. Whisper tidak dapat memberikan caption kata demi kata saat seseorang sedang berbicara. Jika Anda merekam panggilan Zoom lalu menjalankan Whisper pada file yang tersimpan, Anda akan mendapatkan transkrip yang rapi — tetapi hanya setelah rapat berakhir. Untuk caption Zoom langsung, Anda membutuhkan alat speech-to-text streaming, bukan Whisper. Rangkuman software speech-to-text kami membandingkan opsi real-time dan pascarapat di berbagai alur kerja umum.

Seberapa akurat OpenAI Whisper?

Whisper large-v3 mencapai sekitar 2–3% word error rate pada benchmark LibriSpeech standar untuk bahasa Inggris, yang sebanding dengan transkripsi manusia profesional pada audio yang bersih. Akurasi menurun pada noise latar yang berat, pembicara yang tumpang tindih, ucapan yang sangat cepat, atau mikrofon berkualitas rendah. Bahasa non-Inggris rata-rata memiliki tingkat error lebih tinggi daripada bahasa Inggris, meskipun tetap mengungguli banyak model lama yang spesifik per wilayah. Untuk melihat trade-off akurasi transkripsi secara lebih luas, lihat benchmark akurasi terjemahan real-time kami.

Apakah Whisper mendukung bahasa Mandarin dan Jepang?

Ya. Whisper mencakup 99 bahasa termasuk Mandarin, Kanton, Jepang, Korea, Arab, Hindi, dan semua bahasa utama Eropa. Untuk Mandarin dan Kanton, model besar Whisper bekerja baik pada audio yang diucapkan dengan jelas, meskipun kesulitan pada aksen regional yang berat dan code-switching antara bahasa Mandarin dan Inggris dalam kalimat yang sama. Untuk perbandingan yang lebih luas tentang alat multibahasa yang tersedia saat ini, lihat rangkuman software speech-to-text kami.

Apakah ada alternatif Whisper berbasis browser yang bekerja untuk rapat langsung?

Ya. Alat berbasis browser seperti MirrorCaption menggunakan streaming speech-to-text untuk mentranskripsikan dan menerjemahkan secara real time selama rapat Anda — tanpa Python, tanpa instalasi, tanpa menunggu panggilan selesai. Alat ini bekerja di Chrome, Safari, atau Edge pada perangkat apa pun. Trade-off dibanding Whisper adalah akurasi pascakejadian pada rekaman yang tersimpan mungkin sedikit lebih rendah, tetapi untuk percakapan langsung, kecepatan itulah intinya. Mulai dengan 1 jam gratis, sekali saja di mirrorcaption.com/app.

Kesimpulan

OpenAI Whisper adalah salah satu sistem speech-to-text paling akurat yang pernah tersedia untuk publik. Namun, ia juga termasuk yang paling sulit diakses oleh orang-orang yang paling akan diuntungkan darinya.

Jika Anda memiliki file audio tersimpan dan sabar untuk melakukan sedikit penyiapan, Whisper — terutama melalui OpenAI API — memberikan akurasi transkripsi mendekati manusia dalam 99 bahasa dengan biaya yang nyaris nol. Itu adalah pencapaian engineering yang luar biasa.

Jika Anda perlu membaca apa yang sedang dikatakan seseorang saat mereka mengatakannya — selama rapat, bukan sesudahnya — arsitektur Whisper bukanlah pilihan yang tepat. Alat streaming speech-to-text memang ada untuk kasus penggunaan ini. Alat tersebut bekerja di tab browser, mulai dalam hitungan detik, dan tidak memerlukan command line.

Pertanyaannya bukan alat mana yang lebih baik. Pertanyaannya adalah alat mana yang sesuai dengan kebutuhan waktu Anda. Untuk alat speech-to-text terbaik di 2026 untuk semua kasus penggunaan, rangkuman lengkap kami membahas seluruh lanskapnya.

Transkripsi rapat langsung, tanpa penyiapan

MirrorCaption melakukan streaming transkripsi dan terjemahan kata demi kata selama panggilan Anda. Bekerja di browser apa pun pada platform video call apa pun. 2 jam gratis setiap bulan, tanpa kartu kredit.

Coba MirrorCaption Gratis