OpenAI Whisper, 99 dilde konuşulan sesi yazılı metne dönüştüren ücretsiz, açık kaynaklı bir konuşmadan metne modelidir. Çalıştırmak için bilgisayarınızda Python yüklü olmalı, ffmpeg adlı en az bir ek kütüphane bulunmalı ve istediğiniz kalite seviyesine bağlı olarak 150 MB ile 3 GB arasında boş disk alanı gerekir. Gerçek zamanlı transkripsiyon yapmaz. Bunlar, nefes nefese yazılan bülten haberlerinin genellikle atladığı gerçeklerdir.

Priya, Singapur'da bir fintech şirketinde ortaklıkları yönetiyor. 2026'nın başlarında Whisper'ın "insan seviyesinde transkripsiyon doğruluğu" sunabildiğini ve tamamen ücretsiz olduğunu okudu. GitHub sayfasını buldu, talimatları gözden geçirdi ve henüz "pip install ffmpeg" ifadesiyle karşılaşmamış birinin iyimserliğini hissetti. Üç saat sonra gizemli bir CUDA uyumluluk hatasıyla karşılaştı, elinde hiçbir döküm yoktu ve toplantı notlarının geri kalanını elle aldı. Araç gerçekten mükemmel. Sadece Priya'dan farklı bir kullanıcı için tasarlanmıştı.

Whisper, geliştiriciler ve araştırmacılar için tasarlandı. Bu onu kötü bir araç yapmaz — sadece Perşembe günkü standup görüşmesini tek satır kod yazmadan Mandarin dilinde yazıya dökmek isteyen insanlar için yanlış araç yapar.

Bu makale, OpenAI Whisper'ın gerçekte nasıl çalıştığını sade bir dille açıklıyor; neyi iyi yaptığını, temelde neyi yapamadığını ve bugün canlı toplantı transkripsiyonuna ihtiyacınız varsa hangi seçeneklerin daha mantıklı olduğunu anlatıyor.

Temel Çıkarımlar

OpenAI Whisper Nedir?

OpenAI Whisper, Eylül 2022'de açık kaynak olarak yayımlanan bir konuşma tanıma modelidir. OpenAI, onu internetten toplanan 680.000 saatlik ses üzerinde eğitti — dersler, podcast'ler, röportajlar, YouTube videoları, sesli kitaplar — onlarca dilde. Bu eğitim verisinin ölçeği, doğruluğunun bu kadar iyi olmasının büyük bir parçasıdır.

İki şey yapabilir: transkripsiyon, yani sesi aynı dilde metne dönüştürme; ve çeviri, yani yabancı bir dildeki sesi İngilizce metne dönüştürme. Yalnızca İngilizceye çeviri yaptığını, keyfi dil çiftleri arasında çeviri yapmadığını unutmayın.

Whisper'a iki yolla erişebilirsiniz. Birincisi, model ağırlıklarını GitHub'dan ücretsiz indirip kendi donanımınızda çalıştırabilirsiniz — API maliyeti yok, hız sınırı yok, ancak kurulumu siz yaparsınız. İkincisi, OpenAI Whisper API'yi ses başına dakikada $0.006 karşılığında kullanabilirsiniz; bu, kurulum yükünün çoğunu ortadan kaldırır ancak yine de sesi canlı akış yerine dosya yüklemesi olarak işler.

Komut satırı olmadan çalışan bir şeye ihtiyacınız varsa, kodsuz seçenekler bölümüne atlayın. Whisper'ın neden bu şekilde çalıştığını anlamak istiyorsanız okumaya devam edin — ne yapıp ne yapamayacağını bilmek açısından önemlidir.

OpenAI Whisper Nasıl Çalışır — Sade Bir Dille Anlatım

Whisper'ı etkili kullanmak için matematiği anlamanız gerekmez. Ancak attığı dört adımı anlamak, neden sahip olduğu sınırlamalara sahip olduğunu açıklamaya yardımcı olur.

1. Adım: Ses bir dosya olarak içeri girer

Whisper'a kaydedilmiş bir ses dosyası verirsiniz — MP3, WAV, M4A veya diğer yaygın formatların çoğu. Varsayılan olarak canlı bir mikrofon akışını okuyamaz. Ses, işlenmeyi bekleyerek diskinizde durur.

2. Adım: Whisper sesi görsel bir parmak izine dönüştürür

Whisper, ses dalga biçimini bir mel spektrogramına dönüştürür — bunu, yatay eksenin zamanı, dikey eksenin ise her anda hangi frekansların bulunduğunu gösterdiği bir ses ısı haritası gibi düşünebilirsiniz. Konuşma, müzikten farklı görünür; müzik de arka plan gürültüsünden farklı görünür. Yapay zekânın gerçekten okuduğu şey bu görsel temsildir.

3. Adım: Bir yapay zekâ modeli parmak izini okur ve kelimeleri tahmin eder

GPT'nin temelindeki mimariyle aynı türden bir transformer modeli, spektrogramı okur ve en olası kelime dizisini tahmin eder. Modelin bir kısmı ses desenini kodlar; başka bir kısmı bunu tek tek token'lar halinde metne çözer. Çözücü, ilerledikçe daha iyi tahminler yapmak için sesin önceki bölümlerinden bağlam kullanır.

4. Adım: Metin noktalama ve büyük harflerle çıkar

Whisper, cümleye uygun noktalama işaretleri ve büyük harf kullanımı zaten uygulanmış biçimlendirilmiş metin üretir. Sadece küçük harflerden oluşan bir metin duvarı değil, kullanılabilir bir döküm elde edersiniz.

30 saniyelik pencere — ve neden önemli olduğu. Whisper, sesinizi 30 saniyelik bölümlere ayırır ve bunları sırayla işler. Bu parçalı yaklaşım, Whisper'ın canlı altyazı akışı verememesinin temel nedenidir. Her kelimeden sonra kısmi sonuç yoktur. Yalnızca her 30 saniyelik blok işlenip tamamlandığında bitmiş bir parça vardır. 60 dakikalık bir toplantı için bu, ilk kısmi dökümü görüşme bittikten 30 saniye sonra alacağınız anlamına gelir — tam döküm ise ancak tüm parçalar tamamlandığında gelir.

Whisper Neyi İyi Yapar

Tasarım kısıtları içinde Whisper gerçekten etkileyicidir.

Kaydedilmiş bir ses dosyasında kayıt sonrası doğruluk önceliğinizse, Whisper'ı geçmek zordur. Kaydedilmiş röportajları, podcast bölümlerini, dersleri veya zaten kaydettiğiniz herhangi bir sesi yazıya dökmek için doğru araçtır.

Whisper Neyi Yapamaz — Kimsenin Açıklamadığı Kısım

Whisper hakkındaki çoğu makale geliştiriciler tarafından geliştiriciler için yazılır. Sınırlamalardan geçerken bahsederler. Burada ise hak ettikleri ilgiyi görüyorlar.

Gerçek zamanlı transkripsiyon yapmaz

Bir Zoom görüşmesi başlatıp Whisper'ı ona yönlendirirseniz, görüşme bittiğinde bir döküm alırsınız — görüşme sürerken değil. Konuşma ile metni görme arasındaki gecikme, donanımınıza ve model boyutuna bağlı olarak kısa kliplerde birkaç saniyeden uzun toplantılarda birkaç dakikaya kadar değişir.

Bu bir hata değil. Bu bir tasarım tercihidir. Whisper'ın doğruluğu kısmen her ses parçasını tam bağlamla işlemesinden gelir. Canlı transkripsiyon ise bağlam henüz oluşmadan kısmi sonuçları hemen göndermeyi gerektirir. Bu iki yaklaşım temel bir ödünleşim içerir ve Whisper, gecikmeyi en aza indirmekten ziyade doğruluğu en üst düzeye çıkarmak için tasarlanmıştır.

Kim konuşuyor anlayamaz

Varsayılan olarak Whisper, düz ve etiketlenmemiş bir döküm üretir. Her cümle, kimin ne söylediğine dair hiçbir belirti olmadan kesintisiz bir blok halinde görünür. İki kişilik bir satış görüşmesinde, hangi satırların size, hangilerinin potansiyel müşterinize ait olduğunu bilemezsiniz. On kişilik bir standup'ta çıktı tamamen atıfsızdır.

Whisper'ın üzerine konuşmacı ayrıştırma ekleyen açık kaynak eklentiler vardır (en yaygını pyannote.audio'dur). Bunlar makul derecede iyi çalışır ancak ek Python paketleri, model indirmeleri ve yapılandırma gerektirir. Kurulum süresi yaklaşık iki katına çıkar.

Yerel olarak çalıştırmak teknik kurulum gerektirir

Whisper'ı kendi bilgisayarınızda kullanmak için şunlara ihtiyacınız vardır:

Miguel, Barselona'daki bir startup'ta 12 kişilik müşteri başarısı ekibini yönetiyor. Ekibi İspanyolca, Katalanca ve İngilizce görüşmeler yapıyor. 2026 Ocak ayında baş geliştiricisinden "ekip için Whisper'ı kurmasını" istedi. Geliştirici tüm bir hafta sonunu bağımlılıkları kurarak geçirdi, çözmesi dört saat süren bir CUDA sürüm çakışmasıyla karşılaştı, ardından ekip arkadaşlarının terminale dokunmadan kayıt yükleyebilmesi için küçük bir yükleme arayüzü geliştirdi. Toplam kurulum süresi: yaklaşık 14 saatlik mühendislik işi. Araç artık iyi çalışıyor. Miguel minnettar. Ancak çoğu ekibin buna ayıracak boş bir hafta sonu olan bir geliştiricisi olmadığını da kabul ediyor.

OpenAI API daha kolaydır — ama yine de canlı değildir

OpenAI Whisper API, yerel kurulum sorununu ortadan kaldırır. Bir ses dosyasını basit bir HTTP isteğiyle OpenAI'nin sunucularına gönderirsiniz ve dökümü geri alırsınız; kısa kliplerde bu genellikle saniyeler içinde olur. Maliyet dakikada $0.006'dır — 60 dakikalık bir toplantı dökümü yaklaşık $0.36 tutar.

Bu, teknik engeli önemli ölçüde düşürür. Ancak API yine de canlı akış değil, dosya yükleme modelidir. Görüşme bittikten sonra tamamlanmış kaydı gönderirsiniz. Döküm kısa süre sonra gelir. Amacınız biri hâlâ konuşurken altyazıları okumaksa, API temel kısıtı değiştirmez.

Bir Bakışta Whisper Model Boyutları

Whisper beş kalite seviyesinde gelir. Daha büyük modeller daha doğrudur ama daha yavaş ve daha ağırdır. GPU'suz tipik bir tüketici dizüstü bilgisayarında, hız açısından pratik üst sınır genellikle "small" modelidir.

Model Dosya boyutu CPU hızı (sese göre) En uygun kullanım
tiny 75 MB ~10× daha hızlı Hızlı testler, demolar
base 150 MB ~7× daha hızlı Gündelik kullanım, hızlı yineleme
medium 1.5 GB ~2× daha hızlı Daha yüksek doğruluk, GPU önerilir
large-v3 3 GB ~1× (GPU'da gerçek zamanlı) Maksimum doğruluk, pratik kullanım için GPU gerekir

Bir dizüstü bilgisayarda test yapıyorsanız "small" ile başlayın. Uyumlu bir NVIDIA GPU'nuz varsa ve İngilizce olmayan seslerde en iyi doğruluğa ihtiyacınız varsa "large-v3"e geçin. Doğrulukta small'dan large-v3'e geçiş fark edilir. CPU'da işlem süresindeki artış ise ciddidir.

Kod Yazmadan Whisper Nasıl Kullanılır

Geliştirici olmayanlar için üç pratik seçenek vardır; her biri emek, maliyet ve zamanlama arasında farklı bir denge kurar.

Seçenek 1: OpenAI Whisper API

Ses dosyanızı OpenAI'nin arayüzü üzerinden veya Postman gibi kodsuz bir HTTP istemcisiyle yükleyin. Uzunluğa bağlı olarak saniyeler ile dakikalar içinde temiz bir döküm alırsınız. Maliyet: $0.006/dakika. Ara sıra kayıtlarınız varsa ve hiçbir şey kurmak istemiyorsanız bu en düşük sürtünmeli yoldur. Dezavantajı: Hâlâ kayıtları sonradan işliyorsunuz, canlı konuşmayı yakalamıyorsunuz.

Seçenek 2: Whisper üzerine kurulu masaüstü uygulamaları

Birkaç geliştirici Whisper'ı tıklanabilir bir arayüze sarmıştır. MacWhisper (yalnızca Mac) ve Buzz (platformlar arası, ücretsiz), bir ses dosyasını sürükleyip terminal açmadan döküm almanızı sağlar. Bunlar toplantı sonrası transkripsiyon için gerçekten kullanışlıdır. Aynı mimari kısıtı paylaşırlar — ek yapılandırma olmadan canlı altyazı yok, konuşmacı etiketleri yok.

Seçenek 3: Canlı toplantılar için tarayıcı tabanlı akış araçları

Amacınız bir konuşma sürerken altyazıları okumaksa — bitince döküm almak değilse — tamamen farklı bir yaklaşım gerekir. Akış tabanlı konuşmadan metne kullanan tarayıcı araçları, mikrofonunuzdan veya tarayıcı sekmenizden sesi yakalar ve insanlar konuşurken kelime kelime kısmi sonuçlar gönderir. Kurulum yok, Python yok, sonradan işleme bekleme yok.

Bu kategori, Whisper'ın sonradan elde edilen doğruluğunun bir kısmını canlı konuşmaların gerektirdiği anlıklıkla takas eden, teknik olmayan kullanıcılar için tasarlanmış Whisper alternatifleri gibi araçları içerir. Aralarındaki seçim "hangisi daha iyi" sorusu değildir — bir toplantının hakkında mı yoksa sırasında mı transkripsiyona ihtiyacınız olduğuyla ilgilidir.

Whisper ve Canlı Toplantı Transkripsiyonu — İki Farklı Mimari

Whisper'ın neden canlı altyazı akışı veremediğini anlamak için toplu ve akış tabanlı konuşmadan metin arasındaki farkı anlamak gerekir.

Whisper bir toplu modeldir. Tam bir ses parçasını bekler, onu tam bağlamla işler ve bir sonuç döndürür. Doğruluk avantajı bu tam bağlamdan gelir: model, bir cümlenin sonunu görerek başının ne dediğini doğrulayabilir. Bu, bir paragrafı özetlemeden önce iki kez okumak gibidir.

Akış tabanlı konuşmadan metin farklı çalışır. Her kelime gelir gelmez kısmi sonuçlar gönderir, ardından bağlam biriktikçe otomatik düzeltme yapar. Kendi akış STT motorumuz üzerine kurulu MirrorCaption gibi araçlar, birinin söylediği bir altyazının ilk kelimesini 300–500 milisaniye içinde sunabilir. Ödünleşim, toplu işlemenin sonradan fark edeceği belirsiz kelimelerde bir miktar doğruluk kaybıdır.

Bu bir kalite karşılaştırması değildir. Whisper, tam da daha fazla bağlam işlediği için kaydedilmiş seste tartışmasız daha doğru olabilir. Akış STT, anlıklık karşılığında küçük bir doğruluk cezasını kabul eder. Canlı toplantılarda anlıklık, ürünün tamamıdır.

Kenji, Tokyo'da Avrupa'daki müşterilere satış yapan bir üretici için çalışıyor. Münih ekibiyle yaptığı Perşembe görüşmeleri eskiden kilit ifadeleri yorumlaması için iki dilli bir meslektaşına dayanıyordu. O meslektaş ayrılınca Kenji tarayıcı tabanlı bir akış transkripsiyon aracı kullanmaya başladı. Görüşme sırasında Almanca altyazıları gerçek zamanlı okuyor. İndirme yok, Python yok, toplantı bittikten sonra dökümün görünmesini beklemek yok. Whisper'dan farkı doğruluk değil. Bir şeyi duymak, anlamak ve yanıt vermek — hepsi aynı 60 dakikalık görüşme içinde — mümkün olmasıdır.

Toplantı sonrası dökümler değil, canlı altyazılar mı gerekiyor? MirrorCaption, toplantınız sırasında herhangi bir tarayıcıda transkripsiyon ve çeviriyi akış halinde sunar. Kurulum gerekmez.

Ücretsiz Dene →

Sık Sorulan Sorular

OpenAI Whisper ücretsiz mi?

Evet. Whisper model ağırlıkları MIT lisansı altında ücretsiz indirilebilir ve kullanılabilir; bu da ticari uygulamalara izin verir. Whisper'ı yerel olarak çalıştırmak, kendi donanımınız ve elektriğiniz dışında hiçbir maliyet gerektirmez. OpenAI Whisper API, ses başına dakikada $0.006 ücret alır — 60 dakikalık bir toplantı dökümü yaklaşık $0.36 tutar.

Whisper bir Zoom görüşmesini gerçek zamanlı transkribe edebilir mi?

Hayır. Whisper, ses kaydedildikten sonra 30 saniyelik parçalar halinde işler. Biri konuşurken kelime kelime altyazı veremez. Bir Zoom görüşmesini kaydedip ardından Whisper'ı kayıtlı dosyada çalıştırırsanız temiz bir döküm alırsınız — ancak yalnızca toplantı bittikten sonra. Canlı Zoom altyazıları için Whisper değil, akış tabanlı bir konuşmadan metne aracı gerekir. konuşmadan metne yazılım derlememiz, yaygın iş akışları arasında gerçek zamanlı ve toplantı sonrası seçenekleri karşılaştırır.

OpenAI Whisper ne kadar doğru?

Whisper large-v3, İngilizce için standart LibriSpeech ölçütünde yaklaşık %2–3 kelime hata oranına ulaşır; bu, temiz seste profesyonel insan transkripsiyonuna yakındır. Ağır arka plan gürültüsü, üst üste binen konuşmacılar, çok hızlı konuşma veya düşük kaliteli mikrofonlarda doğruluk düşer. İngilizce dışındaki dillerde ortalama hata oranı daha yüksektir, ancak yine de birçok eski bölgeye özgü modeli geride bırakır. Transkripsiyon doğruluğundaki ödünleşimlere daha geniş bir bakış için gerçek zamanlı çeviri doğruluğu ölçütlerimize bakın.

Whisper Çince ve Japonca'yı destekliyor mu?

Evet. Whisper, Mandarin Çincesi, Kantonca, Japonca, Korece, Arapça, Hintçe ve tüm büyük Avrupa dilleri dahil 99 dili kapsar. Mandarin ve Kantonca için Whisper'ın büyük modeli, net konuşulan seste iyi performans gösterir; ancak güçlü bölgesel aksanlarda ve aynı cümle içinde Çince ile İngilizce arasında kod değiştirmede zorlanır. Bugün mevcut çok dilli araçların daha geniş bir karşılaştırması için konuşmadan metne yazılım derlememize bakın.

Canlı toplantılar için çalışan, tarayıcı tabanlı bir Whisper alternatifi var mı?

Evet. MirrorCaption gibi tarayıcı tabanlı araçlar, toplantınız sırasında gerçek zamanlı transkripsiyon ve çeviri için akış tabanlı konuşmadan metin kullanır — Python yok, kurulum yok, görüşmenin bitmesini beklemek yok. Chrome, Safari veya Edge'de, herhangi bir cihazda çalışırlar. Whisper'a kıyasla ödünleşim, kaydedilmiş bir kayıt üzerinde sonradan elde edilen doğruluğun biraz daha düşük olabilmesidir; ancak canlı konuşmalarda mesele anlıklıkdır. mirrorcaption.com/app adresinde tek seferlik 1 ücretsiz saatle başlayın.

Sonuç

OpenAI Whisper, kamuya açık hale getirilmiş en doğru konuşmadan metne sistemlerden biridir. Aynı zamanda, en çok fayda sağlayacak insanlar için en erişilemez olanlardan biridir.

Kaydedilmiş bir ses dosyanız ve biraz kurulum yapma sabrınız varsa, Whisper — özellikle OpenAI API üzerinden — 99 dilde neredeyse hiç maliyet olmadan insan seviyesine yakın transkripsiyon doğruluğu sunar. Bu dikkate değer bir mühendislik başarısıdır.

Biri konuşurken ne dediğini okumak istiyorsanız — toplantı bittikten sonra değil, sırasında — Whisper'ın mimarisi doğru eşleşme değildir. Akış tabanlı konuşmadan metin araçları tam olarak bu kullanım senaryosu için vardır. Bir tarayıcı sekmesinde çalışırlar, saniyeler içinde başlarlar ve komut satırı gerektirmezler.

Soru hangi aracın daha iyi olduğu değil. Soru, hangi aracın zamanlama gereksiniminize uyduğu. Tüm kullanım senaryoları için 2026'nın en iyi konuşmadan metne araçları için tam derlememiz genel tabloyu kapsıyor.

Kurulum gerektirmeyen canlı toplantı transkripsiyonu

MirrorCaption, görüşmeniz sırasında transkripsiyon ve çeviriyi kelime kelime akış halinde sunar. Her video görüşme platformunda, herhangi bir tarayıcıda çalışır. Her ay 2 saat ücretsiz, kredi kartı gerekmez.

MirrorCaption'ı Ücretsiz Dene