2026’da çoğu değerlendirme ölçütünde tek bir yapay zekâ transkripsiyon aracı her alanda kazanmaz. Temiz İngilizce ses için Whisper Large v3 ve Deepgram Nova-2, kelime hata oranında yaklaşık %3–6 ile öne çıkar. Gerçek zamanlı sonuç gerektiren çok dilli toplantılarda ise MirrorCaption gibi akışa yerel çok dilli STT araçları, İngilizce dışındaki dillerde en tutarlı performansı gösterir. Sizin için en doğru aracın hangisi olduğu, transkripte ne zaman ihtiyaç duyduğunuza ve konuşmacılarınızın hangi dilleri kullandığına bağlıdır.

Geçen eylülde Nadia, çoğu doğruluk benchmark’ının yakalayamadığı bir sorunla karşılaştı. Berlin’deki bir üniversitede nitel araştırma programını yönetiyor ve uluslararası bilim insanlarıyla yapılan 45 dakikalık röportajlar için bir transkripsiyon aracına ihtiyaç duyuyordu; İngilizceleri teknik olarak akıcı ama belirgin aksanlı mühendislerdi bunlar. Whisper Large v3, test klibinde en temiz çıktıyı verdi: tek bir ana dili İngilizce olan konuşmacı, sessiz bir oda, hazırlanmış metin. Aynı modeli, Japon bir havacılık mühendisiyle yapılan 40 dakikalık bir röportajda çalıştırdı. On dokuz özel isim hatası. İki tam cümle tamamen atlandı. Laboratuvar WER skorunda ikinci en iyi olan model, gerçek araştırma için güvendiği model oldu.

Bu karşılaştırma, dört ses koşulu boyunca yedi aracı değerlendiriyor: temiz stüdyo İngilizcesi, simüle edilmiş bir Zoom görüşmesi, iki dilli İngilizce-Mandarin kod değiştirme ve ana dili İngilizce olmayan bir konuşmacı. Verilerin ne gösterdiği, her aracın nerede zorlandığı ve hangi kullanım senaryosuna hangisinin uyduğu burada.

Önemli Çıkarımlar

“Transkripsiyon Doğruluğu” Gerçekte Ne Anlama Gelir?

Kelime Hata Oranı (WER) Açıklaması

Kelime hata oranı, konuşmadan metne doğruluk için standart ölçüttür. Formül şudur: ikameleri (yanlış kelime), eklemeleri (fazladan kelime) ve silmeleri (kaçırılan kelime) sayın, ardından toplam referans kelime sayısına bölün. %5 WER, yaklaşık her 100 kelimede beş hata demektir. 1.200 kelimelik bir toplantıda bu 60 hata eder; bazıları zararsızdır (“the” yerine “a”), bazıları ise sonuç doğurur (“we’ll approve this” yerine “we’ll review this”).

Yayınlanan WER skorları genellikle LibriSpeech (temiz, okunmuş konuşma) veya Common Voice gibi kontrollü veri kümelerinden gelir. Gerçek toplantılar farklıdır: Zoom veya Teams kodekleriyle sıkıştırılmış ses, birbiriyle çakışan birden fazla konuşmacı, ana dili İngilizce olmayan aksanlar, arka plan gürültüsü ve modelin eğitim verisinde olmayan teknik jargon. Toplantı koşullarındaki WER, bu listedeki her araç için laboratuvar WER’inden tipik olarak 2–3 kat daha yüksektir.

WER’den Daha Önemli Olan Soru

Doğruluk skorlarını karşılaştırmadan önce şu soruyu yanıtlayın: transkripte toplantı sırasında mı yoksa sonrasında mı ihtiyacınız var? Konuşmacı hâlâ konuşurken sonuç veren %7 WER’li bir akış aracı, çoğu zaman %4 WER’li ama on dakika sonra gelen bir toplu iş aracından toplantı içi kararlar için daha kullanışlıdır. Doğruluk, hata oranı kadar zamanlamayla da ilgilidir. gerçek zamanlı çeviri doğruluğu hakkındaki tamamlayıcı yazımız bu dengeyi ayrıntılı biçimde ele alıyor.

Bu Araçları Nasıl Değerlendirdik?

Her aracı dört ses senaryosundan geçirdik:

  1. Temiz stüdyo, tek ana dili İngilizce olan konuşmacı, kontrollü akustik ortam
  2. Toplantı koşulları, simüle edilmiş Zoom görüşmesi, iki ana dili İngilizce olan konuşmacı, hafif arka plan gürültüsü
  3. İki dilli konuşma, İngilizce ve Mandarin kod değiştirme, her dil için bir ana dili konuşmacı
  4. Ana dili İngilizce olmayan, orta-ileri düzey İngilizce yeterliliğe sahip Japon konuşmacı

Değerlendirilen araçlar: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2 ve MirrorCaption. Bu makaledeki WER aralıkları, yayımlanmış akademik benchmark’lardan, satıcı dokümantasyonundan ve kendi testlerimizden alınmıştır. Nokta tahmini yerine aralıklar sunuyoruz çünkü doğruluk ses koşullarına göre anlamlı biçimde değişir; bunları kesin değil, yön gösterici olarak değerlendirin ve bir araca karar vermeden önce kendi içeriğinizle test edin.

MirrorCaption’ın toplantılarınızı nasıl ele aldığını görün

Ayda 2 saat ücretsiz. Kurulum yok. Her tarayıcıda çalışır.

Ücretsiz Dene

Yapay Zekâ Transkripsiyon Doğruluğu Karşılaştırması: 2026 Sonuçları

Aşağıdaki tablo, test koşulları boyunca yaklaşık WER’i, gerçek zamanlı yeteneği, dil kapsamını ve aracın son kullanıcı ürünü mü yoksa yalnızca geliştirici API’si mi olduğunu özetler.

Araç Temiz EN WER Toplantı WER Gerçek Zamanlı Diller Son Kullanıcı Ürünü
Whisper Large v3 ~%3–5 ~%12–18 Hayır (batch) 99 Hayır (geliştirici gerekir)
Deepgram Nova-2 ~%4–6 ~%7–12 Evet (API) 36 Hayır (yalnızca API)
AssemblyAI Universal-2 ~%5–8 ~%8–13 Kısmi 17 Hayır (yalnızca API)
Otter.ai ~%8–12 ~%10–16 Evet EN-odaklı Evet
MirrorCaption ~%5–8 ~%7–12 Evet (<500ms) 60+ Evet
Fireflies.ai ~%9–14 ~%11–17 Hayır (görüşme sonrası) 60+ (görüşme sonrası) Evet
Zoom AI Companion ~%9–13 ~%11–16 Kısmi ~8 Evet (kurumsal)

WER aralıkları yaklaşık değerlerdir; HuggingFace Open ASR Leaderboard, OpenAI’nin Whisper teknik raporu, satıcı dokümantasyonu ve kendi testlerimize dayanır. Gerçek değerler ses kalitesine, konuşmacı özelliklerine ve kelime dağarcığına göre değişir.

Üç şey öne çıkıyor. Birincisi: temiz ve toplantı WER’i arasındaki fark, çoğu satıcı iddiasının gösterdiğinden daha büyüktür; Whisper’ın yaklaşık %4’ten yaklaşık %15’e sıçraması dramatiktir çünkü o, toplantı gürültüsü için tasarlanmamış bir batch modelidir. İkincisi: yalnızca API olan araçlar (Deepgram, AssemblyAI) ham WER’de tüketici ürünlerini istikrarlı biçimde geride bırakır, ancak dağıtım için mühendislik çalışması gerekir. Üçüncüsü: geniş dil kapsamı ve gerçek zamanlı yetenek nadiren bir arada bulunur; ikisini birden sunan araçlar kısa bir listeyle sınırlıdır.

Araç Bazında Ayrıntılı İnceleme

1. OpenAI Whisper Large v3

Whisper, temiz İngilizce ses için doğruluk benchmark’ıdır. OpenAI onu 680.000 saatlik çok dilli web sesi üzerinde eğitti; bu da eğitim dağılımı içindeki aksanlı konuşmada güçlü performans sağlar. Temiz, okunmuş konuşma benchmark’larında Whisper Large v3, %5’in altında WER elde eder. Gerçek çok katılımcılı toplantı verisi olan AMI korpusunda ise WER %12–18 aralığına çıkar; çünkü Whisper bir batch modelidir: canlı akışları değil, tam ses segmentlerini işler.

Temel sınırlama, Whisper’ın bir model olması, ürün olmamasıdır. Kullanmak için Python, hesaplama gücü ve geliştirici zamanı gerekir. Gerçek zamanlı dağıtım ek mühendislik ister. Eğer bunlara sahipseniz, Whisper İngilizce için mükemmeldir. Sahip değilseniz, aşağıya bakın. Pratik bir karşılaştırma için MirrorCaption vs. Whisper sayfamızı okuyun.

2. Deepgram Nova-2

Deepgram’in Nova-2’si, gerçek zamanlı akış doğruluğu için geliştiriciye dönük en güçlü seçenektir. Temiz İngilizce’de yaklaşık %4–6 WER elde eder ve toplantı koşullarında da rekabetçi performansını korur (~%7–12); çünkü Deepgram özellikle telefon ve konferans sesine göre optimize eder. Akış gecikmesi 300 ms’nin altındadır. Desteklenen otuz altı dil, birçok ekip için yeterlidir ancak geniş çok dilli kapsama için yetersizdir.

Kısıt, Whisper ile aynıdır: bu bir API’dir. Mühendislik ekibinizin etrafında kurup çalıştırması, sunması ve yönetmesi gereken bir veri akışı için ödeme yaparsınız. Hazır bir arayüz, kutudan çıktığı gibi konuşmacı etiketleri, AI özet katmanı yoktur. Yaklaşık $0.0043/dk fiyat, yüksek hacimli kullanımda hızla birikir.

3. AssemblyAI Universal-2

AssemblyAI, toplantı transkriptlerinde kimin ne söylediğini bilmenin en az söylenen kadar önemli olduğu durumlar için kritik olan güçlü konuşmacı ayrıştırma sunar. Universal-2, temiz seste yaklaşık %5–8 WER elde eder. Gerçek zamanlı akış mevcuttur ancak Deepgram’in sunduğundan daha az olgundur. 17 desteklenen dil, uluslararası ekipler için anlamlı bir kısıttır. Deepgram gibi, geliştirici entegrasyonu gerektirir; son kullanıcı ürünü yoktur.

4. Otter.ai

Yalnızca İngilizce Ekipler İçin En İyisi

Otter, İngilizce toplantı transkripsiyonu için varsayılan tüketici seçeneğidir. Açık Amerikan İngilizcesinde WER sağlamdır; toplantı koşullarında yaklaşık %8–12, tüketici ürünü için rekabetçidir. OtterPilot toplantılara otomatik olarak katılır, sesi kaydeder ve konuşmacı etiketleriyle notlar ve aksiyon maddeleri üretir. Zoom, Google Meet ve Teams ile takvim entegrasyonu güvenilirdir.

İngilizce dışına çıkınca eksikler hızla görünür. Otter gerçek zamanlı çeviri sunmaz ve İngilizce dışı transkripsiyon kalitesi, İngilizce performansına kıyasla belirgin biçimde daha düşüktür. Kullanıcı başına aylık $16.99 fiyatla, ekipler için maliyet hızla artar. Özellik bazında ayrıntılı inceleme için tam MirrorCaption vs. Otter.ai karşılaştırmamıza bakın.

5. MirrorCaption (streaming STT + GPT)

Gerçek zamanlı doğruluğu kendi toplantılarınızda test edin

MirrorCaption’ı tarayıcınızda açın, indirme yok, kurulum gerekmez.

MirrorCaption’ı Aç

6. Fireflies.ai

Fireflies, toplantı notları katmanına odaklanır: bot görüşmenize katılır, her şeyi kaydeder ve AI özetleriyle görüşme sonrası transkriptler üretir. HubSpot ve Salesforce ile CRM entegrasyonları, onu satış ekipleri arasında popüler kılar. Toplantı koşullarındaki WER yaklaşık %9–14’tür; bu, birkaç kelime hatasının bir aksiyon maddesinin anlamını nadiren değiştirdiği özet üretimi için kabul edilebilirdir.

Kısıt zamanlamadır. Fireflies bir görüşme sonrası aracıdır. Gerçek zamanlı transkripsiyon mevcuttur ama ana ürün değildir ve çeviri yalnızca görüşme sonrasıdır. Söylenenleri toplantı sırasında anlamanız gerekiyorsa, sonrasında değil, Fireflies bu ihtiyaca uymaz.

7. Zoom AI Companion

Zoom AI Companion, Zoom içinde canlı altyazıları yeterli düzeyde işler; toplantı koşullarında yaklaşık %9–13 WER, platforma yerleşik bir özellik için makuldür. Desteklenen yaklaşık 8 dil için kalite, dil çiftine göre önemli ölçüde değişir. İngilizce güçlüdür; Asya dillerinde fark açılır.

Zor kısıtlar şunlardır: platform kilidi (yalnızca Zoom’da çalışır), çeviri özellikleri için kurumsal lisans gerekir ve yüz yüze konuşmalarda ya da diğer platformlardaki toplantılarda kullanılamaz. Tüm toplantıları Zoom’da geçen ve ağırlıklı olarak İngilizce konuşan ekipler için AI Companion sürtünmesiz bir seçimdir. Bunun ötesindeki her şey için ayrı bir araca ihtiyacınız olur.

Her Araç Nerede Zorlanır?

Aksanlı ve Ana Dili İngilizce Olmayan Konuşma

Laboratuvar WER skorlarının kullanışlı olmaktan çıktığı yer burasıdır. Otter, Fireflies ve Zoom AI Companion öncelikle ana dili İngilizce olan veriler üzerinde eğitilir. Doğu Asya, Güney Asya veya Orta Doğu aksanına sahip konuşmacılarda, konuşmaları eğitim dağılımından saptığında hata oranları belirgin biçimde yükselir; bazı durumlarda %20–30 WER’e kadar çıkar. Whisper, daha geniş çok dilli eğitim korpusu sayesinde aksanlı İngilizceyi daha iyi işler. MirrorCaption’ın akışa yerel çok dilli STT motoru, tüketici toplantı araçlarına kıyasla ana dili İngilizce olmayan konuşmada daha az fonem ikamesi gösterir.

İki Dilli ve Kod Değiştirmeli Konuşmalar

Kod değiştirme; bir Japon konuşmacının cümle ortasında İngilizce bir teknik terim kullanması ya da bir Mandarin konuşmacının “我们 schedule 一个 meeting” demesi gibi durumlar, çoğu STT modelini bozar. Standart modeller oturum başına tek bir dile karar verir ve başka bir dilden gelen beklenmedik kelimeleri hata olarak işler. Whisper, karışık dilli eğitim verisi sayesinde bazı kod değiştirme örneklerini daha iyi işler. MirrorCaption, oturum başında tek bir dile kilitlenmek yerine segment bazında dil algılama yapar; bu da iki dilli konuşmaları daha zarif biçimde ele alır. Çok dilli transkripsiyon araçları için tam rehberimize çok dilli transkripsiyon rehberi üzerinden bakın.

Şubat ayında, B2B yazılım satış ekibi bu sorunu ilk elden keşfetti. Tokyo’daki önemli bir potansiyel müşteriyle yaptıkları perşembe görüşmesinin iyi geçtiği sanıldı. Zoom AI Companion, görüşme bittikten dokuz dakika sonra özetini teslim etti. Özet şöyle diyordu: “Müşteri değerlendirme zamanlamasıyla ilgili endişelerini dile getirdi.” Satış lideri kaydı yeniden izlediğinde yakalanan gerçek ifade ise şuydu: “Değerlendirmemizi tamamen durdurmamız gerekiyor.” Her iki transkript de kelime düzeyinde teknik olarak doğruydu. Zoom özeti ticari önemi kaybetmişti. Bunu, takip sorusu sormak için zaman kalmadan kimse fark etmedi.

Gerçek Zamanlı vs. Sonradan İşleme: Gecikme-Doğruluk Dengesi

Streaming STT, daha fazla ses geldikçe güncellenen kısmi transkriptler üretir. Bir kelime önce bir şekilde yazılabilir, ardından sonraki kelimeler bağlam sağladığında düzeltilebilir. Sonradan işleme araçları, tam bir ses segmentini bekler; tam bağlama sahip oldukları için daha iyi doğruluk sağlarlar, ancak çıktı görünmeden önce saniyelerden dakikalara uzanan bir gecikme olur. Streaming ve batch arasındaki nihai doğruluk farkı tipik olarak 1–3 yüzde puanıdır. Bu gerçek bir farktır, ancak sonuçlara hâlâ müdahale edebileceğiniz anda sahip olmanın değeriyle kıyaslandığında dardır. canlı altyazılar vs. transkriptler hakkındaki yazımız bu dengeyi ayrıntılı biçimde ele alıyor.

Sizin Kullanım Senaryonuz İçin En Doğru Araç Hangisi?

Yalnızca İngilizce, toplantı sonrası transkriptler için: Whisper Large v3 (bir wrapper üzerinden veya kendi barındırdığınız dağıtım ile) ya da Otter.ai. İkisi de cilalı toplantı sonrası çıktı sunar. Otter, teknik olmayan kullanıcılar için daha kolaydır; Whisper, geliştirici kaynağınız varsa ve maksimum doğruluk istiyorsanız daha iyidir. Teknik ayrıntılar için streaming STT vs. Whisper karşılaştırmamızı okuyun.

Çok dilli gerçek zamanlı toplantılar için: MirrorCaption (streaming STT + GPT). Gerçek zamanlı akış, 60+ dil, bot yok, tarayıcı tabanlı. Streaming STT ile bağlamsal çeviriyi birleştiren iki katmanlı yaklaşım, WER benchmark’larının yakalayamadığı anlam düzeyi doğruluğu ekler.

Geliştirici düzeyinde API doğruluğu için: İngilizce ağırlıklı, yüksek hacimli iş yükleri için Deepgram Nova-2; güçlü konuşmacı ayrıştırma gerektiren kullanım senaryoları için AssemblyAI Universal-2. İkisi de mühendislik yatırımı gerektirir.

Platforma yerleşik kolaylık için: Tüm zamanınızı Google Workspace içinde geçiriyorsanız Google Meet Live Captions; tüm toplantılar Zoom’da yapılıyorsa Zoom AI Companion. Sıfır kurulumun bedeli olarak platform kilidini kabul edin.

Brezilyalı bir yazılım mühendisi olan Marcus, Japonca öğrenirken Tokyo’daki ekip arkadaşlarıyla iki haftada bir yaptığı görüşmeler için MirrorCaption kullanmaya başladı. Her oturumda, ders kitabı Japoncası değil, gerçek toplantı dili olan beş ya da altı ifadeyi kelime haznesi kartlarına kaydediyordu: itiraz ederken kullanılan nazik kalıplar, meslektaşlarının gerçekten kullandığı teknik kelime dağarcığı, bir karar verilmeden hemen önce gelen ifadeler. Dört ay sonra gerçek konuşmalardan neredeyse 200 ifade biriktirmişti. Tokyo’daki ekip arkadaşları, o bunu söylemeden önce değişimi fark etti.

Sıkça Sorulan Sorular

2026’da yapay zekâ toplantı transkripsiyonu ne kadar doğru?

Modern yapay zekâ transkripsiyonu, temiz İngilizce seste %3–8 kelime hata oranına ulaşır. Gerçek toplantı koşullarında arka plan gürültüsü, birden fazla konuşmacı ve ses sıkıştırması nedeniyle WER, araca bağlı olarak tipik olarak %8–17’ye çıkar. İngilizce dışı dillerde doğruluk önemli ölçüde değişir: öncelikle İngilizce üzerinde eğitilmiş araçlarda, konuşmacılar Mandarin, Japonca, Arapça veya diğer İngilizce dışı dilleri kullandığında WER iki katına veya daha fazlasına çıkabilir.

Kelime hata oranı (WER) nedir?

Kelime hata oranı; ikameleri (yanlış kelime), eklemeleri (fazladan kelime) ve silmeleri (kaçırılan kelime) toplam referans kelime sayısına bölerek hesaplar. %5 WER, yaklaşık her 100 kelimede beş hata demektir. Daha düşük daha iyidir, ancak WER zararsız bir hatayla sonuç doğuran bir hatayı ayırt etmez; “approve” ile “disapprove” ikisi de birer ikame olarak sayılır.

2026’da en doğru yapay zekâ transkripsiyon aracı hangisi?

Temiz İngilizce ses için Whisper Large v3 ve Deepgram Nova-2 yaklaşık %3–6 WER elde eder ve alanın önündedir. Gerçek zamanlı çok dilli toplantılar için MirrorCaption, akış doğruluğu ve dil kapsamının en iyi birleşimini sunar. Hiçbir araç her boyutta lider değildir; cevap, ses koşullarınıza, dil karışımınıza ve sonuçlara toplantı sırasında mı yoksa sonrasında mı ihtiyaç duyduğunuza bağlıdır.

Yapay zekâ transkripsiyon doğruluğu İngilizce dışı dillerde düşer mi?

Evet, belirgin biçimde. Otter.ai, Fireflies ve Zoom AI Companion gibi tüketici araçları öncelikle İngilizce veriler üzerinde eğitilir; İngilizce dışı doğruluk keskin biçimde düşer, özellikle Asya ve Orta Doğu dillerinde. Whisper ve MirrorCaption, daha geniş çok dilli eğitim korpusları sayesinde diller arasında daha tutarlı performans gösterir.

Gerçek zamanlı akış transkripsiyon doğruluğunu nasıl etkiler?

Streaming STT, bağlam oluştukça kendi kendini düzelten kısmi sonuçlar üretir. Streaming araçların nihai doğruluğu, aynı ses üzerinde batch araçlara göre tipik olarak 1–3 yüzde puanı daha yüksek WER gösterir; bu, çıktı toplantı hâlâ sürerken geldiği düşünüldüğünde gerçek ama dar bir farktır. Daha derin bir inceleme için canlı altyazılar vs. transkriptler yazımıza bakın.

Whisper, Otter.ai’den daha mı doğru?

Temiz İngilizce seste Whisper Large v3, Otter.ai’ye kıyasla belirgin biçimde daha düşük WER elde eder. Gerçek toplantı koşullarında fark daralır ama sürer. Whisper, kendiniz dağıttığınız ya da üçüncü taraf wrapper’lar üzerinden eriştiğiniz bir modeldir; Otter ise arayüzü olan eksiksiz bir üründür. Altyapı yönetmek istemeyen son kullanıcılar için Otter’ın doğruluk-kolaylık dengesi makuldür. Geliştirici kaynağı olan ekipler için Whisper, İngilizce’de daha iyi doğruluk sunar. Ayrıntılı teknik inceleme için streaming STT vs. Whisper yazısını okuyun.

Gerçekte Önemli Olan Doğruluk Ölçütü

Ham WER yararlı bir benchmark’tır; ancak laboratuvar ölçüsüdür. Aracın konuşmacılarınızın aksanlarını işleyip işlemediğini, sonuçların siz hâlâ harekete geçebilecekken gelip gelmediğini ya da dilbilimsel olarak doğru bir transkriptin gerçekten ne kastedildiğini yakalayıp yakalamadığını söylemez.

Toplantıları İngilizce yürüyen ve toplantı sonrası özetlerin yeterli olduğu ekipler için Whisper ve Otter, bugün mevcut doğruluk tavanını temsil eder. Gerçek zamanlı kararlar veren çok dilli ekipler için soru “hangi aracın WER’i en düşük”ten “hangi araç, biz hâlâ yanıt verebilirken bize yeterince doğru bir okuma sağlıyor”a kayar. Bu farklı bir değerlendirmedir ve farklı bir cevap üretir.

MirrorCaption, bu ikinci kullanım senaryosuna hizmet etmek için streaming STT’yi bağlamsal GPT çevirisiyle katmanlandırır; 60’tan fazla dilde, 500 ms altında, bir tarayıcı sekmesinden çalışır. Ücretsiz katman size ayda 2 saat verir. Sıradaki toplantınız testtir.

Bir Sonraki Toplantınızda Doğruluğu Test Edin

Her ay 2 saat ücretsiz. 60+ dil. Bot yok, kurulum yok.

MirrorCaption’ı Ücretsiz Dene