How accurate is AI meeting transcription in 2026?

Modern AI transcription achieves 3–8% word error rate on clean English audio. In real meeting conditions, noise, multiple speakers, audio compression, WER rises to 8–17% depending on the tool. Non-English languages see higher error rates on most consumer meeting tools.

What is word error rate (WER)?

Word error rate counts substitutions (wrong word), insertions (extra word), and deletions (missed word), divided by the total reference word count. A 5% WER means roughly five errors per 100 words. Lower is better.

Which AI transcription tool is most accurate in 2026?

For clean English audio, Whisper Large v3 and Deepgram Nova-2 achieve roughly 3–6% WER. For real-time multilingual meetings, MirrorCaption offers the best combination of streaming accuracy and language coverage at 60+ languages.

Does AI transcription accuracy drop for non-English languages?

Yes, significantly. Consumer tools like Otter.ai, Fireflies, and Zoom AI Companion are English-primary; non-English accuracy drops sharply. Whisper and MirrorCaption perform more consistently across languages due to broader multilingual training.

Is Whisper more accurate than Otter.ai?

On clean English audio, Whisper Large v3 achieves noticeably lower WER than Otter.ai. In real meeting conditions the gap narrows but persists. Whisper requires developer deployment; Otter is a complete consumer product.

So sánh độ chính xác phiên âm AI 2026

Với hầu hết các tiêu chí đánh giá, không có công cụ phiên âm AI nào thắng tuyệt đối trên mọi mặt vào năm 2026. Với âm thanh tiếng Anh sạch, Whisper Large v3 và Deepgram Nova-2 dẫn đầu về tỷ lệ lỗi từ, khoảng 3–6%. Với các cuộc họp đa ngôn ngữ cần kết quả theo thời gian thực, các công cụ STT đa ngôn ngữ gốc streaming như MirrorCaption hoạt động ổn định nhất trên các ngôn ngữ không phải tiếng Anh. Công cụ nào chính xác nhất với bạn còn tùy vào thời điểm bạn cần bản ghi và ngôn ngữ mà người nói sử dụng.

Tháng Chín năm ngoái, Nadia gặp phải một vấn đề mà hầu hết các bài benchmark độ chính xác không phát hiện ra. Cô phụ trách một chương trình nghiên cứu định tính tại một trường đại học ở Berlin và cần một công cụ phiên âm cho các cuộc phỏng vấn 45 phút với các nhà khoa học quốc tế, những kỹ sư có tiếng Anh khá chuẩn về mặt kỹ thuật nhưng nặng giọng. Whisper Large v3 cho ra đầu ra sạch nhất trên đoạn thử của cô: một người bản ngữ tiếng Anh, phòng yên tĩnh, văn bản đã chuẩn bị sẵn. Cô chạy cùng mô hình đó trên một cuộc phỏng vấn 40 phút với một kỹ sư hàng không vũ trụ người Nhật. Mười chín lỗi danh từ riêng. Hai câu đầy đủ bị bỏ sót hoàn toàn. Mô hình có điểm WER trong phòng thí nghiệm đứng thứ hai lại là mô hình cô tin dùng cho nghiên cứu thực tế.

Bài so sánh này đánh giá bảy công cụ trên bốn điều kiện âm thanh: tiếng Anh phòng thu sạch, một cuộc gọi Zoom mô phỏng, chuyển mã song ngữ Anh-Mandarin, và một người nói tiếng Anh không phải bản ngữ. Dữ liệu cho thấy gì, mỗi công cụ vấp ở đâu, và công cụ nào phù hợp với từng trường hợp sử dụng.

Điểm chính

Với âm thanh tiếng Anh sạch, Whisper Large v3 và Deepgram Nova-2 đạt ~3–6% WER, nhưng không công cụ nào là công cụ họp sẵn dùng cho người dùng cuối ngay từ đầu.
Tất cả các công cụ đều thấy WER tăng gấp 2–3 lần trong điều kiện họp thực tế so với âm thanh phòng thu sạch.
Otter.ai, Fireflies và Zoom AI Companion ưu tiên tiếng Anh; độ chính xác với ngôn ngữ không phải tiếng Anh giảm mạnh, đặc biệt là với các ngôn ngữ châu Á và Trung Đông.
MirrorCaption (STT streaming + GPT) mang lại khả năng streaming theo thời gian thực ở hơn 60 ngôn ngữ với độ trễ dưới 500ms, là công cụ người dùng cuối duy nhất kết hợp độ chính xác thời gian thực với phạm vi ngôn ngữ rộng.
Không có công cụ nào là "chính xác nhất" trong mọi điều kiện. Chỉ số đúng là độ chính xác vào đúng lúc và đúng nơi bạn thực sự cần.

"Độ chính xác phiên âm" thực sự có nghĩa là gì

Giải thích Tỷ lệ lỗi từ (WER)

Tỷ lệ lỗi từ là chỉ số tiêu chuẩn cho độ chính xác speech-to-text. Công thức: đếm số từ thay thế (từ sai), chèn thêm (từ thừa), và xóa bỏ (từ bị bỏ sót), rồi chia cho tổng số từ tham chiếu. WER 5% nghĩa là khoảng năm lỗi trên 100 từ. Trong một cuộc họp 1.200 từ, đó là 60 lỗi, một số vô hại ("the" so với "a"), một số có hệ quả ("chúng ta sẽ phê duyệt việc này" so với "chúng ta sẽ xem xét việc này").

Các điểm WER được công bố thường đến từ những bộ dữ liệu có kiểm soát như LibriSpeech (giọng đọc sạch) hoặc Common Voice. Các cuộc họp thực tế thì khác: âm thanh bị nén bởi codec của Zoom hoặc Teams, nhiều người nói chồng lấn, giọng không phải bản ngữ, tiếng ồn nền, và thuật ngữ kỹ thuật không có trong dữ liệu huấn luyện của mô hình. WER trong điều kiện họp thường cao hơn 2–3 lần so với WER trong phòng thí nghiệm đối với mọi công cụ trong danh sách này.

Câu hỏi quan trọng hơn WER

Trước khi so sánh điểm độ chính xác, hãy trả lời câu này: bạn cần bản ghi trong lúc họp hay sau khi họp xong? Một công cụ streaming với WER 7% nhưng cho kết quả khi người nói vẫn đang nói thường hữu ích hơn cho quyết định ngay trong cuộc họp so với một công cụ batch có WER 4% nhưng đến muộn mười phút. Độ chính xác không chỉ là tỷ lệ lỗi mà còn là thời điểm. Bài viết đi kèm của chúng tôi về độ chính xác dịch theo thời gian thực phân tích sâu hơn về sự đánh đổi này.

Chúng tôi đánh giá các công cụ này như thế nào

Chúng tôi chạy từng công cụ qua bốn kịch bản âm thanh:

Phòng thu sạch, một người nói tiếng Anh bản ngữ, môi trường âm học được kiểm soát
Điều kiện họp, cuộc gọi Zoom mô phỏng, hai người nói tiếng Anh bản ngữ, có tiếng ồn nền nhẹ
Trao đổi song ngữ, chuyển mã Anh và Mandarin, mỗi ngôn ngữ một người nói bản ngữ
Tiếng Anh không phải bản ngữ, người nói tiếng Nhật với trình độ tiếng Anh trung cấp đến nâng cao

Các công cụ được đánh giá: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2, và MirrorCaption. Các khoảng WER trong bài này được tổng hợp từ các benchmark học thuật đã công bố, tài liệu của nhà cung cấp, và thử nghiệm của chính chúng tôi. Chúng tôi trình bày theo khoảng thay vì ước tính điểm vì độ chính xác thay đổi đáng kể theo điều kiện âm thanh, hãy xem đây là chỉ báo xu hướng chứ không phải kết luận cuối cùng, và hãy tự kiểm tra bằng nội dung của bạn trước khi quyết định dùng một công cụ.

Xem MirrorCaption xử lý các cuộc họp của bạn như thế nào

Miễn phí 2 giờ mỗi tháng. Không cần cài đặt. Dùng mọi trình duyệt.

Dùng thử miễn phí

So sánh độ chính xác phiên âm AI: Kết quả 2026

Bảng dưới đây tóm tắt WER ước tính trên các điều kiện thử nghiệm, khả năng thời gian thực, phạm vi ngôn ngữ, và việc công cụ đó có sẵn dưới dạng sản phẩm cho người dùng cuối hay chỉ là API cho nhà phát triển.

Công cụ	WER EN sạch	WER họp	Thời gian thực	Ngôn ngữ	Sản phẩm cho người dùng cuối
Whisper Large v3	~3–5%	~12–18%	Không (batch)	99	Không (cần dev)
Deepgram Nova-2	~4–6%	~7–12%	Có (API)	36	Không (chỉ API)
AssemblyAI Universal-2	~5–8%	~8–13%	Một phần	17	Không (chỉ API)
Otter.ai	~8–12%	~10–16%	Có	EN-primary	Có
MirrorCaption	~5–8%	~7–12%	Có (<500ms)	60+	Có
Fireflies.ai	~9–14%	~11–17%	Không (sau cuộc gọi)	60+ (sau cuộc gọi)	Có
Zoom AI Companion	~9–13%	~11–16%	Một phần	~8	Có (doanh nghiệp)

Các khoảng WER là ước tính, dựa trên các benchmark đã công bố bao gồm HuggingFace Open ASR Leaderboard, báo cáo kỹ thuật Whisper của OpenAI, tài liệu của nhà cung cấp, và thử nghiệm của chính chúng tôi. Các con số thực tế thay đổi theo chất lượng âm thanh, đặc điểm người nói, và vốn từ vựng.

Có ba điểm nổi bật. Thứ nhất: khoảng cách giữa WER sạch và WER họp lớn hơn nhiều so với những gì đa số nhà cung cấp tuyên bố, mức tăng của Whisper từ ~4% lên ~15% là rất rõ vì đây là mô hình batch không được thiết kế cho tiếng ồn cuộc họp. Thứ hai: các công cụ chỉ có API (Deepgram, AssemblyAI) thường vượt trội hơn các sản phẩm tiêu dùng về WER thô, nhưng cần công sức kỹ thuật để triển khai. Thứ ba: phạm vi ngôn ngữ rộng và khả năng thời gian thực hiếm khi cùng tồn tại, những công cụ có cả hai chỉ là một danh sách ngắn.

Phân tích từng công cụ

1. OpenAI Whisper Large v3

Whisper là chuẩn tham chiếu về độ chính xác cho âm thanh tiếng Anh sạch. OpenAI đã huấn luyện nó trên 680.000 giờ âm thanh web đa ngôn ngữ, giúp nó hoạt động mạnh với giọng có accent trong phạm vi dữ liệu huấn luyện. Trên các benchmark giọng đọc sạch, Whisper Large v3 đạt WER dưới 5%. Trên bộ AMI, một tập dữ liệu các cuộc họp nhiều bên nói thực tế, WER tăng lên mức 12–18%, vì Whisper là mô hình batch: nó xử lý các đoạn âm thanh hoàn chỉnh, không phải luồng trực tiếp.

Hạn chế cốt lõi là Whisper là một mô hình, không phải một sản phẩm. Muốn dùng nó cần Python, tài nguyên tính toán, và thời gian của nhà phát triển. Triển khai thời gian thực còn cần thêm kỹ thuật. Nếu bạn có những thứ đó, Whisper rất xuất sắc cho tiếng Anh. Nếu không, xem bên dưới. Để có so sánh thực chiến, hãy đọc trang MirrorCaption vs. Whisper của chúng tôi.

2. Deepgram Nova-2

Nova-2 của Deepgram là lựa chọn mạnh nhất dành cho nhà phát triển khi cần độ chính xác streaming theo thời gian thực. Nó đạt ~4–6% WER trên tiếng Anh sạch và duy trì hiệu năng cạnh tranh trong điều kiện họp (~7–12%) vì Deepgram tối ưu đặc biệt cho âm thanh điện thoại và hội nghị. Độ trễ streaming dưới 300ms. Ba mươi sáu ngôn ngữ được hỗ trợ là đủ cho nhiều nhóm, nhưng chưa đủ cho phạm vi đa ngôn ngữ rộng.

Ràng buộc giống hệt Whisper: đây là một API. Bạn đang trả tiền cho một luồng dữ liệu mà đội kỹ thuật của bạn phải xây dựng, hiển thị và quản lý xung quanh nó. Không có giao diện người dùng, không có nhãn người nói sẵn có, không có lớp tóm tắt AI. Giá khoảng ~$0.0043/phút sẽ tăng nhanh nếu dùng khối lượng lớn.

3. AssemblyAI Universal-2

AssemblyAI cung cấp khả năng phân tách người nói mạnh, rất quan trọng cho bản ghi cuộc họp nơi biết ai nói gì quan trọng không kém nội dung được nói ra. Universal-2 đạt ~5–8% WER trên âm thanh sạch. Streaming thời gian thực có sẵn nhưng chưa trưởng thành bằng giải pháp của Deepgram. Với 17 ngôn ngữ được hỗ trợ, đây là một hạn chế đáng kể đối với các nhóm quốc tế. Giống Deepgram, nó cần tích hợp từ nhà phát triển; không có sản phẩm cho người dùng cuối.

4. Otter.ai

Tốt nhất cho nhóm chỉ dùng tiếng Anh

Otter là lựa chọn mặc định của người dùng phổ thông cho phiên âm cuộc họp tiếng Anh. WER trên tiếng Anh Mỹ rõ ràng khá tốt, khoảng 8–12% trong điều kiện họp, cạnh tranh đối với một sản phẩm tiêu dùng. OtterPilot tự động tham gia cuộc họp, ghi âm, và tạo ghi chú cùng các mục hành động với nhãn người nói. Tích hợp lịch với Zoom, Google Meet, và Teams hoạt động ổn định.

Khoảng trống lộ ra rất nhanh khi ra ngoài tiếng Anh. Otter không cung cấp dịch theo thời gian thực, và chất lượng phiên âm không phải tiếng Anh thấp hơn đáng kể so với hiệu năng tiếng Anh. Với giá $16.99/tháng cho mỗi người dùng, chi phí sẽ tăng lên đối với các nhóm. Xem bài so sánh MirrorCaption vs. Otter.ai đầy đủ của chúng tôi để có phân tích theo từng tính năng.

5. MirrorCaption (STT streaming + GPT)

Tốt nhất cho đa ngôn ngữ thời gian thực

MirrorCaption sử dụng một công cụ STT WebSocket gốc streaming, luôn đạt kết quả tốt trên tiếng Anh không phải bản ngữ và các ngôn ngữ châu Á. WER trên âm thanh cuộc họp nằm trong khoảng ~7–12% với độ trễ streaming dưới 500ms. Nhưng WER thô không phản ánh toàn bộ bức tranh đối với một công cụ có khả năng dịch.

Mỗi đoạn phiên âm được chuyển qua lớp dịch GPT với ngữ cảnh từ 3–5 đoạn trước đó. Khi một khách hàng Nhật nói ちょっと難しいです, nghĩa đen là "hơi khó", lớp dịch sẽ xem xét cuộc trò chuyện xung quanh trước khi quyết định đây là một nhận xét về logistics hay một lời từ chối thương mại lịch sự. Độ chính xác ở cấp độ ý nghĩa này là điều mà hầu hết các benchmark WER không đo được.

Đối với người dùng cuối, MirrorCaption là công cụ duy nhất trong danh sách này kết hợp độ chính xác streaming theo thời gian thực, phạm vi hơn 60 ngôn ngữ, ghi âm không cần bot qua tab trình duyệt, và giao diện không cần cài đặt. €49 trọn đời với 200 giờ bao gồm; miễn phí 2 giờ mỗi tháng.

Động cơ STT: Streaming WebSocket độ trễ thấp, <500ms
Dịch: GPT với cửa sổ ngữ cảnh 3–5 đoạn
Ngôn ngữ: Hơn 60, gồm Mandarin, Nhật, Hàn, Ả Rập, Hindi
Quyền riêng tư: Không bot, không lưu âm thanh phía máy chủ, lưu bản ghi cục bộ
Giá: Miễn phí (2h/tháng) · Hàng năm €29 · Trọn đời €49

Kiểm tra độ chính xác thời gian thực trong chính các cuộc họp của bạn

Mở MirrorCaption trong trình duyệt, không cần tải xuống, không cần thiết lập.

Mở MirrorCaption

6. Fireflies.ai

Fireflies tập trung vào lớp ghi chú cuộc họp: bot tham gia cuộc gọi của bạn, ghi lại mọi thứ, và tạo bản ghi sau cuộc họp kèm tóm tắt AI. Tích hợp CRM với HubSpot và Salesforce khiến nó phổ biến với các đội bán hàng. WER trong điều kiện họp khoảng 9–14%, chấp nhận được cho việc tạo tóm tắt, nơi vài lỗi từ hiếm khi làm thay đổi ý nghĩa của một mục hành động.

Hạn chế là thời điểm. Fireflies là công cụ sau cuộc gọi. Phiên âm thời gian thực có sẵn nhưng không phải sản phẩm cốt lõi, và dịch chỉ có sau cuộc gọi. Nếu bạn cần hiểu điều đang được nói trong lúc họp chứ không phải sau đó, Fireflies không phù hợp với nhu cầu đó.

7. Zoom AI Companion

Zoom AI Companion xử lý phụ đề trực tiếp khá tốt ngay trong Zoom, WER khoảng 9–13% trong điều kiện họp, hợp lý đối với một tính năng gốc của nền tảng. Với khoảng 8 ngôn ngữ được hỗ trợ, chất lượng thay đổi đáng kể theo cặp ngôn ngữ. Tiếng Anh mạnh; khoảng cách lớn hơn với các ngôn ngữ châu Á.

Các ràng buộc cứng: bị khóa nền tảng (chỉ hoạt động trong Zoom), cần giấy phép doanh nghiệp cho tính năng dịch, và không thể dùng cho các cuộc trò chuyện trực tiếp hoặc cuộc họp trên nền tảng khác. Với các nhóm sống hoàn toàn trong Zoom và chủ yếu họp bằng tiếng Anh, AI Companion là lựa chọn ít ma sát. Với bất kỳ phạm vi nào rộng hơn, bạn sẽ cần một công cụ riêng.

Mỗi công cụ vấp ở đâu

Tiếng Anh có accent và không phải bản ngữ

Đây là lúc các điểm WER trong phòng thí nghiệm không còn hữu ích. Otter, Fireflies và Zoom AI Companion chủ yếu được huấn luyện trên dữ liệu tiếng Anh bản ngữ. Người nói có accent Đông Á, Nam Á, hoặc Trung Đông sẽ thấy tỷ lệ lỗi cao hơn đáng kể, trong một số trường hợp WER lên tới 20–30%, khi lời nói của họ lệch khỏi phân phối dữ liệu huấn luyện. Whisper xử lý tiếng Anh có accent tốt hơn nhờ bộ dữ liệu huấn luyện đa ngôn ngữ rộng hơn. Công cụ STT đa ngôn ngữ gốc streaming của MirrorCaption cho thấy ít thay thế âm vị hơn trên tiếng Anh không phải bản ngữ so với các công cụ họp tiêu dùng.

Cuộc trò chuyện song ngữ và chuyển mã

Chuyển mã, như một người nói tiếng Nhật dùng một thuật ngữ kỹ thuật tiếng Anh giữa câu, hoặc một người nói tiếng Mandarin nói "我们 schedule 一个 meeting", làm hỏng hầu hết các mô hình STT. Các mô hình tiêu chuẩn sẽ cố định vào một ngôn ngữ cho mỗi phiên và coi các từ bất ngờ từ ngôn ngữ khác là lỗi. Whisper xử lý được một phần chuyển mã nhờ dữ liệu huấn luyện pha trộn ngôn ngữ. MirrorCaption chạy phát hiện ngôn ngữ theo từng đoạn thay vì khóa vào một ngôn ngữ duy nhất ngay từ đầu phiên, nên xử lý trao đổi song ngữ mềm mại hơn. Để có hướng dẫn đầy đủ về công cụ phiên âm đa ngôn ngữ, xem hướng dẫn phiên âm đa ngôn ngữ của chúng tôi.

Tháng Hai, một đội bán hàng phần mềm B2B đã tự mình phát hiện ra vấn đề này. Cuộc gọi thứ Năm của họ với một khách hàng tiềm năng quan trọng ở Tokyo có vẻ diễn ra tốt đẹp. Zoom AI Companion gửi bản tóm tắt chín phút sau khi cuộc gọi kết thúc. Bản tóm tắt ghi: "Khách hàng bày tỏ lo ngại về thời điểm đánh giá." Cụm từ thực tế, chỉ được phát hiện khi trưởng nhóm bán hàng xem lại bản ghi, là: "Chúng tôi cần tạm dừng hoàn toàn việc đánh giá." Cả hai bản ghi đều chính xác về mặt từ ngữ. Bản tóm tắt của Zoom làm mất đi ý nghĩa thương mại. Không ai phát hiện kịp để đặt câu hỏi tiếp theo.

Thời gian thực vs. hậu xử lý: sự đánh đổi giữa độ trễ và độ chính xác

STT streaming tạo ra các bản phiên âm tạm thời và cập nhật khi có thêm âm thanh. Một từ có thể được phiên âm theo một cách, rồi được sửa lại khi các từ tiếp theo cung cấp ngữ cảnh. Các công cụ hậu xử lý chờ một đoạn âm thanh hoàn chỉnh, nên chính xác hơn vì có đầy đủ ngữ cảnh, nhưng đầu ra xuất hiện chậm từ vài giây đến vài phút. Khoảng cách độ chính xác cuối cùng giữa streaming và batch thường là 1–3 điểm phần trăm. Điều đó là có thật, nhưng khá nhỏ so với giá trị của việc có kết quả khi bạn vẫn còn có thể hành động. Bài viết của chúng tôi về phụ đề trực tiếp vs. bản ghi phân tích chi tiết sự đánh đổi này.

Công cụ nào chính xác nhất cho trường hợp của bạn?

Cho bản ghi sau cuộc họp chỉ bằng tiếng Anh: Whisper Large v3 (thông qua wrapper hoặc triển khai tự host) hoặc Otter.ai. Cả hai đều cho đầu ra sau cuộc họp được trau chuốt. Otter dễ dùng hơn cho người không kỹ thuật; Whisper tốt hơn nếu bạn có nguồn lực phát triển và muốn độ chính xác tối đa. Đọc bài so sánh STT streaming vs. Whisper của chúng tôi để xem phân tích kỹ thuật.

Cho các cuộc họp đa ngôn ngữ theo thời gian thực: MirrorCaption (STT streaming + GPT). Streaming thời gian thực, hơn 60 ngôn ngữ, không bot, chạy trên trình duyệt. Cách tiếp cận hai lớp, STT streaming cộng với dịch theo ngữ cảnh, bổ sung độ chính xác ở cấp độ ý nghĩa mà các benchmark WER không đo được.

Cho độ chính xác API cấp nhà phát triển: Deepgram Nova-2 cho khối lượng lớn ưu tiên tiếng Anh; AssemblyAI Universal-2 cho các trường hợp cần phân tách người nói mạnh. Cả hai đều cần đầu tư kỹ thuật.

Cho sự tiện lợi gốc nền tảng: Google Meet Live Captions nếu bạn sống hoàn toàn trong Google Workspace; Zoom AI Companion nếu mọi cuộc họp đều diễn ra trong Zoom. Chấp nhận bị khóa nền tảng như cái giá của việc không cần thiết lập.

Marcus, một kỹ sư phần mềm người Brazil đang học tiếng Nhật, bắt đầu dùng MirrorCaption cho các buổi check-in hai tuần một lần với đồng đội ở Tokyo. Mỗi phiên, anh lưu năm hoặc sáu cụm từ vào bộ từ vựng của mình, không phải tiếng Nhật trong sách giáo khoa, mà là ngôn ngữ họp thực tế: các cách nói lịch sự khi không đồng ý, thuật ngữ kỹ thuật mà đồng nghiệp thực sự dùng, cách diễn đạt xuất hiện trước khi một quyết định được đưa ra. Sau bốn tháng, anh có gần 200 cụm từ từ các cuộc trò chuyện thực tế. Các đồng đội ở Tokyo nhận ra sự thay đổi trước cả khi anh nhắc đến nó.

Câu hỏi thường gặp

Độ chính xác phiên âm cuộc họp AI vào năm 2026 là bao nhiêu?

Các hệ thống phiên âm AI hiện đại đạt tỷ lệ lỗi từ 3–8% trên âm thanh tiếng Anh sạch. Trong điều kiện họp thực tế, tiếng ồn nền, nhiều người nói, nén âm thanh, WER thường tăng lên 8–17% tùy công cụ. Độ chính xác với ngôn ngữ không phải tiếng Anh thay đổi đáng kể: các công cụ chủ yếu được huấn luyện trên tiếng Anh có thể thấy WER tăng gấp đôi hoặc hơn khi người nói dùng Mandarin, Nhật, Ả Rập, hoặc các ngôn ngữ khác không phải tiếng Anh.

Tỷ lệ lỗi từ (WER) là gì?

Tỷ lệ lỗi từ đếm số từ thay thế (từ sai), chèn thêm (từ thừa), và xóa bỏ (từ bị bỏ sót), chia cho tổng số từ tham chiếu. WER 5% nghĩa là khoảng năm lỗi trên 100 từ. Càng thấp càng tốt, nhưng WER không phân biệt giữa lỗi vô hại và lỗi có hệ quả, "phê duyệt" và "không phê duyệt" đều chỉ tính là một lần thay thế.

Công cụ phiên âm AI nào chính xác nhất vào năm 2026?

Với âm thanh tiếng Anh sạch, Whisper Large v3 và Deepgram Nova-2 đạt ~3–6% WER và dẫn đầu thị trường. Với các cuộc họp đa ngôn ngữ theo thời gian thực, MirrorCaption mang lại sự kết hợp tốt nhất giữa độ chính xác streaming và phạm vi ngôn ngữ. Không có công cụ nào dẫn đầu trên mọi khía cạnh, câu trả lời phụ thuộc vào điều kiện âm thanh, sự pha trộn ngôn ngữ, và việc bạn cần kết quả trong hay sau cuộc họp.

Độ chính xác phiên âm AI có giảm với ngôn ngữ không phải tiếng Anh không?

Có, giảm đáng kể. Các công cụ tiêu dùng như Otter.ai, Fireflies và Zoom AI Companion chủ yếu được huấn luyện trên dữ liệu tiếng Anh, độ chính xác với ngôn ngữ không phải tiếng Anh giảm mạnh, đặc biệt là với các ngôn ngữ châu Á và Trung Đông. Whisper và MirrorCaption hoạt động ổn định hơn giữa các ngôn ngữ nhờ bộ dữ liệu huấn luyện đa ngôn ngữ rộng hơn.

Streaming thời gian thực ảnh hưởng thế nào đến độ chính xác phiên âm?

STT streaming tạo ra kết quả tạm thời và tự sửa khi ngữ cảnh tích lũy. Độ chính xác cuối cùng của các công cụ streaming thường có WER cao hơn 1–3 điểm phần trăm so với công cụ batch trên cùng một âm thanh, một khoảng cách có thật nhưng không lớn, xét rằng đầu ra streaming đến khi cuộc họp vẫn đang diễn ra. Xem bài viết của chúng tôi về phụ đề trực tiếp vs. bản ghi để tìm hiểu sâu hơn.

Whisper có chính xác hơn Otter.ai không?

Trên âm thanh tiếng Anh sạch, Whisper Large v3 đạt WER thấp hơn Otter.ai một cách rõ rệt. Trong điều kiện họp thực tế, khoảng cách thu hẹp lại nhưng vẫn còn. Whisper là một mô hình bạn tự triển khai hoặc truy cập qua các wrapper bên thứ ba; Otter là một sản phẩm hoàn chỉnh có giao diện. Với người dùng cuối không muốn quản lý hạ tầng, đánh đổi giữa độ chính xác và sự tiện lợi của Otter là hợp lý. Với các nhóm có nguồn lực phát triển, Whisper cho độ chính xác tốt hơn trên tiếng Anh. Để xem phân tích kỹ thuật chi tiết, đọc STT streaming vs. Whisper.

Chỉ số độ chính xác thực sự quan trọng

WER thô là một benchmark hữu ích; nhưng đó là con số trong phòng thí nghiệm. Nó không cho bạn biết công cụ có xử lý được accent của người nói hay không, kết quả có đến khi bạn vẫn còn có thể hành động hay không, hoặc một bản ghi chính xác về mặt ngôn ngữ có thực sự nắm được điều được nói ra hay không.

Với các nhóm mà cuộc họp luôn diễn ra bằng tiếng Anh và tóm tắt sau cuộc họp là đủ, Whisper và Otter đại diện cho trần độ chính xác hiện có ngày nay. Với các nhóm đa ngôn ngữ cần ra quyết định theo thời gian thực, câu hỏi chuyển từ "công cụ nào có WER thấp nhất" sang "công cụ nào cho chúng ta mức đọc đủ chính xác khi chúng ta vẫn còn có thể phản hồi". Đó là một cách đánh giá khác, và nó cho ra một câu trả lời khác.

MirrorCaption kết hợp STT streaming với dịch GPT theo ngữ cảnh để phục vụ trường hợp sử dụng thứ hai đó, ở hơn 60 ngôn ngữ, dưới 500ms, ngay trong một tab trình duyệt. Gói miễn phí cho bạn 2 giờ mỗi tháng. Cuộc họp tiếp theo của bạn là bài kiểm tra.

Kiểm tra độ chính xác trong cuộc họp tiếp theo của bạn

Miễn phí 2 giờ mỗi tháng. Hơn 60 ngôn ngữ. Không bot, không cài đặt.

Dùng thử MirrorCaption miễn phí

So sánh độ chính xác phiên âm AI2026