대부분의 평가 기준에서 2026년에는 어떤 AI 전사 도구도 전반적으로 압도적인 1위가 아닙니다. 깨끗한 영어 오디오에서는 Whisper Large v3와 Deepgram Nova-2가 단어 오류율(WER) 약 3~6%로 선두입니다. 실시간 결과가 필요한 다국어 회의에서는 MirrorCaption 같은 스트리밍 네이티브 다국어 STT 도구가 비영어권 언어 전반에서 가장 일관된 성능을 보입니다. 어떤 도구가 가장 정확한지는 전사가 필요한 시점과 화자들이 사용하는 언어에 따라 달라집니다.
지난 9월, Nadia는 대부분의 정확도 벤치마크가 잡아내지 못하는 문제를 겪었습니다. 그녀는 베를린의 한 대학에서 질적 연구 프로그램을 운영하며, 영어는 기술적으로 유창하지만 억양이 강한 국제 과학자들과의 45분 인터뷰에 사용할 전사 도구가 필요했습니다. Whisper Large v3는 테스트 클립에서 가장 깔끔한 결과를 냈습니다. 원어민 영어 화자 1명, 조용한 방, 준비된 텍스트였습니다. 같은 모델을 일본인 항공우주 엔지니어와의 40분 인터뷰에 적용하자 고유명사 오류가 19개 나왔고, 문장 두 개가 통째로 빠졌습니다. 실험실 WER 점수는 두 번째로 좋았지만, 실제 연구에선 그 모델을 신뢰했습니다.
이 비교는 깨끗한 스튜디오 영어, Zoom 통화 시뮬레이션, 영어-중국어 이중언어 코드 스위칭, 비원어민 영어 화자라는 네 가지 오디오 조건에서 7개 도구를 평가합니다. 데이터가 보여주는 것, 각 도구가 무너지는 지점, 그리고 어떤 사용 사례에 맞는지 살펴봅니다.
핵심 요약
- 깨끗한 영어 오디오에서는 Whisper Large v3와 Deepgram Nova-2가 약 3~6% WER을 달성하지만, 둘 다 일반 사용자를 위한 즉시 사용 가능한 회의 도구는 아닙니다.
- 모든 도구는 실제 회의 조건에서 깨끗한 스튜디오 오디오 대비 WER이 2~3배 상승합니다.
- Otter.ai, Fireflies, Zoom AI Companion은 영어 중심이며, 비영어권 정확도는 특히 아시아 및 중동 언어에서 급격히 떨어집니다.
- MirrorCaption(스트리밍 STT + GPT)은 60개 이상의 언어에서 500ms 미만 지연으로 실시간 스트리밍을 제공하며, 실시간 정확도와 폭넓은 언어 지원을 함께 제공하는 유일한 최종 사용자 도구입니다.
- 모든 조건에서 "가장 정확한" 단일 도구는 없습니다. 중요한 기준은 실제로 필요할 때, 필요한 곳에서의 정확도입니다.
"전사 정확도"가 실제로 의미하는 것
단어 오류율(WER) 설명
단어 오류율은 음성-텍스트 정확도의 표준 지표입니다. 공식은 다음과 같습니다. 치환(잘못된 단어), 삽입(추가된 단어), 삭제(놓친 단어)를 세고, 이를 기준 단어 수로 나눕니다. WER 5%는 대략 100단어당 5개의 오류를 의미합니다. 1,200단어 회의라면 60개의 오류입니다. 일부는 무해합니다("the"와 "a"), 일부는 중요합니다("we'll approve this"와 "we'll review this").
공개된 WER 점수는 보통 LibriSpeech(깨끗한 읽기 음성)나 Common Voice 같은 통제된 데이터셋에서 나옵니다. 실제 회의는 다릅니다. Zoom이나 Teams 코덱으로 압축된 오디오, 겹쳐 말하는 여러 화자, 비원어민 억양, 배경 소음, 그리고 모델 학습 데이터에 없던 전문 용어가 섞입니다. 이 목록의 모든 도구에서 회의 조건 WER은 보통 실험실 WER보다 2~3배 높습니다.
WER보다 더 중요한 질문
정확도 점수를 비교하기 전에 이것부터 답해야 합니다. 전사가 회의 중에 필요한가요, 아니면 후에 필요한가요? WER 7%의 스트리밍 도구가 화자가 아직 말하는 중에 결과를 제공한다면, WER 4%의 배치 도구가 10분 뒤에 도착하는 것보다 회의 중 의사결정에는 더 유용한 경우가 많습니다. 정확도는 오류율만큼이나 타이밍의 문제입니다. 이에 대한 자세한 내용은 실시간 번역 정확도 관련 글에서 다룹니다.
이 도구들을 어떻게 평가했나
각 도구를 네 가지 오디오 시나리오에 적용했습니다:
- 깨끗한 스튜디오, 원어민 영어 화자 1명, 통제된 음향 환경
- 회의 조건, Zoom 통화 시뮬레이션, 원어민 영어 화자 2명, 약한 배경 소음
- 이중언어 대화, 영어와 중국어 코드 스위칭, 언어별 원어민 1명씩
- 비원어민 영어, 일본인 화자, 중급~상급 영어 숙련도
평가 도구: Otter.ai, OpenAI Whisper Large v3, Fireflies.ai, Zoom AI Companion, Deepgram Nova-2, AssemblyAI Universal-2, MirrorCaption. 이 글의 WER 범위는 공개 학술 벤치마크, 벤더 문서, 그리고 자체 테스트를 바탕으로 합니다. 정확도는 오디오 조건에 따라 의미 있게 달라지므로, 단일 수치 대신 범위를 제시합니다. 이를 확정값이 아니라 방향성 지표로 보고, 도구를 확정하기 전에 자신의 콘텐츠로 테스트해 보세요.
MirrorCaption가 회의를 어떻게 처리하는지 확인하세요
월 2시간 무료. 설치 없음. 어떤 브라우저든 가능.
AI 전사 정확도 비교: 2026 결과
아래 표는 테스트 조건별 대략적인 WER, 실시간 기능, 언어 지원 범위, 그리고 최종 사용자 제품인지 개발자 API 전용인지 여부를 요약합니다.
| 도구 | 깨끗한 EN WER | 회의 WER | 실시간 | 언어 | 최종 사용자 제품 |
|---|---|---|---|---|---|
| Whisper Large v3 | ~3–5% | ~12–18% | 아니오(배치) | 99 | 아니오(개발 필요) |
| Deepgram Nova-2 | ~4–6% | ~7–12% | 예(API) | 36 | 아니오(API 전용) |
| AssemblyAI Universal-2 | ~5–8% | ~8–13% | 부분적 | 17 | 아니오(API 전용) |
| Otter.ai | ~8–12% | ~10–16% | 예 | EN 중심 | 예 |
| MirrorCaption | ~5–8% | ~7–12% | 예(<500ms) | 60+ | 예 |
| Fireflies.ai | ~9–14% | ~11–17% | 아니오(통화 후) | 60+(통화 후) | 예 |
| Zoom AI Companion | ~9–13% | ~11–16% | 부분적 | ~8 | 예(엔터프라이즈) |
WER 범위는 HuggingFace Open ASR Leaderboard, OpenAI의 Whisper 기술 보고서, 벤더 문서, 그리고 자체 테스트를 포함한 공개 벤치마크를 바탕으로 한 대략적인 수치입니다. 실제 수치는 오디오 품질, 화자 특성, 어휘에 따라 달라집니다.
세 가지가 눈에 띕니다. 첫째: 깨끗한 WER과 회의 WER의 격차는 대부분의 벤더 주장보다 큽니다. Whisper의 ~4%에서 ~15%로의 상승은, 회의 소음을 고려하지 않은 배치 모델이기 때문에 극적입니다. 둘째: API 전용 도구(Deepgram, AssemblyAI)는 원시 WER에서 소비자 제품보다 일관되게 우수하지만, 배포하려면 엔지니어링 작업이 필요합니다. 셋째: 폭넓은 언어 지원과 실시간 기능은 좀처럼 함께 존재하지 않습니다. 둘 다 제공하는 도구는 매우 적습니다.
도구별 상세 분석
1. OpenAI Whisper Large v3
Whisper는 깨끗한 영어 오디오의 정확도 기준입니다. OpenAI는 68만 시간의 다국어 웹 오디오로 이를 학습시켜, 학습 분포 안의 억양 있는 음성에서 강한 성능을 냅니다. 깨끗한 읽기 음성 벤치마크에서 Whisper Large v3는 WER 5% 미만을 달성합니다. 실제 다자간 회의 데이터셋인 AMI 코퍼스에서는 WER이 12~18%로 올라갑니다. Whisper는 배치 모델이기 때문에 라이브 스트림이 아니라 완전한 오디오 세그먼트를 처리합니다.
근본적인 한계는 Whisper가 제품이 아니라 모델이라는 점입니다. 사용하려면 Python, 컴퓨팅 자원, 개발 시간이 필요합니다. 실시간 배포에는 추가 엔지니어링이 필요합니다. 그게 가능하다면 Whisper는 영어에서 매우 뛰어납니다. 아니라면 실사용 관점의 MirrorCaption vs. Whisper 비교를 참고하세요.
2. Deepgram Nova-2
Deepgram의 Nova-2는 실시간 스트리밍 정확도에서 개발자용으로 가장 강력한 옵션입니다. 깨끗한 영어에서 ~4–6% WER을 달성하고, 회의 조건에서도 경쟁력 있는 성능(~7–12%)을 유지합니다. Deepgram이 전화 및 회의 오디오에 맞춰 최적화하기 때문입니다. 스트리밍 지연은 300ms 미만입니다. 지원 언어 36개는 많은 팀에 충분하지만, 폭넓은 다국어 지원에는 부족합니다.
제약은 Whisper와 같습니다. API라는 점입니다. 엔지니어링 팀이 그 위에 구축하고, 렌더링하고, 관리해야 하는 데이터 스트림에 비용을 지불하는 셈입니다. 기본 UI도 없고, 화자 라벨도 없고, AI 요약 계층도 없습니다. 분당 약 $0.0043의 가격은 대량 사용 시 빠르게 누적됩니다.
3. AssemblyAI Universal-2
AssemblyAI는 강력한 화자 분리(diarization)를 제공합니다. 회의 전사에서는 누가 무엇을 말했는지가 내용만큼 중요하기 때문에 이 기능이 중요합니다. Universal-2는 깨끗한 오디오에서 ~5–8% WER을 달성합니다. 실시간 스트리밍도 가능하지만 Deepgram의 제공보다 성숙도는 낮습니다. 지원 언어가 17개라 국제 팀에는 제약이 큽니다. Deepgram과 마찬가지로 개발자 통합이 필요하며, 최종 사용자 제품은 없습니다.
4. Otter.ai
Otter는 영어 회의 전사를 위한 기본 소비자 선택지입니다. 명확한 미국식 영어에서의 WER은 안정적이며, 회의 조건에서는 대략 8–12%로 소비자 제품치고 경쟁력이 있습니다. OtterPilot은 회의에 자동으로 참여해 오디오를 캡처하고, 화자 라벨이 포함된 메모와 실행 항목을 생성합니다. Zoom, Google Meet, Teams와의 캘린더 연동도 안정적입니다.
영어 밖으로 나가면 격차가 빠르게 드러납니다. Otter는 실시간 번역을 제공하지 않으며, 비영어권 전사 품질은 영어 성능보다 훨씬 떨어집니다. 사용자당 월 $16.99의 비용은 팀 단위로 누적됩니다. 기능별 상세 비교는 MirrorCaption vs. Otter.ai 비교를 참고하세요.
5. MirrorCaption (스트리밍 STT + GPT)
MirrorCaption은 스트리밍 네이티브 WebSocket STT 엔진을 사용하며, 비원어민 영어와 아시아 언어에서 일관되게 좋은 벤치마크를 보입니다. 회의 오디오에서 WER은 ~7–12% 범위이며, 스트리밍 지연은 500ms 미만입니다. 하지만 원시 WER만으로는 번역 기능이 있는 도구의 전체 그림을 설명할 수 없습니다.
각 전사 세그먼트는 이전 3~5개 세그먼트의 문맥과 함께 GPT 번역으로 전달됩니다. 일본인 고객이 ちょっと難しいです라고 말하면, 문자 그대로는 "조금 어렵습니다"이지만, 번역 계층은 이것이 물류 관련 코멘트인지, 정중한 상업적 거절인지 판단하기 전에 주변 대화를 고려합니다. 의미 수준의 정확도는 대부분의 WER 벤치마크가 측정하지 못하는 부분입니다.
최종 사용자에게 MirrorCaption은 이 목록에서 실시간 스트리밍 정확도, 60개 이상의 언어 지원, 브라우저 탭을 통한 봇 없는 오디오 캡처, 설치가 필요 없는 UI를 모두 결합한 유일한 도구입니다. 평생 €49에 200시간 포함; 매월 2시간 무료.
- STT 엔진: 저지연 WebSocket 스트리밍, <500ms
- 번역: 3~5개 세그먼트 문맥 창을 사용하는 GPT
- 언어: 중국어, 일본어, 한국어, 아랍어, 힌디어를 포함한 60개 이상
- 개인정보: 봇 없음, 서버 측 오디오 저장 없음, 로컬 전사 보존
- 가격: 무료(월 2시간) · 연간 €29 · 평생 €49
자신의 회의에서 실시간 정확도를 테스트해 보세요
브라우저에서 MirrorCaption을 열면 다운로드나 설정이 필요 없습니다.
6. Fireflies.ai
Fireflies는 회의 메모 계층에 집중합니다. 봇이 통화에 참여해 모든 내용을 기록하고, AI 요약이 포함된 회의 후 전사를 생성합니다. HubSpot과 Salesforce와의 CRM 연동 덕분에 영업팀에서 인기가 높습니다. 회의 조건에서 WER은 대략 9–14%로, 몇 개의 단어 오류가 실행 항목의 의미를 거의 바꾸지 않는 요약 생성에는 적절합니다.
제약은 타이밍입니다. Fireflies는 통화 후 도구입니다. 실시간 전사는 가능하지만 핵심 제품은 아니며, 번역은 통화 후에만 제공됩니다. 회의 후가 아니라 중에 무슨 말이 오가는지 알아야 한다면 Fireflies는 맞지 않습니다.
7. Zoom AI Companion
Zoom AI Companion은 Zoom 내에서 라이브 자막을 무난하게 처리합니다. 회의 조건에서 WER은 대략 9–13%로, 플랫폼 네이티브 기능치고는 합리적입니다. 지원 언어 약 8개에서는 언어쌍에 따라 품질 차이가 큽니다. 영어는 강하지만 아시아 언어에서는 격차가 커집니다.
명확한 제약은 플랫폼 종속성(Zoom에서만 작동), 번역 기능에 필요한 엔터프라이즈 라이선스, 그리고 대면 대화나 다른 플랫폼의 회의에는 사용할 수 없다는 점입니다. 완전히 Zoom 안에서만 일하고 주로 영어로 회의하는 팀이라면 AI Companion은 마찰이 거의 없는 선택입니다. 그 범위를 넘어서면 별도 도구가 필요합니다.
각 도구가 무너지는 지점
억양이 강한 영어와 비원어민 영어
이 지점에서는 실험실 WER 점수가 더 이상 유용하지 않습니다. Otter, Fireflies, Zoom AI Companion은 주로 원어민 영어 데이터로 학습됩니다. 동아시아, 남아시아, 중동 억양의 화자는 발화가 학습 분포에서 벗어날 경우 오류율이 크게 높아지며, 경우에 따라 WER이 20~30%까지 올라갑니다. Whisper는 더 넓은 다국어 학습 코퍼스 덕분에 억양 있는 영어를 더 잘 처리합니다. MirrorCaption의 스트리밍 네이티브 다국어 STT 엔진은 소비자 회의 도구보다 비원어민 영어에서 음소 치환이 적습니다.
이중언어 및 코드 스위칭 대화
코드 스위칭, 예를 들어 일본인 화자가 문장 중간에 영어 기술 용어를 쓰거나, 중국어 화자가 "我们 schedule 一个 meeting"이라고 말하는 경우는 대부분의 STT 모델을 무너뜨립니다. 표준 모델은 세션당 하나의 언어에 고정되고, 다른 언어의 예상 밖 단어를 오류로 처리합니다. Whisper는 혼합 언어 학습 데이터 덕분에 일부 코드 스위칭을 처리합니다. MirrorCaption은 세션 시작 시 하나의 언어에 고정하지 않고 세그먼트별 언어 감지를 수행하므로 이중언어 대화를 더 자연스럽게 처리합니다. 다국어 전사 도구에 대한 전체 가이드는 다국어 전사 가이드를 참고하세요.
2월에 한 B2B 소프트웨어 영업팀이 이 문제를 직접 경험했습니다. 도쿄의 핵심 잠재 고객과 진행한 목요일 통화는 잘 끝난 것처럼 보였습니다. Zoom AI Companion은 통화 종료 9분 후 요약을 전달했습니다. 요약에는 "Client expressed timing concerns about the evaluation."라고 적혀 있었습니다. 실제 표현은, 영업 리드가 녹화를 다시 보기 전까지는 알 수 없었지만, "We need to pause our evaluation entirely."였습니다. 두 전사 모두 단어 수준에서는 기술적으로 정확했습니다. 하지만 Zoom 요약은 상업적 의미를 놓쳤습니다. 아무도 후속 질문을 할 시간 안에 그 사실을 알아차리지 못했습니다.
실시간 vs. 후처리: 지연-정확도 트레이드오프
스트리밍 STT는 더 많은 오디오가 들어올수록 업데이트되는 부분 전사를 생성합니다. 어떤 단어는 한 번 전사되었다가, 다음 단어들이 문맥을 제공하면 수정될 수 있습니다. 후처리 도구는 완전한 오디오 세그먼트를 기다리므로 문맥이 충분해 더 정확하지만, 결과가 나오기까지 수초에서 수분의 지연이 있습니다. 스트리밍과 배치의 최종 정확도 차이는 보통 1~3%포인트입니다. 실제 차이이긴 하지만, 아직 대응할 수 있는 동안 결과를 볼 수 있다는 가치에 비하면 좁은 격차입니다. 라이브 자막 vs. 전사 관련 글에서 이 트레이드오프를 자세히 다룹니다.
당신의 사용 사례에 가장 정확한 도구는?
영어 전용 회의 후 전사: Whisper Large v3(래퍼 또는 자체 호스팅 배포를 통해) 또는 Otter.ai. 둘 다 세련된 회의 후 결과를 제공합니다. Otter는 비기술 사용자에게 더 쉽고, Whisper는 개발 리소스가 있고 최대 정확도를 원할 때 더 좋습니다. 기술적 분석은 스트리밍 STT vs. Whisper 비교를 참고하세요.
다국어 실시간 회의: MirrorCaption(스트리밍 STT + GPT). 실시간 스트리밍, 60개 이상의 언어, 봇 없음, 브라우저 기반. 스트리밍 STT와 문맥 기반 번역의 2단계 접근은 WER 벤치마크가 포착하지 못하는 의미 수준의 정확도를 더합니다.
개발자급 API 정확도: 영어 중심의 대량 작업에는 Deepgram Nova-2, 강력한 화자 분리가 필요한 사용 사례에는 AssemblyAI Universal-2. 둘 다 엔지니어링 투자가 필요합니다.
플랫폼 네이티브 편의성: Google Workspace만 사용한다면 Google Meet Live Captions, 모든 회의가 Zoom에서 열린다면 Zoom AI Companion. 설정이 전혀 없는 대신 플랫폼 종속성을 감수해야 합니다.
일본어를 배우는 브라질 소프트웨어 엔지니어 Marcus는 도쿄 팀과의 격주 점검에 MirrorCaption을 사용하기 시작했습니다. 매 세션마다 그는 다섯 개나 여섯 개의 표현을 자신의 어휘 덱에 저장했습니다. 교과서 일본어가 아니라 실제 회의 언어였습니다. 의견 차이를 정중하게 표현하는 방식, 동료들이 실제로 쓰는 기술 용어, 결정이 내려지기 전에 나오는 표현들 말입니다. 4개월 후 그는 실제 대화에서 나온 거의 200개의 표현을 갖게 되었습니다. 도쿄 팀원들은 그가 언급하기 전부터 변화를 알아챘습니다.
자주 묻는 질문
2026년 AI 회의 전사의 정확도는 어느 정도인가요?
현대 AI 전사는 깨끗한 영어 오디오에서 3~8%의 단어 오류율을 달성합니다. 실제 회의 조건에서는 배경 소음, 여러 화자, 오디오 압축 때문에 WER이 도구에 따라 보통 8~17%로 올라갑니다. 비영어권 언어의 정확도는 크게 다릅니다. 주로 영어로 학습된 도구는 화자가 중국어, 일본어, 아랍어 또는 다른 비영어권 언어를 사용할 때 WER이 두 배 이상 높아질 수 있습니다.
단어 오류율(WER)이란 무엇인가요?
단어 오류율은 치환(잘못된 단어), 삽입(추가된 단어), 삭제(놓친 단어)를 기준 단어 수로 나눈 값입니다. WER 5%는 대략 100단어당 5개의 오류를 의미합니다. 낮을수록 좋지만, WER은 무해한 오류와 중요한 오류를 구분하지 않습니다. "approve"와 "disapprove"는 둘 다 치환 1개로 계산됩니다.
2026년에 가장 정확한 AI 전사 도구는 무엇인가요?
깨끗한 영어 오디오에서는 Whisper Large v3와 Deepgram Nova-2가 약 3~6% WER로 선두입니다. 실시간 다국어 회의에서는 MirrorCaption이 스트리밍 정확도와 언어 지원의 가장 좋은 조합을 제공합니다. 모든 차원에서 앞서는 단일 도구는 없으며, 답은 오디오 조건, 언어 구성, 그리고 회의 중인지 후인지에 따라 달라집니다.
AI 전사는 비영어권 언어에서 정확도가 떨어지나요?
네, 크게 떨어집니다. Otter.ai, Fireflies, Zoom AI Companion 같은 소비자 도구는 주로 영어 데이터로 학습되어 있으며, 특히 아시아 및 중동 언어에서 비영어권 정확도가 급격히 낮아집니다. Whisper와 MirrorCaption은 더 넓은 다국어 학습 코퍼스 덕분에 언어 전반에서 더 일관된 성능을 보입니다.
실시간 스트리밍은 전사 정확도에 어떤 영향을 주나요?
스트리밍 STT는 문맥이 쌓이면서 스스로 수정되는 부분 결과를 생성합니다. 스트리밍 도구의 최종 정확도는 같은 오디오에서 배치 도구보다 보통 1~3%포인트 더 높은 WER을 보입니다. 이는 실제 차이지만, 회의가 아직 진행 중일 때 결과가 나온다는 점을 고려하면 좁은 격차입니다. 더 깊이 보려면 라이브 자막 vs. 전사 관련 글을 참고하세요.
Whisper가 Otter.ai보다 더 정확한가요?
깨끗한 영어 오디오에서는 Whisper Large v3가 Otter.ai보다 눈에 띄게 낮은 WER을 달성합니다. 실제 회의 조건에서는 격차가 줄지만 여전히 남아 있습니다. Whisper는 직접 배포하거나 서드파티 래퍼를 통해 사용하는 모델이고, Otter는 UI가 포함된 완성형 제품입니다. 인프라를 관리하고 싶지 않은 최종 사용자에게는 Otter의 정확도-편의성 트레이드오프가 합리적입니다. 개발 리소스가 있는 팀이라면 Whisper가 영어에서 더 나은 정확도를 제공합니다. 자세한 기술 분석은 스트리밍 STT vs. Whisper를 읽어보세요.
실제로 중요한 정확도 지표
원시 WER은 유용한 벤치마크이지만, 실험실 수치입니다. 도구가 화자의 억양을 잘 처리하는지, 결과가 아직 대응할 수 있을 때 도착하는지, 언어적으로 정확한 전사가 실제 의미를 담아내는지는 알려주지 않습니다.
회의가 영어로만 진행되고 회의 후 요약만으로 충분한 팀이라면, 오늘날 사용할 수 있는 정확도 상한은 Whisper와 Otter입니다. 다국어 팀이 실시간 의사결정을 내려야 한다면, 질문은 "어떤 도구의 WER이 가장 낮은가"에서 "어떤 도구가 우리가 아직 대응할 수 있을 때 충분히 정확한 정보를 주는가"로 바뀝니다. 이는 다른 평가이며, 다른 답을 만듭니다.
MirrorCaption은 스트리밍 STT와 문맥 기반 GPT 번역을 결합해, 60개 이상의 언어에서 500ms 이내로, 브라우저 탭에서 이 두 번째 사용 사례를 지원합니다. 무료 플랜은 매달 2시간을 제공합니다. 다음 회의가 테스트입니다.