Whisper는 녹음된 오디오 파일 전사, 특히 영어에서 더 강력한 선택지입니다. Soniox는 실시간 스트리밍용으로 설계되었습니다 — 음성이 들어오는 즉시 WebSocket을 통해 지연이 낮은 부분 결과를 내보냅니다. 누군가가 아직 말하는 동안 자막이 표시되어야 한다면 Soniox가 맞는 아키텍처입니다. 이제 Whisper도 실시간 전사 워크플로에 사용할 수 있지만, 라이브 자막 경험에서는 여전히 스트리밍 네이티브 STT 스택보다 더 많은 엔지니어링과 튜닝이 필요한 편입니다.
Ahmad는 라이브 회의 자막을 위해 Whisper를 통합하는 데 3일을 썼습니다. 정확도는 좋았습니다. 하지만 자막은 각 문장이 끝난 뒤 2~4초 후에 나타났습니다 — "베를린 오피스 일정에 대해 어떻게 생각하세요?"가 화면에 뜰 때쯤이면 대화는 이미 예산 이야기로 넘어가 있었습니다. 이 간극은 고쳐야 할 버그가 아닙니다. Whisper 아키텍처가 작동하는 방식의 결과입니다.
아마 Whisper가 오픈소스 음성 인식의 골드 스탠다드라고 소개되는 것을 보셨을 겁니다. 그 평판은 적절한 사용 사례에서는 충분히 타당합니다. 이 글에서는 라이브 회의에서 자막이 필요할 때 벤치마크 점수보다 아키텍처가 왜 더 중요한지, Whisper를 자체 호스팅할 때의 실제 비용은 무엇인지, 그리고 여러분의 상황에 맞는 명확한 의사결정 프레임워크를 설명합니다.
핵심 요약
- Whisper는 오디오를 배치로 처리하고 완성된 전사 결과를 반환합니다. 1초 미만 스트리밍용으로 설계된 것은 아닙니다.
- Soniox는 낮은 지연의 부분 결과를 위해 설계된 WebSocket 스트리밍 아키텍처를 사용합니다.
- Whisper large-v3는 영어 클린 리드 정확도 벤치마크에서 앞서며, Soniox는 대화형 및 다국어 음성에 최적화되어 있습니다.
- Whisper를 로컬에서 실행하는 것은 무료가 아닙니다. 실시간 추론이 가능한 GPU 인스턴스는 사용량에 따라 월 $80~200가 듭니다.
- 설정 없이 라이브 회의 자막이 필요하다면 MirrorCaption은 Soniox 스트리밍을 사용해 종단 간 500ms 미만을 제공합니다.
Whisper와 Soniox는 어떻게 다르게 만들어졌나
Whisper: 배치 우선 Transformer
OpenAI는 2022년 9월, 68만 시간의 다국어 오디오로 학습된 오픈소스 ASR 모델 Whisper를 공개했습니다. 그 아키텍처는 인코더-디코더 Transformer입니다. 오디오는 log-Mel 스펙트로그램으로 변환되고, 인코더를 거친 뒤 텍스트 토큰으로 디코딩됩니다. 원래 Whisper 논문은 large까지의 초기 모델 계열을 다루며, 이후 모델 카드 업데이트를 통해 large-v3 같은 새로운 체크포인트가 추가되었습니다.
이 아키텍처는 깨끗한 오디오에 매우 강력합니다. 하지만 구조적 제약이 있습니다. 인코더는 디코더가 무엇이든 출력하기 전에 고정된 오디오 윈도우를 처리해야 합니다. Whisper의 기본 윈도우는 30초입니다. 실제로는 일정 시간 동안 오디오를 수집하고, 그 청크를 모델에 넣은 뒤, 전사 결과를 받습니다. 결과는 청크가 끝난 뒤에 나타나며, 말이 진행되는 동안 단어별로 나타나는 방식이 아닙니다.
faster-whisper(CTranslate2 백엔드 사용)나 whisper-live 같은 서드파티 어댑터는 청크 크기를 줄이고 윈도우를 겹치게 하여 이를 완화합니다. 성능 좋은 GPU에서 small 모델을 쓰면 지연 시간을 대략 1~2초까지 줄일 수 있습니다. 더 나은 정확도를 위해 large-v3를 사용하면 최소 2~4초를 예상해야 합니다. Whisper의 가치를 만드는 정확도를 크게 희생하지 않고서는 500ms 미만의 Whisper 자막을 실질적으로 달성하기 어렵습니다.
Soniox: 개조가 아니라 처음부터 스트리밍용
Soniox는 스트리밍 아키텍처를 중심으로 설계된 상용 실시간 STT API입니다. WebSocket 연결을 열고, 오디오를 점진적으로 받아들이며, 문장이 끝나기 전에도 음성이 들어오는 즉시 부분 토큰을 반환합니다. 누군가 "회의는 금요일에 시작합니다—"라고 말하면 Soniox는 이미 "회의는", "금요일에", "시작합니다" 같은 부분 토큰을 내보낸 상태입니다. 이 토큰들은 더 많은 문맥이 들어오면서 업데이트되고 확정되며, 이것이 자막을 후처리된 느낌이 아니라 대화형으로 느끼게 만듭니다.
이건 더 빠른 추론 백엔드를 붙인 Whisper가 아닙니다. 목표 자체가 다릅니다. 완전한 오디오 청크 이후의 고정확도 최종 출력이 아니라, 지속 연결 위에서 낮은 지연의 부분 출력을 제공하는 것입니다. 아키텍처 차이가 익숙하지 않다면 Whisper가 어떻게 작동하는지를 비기술적인 수준에서 더 알아볼 수 있습니다.
| 기능 | OpenAI Whisper | Soniox |
|---|---|---|
| 아키텍처 | 인코더-디코더 Transformer (배치) | 스트리밍 WebSocket (부분 토큰) |
| 실시간 스트리밍 | 가능하지만 스트리밍 네이티브는 아님 | 예 — 네이티브 |
| 지연 시간(라이브 사용) | 최소 1~3초 (faster-whisper, GPU) | 낮은 지연의 부분 결과 |
| 영어 정확도 | 클린 오디오에서 최고 수준 | 대화형 음성에 강함 |
| 언어 | 99개 이상 | 주요 세계 언어 |
| 화자 분리 | 기본 내장 아님 (pyannote 필요) | 기본 지원 |
| 배포 | 자체 호스팅 또는 OpenAI API (배치 + 실시간) | API 전용 (관리형) |
| 오픈소스 | 예 (Apache 2.0) | 아니요 (상용) |
| 가장 적합한 용도 | 녹음 오디오, 후처리 | 라이브 회의, 실시간 자막 |
정확도: 각 엔진이 강한 영역
영어 클린 리드 오디오 — 팟캐스트, 내레이션, 한 명의 또렷한 화자가 있는 녹음 강의 — 에서는 Whisper large-v3가 오픈소스든 상용이든 현재 사용 가능한 최고 수준 모델 중 하나로 평가됩니다. LibriSpeech test-clean 데이터셋에서는 읽기 음성에서 사람 전사와 경쟁할 만한 단어 오류율을 보여줍니다.
Soniox는 대화형 음성에 맞춰 튜닝되어 있습니다. 겹쳐 말하기, 억양이 있는 영어, 비원어민 화자, 언어 간 코드 스위칭 같은 상황입니다. MirrorCaption이 이를 선택한 이유도 회의에서 중요한 오류 유형 — 고유명사, 기술 용어, 비원어민 억양 화자 — 을 오디오북 스타일 오디오에 최적화된 배치 모델보다 더 잘 처리하기 때문입니다.
정확도 문제는 지연 시간 문제와도 떼어놓을 수 없습니다. Whisper의 배치 처리는 어떤 토큰이든 확정하기 전에 전체 문맥을 확보하므로 까다로운 구문에서 정확도에 도움이 됩니다. Soniox의 스트리밍 모델은 불완전한 문맥으로 부분 토큰을 먼저 내보낸 뒤 스스로 수정해야 합니다. 녹음 파일에서는 배치 방식이 정확도에서 이깁니다. 라이브 대화에서는 3초를 기다리는 것이 또 다른 종류의 오류를 만듭니다. 반응해야 할 타이밍을 놓치는 것입니다.
한 가지 솔직한 단서는 있습니다. 저희는 동일한 라이브 회의 오디오로 통제된 정면 비교 테스트를 수행하지는 않았습니다. 공개된 벤치마크는 Whisper GitHub 모델 카드를 참고하세요. Soniox가 제시하는 벤치마크는 soniox.com에서 직접 확인할 수 있습니다. 여러 STT 엔진에서 스트리밍 조건이 정확도를 어떻게 떨어뜨리는지에 대한 더 넓은 분석은 실시간 번역 정확도 글에서 다룹니다.
실시간 지연: 아키텍처의 격차
상파울루의 한 팀과 서울의 파트너 사이 상업 협상 중, 한국 측 리더가 방을 조용하게 만드는 말을 했습니다. 모두가 기다렸습니다. 통역사는 통화에 없었습니다. MirrorCaption은 브라우저 탭에서 실행 중이었고 — 누군가 "무슨 뜻이죠?"라고 묻기도 전에 번역이 나타났습니다. 팀은 같은 호흡 안에서 대응할 시간이 있었습니다.
다양한 STT 접근 방식에서 "실시간"이 실제로 의미하는 바는 다음과 같습니다.
- Whisper (기본 30초 윈도우): 5~30초 지연. 모델은 전체 오디오 청크를 기다린 뒤에야 무엇이든 출력합니다.
- faster-whisper, small 모델, 좋은 GPU: 1~2초. 개선되었지만 여전히 배치 스타일입니다. 지금 말하는 내용을 읽는 것이 아니라, 방금 말한 내용을 읽는 것입니다.
- faster-whisper, large-v3, 고성능 GPU: 2~4초. 정확도는 더 좋지만 지연은 더 깁니다.
- Soniox WebSocket 스트리밍: 부분 결과가 대화형 자막에 충분히 빠르게 도착하며, MirrorCaption의 종단 간 번역 자막은 500ms 미만을 유지합니다.
이 1~3초의 차이는 로그를 읽는 것과 대화를 나누는 것의 차이입니다. 끼어들어야 하거나, 확인 질문을 해야 하거나, 협상 뉘앙스를 그 순간 포착해야 한다면 타이밍이 중요합니다. MirrorCaption은 Soniox 스트리밍 위에 GPT 기반 번역을 추가하면서도 — 음성에서 번역 자막까지의 종단 간 시간이 여전히 500ms 미만입니다.
지연 차이를 직접 확인해 보세요. MirrorCaption은 1시간 무료를 1회 제공합니다 — 신용카드가 필요 없습니다.
다음 회의에서 사용해 보기배포 및 설정
Whisper 실행: 실제로 필요한 것
Whisper의 모델 가중치는 무료입니다(Apache 2.0). 이를 실행하려면 Python 3.8+, ffmpeg, 그리고 pip 의존성이 필요합니다. small 모델을 넘어서면 CUDA 지원 GPU가 필요합니다. large-v3는 대략 10GB의 VRAM이 필요합니다. 실시간 사용을 위해서는 오디오 청킹 로직, 브라우저에서 오디오를 스트리밍할 WebSocket 서버, 그리고 faster-whisper 또는 whisper-live 같은 스트리밍 어댑터도 필요합니다.
뮌헨과 도쿄 사이 조율을 맡은 PM Clara는 개발팀에게 이런 말을 들었습니다. "Whisper 쓰면 되죠, 오픈소스잖아요." 그녀는 GitHub 링크를 눌렀습니다. Python 의존성 38개. CUDA 드라이버 관련 메모. Windows에서 ffmpeg를 설치하는 별도 페이지. 그녀는 15분 안에 자막이 필요했습니다. 대신 MirrorCaption을 열고 — URL을 붙여넣고, 시작을 눌렀고, 커피가 식기 전에 라이브 자막을 띄웠습니다.
Python과 클라우드 인프라에 익숙한 개발자라면 Whisper 자체 호스팅은 관리 가능한 수준입니다. 하지만 사용자의 브라우저에서 서버 설치 없이 자막이 작동해야 하는 제품을 만든다면, 어차피 API 중간 계층이 필요합니다. 그 시점이 되면 오픈소스의 "무료" 이점은 인프라 비용으로 바뀌게 됩니다.
Soniox: API 우선, 인프라 불필요
Soniox는 API 전용입니다. 키로 인증하고, wss://stt-rt.soniox.com/transcribe-websocket에 WebSocket 연결을 열고, 오디오 프레임을 보내고, 토큰을 받습니다. 로컬 모델 가중치도, GPU 프로비저닝도 필요 없습니다. 개발자라면 반나절 안에 통합할 수 있습니다.
비개발자에게 Soniox 자체는 직접 접근 가능한 서비스가 아닙니다 — 개발자용 API입니다. 여기서 MirrorCaption vs OpenAI Whisper가 중요해집니다. MirrorCaption은 Soniox 스트리밍을 브라우저 UI로 감싸기 때문에 설정, 자체 호스팅, API 키 없이도 500ms 미만 자막을 제공합니다. 코딩이 필요 없는 대안을 더 넓게 보려면 코딩 없이 쓰는 Whisper 대안을 참고하세요.
OpenAI Whisper API
OpenAI는 Whisper 전사를 API로 분당 $0.006에 제공하며, whisper-1에 대한 실시간 전사 세션도 제공합니다. 이는 인프라 부담의 상당 부분을 없애줍니다. 남는 트레이드오프는 아키텍처와 제품 수준의 문제입니다. Whisper는 여전히 녹음 오디오와 후처리에 가장 강하고, Soniox 같은 스트리밍 네이티브 스택은 제품 요구사항이 저지연 라이브 자막일 때 보통 더 쉽게 맞아떨어집니다.
가격: "오픈소스"는 무료가 아니다
Whisper가 무료라고 생각하는 대부분의 사람들은 비용 비교에 놀랍니다.
Whisper 자체 호스팅(월 100시간의 라이브 회의 사용):
100시간 = 6,000분의 연속 전사입니다. 이를 회의 속도에 맞춰 거의 실시간으로 처리하려면 회의 중에 계속 실행되는 GPU 서버가 필요합니다 — 단순 배치 작업이 아닙니다. large-v3를 실사용 가능한 속도로 돌릴 수 있는 중급 클라우드 GPU 인스턴스(예: AWS g5.xlarge 또는 동급)는 시간당 대략 $1~2입니다. 월 100시간 회의 기준으로 GPU 비용만 $100~200이며, 여기에 통합을 구축하고 유지하는 엔지니어링 시간도 추가됩니다.
OpenAI Whisper API(월 100시간):
6,000분 × $0.006 = 월 $36. 호스팅 측면에서는 저렴하고 설정도 필요 없습니다. 이제 실시간 전사도 가능하지만, 그 위에 완성도 높은 라이브 자막 제품을 만드는 일은 여전히 스트리밍 우선 API보다 더 많은 작업이 필요합니다.
MirrorCaption(최종 사용자, 월 100시간):
연간 플랜은 €29/년으로 100시간을 포함합니다(시간당 €0.29). 평생 플랜은 €49로 200시간을 1회 결제로 제공합니다. 가끔 사용하는 사용자라면 무료 플랜으로 1시간 무료를 비용 없이 이용할 수 있습니다(1회).
월 20시간의 다국어 회의를 하는 팀이라면 MirrorCaption의 €29/년은 모든 비용 포함 시간당 약 €0.12 수준입니다. GPU 요금 기준의 Whisper 자체 호스팅은 스트리밍 인프라를 구축하고 유지하는 시간을 제외하더라도 그보다 8~15배 비쌉니다.
단 한 번 €49. 60개 이상 언어의 라이브 자막 200시간. 구독도, 인프라도 없습니다.
가격 보기무엇을 선택해야 할까?
| 이럴 때 Whisper를 선택하세요... | 이럴 때 Soniox를 선택하세요... |
|---|---|
| 녹음된 오디오 파일(팟캐스트, 강의, 인터뷰)을 전사할 때 | 누군가가 아직 말하는 동안 자막이 필요할 때 |
| 콘텐츠가 주로 영어이고 오디오가 깨끗할 때 | 다국어 또는 억양이 있는 음성을 다룰 때 |
| 이미 Python 및 GPU 인프라가 갖춰져 있을 때 | 자체 호스팅 없는 관리형 API가 필요할 때 |
| 배치 전사 파이프라인을 구축할 때 | 실시간 회의 또는 자막 도구를 만들 때 |
| 녹음 오디오에서 최대 정확도가 최우선일 때 | 라이브 오디오에서 최소 지연이 최우선일 때 |
파이프라인을 만드는 개발자가 아니라 최종 사용자라면, Whisper도 Soniox도 UI 계층 없이는 직접 접근할 수 없습니다. MirrorCaption은 Soniox를 위한 그 계층입니다. 설치 없이 브라우저 앱에서 Soniox의 500ms 미만 스트리밍, 60개 이상 언어의 GPT 번역, 화자 감지를 제공합니다. 최종 사용자 도구를 더 폭넓게 비교하려면 2026년 최고의 speech-to-text 소프트웨어 정리를 확인해 보세요.
MirrorCaption이 Soniox를 사용하는 이유
MirrorCaption은 사용 사례상 Soniox의 스트리밍 STT를 중심으로 구축되었습니다. 라이브 회의에서 3초 지연은 망가진 경험입니다 — 화자가 다음 문장으로 넘어간 뒤에 번역이 나타난다면 그것은 자막이 아니라 지연된 로그입니다. 저희가 Soniox를 선택한 이유는 그것이 처음부터 스트리밍용으로 설계되었기 때문이지, 나중에 거기에 맞게 개조된 것이 아니기 때문입니다.
Soniox 스트리밍 위에 MirrorCaption은 60개 이상 언어 지원을 위한 GPT 기반 번역 보정과 AES-GCM으로 암호화된 임시 API 키(2초 TTL, Supabase Edge Function을 통해 발급)를 추가하여, 지속 자격 증명과 함께 오디오가 저희 서버를 거치지 않도록 합니다. 신뢰에는 구체성이 필요하기 때문에 아키텍처를 투명하게 공개합니다. 저희는 Soniox STT와 OpenAI GPT를 사용합니다. "독자적인 신경망 엔진" 같은 표현은 쓰지 않습니다.
자주 묻는 질문
Whisper는 실시간으로 작동하나요?
부분적으로는 가능합니다. OpenAI는 이제 whisper-1에 대한 실시간 전사를 제공하고, 자체 호스팅 어댑터를 사용하면 Whisper를 라이브 사용에 더 가깝게 만들 수 있습니다. 하지만 이 모델 계열은 여전히 초저지연 자막보다 녹음 오디오와 후처리에 더 강합니다. 라이브 대화를 안정적으로 따라가는 자막이 필요하다면 Soniox 같은 스트리밍 네이티브 엔진이 여전히 더 단순한 선택입니다.
Soniox가 Whisper보다 더 정확한가요?
공개된 영어 클린 리드 벤치마크(LibriSpeech)에서는 Whisper large-v3가 앞섭니다. 억양, 다국어 전환, 라이브 회의 조건이 있는 대화형 음성에서는 격차가 줄어들고 Soniox의 대화형 튜닝이 장점이 됩니다. 정답은 하나가 아닙니다 — 올바른 비교는 벤치마크 데이터셋이 아니라 여러분의 실제 오디오에서 각 엔진이 어떻게 작동하는가입니다. 더 자세한 내용은 실시간 번역 정확도 분석을 참고하세요.
라이브 회의 자막에 Whisper를 사용할 수 있나요?
네, 하지만 상당한 설정이 필요합니다. 스트리밍 어댑터(faster-whisper 또는 whisper-live), 브라우저 오디오를 받기 위한 WebSocket 서버, 그리고 빠른 추론이 가능한 GPU가 필요합니다. 성능 좋은 GPU에서 small 모델을 써도 최선의 경우 지연은 1~3초를 예상해야 합니다. 대부분의 팀에게는 엔지니어링 부담과 인프라 비용이 "무료"라는 라벨의 이점을 상쇄합니다. 특히 관리형 스트리밍 API나 MirrorCaption 같은 도구와 비교하면 더 그렇습니다.
실시간 음성 인식을 가장 저렴하게 이용하는 방법은 무엇인가요?
MirrorCaption의 무료 플랜은 Soniox 기반 스트리밍 자막과 번역을 1시간 무료로 1회 제공합니다 — 신용카드도 설치도 필요 없습니다. 가끔 있는 다국어 회의라면 대부분의 사용자에게 이것으로 충분합니다. 더 많이 사용한다면 연간 플랜 €29/년(100시간)은 시간당 €0.29 수준으로, 의미 있는 회의 사용량 기준에서는 클라우드 GPU에서 자체 호스팅하는 Whisper보다 저렴합니다.
MirrorCaption은 어떤 STT 엔진을 사용하나요?
MirrorCaption은 전사를 위해 Soniox WebSocket 스트리밍 STT를 사용하고, 번역 보정과 회의 요약을 위해 OpenAI GPT를 사용합니다. 임시 Soniox API 키는 Supabase Edge Function을 통해 2초 TTL로 발급되며, 오디오는 브라우저에서 Soniox 서버로 직접 스트리밍되고 MirrorCaption 인프라에는 저장되지 않습니다.
핵심은 이렇습니다. Soniox와 Whisper는 서로 다른 주요 사용 사례를 위한 도구입니다. Whisper는 녹음 파일의 고정확도 배치 전사에 적합합니다. Soniox는 완벽한 오프라인 정확도보다 지연 시간이 더 중요할 때 적합합니다 — 즉, 모든 라이브 회의에서 그렇습니다.
Soniox 기반 자막을 무료로 사용해 보세요
MirrorCaption은 브라우저 탭에서 Soniox 스트리밍 + GPT 번역을 제공합니다. 1시간 무료, 1회. 설치 불필요. 모든 화상 통화나 대면 대화에서 작동합니다.
MirrorCaption 무료로 열기