OpenAI Whisper는 99개 언어의 음성 오디오를 텍스트로 변환하는 무료 오픈소스 음성-텍스트 모델입니다. 실행하려면 컴퓨터에 Python이 설치되어 있어야 하고, ffmpeg라는 추가 라이브러리도 최소 하나 필요하며, 원하는 품질 수준에 따라 150 MB에서 3 GB 사이의 여유 디스크 공간이 필요합니다. 실시간 전사는 지원하지 않습니다. 이런 사실들은 숨 가쁘게 쏟아지는 뉴스레터 소개에서 흔히 빠집니다.
Priya는 싱가포르의 핀테크 회사에서 파트너십을 관리합니다. 2026년 초, 그녀는 Whisper가 "인간 수준의 전사 정확도"를 제공하고 완전히 무료라는 글을 읽었습니다. GitHub 페이지를 찾고, 안내를 훑어본 뒤, 아직 "pip install ffmpeg"라는 문구를 만나지 않은 사람의 낙관을 느꼈습니다. 3시간 뒤 그녀는 난해한 CUDA 호환성 오류를 마주했고, 전사본은 없었으며, 회의 메모의 나머지는 손으로 적어야 했습니다. 이 도구는 정말 훌륭합니다. 다만 Priya와는 다른 사람을 위해 만들어졌을 뿐입니다.
Whisper는 개발자와 연구자를 위해 설계되었습니다. 그렇다고 나쁜 도구라는 뜻은 아닙니다. 단지 코드 한 줄도 쓰지 않고 목요일 스탠드업 통화를 만다린으로 전사하고 싶은 사람에게는 맞지 않는 도구라는 뜻입니다.
이 글에서는 OpenAI Whisper가 실제로 어떻게 작동하는지 쉬운 영어로 설명하고, 무엇을 잘하는지, 근본적으로 무엇을 할 수 없는지, 그리고 오늘 당장 라이브 회의 전사가 필요하다면 어떤 옵션이 더 적합한지 알려드립니다.
- OpenAI Whisper는 2022년 9월에 공개된 무료 오픈소스 음성-텍스트 모델로, 웹에서 수집한 68만 시간의 오디오로 학습되었습니다.
- 99개 언어를 지원하며 영어에서는 인간에 가까운 정확도에 도달합니다 — 깨끗한 녹음 기준으로 대략 2–3%의 단어 오류율입니다.
- Whisper는 실시간으로 작동하지 않습니다. 누군가 말하는 동안이 아니라 녹음이 끝난 뒤 30초 단위로 오디오를 처리합니다.
- 로컬 실행에는 Python 3.9+, ffmpeg, 그리고 75 MB에서 3 GB 사이의 모델 파일이 필요합니다. 정확도와 속도는 함께 증가합니다.
- 코딩 없이 라이브 회의 전사를 하려면, Whisper가 제공하도록 설계되지 않은 다른 아키텍처인 스트리밍 음성-텍스트가 필요합니다.
OpenAI Whisper란 무엇인가요?
OpenAI Whisper는 2022년 9월 오픈소스로 공개된 음성 인식 모델입니다. OpenAI는 인터넷에서 수집한 68만 시간의 오디오 — 강의, 팟캐스트, 인터뷰, YouTube 영상, 오디오북 — 를 수십 개 언어에 걸쳐 학습시켰습니다. 이 방대한 학습 데이터가 높은 정확도의 큰 이유입니다.
Whisper는 두 가지를 할 수 있습니다: 전사, 즉 오디오를 같은 언어의 텍스트로 바꾸는 것, 그리고 번역, 즉 외국어 오디오를 영어 텍스트로 바꾸는 것입니다. 단, 임의의 언어 쌍 간 번역이 아니라 영어로만 번역합니다.
Whisper에 접근하는 방법은 두 가지입니다. 첫째, GitHub에서 모델 가중치를 무료로 다운로드해 자신의 하드웨어에서 실행할 수 있습니다 — API 비용도 없고 속도 제한도 없지만, 설정은 직접 해야 합니다. 둘째, OpenAI Whisper API를 오디오 1분당 $0.006에 사용할 수 있습니다. 설정 부담은 대부분 줄어들지만, 여전히 라이브 스트림이 아니라 파일 업로드 방식으로 오디오를 처리합니다.
명령줄 없이 작동하는 무언가가 필요하다면 노코드 옵션 섹션으로 건너뛰세요. Whisper가 왜 이런 방식으로 작동하는지 이해하고 싶다면 계속 읽어보세요 — 무엇을 할 수 있고 무엇을 할 수 없는지 아는 데 중요합니다.
OpenAI Whisper는 어떻게 작동하나요 — 쉬운 설명
Whisper를 효과적으로 사용하려면 수학을 이해할 필요는 없습니다. 하지만 Whisper가 거치는 네 단계를 이해하면 왜 이런 한계가 있는지 설명할 수 있습니다.
1단계: 오디오는 파일로 들어갑니다
Whisper에 녹음된 오디오 파일을 줍니다 — MP3, WAV, M4A 또는 대부분의 일반적인 형식입니다. 기본적으로 라이브 마이크 스트림은 읽을 수 없습니다. 오디오는 처리될 때까지 디스크에 놓여 있습니다.
2단계: Whisper는 소리를 시각적 지문으로 바꿉니다
Whisper는 오디오 파형을 멜 스펙트로그램으로 변환합니다 — 소리의 히트맵처럼 생각하면 됩니다. 가로축은 시간이고 세로축은 각 순간에 어떤 주파수가 존재하는지를 보여줍니다. 말소리는 음악과 다르고, 음악은 배경 소음과 다릅니다. 이 시각적 표현을 AI가 실제로 읽습니다.
3단계: AI 모델이 지문을 읽고 단어를 예측합니다
GPT를 뒷받침하는 것과 같은 유형의 아키텍처인 트랜스포머 모델이 스펙트로그램을 읽고 가장 가능성 높은 단어 시퀀스를 예측합니다. 모델의 한 부분은 소리 패턴을 인코딩하고, 다른 부분은 이를 한 토큰씩 텍스트로 디코딩합니다. 디코더는 이전 오디오의 문맥을 사용해 진행하면서 더 나은 예측을 합니다.
4단계: 텍스트가 문장부호와 대문자가 적용된 상태로 출력됩니다
Whisper는 문장에 맞는 문장부호와 대문자가 이미 적용된 형식의 텍스트를 출력합니다. 소문자만 가득한 덩어리가 아니라 바로 쓸 수 있는 전사본을 얻습니다.
30초 창 — 그리고 이것이 중요한 이유. Whisper는 오디오를 30초 단위로 나누어 순차적으로 처리합니다. 이 청크 방식이 바로 Whisper가 라이브 자막을 스트리밍할 수 없는 핵심 이유입니다. 단어마다 부분 결과가 나오지 않습니다. 30초 블록 하나의 처리가 끝난 뒤에야 완료된 청크만 나옵니다. 60분 회의라면, 통화가 끝난 뒤 30초 후에 첫 부분 전사본을 받고 — 전체 전사본은 모든 청크가 끝나야만 받게 됩니다.
Whisper가 잘하는 것
설계 제약 안에서는 Whisper가 정말 인상적입니다.
- 영어에서 인간에 가까운 정확도. large-v3 모델은 표준 벤치마크에서 대략 2–3%의 단어 오류율을 달성합니다 — 깨끗한 오디오에서는 전문 인간 전사자와 비슷한 수준입니다. 참고로, 이전 소비자용 음성 인식은 평균 10–15% 오류율이었습니다.
- 99개 언어. 만다린, 광둥어, 일본어, 한국어, 아랍어, 힌디어, 러시아어, 포르투갈어, 스페인어, 독일어, 프랑스어 등 수십 개 언어를 지원합니다. Whisper GitHub README에는 언어별 정확도 벤치마크와 함께 전체 언어 목록이 나와 있습니다.
- 강한 억양 허용력. 스튜디오급 음성이 아니라 실제 웹 오디오로 학습했기 때문에, Whisper는 좁은 데이터셋으로 튜닝된 많은 이전 ASR 시스템보다 비원어민 억양을 더 잘 처리합니다.
- 자동 문장부호. 쉼표, 마침표, 대문자가 포함됩니다. 대부분의 경쟁 배치 전사 도구는 이를 위해 별도의 후처리 단계가 필요합니다.
- 전문 용어. Whisper는 의료, 법률, 프로그래밍 용어 같은 도메인별 용어를 일반 소비자용 음성 인식보다 더 잘 처리합니다.
- 완전히 무료로 사용 가능. 모델 가중치는 상업적 사용을 허용하는 MIT 라이선스로 공개됩니다. 하드웨어가 허용하는 만큼의 녹음을 추가 비용 없이 처리할 수 있습니다.
저장된 오디오 파일의 녹음 후 정확도가 최우선이라면 Whisper를 능가하기 어렵습니다. 녹음된 인터뷰, 팟캐스트 에피소드, 강의 또는 이미 캡처한 모든 오디오를 전사하는 데 적합한 도구입니다.
Whisper가 할 수 없는 것 — 아무도 설명하지 않는 부분
Whisper에 대한 대부분의 글은 개발자가 개발자를 위해 씁니다. 제한 사항은 짧게 언급하고 지나갑니다. 여기서는 그에 걸맞은 주목을 받게 하겠습니다.
실시간 전사를 하지 않습니다
Zoom 통화를 시작하고 Whisper를 연결하면, 통화가 끝났을 때 전사본을 받게 됩니다 — 진행 중일 때가 아닙니다. 말한 뒤 텍스트가 보이기까지의 지연은 하드웨어와 모델 크기에 따라 짧은 클립은 몇 초, 긴 회의는 몇 분까지 다양합니다.
이것은 버그가 아닙니다. 설계 선택입니다. Whisper의 정확도는 각 오디오 청크를 전체 문맥과 함께 처리하는 데서 일부 나옵니다. 라이브 전사는 문맥이 확보되기 전에 부분 결과를 즉시 보내야 합니다. 두 방식은 근본적인 트레이드오프를 가지며, Whisper는 지연 시간을 최소화하기보다 정확도를 극대화하도록 만들어졌습니다.
누가 말하는지 구분할 수 없습니다
기본적으로 Whisper는 평평하고 라벨 없는 전사본을 생성합니다. 모든 문장은 누가 무엇을 말했는지 표시 없이 하나의 연속된 블록으로 나타납니다. 두 사람이 하는 영업 통화에서는 어떤 줄이 내 말이고 어떤 줄이 상대방의 말인지 알 수 없습니다. 10명이 참여하는 스탠드업에서는 출력이 완전히 화자 미표시 상태입니다.
Whisper 위에 화자 분리(speaker diarization)를 얹는 오픈소스 추가 도구도 있습니다(pyannote.audio가 가장 흔합니다). 꽤 잘 작동하지만 추가 Python 패키지, 모델 다운로드, 설정이 필요합니다. 설정 시간은 대략 두 배로 늘어납니다.
로컬 실행에는 기술적 설정이 필요합니다
자신의 컴퓨터에서 Whisper를 사용하려면 다음이 필요합니다:
- Python 3.9 이상이 올바르게 설치되어 있어야 함
- ffmpeg 오디오 라이브러리(대부분의 운영체제에서 별도 설치)
- 모델 가중치 파일: "tiny"는 75 MB, "medium"은 1.5 GB, "large-v3"는 3 GB
- 합리적인 속도를 원한다면 최신 GPU — large 모델은 일반적인 노트북 CPU에서 오디오 1시간을 처리하는 데 20–40분이 걸림
Miguel은 바르셀로나의 스타트업에서 12명 규모 고객 성공 팀을 이끕니다. 그의 팀은 스페인어, 카탈루냐어, 영어로 통화를 처리합니다. 2026년 1월, 그는 수석 개발자에게 "팀용으로 Whisper를 설정해 달라"고 요청했습니다. 개발자는 주말 내내 의존성을 설치했고, 해결하는 데 4시간이 걸린 CUDA 버전 충돌에 부딪혔으며, 동료들이 터미널을 건드리지 않고 녹음을 제출할 수 있도록 작은 업로드 인터페이스를 만들었습니다. 총 설정 시간: 약 14시간의 엔지니어링 작업. 이제 도구는 잘 작동합니다. Miguel은 감사하고 있습니다. 동시에 대부분의 팀에는 주말을 통째로 이 일에 쓸 수 있는 개발자가 없다는 점도 인정합니다.
OpenAI API는 더 쉽지만 — 여전히 라이브는 아닙니다
OpenAI Whisper API는 로컬 설치 문제를 없애줍니다. 간단한 HTTP 요청으로 오디오 파일을 OpenAI 서버에 보내면, 짧은 클립의 경우 보통 몇 초 안에 전사본을 돌려받습니다. 비용은 분당 $0.006 — 60분 회의 전사본은 약 $0.36입니다.
이로써 기술 장벽은 크게 낮아집니다. 하지만 API 역시 라이브 스트림이 아니라 파일 업로드 모델입니다. 통화가 끝난 뒤 완성된 녹음을 보냅니다. 전사본은 그 직후 도착합니다. 누군가 아직 말하고 있는 동안 자막을 읽는 것이 목표라면, API는 근본적인 제약을 바꾸지 못합니다.
Whisper 모델 크기 한눈에 보기
Whisper는 다섯 가지 품질 단계로 제공됩니다. 더 큰 모델은 더 정확하지만 더 느리고 더 무겁습니다. GPU가 없는 일반 소비자용 노트북에서는 보통 "small" 모델이 속도 면에서 실용적인 상한선입니다.
| 모델 | 파일 크기 | CPU 속도(오디오 대비) | 적합한 용도 |
|---|---|---|---|
| tiny | 75 MB | ~10배 빠름 | 빠른 테스트, 데모 |
| base | 150 MB | ~7배 빠름 | 가벼운 사용, 빠른 반복 |
| small ★ | 490 MB | ~4배 빠름 | 노트북에서 좋은 품질/속도 균형 |
| medium | 1.5 GB | ~2배 빠름 | 더 높은 정확도, GPU 권장 |
| large-v3 | 3 GB | ~1배(GPU에서 실시간) | 최대 정확도, 실용적 사용에는 GPU 필요 |
노트북에서 시험해 본다면 "small"부터 시작하세요. 호환되는 NVIDIA GPU가 있고 비영어 오디오에서 최고의 정확도가 필요하다면 "large-v3"로 가세요. 정확도는 small에서 large-v3로 갈 때 눈에 띄게 좋아집니다. 하지만 CPU에서의 처리 시간 증가는 매우 큽니다.
코드 작성 없이 Whisper를 사용하는 방법
개발자가 아닌 사람을 위한 실용적인 옵션은 세 가지가 있으며, 각각 노력, 비용, 시점 사이에서 다른 절충을 합니다.
옵션 1: OpenAI Whisper API
OpenAI의 인터페이스를 통해 또는 Postman 같은 노코드 HTTP 클라이언트를 사용해 오디오 파일을 업로드하세요. 길이에 따라 몇 초에서 몇 분 안에 깔끔한 전사본을 받을 수 있습니다. 비용: 분당 $0.006. 가끔 녹음 파일이 있고 아무것도 설치하고 싶지 않다면 가장 부담이 적은 경로입니다. 단점: 여전히 실시간이 아니라 사후 처리입니다.
옵션 2: Whisper 기반 데스크톱 애플리케이션
몇몇 개발자들은 Whisper를 클릭형 인터페이스로 감쌌습니다. MacWhisper(Mac 전용)와 Buzz(크로스 플랫폼, 무료)는 터미널을 열지 않고도 오디오 파일을 드래그해 전사본을 얻을 수 있게 해줍니다. 이들은 사후 회의 전사에 정말 유용합니다. 하지만 같은 구조적 제약을 공유합니다 — 라이브 자막은 없고, 추가 설정 없이는 화자 라벨도 없습니다.
옵션 3: 라이브 회의를 위한 브라우저 기반 스트리밍 도구
목표가 대화가 끝난 뒤 전사본을 받는 것이 아니라, 대화가 진행되는 동안 자막을 읽는 것이라면 완전히 다른 접근이 필요합니다. 스트리밍 음성-텍스트를 사용하는 브라우저 기반 도구는 마이크나 브라우저 탭에서 오디오를 캡처하고, 사람들이 말하는 대로 단어 단위로 부분 결과를 보냅니다. 설치 없음, Python 없음, 후처리 대기 없음.
이 범주에는 비기술 사용자를 위해 만들어진 Whisper 대안 같은 도구가 포함되며, Whisper의 사후 정확도 일부를 라이브 대화에 필요한 즉시성과 맞바꿉니다. 둘 중 무엇이 "더 낫다"의 문제가 아니라, 회의 중 전사가 필요한지 회의 후 전사가 필요한지의 문제입니다.
Whisper vs. 라이브 회의 전사 — 두 가지 다른 아키텍처
Whisper가 라이브 자막을 스트리밍할 수 없는 이유를 이해하려면 배치 방식과 스트리밍 음성-텍스트의 차이를 이해해야 합니다.
Whisper는 배치 모델입니다. 완전한 오디오 청크를 기다렸다가 전체 문맥과 함께 처리하고 결과를 반환합니다. 정확도 이점은 바로 그 전체 문맥에서 나옵니다: 모델은 문장의 앞부분이 무엇을 말했는지 확인하기 전에 뒷부분을 볼 수 있습니다. 문단을 요약하기 전에 두 번 읽는 것과 비슷합니다.
스트리밍 음성-텍스트는 다르게 작동합니다. 각 단어가 도착하는 순간 부분 결과를 보내고, 문맥이 쌓이면 자동 수정합니다. MirrorCaption 같은 도구는 자체 스트리밍 STT 엔진 위에 구축되어, 누군가 말한 뒤 300–500밀리초 안에 자막의 첫 단어를 전달할 수 있습니다. 절충점은 배치 처리라면 나중에 잡아낼 수 있었을 모호한 단어에서 약간의 정확도 손실이 있다는 것입니다.
이것은 품질 비교가 아닙니다. Whisper가 녹음된 오디오에서 더 정확할 수 있는 이유는 바로 더 많은 문맥을 처리하기 때문입니다. 스트리밍 STT는 즉시성을 위해 작은 정확도 손실을 받아들입니다. 라이브 회의에서는 즉시성이 전부입니다.
Kenji는 도쿄에서 유럽 고객에게 제품을 판매하는 제조업체에서 일합니다. 뮌헨 팀과의 목요일 통화에서는 핵심 문구를 통역해 주는 이중언어 동료에게 의존하곤 했습니다. 그 동료가 퇴사한 뒤, Kenji는 브라우저 기반 스트리밍 전사 도구를 사용하기 시작했습니다. 그는 통화 중에 독일어 자막을 실시간으로 읽습니다. 다운로드도 없고, Python도 없고, 회의가 끝난 뒤 전사본이 나타날 때까지 기다릴 필요도 없습니다. Whisper와의 차이는 정확도가 아닙니다. 무언가를 듣고, 이해하고, 반응하는 일을 같은 60분 통화 안에서 할 수 있느냐입니다.
회의 후 전사본이 아니라 라이브 자막이 필요하신가요? MirrorCaption은 회의 중에 브라우저에서 바로 전사와 번역을 스트리밍합니다. 설치가 필요 없습니다.
무료로 사용해 보기 →자주 묻는 질문
OpenAI Whisper는 무료인가요?
네. Whisper 모델 가중치는 MIT 라이선스 하에 무료로 다운로드하고 사용할 수 있으며, 상업적 사용도 허용됩니다. Whisper를 로컬에서 실행하는 데는 자신의 하드웨어와 전기 외에 비용이 들지 않습니다. OpenAI Whisper API는 오디오 1분당 $0.006를 청구합니다 — 60분 회의 전사본은 대략 $0.36입니다.
Whisper가 Zoom 통화를 실시간으로 전사할 수 있나요?
아니요. Whisper는 오디오가 캡처된 뒤 30초 단위로 처리합니다. 누군가 말하는 동안 단어별 자막을 제공할 수 없습니다. Zoom 통화를 녹음한 뒤 저장된 파일에 Whisper를 실행하면 깔끔한 전사본을 얻을 수 있지만, 회의가 끝난 뒤에만 가능합니다. 라이브 Zoom 자막에는 Whisper가 아니라 스트리밍 음성-텍스트 도구가 필요합니다. 우리의 음성-텍스트 소프트웨어 총정리에서는 일반적인 워크플로 전반에 걸친 실시간 및 사후 회의 옵션을 비교합니다.
OpenAI Whisper의 정확도는 어느 정도인가요?
Whisper large-v3는 영어 표준 LibriSpeech 벤치마크에서 대략 2–3%의 단어 오류율을 달성하며, 깨끗한 오디오에서는 전문 인간 전사와 비슷합니다. 강한 배경 소음, 겹치는 화자, 매우 빠른 말하기, 낮은 품질의 마이크에서는 정확도가 떨어집니다. 비영어 언어는 영어보다 평균 오류율이 높지만, 여전히 많은 이전 지역 특화 모델보다 우수합니다. 전사 정확도 절충에 대한 더 넓은 관점은 우리의 실시간 번역 정확도 벤치마크를 참고하세요.
Whisper는 중국어와 일본어를 지원하나요?
네. Whisper는 만다린 중국어, 광둥어, 일본어, 한국어, 아랍어, 힌디어, 그리고 모든 주요 유럽 언어를 포함해 99개 언어를 지원합니다. 만다린과 광둥어의 경우, Whisper의 large 모델은 또렷하게 말한 오디오에서 좋은 성능을 보이지만, 강한 지역 억양과 같은 문장에서 중국어와 영어를 섞어 말하는 코드 스위칭에는 약합니다. 오늘 사용할 수 있는 다국어 도구를 더 넓게 비교하려면 우리의 음성-텍스트 소프트웨어 총정리를 참고하세요.
라이브 회의에서 작동하는, Whisper의 브라우저 기반 대안이 있나요?
네. MirrorCaption 같은 브라우저 기반 도구는 스트리밍 음성-텍스트를 사용해 회의 중에 실시간으로 전사하고 번역합니다 — Python도, 설치도, 통화 종료 대기도 없습니다. Chrome, Safari, Edge에서 어떤 기기든 작동합니다. Whisper와의 차이는 저장된 녹음의 사후 정확도가 약간 낮을 수 있다는 점이지만, 라이브 대화에서는 즉시성이 핵심입니다. mirrorcaption.com/app에서 1회성 1시간 무료로 시작하세요.
결론
OpenAI Whisper는 지금까지 공개된 음성-텍스트 시스템 중 가장 정확한 축에 속합니다. 동시에, 가장 큰 혜택을 볼 사람들에게는 가장 접근하기 어려운 도구 중 하나이기도 합니다.
저장된 오디오 파일이 있고 약간의 설정을 감수할 수 있다면, Whisper — 특히 OpenAI API를 통해 사용하면 — 거의 비용 없이 99개 언어에서 인간에 가까운 전사 정확도를 제공합니다. 이는 놀라운 엔지니어링 성과입니다.
누군가가 말하는 동안 그 내용을 읽어야 한다면 — 회의 후가 아니라 중에 — Whisper의 아키텍처는 맞지 않습니다. 스트리밍 음성-텍스트 도구는 바로 이 용도를 위해 존재합니다. 브라우저 탭에서 작동하고, 몇 초 안에 시작되며, 명령줄이 필요하지 않습니다.
중요한 질문은 어떤 도구가 더 나은가가 아닙니다. 어떤 도구가 당신의 시간 요구사항에 맞는가입니다. 모든 사용 사례를 아우르는 2026년 최고의 음성-텍스트 도구는 우리의 전체 정리에서 확인할 수 있습니다.
설정 없이 바로 시작하는 라이브 회의 전사
MirrorCaption은 통화 중에 단어 단위로 전사와 번역을 스트리밍합니다. 어떤 영상 통화 플랫폼이든 어떤 브라우저에서든 작동합니다. 매달 2시간 무료, 신용카드 불필요.
MirrorCaption 무료로 사용해 보기