Nova-3는 Nova-2 대비 한국어 WER 27% 개선. 스트리밍 latency <300ms로 실시간 음성 에이전트 표준.
가격은 스트리밍 $0.0077/min(다국어는 $0.0092/min), 사전녹음은 $0.0043/min.
장점
- 스트리밍 latency 업계 최고(<300ms, Flux 모델)
- 한국어 띄어쓰기 누락 버그 패치 완료(2026)
- WebSocket SDK · Node.js 문서 우수, $200 무료 크레딧
단점
- 한국어 정확도는 Naver Clova(CER 7.52%) 대비 떨어짐(Nova-2 CER 21% → Nova-3 추정 ~15%)
- US 서버 송출 — 부동산 데이터 프라이버시 검토 필요
- 부동산 도메인 한국어 용어(전세권/근저당) 인식 검증 필요
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 실시간성이 UX 핵심이고 정확도는 "충분히 좋음"이면 OK일 때
- 모바일 + 통화/노이즈 환경 비중이 클 때
- 월 음성 분량이 많아 가격 민감도가 높을 때
✗ 선택하지 말아야 하는 이유
- 한국어 도메인 정확도 0.1%p가 비즈니스 영향일 때
- 한국 사용자 음성을 해외 서버에 보내는 게 규제·법무 이슈일 때
2. ElevenLabs Scribe v2
7.88
2026-03 출시. 90+ 언어, 150ms realtime API, 화자분리 정확도 98%. 가격은 annual Business
$0.28/hr(=$0.0047/min)로 v1 대비 40% 인하. 한국어 별도 WER 미공개라 검증 필요.
장점
- 150ms 실시간 latency(업계 최고 수준)
- ElevenLabs TTS와 통합 — 음성 에이전트(STT→LLM→TTS) 풀스택 가능
- 화자분리 자동 — 향후 통화 녹취 분석 확장 시 유리
단점
- 한국어 WER 벤치 미공개 — 자체 검증 필수
- annual 가입 시에만 저가, 월 종량은 더 비쌈
- 한국어 부동산 도메인 적합성 미검증
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 향후 TTS(음성 응답) 추가 계획이 있을 때
- 150ms 초저지연이 결정적 차별점일 때
- POC로 빠른 검증이 가능할 때
✗ 선택하지 말아야 하는 이유
- 한국어 정확도 데이터가 검증 안 된 상태에서 운영 도입은 위험
- STT만 필요하고 TTS 계획이 없을 때 — 가격 매력 떨어짐
3. Naver Clova Speech
7.82
한국어 CER 7.52%로 글로벌 상용 STT 중 한국어 정확도 최상위(rtzr 벤치마크).
NEST 엔진, 한국 서버, 부동산/지명/전화번호 등 한국 도메인에 강함. 가격 5원/10초(≈$0.022/min).
장점
- 한국어 정확도 SOTA급(CER 7.52% — Whisper 11.39%, Google 11.50% 압도)
- 한국 서버 = 데이터 거주성 + 낮은 네트워크 latency
- 지명·평수·계약 용어 등 한국 도메인 친화적
단점
- 분당 단가 $0.022로 Deepgram 대비 ~3배 비쌈
- Naver Cloud Platform 가입·결제(원화 전용) 필요
- Bun/Elysia용 공식 SDK 없음 — REST 직접 통합
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 한국어 정확도가 KPI의 절대 1순위일 때
- 부동산·금융 등 한국 도메인 용어가 결정적일 때
- 개인정보 국외 이전 이슈를 피하고 싶을 때
✗ 선택하지 말아야 하는 이유
- 월 음성량이 많아 가격 부담이 클 때(Deepgram의 3배)
- 글로벌 확장(영어/일본어) 비중이 큰 로드맵일 때
4. OpenAI gpt-4o-transcribe
7.33
Whisper 후속. FLEURS 최저 WER 주장(영어 4.1% vs Whisper-v3 5.3%). 분당 $0.006(mini $0.003).
스트리밍 first chunk latency 500-1500ms로 실시간 음성 에이전트엔 약함.
장점
- OpenAI SDK 이미 사용 중이면 통합 0 비용
- gpt-4o 멀티모달 — 음성+이미지(매물 사진) 통합 자연스러움
- 가격 합리적($0.006/min), mini는 $0.003/min
단점
- 스트리밍 latency 500-1500ms — 실시간 음성 에이전트엔 부적합
- 한국어 별도 벤치 미공개 — FLEURS 한국어 결과 재현 어려움
- OpenAI 종속 — 글로벌 outage 영향 받음
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 이미 OpenAI 결제·키 인프라가 있어 추가 벤더 도입을 피하고 싶을 때
- 음성을 "녹음 후 텍스트화" 패턴으로 쓰는 경우(스트리밍 X)
- 향후 gpt-4o 음성↔이미지 멀티모달 활용 계획이 있을 때
✗ 선택하지 말아야 하는 이유
- 음성 끝나자마자 1-2초 내 응답이 필수일 때
- 한국어 정확도가 결정적이고 사전 검증 시간이 없을 때
5. Google Cloud Speech-to-Text Chirp 3
7.28
125+ 언어, 한국어 CER 11.50%(Chirp 3로 개선됨). StreamingRecognize 지원, $0.016/min,
60분/월 무료. Gemini와 통합 시 멀티모달 흐름 자연스러움.
장점
- Google 인프라 — uptime/SLA 최고 수준
- Gemini-3-flash와 통합 시 음성→이해→응답 단일 클라우드
- 데이터 거주지(asia-northeast3 서울) 선택 가능
단점
- 분당 $0.016 — Deepgram의 2배 이상
- 한국어 CER 11.50%로 Clova 대비 부족
- GCP 인증·결제·IAM 설정 부담
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 이미 GCP를 쓰고 있고 단일 클라우드 정책일 때
- asia-northeast3(서울) 데이터 거주지가 필수일 때
- Gemini 멀티모달과 통합이 로드맵에 있을 때
✗ 선택하지 말아야 하는 이유
- 가격 민감도가 높고 한국어 정확도가 SOTA여야 할 때
- 특정 클라우드에 종속되고 싶지 않을 때
6. AssemblyAI Universal-2
7.04
99개 언어 통합 $0.15/hr($0.0025/min)으로 최저가. 영어 WER 8.4%지만 한국어 별도 데이터 부재.
스트리밍 time-to-final ~760ms로 중간 수준.
장점
- $0.15/hr 업계 최저가 — 가격 압도
- 185시간 무료(사전녹음) + 333시간 무료(스트리밍)
- SDK 품질 우수, 문서 잘 정리됨
단점
- 한국어 정확도 데이터 미공개
- 화자분리·요약 등 add-on 사용 시 실가격 47% 추가
- 스트리밍 latency 760ms — 실시간 챗봇엔 다소 느림
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 가격이 절대 최우선이고 비실시간 사용 케이스일 때
- POC 단계에서 무료 시간으로 검증할 때
✗ 선택하지 말아야 하는 이유
- 실시간 음성 챗봇 UX가 핵심일 때
- 한국어 정확도 검증 시간이 없을 때
7. Web Speech API (현행 유지)
6.39
react-speech-recognition + Chrome native STT. 무료지만 Chrome/Edge에서만
정상 작동, Firefox 부분 지원, Safari iOS 미지원. 한국어 인식률은 Chrome Google STT 수준
(CER ~12% 추정).
장점
- 비용 0 · 통합 0(이미 구현됨)
- 네트워크 호출 없음 — 모든 처리 브라우저 내(데이터 송출 없음, 단 Chrome은 Google 서버 경유)
- 의존성 추가 없음 · 백엔드 부담 없음
단점
- Safari iOS 미지원 — 모바일 사용자 절반 누락
- 브라우저별 인식률·포맷 편차 큼
- SLA·디버깅 통제 불가, 노이즈 환경 약함
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 음성 입력이 부가 기능이고 Chrome 사용자만 타겟할 때
- 비용 0 제약이 절대적일 때
✗ 선택하지 말아야 하는 이유
- iOS Safari 사용자가 핵심 사용자군일 때(부동산 앱 = 모바일 필수)
- 음성 입력이 핵심 UX로 자리잡을 계획일 때
- 인식률 SLA가 필요할 때
8. Whisper Large v3 셀프호스팅
5.10
오픈소스 · 완전 자체 운영. 한국어 CER 11.39%. GPU(L40S spot $0.32/hr, RTX 4090 $0.79/hr)
필요, 월 $150-400 고정비. 스트리밍 구현은 직접 해야 함.
장점
- 완전한 데이터 통제 — 데이터 외부 송출 0
- 모델 fine-tuning으로 한국어 부동산 도메인 최적화 가능
- API 종속성 0 · 장기적으로 단가 절감 가능(고볼륨 시)
단점
- GPU 인프라 운영·모니터링·장애 대응 부담
- 스트리밍 latency 최적화 자체 구현 — 사실상 풀타임 ML 엔지니어 필요
- 한국어 정확도는 상용 대비 떨어짐(CER 11.39%)
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
- 월 500시간 이상 사용량으로 vendor API가 비싸질 때
- 데이터를 절대 외부로 못 보내는 규제 환경일 때
- 전담 ML 인프라 인력이 있을 때
✗ 선택하지 말아야 하는 이유
- 스타트업 단계 — vendor API 대비 운영 비용이 더 큼
- 실시간 스트리밍이 핵심 요구사항일 때