2026 한국어 STT 모델 교체 — 의사결정 매트릭스

어디살지(ai-real-estate-service) 부동산 챗봇의 음성 입력 파이프라인을 react-speech-recognition + Web Speech API에서 2026년 기준 최신 모델로 전환하기 위한 8개 옵션 비교 분석.

분석일2026-06-03 옵션 수8개 평가요소8개 / 가중치 합계 100% 대상한국어 부동산 도메인

🏆 최종 추천 — Deepgram Nova-3

1위

Deepgram Nova-3 (Streaming · Multilingual)

한국어 정확도 27% 개선(Nova-2 대비) · 스트리밍 latency <300ms · 분당 $0.0077 · 모바일/통화 도메인에 강한 노이즈 강건성. 한국어 정확도는 Naver Clova에 미치지 못하지만 실시간 응답성 + 가격 + 통합성의 균형이 가장 좋다.

8.22/10

※ 최종 점수 1~3위(Deepgram 8.22 / ElevenLabs 7.88 / Naver Clova 7.82)는 0.4점 차이로 박빙. 한국어 정확도가 절대 우선이면 Naver Clova, 음성 에이전트 풀스택이면 ElevenLabs를 함께 검토 권장.

📊 종합 순위

순위	옵션	핵심 강점	총점
1	Deepgram Nova-3	스트리밍 latency · 가격 · 노이즈 강건	8.22
2	ElevenLabs Scribe v2	150ms 실시간 · TTS 통합	7.88
3	Naver Clova Speech	한국어 CER 7.52% · 한국 서버	7.82
4	OpenAI gpt-4o-transcribe	OpenAI 생태계 · 멀티모달	7.33
5	Google Chirp 3	GCP 인프라 · Gemini 통합	7.28
6	AssemblyAI Universal-2	$0.0025/min 최저가	7.04
7	Web Speech API (현행)	무료 · 이미 구현됨	6.39
8	Whisper Large v3 셀프호스팅	완전 자체 운영 · 프라이버시	5.10

⚖️ 평가요소와 가중치

부동산 챗봇 음성 입력의 핵심은 한국어 정확도와 실시간 응답성. 사용자가 매물 조건을 한 번에 길게 말하지 않고 짧게 끊어 말하므로 latency가 직접 UX에 영향. 스타트업 단계라 비용 민감도도 높으나, 정확도와 latency를 희생할 정도는 아님.

25%

한국어 정확도

CER/WER, 부동산 도메인 용어(지명·평수·전용면적·전세금) 인식. 한국어는 교착어 특성상 CER 사용.

18%

실시간 응답성

스트리밍 지원, first chunk latency. 챗봇 UX는 1-2초 내 인식 반환 필요.

15%

비용

분당 단가 + 스트리밍 추가 비용. 무료 티어 유무.

12%

통합 난이도

React 19 + Elysia/Bun 환경에서 SDK·문서 품질. WebSocket/HTTP 통합 복잡도.

10%

운영 안정성

SLA, uptime, 장애 빈도, API 안정성.

10%

노이즈 강건성

모바일 환경(거리·차량·실내 소음)에서의 인식률. 모바일 마이크 품질 편차 대응.

데이터 프라이버시

한국 사용자 데이터의 해외 송출 여부. 부동산 정보 민감도.

멀티모달 확장성

향후 음성+이미지(매물 사진) 통합 시 동일 벤더에서 처리 가능 여부.

🧮 점수 매트릭스

각 셀: 원점수(/10) · 가중 점수 = 원점수 × 가중치. 가장 오른쪽 열이 가중 합계 총점.

옵션	한국어 정확도 25%	실시간 응답성 18%	비용 15%	통합 난이도 12%	운영 안정성 10%	노이즈 강건성 10%	프라이 버시 6%	멀티 모달 4%	총점
Deepgram Nova-3	7	10	9	8	9	9	6	5	8.22
ElevenLabs Scribe v2	7	10	9	7	8	8	5	6	7.88
Naver Clova Speech	10	8	4	6	9	9	10	4	7.82
OpenAI gpt-4o-transcribe	7	5	8	9	9	8	5	10	7.33
Google Chirp 3	6	8	6	8	10	8	6	8	7.28
AssemblyAI Universal-2	6	6	10	8	8	7	5	5	7.04
Web Speech API (현행)	5	7	10	10	4	4	5	2	6.39
Whisper Large v3 셀프호스팅	6	4	4	3	5	7	10	3	5.10

📦 옵션별 상세 분석

1. Deepgram Nova-3

8.22

Nova-3는 Nova-2 대비 한국어 WER 27% 개선. 스트리밍 latency <300ms로 실시간 음성 에이전트 표준. 가격은 스트리밍 $0.0077/min(다국어는 $0.0092/min), 사전녹음은 $0.0043/min.

장점

스트리밍 latency 업계 최고(<300ms, Flux 모델)
한국어 띄어쓰기 누락 버그 패치 완료(2026)
WebSocket SDK · Node.js 문서 우수, $200 무료 크레딧

단점

한국어 정확도는 Naver Clova(CER 7.52%) 대비 떨어짐(Nova-2 CER 21% → Nova-3 추정 ~15%)
US 서버 송출 — 부동산 데이터 프라이버시 검토 필요
부동산 도메인 한국어 용어(전세권/근저당) 인식 검증 필요

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

실시간성이 UX 핵심이고 정확도는 "충분히 좋음"이면 OK일 때
모바일 + 통화/노이즈 환경 비중이 클 때
월 음성 분량이 많아 가격 민감도가 높을 때

✗ 선택하지 말아야 하는 이유

한국어 도메인 정확도 0.1%p가 비즈니스 영향일 때
한국 사용자 음성을 해외 서버에 보내는 게 규제·법무 이슈일 때

2. ElevenLabs Scribe v2

7.88

2026-03 출시. 90+ 언어, 150ms realtime API, 화자분리 정확도 98%. 가격은 annual Business $0.28/hr(=$0.0047/min)로 v1 대비 40% 인하. 한국어 별도 WER 미공개라 검증 필요.

장점

150ms 실시간 latency(업계 최고 수준)
ElevenLabs TTS와 통합 — 음성 에이전트(STT→LLM→TTS) 풀스택 가능
화자분리 자동 — 향후 통화 녹취 분석 확장 시 유리

단점

한국어 WER 벤치 미공개 — 자체 검증 필수
annual 가입 시에만 저가, 월 종량은 더 비쌈
한국어 부동산 도메인 적합성 미검증

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

향후 TTS(음성 응답) 추가 계획이 있을 때
150ms 초저지연이 결정적 차별점일 때
POC로 빠른 검증이 가능할 때

✗ 선택하지 말아야 하는 이유

한국어 정확도 데이터가 검증 안 된 상태에서 운영 도입은 위험
STT만 필요하고 TTS 계획이 없을 때 — 가격 매력 떨어짐

3. Naver Clova Speech

7.82

한국어 CER 7.52%로 글로벌 상용 STT 중 한국어 정확도 최상위(rtzr 벤치마크). NEST 엔진, 한국 서버, 부동산/지명/전화번호 등 한국 도메인에 강함. 가격 5원/10초(≈$0.022/min).

장점

한국어 정확도 SOTA급(CER 7.52% — Whisper 11.39%, Google 11.50% 압도)
한국 서버 = 데이터 거주성 + 낮은 네트워크 latency
지명·평수·계약 용어 등 한국 도메인 친화적

단점

분당 단가 $0.022로 Deepgram 대비 ~3배 비쌈
Naver Cloud Platform 가입·결제(원화 전용) 필요
Bun/Elysia용 공식 SDK 없음 — REST 직접 통합

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

한국어 정확도가 KPI의 절대 1순위일 때
부동산·금융 등 한국 도메인 용어가 결정적일 때
개인정보 국외 이전 이슈를 피하고 싶을 때

✗ 선택하지 말아야 하는 이유

월 음성량이 많아 가격 부담이 클 때(Deepgram의 3배)
글로벌 확장(영어/일본어) 비중이 큰 로드맵일 때

4. OpenAI gpt-4o-transcribe

7.33

Whisper 후속. FLEURS 최저 WER 주장(영어 4.1% vs Whisper-v3 5.3%). 분당 $0.006(mini $0.003). 스트리밍 first chunk latency 500-1500ms로 실시간 음성 에이전트엔 약함.

장점

OpenAI SDK 이미 사용 중이면 통합 0 비용
gpt-4o 멀티모달 — 음성+이미지(매물 사진) 통합 자연스러움
가격 합리적($0.006/min), mini는 $0.003/min

단점

스트리밍 latency 500-1500ms — 실시간 음성 에이전트엔 부적합
한국어 별도 벤치 미공개 — FLEURS 한국어 결과 재현 어려움
OpenAI 종속 — 글로벌 outage 영향 받음

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

이미 OpenAI 결제·키 인프라가 있어 추가 벤더 도입을 피하고 싶을 때
음성을 "녹음 후 텍스트화" 패턴으로 쓰는 경우(스트리밍 X)
향후 gpt-4o 음성↔이미지 멀티모달 활용 계획이 있을 때

✗ 선택하지 말아야 하는 이유

음성 끝나자마자 1-2초 내 응답이 필수일 때
한국어 정확도가 결정적이고 사전 검증 시간이 없을 때

5. Google Cloud Speech-to-Text Chirp 3

7.28

125+ 언어, 한국어 CER 11.50%(Chirp 3로 개선됨). StreamingRecognize 지원, $0.016/min, 60분/월 무료. Gemini와 통합 시 멀티모달 흐름 자연스러움.

장점

Google 인프라 — uptime/SLA 최고 수준
Gemini-3-flash와 통합 시 음성→이해→응답 단일 클라우드
데이터 거주지(asia-northeast3 서울) 선택 가능

단점

분당 $0.016 — Deepgram의 2배 이상
한국어 CER 11.50%로 Clova 대비 부족
GCP 인증·결제·IAM 설정 부담

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

이미 GCP를 쓰고 있고 단일 클라우드 정책일 때
asia-northeast3(서울) 데이터 거주지가 필수일 때
Gemini 멀티모달과 통합이 로드맵에 있을 때

✗ 선택하지 말아야 하는 이유

가격 민감도가 높고 한국어 정확도가 SOTA여야 할 때
특정 클라우드에 종속되고 싶지 않을 때

6. AssemblyAI Universal-2

7.04

99개 언어 통합 $0.15/hr($0.0025/min)으로 최저가. 영어 WER 8.4%지만 한국어 별도 데이터 부재. 스트리밍 time-to-final ~760ms로 중간 수준.

장점

$0.15/hr 업계 최저가 — 가격 압도
185시간 무료(사전녹음) + 333시간 무료(스트리밍)
SDK 품질 우수, 문서 잘 정리됨

단점

한국어 정확도 데이터 미공개
화자분리·요약 등 add-on 사용 시 실가격 47% 추가
스트리밍 latency 760ms — 실시간 챗봇엔 다소 느림

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

가격이 절대 최우선이고 비실시간 사용 케이스일 때
POC 단계에서 무료 시간으로 검증할 때

✗ 선택하지 말아야 하는 이유

실시간 음성 챗봇 UX가 핵심일 때
한국어 정확도 검증 시간이 없을 때

7. Web Speech API (현행 유지)

6.39

react-speech-recognition + Chrome native STT. 무료지만 Chrome/Edge에서만 정상 작동, Firefox 부분 지원, Safari iOS 미지원. 한국어 인식률은 Chrome Google STT 수준 (CER ~12% 추정).

장점

비용 0 · 통합 0(이미 구현됨)
네트워크 호출 없음 — 모든 처리 브라우저 내(데이터 송출 없음, 단 Chrome은 Google 서버 경유)
의존성 추가 없음 · 백엔드 부담 없음

단점

Safari iOS 미지원 — 모바일 사용자 절반 누락
브라우저별 인식률·포맷 편차 큼
SLA·디버깅 통제 불가, 노이즈 환경 약함

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

음성 입력이 부가 기능이고 Chrome 사용자만 타겟할 때
비용 0 제약이 절대적일 때

✗ 선택하지 말아야 하는 이유

iOS Safari 사용자가 핵심 사용자군일 때(부동산 앱 = 모바일 필수)
음성 입력이 핵심 UX로 자리잡을 계획일 때
인식률 SLA가 필요할 때

8. Whisper Large v3 셀프호스팅

5.10

오픈소스 · 완전 자체 운영. 한국어 CER 11.39%. GPU(L40S spot $0.32/hr, RTX 4090 $0.79/hr) 필요, 월 $150-400 고정비. 스트리밍 구현은 직접 해야 함.

장점

완전한 데이터 통제 — 데이터 외부 송출 0
모델 fine-tuning으로 한국어 부동산 도메인 최적화 가능
API 종속성 0 · 장기적으로 단가 절감 가능(고볼륨 시)

단점

GPU 인프라 운영·모니터링·장애 대응 부담
스트리밍 latency 최적화 자체 구현 — 사실상 풀타임 ML 엔지니어 필요
한국어 정확도는 상용 대비 떨어짐(CER 11.39%)

이걸 선택해야 하는 / 하지 말아야 하는 이유

✓ 선택해야 하는 이유

월 500시간 이상 사용량으로 vendor API가 비싸질 때
데이터를 절대 외부로 못 보내는 규제 환경일 때
전담 ML 인프라 인력이 있을 때

✗ 선택하지 말아야 하는 이유

스타트업 단계 — vendor API 대비 운영 비용이 더 큼
실시간 스트리밍이 핵심 요구사항일 때

🎯 상황별 추천

균형 (Default)

Deepgram Nova-3

실시간성·가격·노이즈 강건성의 균형. 기본 선택.

한국어 정확도 절대 우선

Naver Clova Speech

CER 7.52% 한국어 SOTA. 부동산·금융 도메인 적합. 가격은 감수.

음성 에이전트 풀스택

ElevenLabs Scribe v2 + TTS

STT+TTS 동일 벤더. 150ms 초저지연. 향후 음성 응답 확장 시.

OpenAI 생태계 유지

gpt-4o-transcribe (mini)

이미 OpenAI SDK 사용 중이면 통합 0 비용. mini는 $0.003/min.

최저 비용 + POC

AssemblyAI Universal-2

$0.15/hr 최저가. 무료 185시간으로 한국어 정확도 우선 검증.

데이터 거주성 필수 + GCP 사용 중

Google Chirp 3 (asia-northeast3)

서울 리전 데이터 거주 + Gemini 멀티모달 통합.

🛠️ 도입 권장 절차

POC 검증(2주): 실제 한국어 부동산 음성 샘플 50개로 Deepgram Nova-3 + Naver Clova 양쪽 정확도 측정. ElevenLabs Scribe v2도 함께 비교.
아키텍처 결정: 프론트에서 직접 호출(WebSocket) vs Elysia 백엔드 경유(보안·키 은닉) 결정. 부동산 정보 → 백엔드 경유 권장.
점진 롤아웃: 신규 음성 입력 채널에만 우선 적용 → 기존 react-speech-recognition 폴백 유지(Chrome 미지원 브라우저 보강).
도메인 어휘 사전: 지명·단지명·매물 용어 keyword boosting(Deepgram/Naver/AssemblyAI 모두 지원).
모니터링: STT 결과의 사용자 수정율(edit rate) 추적 → 정확도 정량 측정.

📚 출처

※ 한국어 부동산 도메인의 실제 WER/CER은 자체 샘플로 재검증 필요. 위 벤치마크는 일반 데이터셋 기준.