2026 한국어 STT 모델 교체 — 의사결정 매트릭스

어디살지(ai-real-estate-service) 부동산 챗봇의 음성 입력 파이프라인을 react-speech-recognition + Web Speech API에서 2026년 기준 최신 모델로 전환하기 위한 8개 옵션 비교 분석.

분석일2026-06-03 옵션 수8개 평가요소8개 / 가중치 합계 100% 대상한국어 부동산 도메인

🏆 최종 추천 — Deepgram Nova-3

1위

Deepgram Nova-3 (Streaming · Multilingual)

한국어 정확도 27% 개선(Nova-2 대비) · 스트리밍 latency <300ms · 분당 $0.0077 · 모바일/통화 도메인에 강한 노이즈 강건성. 한국어 정확도는 Naver Clova에 미치지 못하지만 실시간 응답성 + 가격 + 통합성의 균형이 가장 좋다.

8.22/10

※ 최종 점수 1~3위(Deepgram 8.22 / ElevenLabs 7.88 / Naver Clova 7.82)는 0.4점 차이로 박빙. 한국어 정확도가 절대 우선이면 Naver Clova, 음성 에이전트 풀스택이면 ElevenLabs를 함께 검토 권장.

📊 종합 순위

순위 옵션 핵심 강점 총점
1Deepgram Nova-3스트리밍 latency · 가격 · 노이즈 강건8.22
2ElevenLabs Scribe v2150ms 실시간 · TTS 통합7.88
3Naver Clova Speech한국어 CER 7.52% · 한국 서버7.82
4OpenAI gpt-4o-transcribeOpenAI 생태계 · 멀티모달7.33
5Google Chirp 3GCP 인프라 · Gemini 통합7.28
6AssemblyAI Universal-2$0.0025/min 최저가7.04
7Web Speech API (현행)무료 · 이미 구현됨6.39
8Whisper Large v3 셀프호스팅완전 자체 운영 · 프라이버시5.10

⚖️ 평가요소와 가중치

부동산 챗봇 음성 입력의 핵심은 한국어 정확도실시간 응답성. 사용자가 매물 조건을 한 번에 길게 말하지 않고 짧게 끊어 말하므로 latency가 직접 UX에 영향. 스타트업 단계라 비용 민감도도 높으나, 정확도와 latency를 희생할 정도는 아님.

25%

한국어 정확도

CER/WER, 부동산 도메인 용어(지명·평수·전용면적·전세금) 인식. 한국어는 교착어 특성상 CER 사용.

18%

실시간 응답성

스트리밍 지원, first chunk latency. 챗봇 UX는 1-2초 내 인식 반환 필요.

15%

비용

분당 단가 + 스트리밍 추가 비용. 무료 티어 유무.

12%

통합 난이도

React 19 + Elysia/Bun 환경에서 SDK·문서 품질. WebSocket/HTTP 통합 복잡도.

10%

운영 안정성

SLA, uptime, 장애 빈도, API 안정성.

10%

노이즈 강건성

모바일 환경(거리·차량·실내 소음)에서의 인식률. 모바일 마이크 품질 편차 대응.

6%

데이터 프라이버시

한국 사용자 데이터의 해외 송출 여부. 부동산 정보 민감도.

4%

멀티모달 확장성

향후 음성+이미지(매물 사진) 통합 시 동일 벤더에서 처리 가능 여부.

🧮 점수 매트릭스

각 셀: 원점수(/10) · 가중 점수 = 원점수 × 가중치. 가장 오른쪽 열이 가중 합계 총점.

옵션 한국어
정확도
25%
실시간
응답성
18%
비용
15%
통합
난이도
12%
운영
안정성
10%
노이즈
강건성
10%
프라이
버시
6%
멀티
모달
4%
총점
Deepgram Nova-37109899658.22
ElevenLabs Scribe v27109788567.88
Naver Clova Speech10846991047.82
OpenAI gpt-4o-transcribe7589985107.33
Google Chirp 36868108687.28
AssemblyAI Universal-26610887557.04
Web Speech API (현행)57101044526.39
Whisper Large v3 셀프호스팅6443571035.10

📦 옵션별 상세 분석

1. Deepgram Nova-3

8.22

Nova-3는 Nova-2 대비 한국어 WER 27% 개선. 스트리밍 latency <300ms로 실시간 음성 에이전트 표준. 가격은 스트리밍 $0.0077/min(다국어는 $0.0092/min), 사전녹음은 $0.0043/min.

장점

  • 스트리밍 latency 업계 최고(<300ms, Flux 모델)
  • 한국어 띄어쓰기 누락 버그 패치 완료(2026)
  • WebSocket SDK · Node.js 문서 우수, $200 무료 크레딧

단점

  • 한국어 정확도는 Naver Clova(CER 7.52%) 대비 떨어짐(Nova-2 CER 21% → Nova-3 추정 ~15%)
  • US 서버 송출 — 부동산 데이터 프라이버시 검토 필요
  • 부동산 도메인 한국어 용어(전세권/근저당) 인식 검증 필요
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 실시간성이 UX 핵심이고 정확도는 "충분히 좋음"이면 OK일 때
  • 모바일 + 통화/노이즈 환경 비중이 클 때
  • 월 음성 분량이 많아 가격 민감도가 높을 때
✗ 선택하지 말아야 하는 이유
  • 한국어 도메인 정확도 0.1%p가 비즈니스 영향일 때
  • 한국 사용자 음성을 해외 서버에 보내는 게 규제·법무 이슈일 때

2. ElevenLabs Scribe v2

7.88

2026-03 출시. 90+ 언어, 150ms realtime API, 화자분리 정확도 98%. 가격은 annual Business $0.28/hr(=$0.0047/min)로 v1 대비 40% 인하. 한국어 별도 WER 미공개라 검증 필요.

장점

  • 150ms 실시간 latency(업계 최고 수준)
  • ElevenLabs TTS와 통합 — 음성 에이전트(STT→LLM→TTS) 풀스택 가능
  • 화자분리 자동 — 향후 통화 녹취 분석 확장 시 유리

단점

  • 한국어 WER 벤치 미공개 — 자체 검증 필수
  • annual 가입 시에만 저가, 월 종량은 더 비쌈
  • 한국어 부동산 도메인 적합성 미검증
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 향후 TTS(음성 응답) 추가 계획이 있을 때
  • 150ms 초저지연이 결정적 차별점일 때
  • POC로 빠른 검증이 가능할 때
✗ 선택하지 말아야 하는 이유
  • 한국어 정확도 데이터가 검증 안 된 상태에서 운영 도입은 위험
  • STT만 필요하고 TTS 계획이 없을 때 — 가격 매력 떨어짐

3. Naver Clova Speech

7.82

한국어 CER 7.52%로 글로벌 상용 STT 중 한국어 정확도 최상위(rtzr 벤치마크). NEST 엔진, 한국 서버, 부동산/지명/전화번호 등 한국 도메인에 강함. 가격 5원/10초(≈$0.022/min).

장점

  • 한국어 정확도 SOTA급(CER 7.52% — Whisper 11.39%, Google 11.50% 압도)
  • 한국 서버 = 데이터 거주성 + 낮은 네트워크 latency
  • 지명·평수·계약 용어 등 한국 도메인 친화적

단점

  • 분당 단가 $0.022로 Deepgram 대비 ~3배 비쌈
  • Naver Cloud Platform 가입·결제(원화 전용) 필요
  • Bun/Elysia용 공식 SDK 없음 — REST 직접 통합
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 한국어 정확도가 KPI의 절대 1순위일 때
  • 부동산·금융 등 한국 도메인 용어가 결정적일 때
  • 개인정보 국외 이전 이슈를 피하고 싶을 때
✗ 선택하지 말아야 하는 이유
  • 월 음성량이 많아 가격 부담이 클 때(Deepgram의 3배)
  • 글로벌 확장(영어/일본어) 비중이 큰 로드맵일 때

4. OpenAI gpt-4o-transcribe

7.33

Whisper 후속. FLEURS 최저 WER 주장(영어 4.1% vs Whisper-v3 5.3%). 분당 $0.006(mini $0.003). 스트리밍 first chunk latency 500-1500ms로 실시간 음성 에이전트엔 약함.

장점

  • OpenAI SDK 이미 사용 중이면 통합 0 비용
  • gpt-4o 멀티모달 — 음성+이미지(매물 사진) 통합 자연스러움
  • 가격 합리적($0.006/min), mini는 $0.003/min

단점

  • 스트리밍 latency 500-1500ms — 실시간 음성 에이전트엔 부적합
  • 한국어 별도 벤치 미공개 — FLEURS 한국어 결과 재현 어려움
  • OpenAI 종속 — 글로벌 outage 영향 받음
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 이미 OpenAI 결제·키 인프라가 있어 추가 벤더 도입을 피하고 싶을 때
  • 음성을 "녹음 후 텍스트화" 패턴으로 쓰는 경우(스트리밍 X)
  • 향후 gpt-4o 음성↔이미지 멀티모달 활용 계획이 있을 때
✗ 선택하지 말아야 하는 이유
  • 음성 끝나자마자 1-2초 내 응답이 필수일 때
  • 한국어 정확도가 결정적이고 사전 검증 시간이 없을 때

5. Google Cloud Speech-to-Text Chirp 3

7.28

125+ 언어, 한국어 CER 11.50%(Chirp 3로 개선됨). StreamingRecognize 지원, $0.016/min, 60분/월 무료. Gemini와 통합 시 멀티모달 흐름 자연스러움.

장점

  • Google 인프라 — uptime/SLA 최고 수준
  • Gemini-3-flash와 통합 시 음성→이해→응답 단일 클라우드
  • 데이터 거주지(asia-northeast3 서울) 선택 가능

단점

  • 분당 $0.016 — Deepgram의 2배 이상
  • 한국어 CER 11.50%로 Clova 대비 부족
  • GCP 인증·결제·IAM 설정 부담
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 이미 GCP를 쓰고 있고 단일 클라우드 정책일 때
  • asia-northeast3(서울) 데이터 거주지가 필수일 때
  • Gemini 멀티모달과 통합이 로드맵에 있을 때
✗ 선택하지 말아야 하는 이유
  • 가격 민감도가 높고 한국어 정확도가 SOTA여야 할 때
  • 특정 클라우드에 종속되고 싶지 않을 때

6. AssemblyAI Universal-2

7.04

99개 언어 통합 $0.15/hr($0.0025/min)으로 최저가. 영어 WER 8.4%지만 한국어 별도 데이터 부재. 스트리밍 time-to-final ~760ms로 중간 수준.

장점

  • $0.15/hr 업계 최저가 — 가격 압도
  • 185시간 무료(사전녹음) + 333시간 무료(스트리밍)
  • SDK 품질 우수, 문서 잘 정리됨

단점

  • 한국어 정확도 데이터 미공개
  • 화자분리·요약 등 add-on 사용 시 실가격 47% 추가
  • 스트리밍 latency 760ms — 실시간 챗봇엔 다소 느림
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 가격이 절대 최우선이고 비실시간 사용 케이스일 때
  • POC 단계에서 무료 시간으로 검증할 때
✗ 선택하지 말아야 하는 이유
  • 실시간 음성 챗봇 UX가 핵심일 때
  • 한국어 정확도 검증 시간이 없을 때

7. Web Speech API (현행 유지)

6.39

react-speech-recognition + Chrome native STT. 무료지만 Chrome/Edge에서만 정상 작동, Firefox 부분 지원, Safari iOS 미지원. 한국어 인식률은 Chrome Google STT 수준 (CER ~12% 추정).

장점

  • 비용 0 · 통합 0(이미 구현됨)
  • 네트워크 호출 없음 — 모든 처리 브라우저 내(데이터 송출 없음, 단 Chrome은 Google 서버 경유)
  • 의존성 추가 없음 · 백엔드 부담 없음

단점

  • Safari iOS 미지원 — 모바일 사용자 절반 누락
  • 브라우저별 인식률·포맷 편차 큼
  • SLA·디버깅 통제 불가, 노이즈 환경 약함
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 음성 입력이 부가 기능이고 Chrome 사용자만 타겟할 때
  • 비용 0 제약이 절대적일 때
✗ 선택하지 말아야 하는 이유
  • iOS Safari 사용자가 핵심 사용자군일 때(부동산 앱 = 모바일 필수)
  • 음성 입력이 핵심 UX로 자리잡을 계획일 때
  • 인식률 SLA가 필요할 때

8. Whisper Large v3 셀프호스팅

5.10

오픈소스 · 완전 자체 운영. 한국어 CER 11.39%. GPU(L40S spot $0.32/hr, RTX 4090 $0.79/hr) 필요, 월 $150-400 고정비. 스트리밍 구현은 직접 해야 함.

장점

  • 완전한 데이터 통제 — 데이터 외부 송출 0
  • 모델 fine-tuning으로 한국어 부동산 도메인 최적화 가능
  • API 종속성 0 · 장기적으로 단가 절감 가능(고볼륨 시)

단점

  • GPU 인프라 운영·모니터링·장애 대응 부담
  • 스트리밍 latency 최적화 자체 구현 — 사실상 풀타임 ML 엔지니어 필요
  • 한국어 정확도는 상용 대비 떨어짐(CER 11.39%)
이걸 선택해야 하는 / 하지 말아야 하는 이유
✓ 선택해야 하는 이유
  • 월 500시간 이상 사용량으로 vendor API가 비싸질 때
  • 데이터를 절대 외부로 못 보내는 규제 환경일 때
  • 전담 ML 인프라 인력이 있을 때
✗ 선택하지 말아야 하는 이유
  • 스타트업 단계 — vendor API 대비 운영 비용이 더 큼
  • 실시간 스트리밍이 핵심 요구사항일 때

🎯 상황별 추천

균형 (Default)

Deepgram Nova-3
실시간성·가격·노이즈 강건성의 균형. 기본 선택.

한국어 정확도 절대 우선

Naver Clova Speech
CER 7.52% 한국어 SOTA. 부동산·금융 도메인 적합. 가격은 감수.

음성 에이전트 풀스택

ElevenLabs Scribe v2 + TTS
STT+TTS 동일 벤더. 150ms 초저지연. 향후 음성 응답 확장 시.

OpenAI 생태계 유지

gpt-4o-transcribe (mini)
이미 OpenAI SDK 사용 중이면 통합 0 비용. mini는 $0.003/min.

최저 비용 + POC

AssemblyAI Universal-2
$0.15/hr 최저가. 무료 185시간으로 한국어 정확도 우선 검증.

데이터 거주성 필수 + GCP 사용 중

Google Chirp 3 (asia-northeast3)
서울 리전 데이터 거주 + Gemini 멀티모달 통합.

🛠️ 도입 권장 절차

  1. POC 검증(2주): 실제 한국어 부동산 음성 샘플 50개로 Deepgram Nova-3 + Naver Clova 양쪽 정확도 측정. ElevenLabs Scribe v2도 함께 비교.
  2. 아키텍처 결정: 프론트에서 직접 호출(WebSocket) vs Elysia 백엔드 경유(보안·키 은닉) 결정. 부동산 정보 → 백엔드 경유 권장.
  3. 점진 롤아웃: 신규 음성 입력 채널에만 우선 적용 → 기존 react-speech-recognition 폴백 유지(Chrome 미지원 브라우저 보강).
  4. 도메인 어휘 사전: 지명·단지명·매물 용어 keyword boosting(Deepgram/Naver/AssemblyAI 모두 지원).
  5. 모니터링: STT 결과의 사용자 수정율(edit rate) 추적 → 정확도 정량 측정.

📚 출처

※ 한국어 부동산 도메인의 실제 WER/CER은 자체 샘플로 재검증 필요. 위 벤치마크는 일반 데이터셋 기준.