
영상 링크: Serving Voice AI at Scale — Arjun Desai (Cartesia) & Rohit Talluri (AWS)
채널명: AI Engineer
대규모로 음성 AI를 제공하는 방법 — Cartesia의 Arjun Desai와 AWS의 Rohit Talluri 핵심 요약
- Cartisia의 공동 창업자 Arjun Desai와 AWS의 Rohit Talluri가 엔터프라이즈용 실시간 음성 AI의 구현, 과제, 진화에 대해 심층적으로 논의함
- Cartisia는 클라우드에 국한되지 않고, 모든 기기에 실시간 멀티모달 AI를 탑재할 수 있는 솔루션 구축에 주력함
- 음성 AI는 인터랙티브 모델 특성상 지연 시간(latency)이 극도로 중요하며, 고품질과 커스터마이징 가능성(controllability)이 필수임
- Cartisia는 Transformer 대신 State Space Model(SSM) 아키텍처를 개발하여 지연 시간은 최소화하고, 품질은 향상함 (inference에서 O(1) 시간복잡도 달성)
- 대표 모델 ‘Sonic 2’는 텍스트-음성 변환에서 세계에서 가장 빠른 성능(40ms 미만 latency)을 내며, 실제 현장 요구에 맞는 품질과 제어성을 제공함
- 음성 AI는 헬스케어, 고객지원, 게임(NPC 음성 등) 등 다양한 산업에 빠르게 확장 중임
- Cartisia는 아티스트, 성우와의 협업을 위해 ‘보이스 마켓플레이스’를 운영, 실제 성우의 개성과 목소리를 확장 및 라이선싱하도록 지원함
- 클라우드 중심 환경에서의 지연 문제 및 LM(대형 언어모델) 연동의 어려움을 극복하기 위해 로컬/에지 디바이스 기반 모델도 활발하게 개발 및 배포하고 있음
- AWS는 SageMaker Jumpstart, Amazon Bedrock 등 다양한 모델 가든을 통해 Cartisia와 같은 차세대 파운데이션 모델을 적극적으로 도입할 계획임
- 향후 음성 AI는 산업 전반의 표준 인터페이스로 자리잡을 것으로 전망하며, 실질적인 상호작용과 ‘리얼타임 월드 모델’로 발전할 것으로 예상됨
세부 요약 - 주제별 정리
Cartisia는 모든 기기에서 실시간 멀티모달 AI 구현을 추구함
- Arjun Desai는 Cartisia의 핵심 미션이 “클라우드에만 한정되지 않은, 모든 장치에서 실시간 멀티모달 지능”이라고 소개함
- 기존의 대형 파운데이션 모델은 주로 클라우드에서 대기 상태(batch mode)로 동작하나, Cartisia는 실시간(리얼타임)의 필요성을 강조
- 텍스트처럼 입력-출력 지연이 허용되는 작업과 달리, 음성 및 비디오는 즉각적 반응성이 사용 경험의 핵심임
- Cartisia는 “기기, 장소, 환경에 관계없이 동작하는” 실시간 인터랙티브 AI 인프라 구현을 추구
음성 AI는 빠른 지연 시간과 높은 품질, 제어성을 모두 요구함
- Cartisia가 중요하게 여기는 3대 핵심 가치: ① 음성 자연스러운 품질(quality) ② 반응 속도(latency) ③ 커스터마이징 및 제어성(controllability)
- 1초의 대기만 있어도 사용자 경험이 크게 훼손됨을 실제 대화 예시로 설명
- 고객 지원 센터 등 음성 에이전트에서는 수 밀리초(ms) 단위 반응이 필수적임
- 다양한 억양(accent), 배경 소음, 중단(interruption) 등 실제 사용환경의 난관도 고려해야 함
- 기업마다 요구하는 화법이나 브랜드 고유 개성을 음성으로 구현하는 제어 가능성이 매우 중요함
State Space Model(SSM) 아키텍처로 빠른 지연 시간과 고품질을 동시에 달성함
- 기존 Transformer 기반 모델은 입력 길이가 길어질수록 연산량과 메모리 사용량이 제곱으로 증가(Quadratic scaling)하여 실시간 응답에 한계
- Cartisia는 State Space Model 기반 아키텍처를 도입, 추론(inference) 단계에서 O(1) 시간복잡도 및 낮은 메모리 사용 실현
- SSM은 기존에는 반복신경망(RNN)과 유사하게 품질 저하 이슈가 있었으나, Cartisia가 품질 격차도 크게 줄임
- SSM 기반의 Cartisia 모델은 기존 트랜스포머 대비 더 빠르고, 오히려 품질까지 뛰어남을 강조
실제 고객들이 요구하는 가장 큰 문제는 latency와 제어성 부족임
- Cartisia의 대표 제품 ‘Sonic 2’는 음성 합성(TTS) 분야에서 초저지연(약 40ms latency)의 세계 최고 수준을 달성
- 대형 언어 모델(LM), 음성-텍스트(STT) 등 다양한 컴포넌트와 연결 시 전체 시스템의 지연 시간 대폭 단축이 고객에게 주요 가치로 작용
- ‘믿음직한 자연스러운 품질’ 외에도, 음성 클로닝, 억양 재현, 실제 전화음/잡음 등 현장감 있는 음성 생성의 정밀 제어가 중요한 경쟁력임
- 일부 사용자는 ‘전화 통화 특유의 잡음이나 신호음(“beep boop” 등)을 오히려 더 선호’하는 것으로 나타남
헬스케어, 고객센터, 게임(NPC 등) 등 다양한 산업에서 실제로 활용됨
- 음성 AI의 대표적 확산 분야로 헬스케어(예: 환자 상담, 진단), 고객 지원(콜센터 자동화), 실시간 게임 내 NPC 음성 등이 언급됨
- 실시간 반응성과 사용자 맞춤형 음성 에이전트 수요가 빠르게 증가 중임
- 아마존 AWS와 같은 대형 클라우드 사업자와의 파트너십을 통해 다양한 산업 시장 진입 촉진
Cartisia는 성우의 가치를 보존·확장하는 보이스 마켓플레이스를 운영함
- ‘인간 내레이터/성우’가 사라지는 것이 음성 AI의 목표가 아님을 강조
- Cartisia 플랫폼 내에서 창작자(voice actor)가 자신의 목소리를 데이터로 제공·라이선싱함으로써 실질적으로 개성·지적재산을 확대
- 실제 성우와의 협업 및 참여를 통해 AI가 단순 대체가 아니라, 새로운 부가가치 생태계 형성에 힘씀
- 내레이션 등 다양한 창작/콘텐츠 분야에서도 음성 AI 이용 사례 만들고 있음
음성 AI의 데이터는 ‘양’과 ‘질’ 모두 중요하지만, 다양한 사용자 선호가 더 복합적으로 작용함
- 영상 데이터처럼 일부는 ‘풍부한 정보량/밀도(density)’가 더 중요하다고 주장하나, 음성에서는 다양한 preference 데이터(선호/맞춤 데이터)가 더욱 복잡하고 다양함
- 전통적인 거대 규모 사전학습 + 맞춤형 알라인먼트 데이터 미세조정 방식을 음성에도 적용
- 대중적 선호/특화된 사례/품질이 섞여 있어, 단순히 ‘데이터가 많으면 된다’라고 볼 수 없음
스피치-투-스피치(speech-to-speech) 모델은 가능성이 크나, 실제 상용화 단계는 아직 미흡함
- 현재 Amazon 등에서 speech-to-speech 모델을 선보였으나, 실제 프로덕션/엔터프라이즈 환경에서 쓸 수 있을 만큼 성숙하지 않다고 평가
- 복잡한 상호작용 제어와 지연시간 관리를 고려하면, orchestrated한 구조(각 모듈별 최적 제어)가 현재는 더 현실적임
- 향후 speech-to-speech가 발전하며, 엔터프라이즈에 적합한 품질과 제어 수준이 보장되어야 진정한 대중화가 가능함
Cartisia는 클라우드-에지-로컬 등 다양한 환경에서 초저지연을 달성함
- 기존 클라우드 기반 환경에서는 네트워크 왕복 시간으로 인한 지연이 여전함(특히 LM 연동시 latency 문제 두드러짐)
- Cartisia의 SSM 기반 모델은 에지/로컬 환경에서 구동 시 클라우드 대비 5배 빠른 초저지연(5x faster)을 달성
- 대형 모델은 고성능 하드웨어/클라우드에 남기고, 다양한 실제 응답성 요구는 에지 기기에 분산 처리하여 융합적 아키텍처 지향
AWS는 다양한 파운데이션 모델 선택지를 제공하고, Cartisia 같은 기업을 생태계에 적극 도입 중임
- AWS는 고객이 SageMaker Jumpstart, Amazon Bedrock 등 모델 가든을 통해 다양한 AI 모델을 용도/환경별로 선택하도록 플랫폼화함
- Cartisia와 같은 특화된 차세대 파운데이션 모델 사업자를 적극적으로 발굴하여 기존 모델이 미치지 못한 세부 산업군까지 지원할 계획
- AWS와 Cartisia의 파트너십을 통해 더 많은 실시간 음성 AI 사례가 확장되고 있음
미래의 음성 AI는 ‘상식적 표준’이 되고, 실시간 인터랙션과 월드 모델로 진화할 것임
- 2030년 정도에는 헬스케어, 지원, 게임 등 어느 분야에서든 음성 AI가 일상적으로 사용될 것으로 전망
- 음성 AI의 진화는 단순히 음성을 듣는 것에서 그치지 않고, ‘세계와의 상호작용 방식(월드 모델)’까지 확장될 것으로 내다봄
- 사용자와의 실질적 상호작용, 개인화된 지원(co-pilot), 그리고 현실 환경을 이해·보조하는 AI로 진화 예상