Skip to content
Go back

Serving Voice AI at Scale - Arjun Desai (Cartesia) & Rohit Talluri (AWS)

Published:  at  05:20 PM
YouTube Thumbnail

영상 링크: Serving Voice AI at Scale — Arjun Desai (Cartesia) & Rohit Talluri (AWS)
채널명: AI Engineer

대규모로 음성 AI를 제공하는 방법 — Cartesia의 Arjun Desai와 AWS의 Rohit Talluri 핵심 요약


세부 요약 - 주제별 정리

Cartisia는 모든 기기에서 실시간 멀티모달 AI 구현을 추구함

음성 AI는 빠른 지연 시간과 높은 품질, 제어성을 모두 요구함

State Space Model(SSM) 아키텍처로 빠른 지연 시간과 고품질을 동시에 달성함

실제 고객들이 요구하는 가장 큰 문제는 latency와 제어성 부족임

헬스케어, 고객센터, 게임(NPC 등) 등 다양한 산업에서 실제로 활용됨

Cartisia는 성우의 가치를 보존·확장하는 보이스 마켓플레이스를 운영함

음성 AI의 데이터는 ‘양’과 ‘질’ 모두 중요하지만, 다양한 사용자 선호가 더 복합적으로 작용함

스피치-투-스피치(speech-to-speech) 모델은 가능성이 크나, 실제 상용화 단계는 아직 미흡함

Cartisia는 클라우드-에지-로컬 등 다양한 환경에서 초저지연을 달성함

AWS는 다양한 파운데이션 모델 선택지를 제공하고, Cartisia 같은 기업을 생태계에 적극 도입 중임

미래의 음성 AI는 ‘상식적 표준’이 되고, 실시간 인터랙션과 월드 모델로 진화할 것임


수정 요청하기

Previous Post
Containing Agent Chaos - Solomon Hykes, Dagger
Next Post
To the moon! Navigating deep context in legacy code with Augment Agent - Forrest Brazeal, Matt Ball