
영상 링크: Optimizing inference for voice models in production - Philip Kiely, Baseten
채널명: AI Engineer
음성 모델의 프로덕션 추론 최적화 핵심 요약
- 영상 제목은 음성 모델의 프로덕션 추론 최적화임
- 발표자는 Baseten(베이스텐) 소속 필립 켈리(Philip Kiely)이며, Baseten은 다양한 AI 네이티브 기업을 위한 모델 추론 플랫폼을 제공함
- 본 발표는 주요 음성 모델(특히 Orpheus TTS) 아키텍처 설명, 성능 지표, 최적화 기법, 측정 방법, 인프라/클라이언트 코드 설계까지 전 과정을 다룸
- TTS(Text-to-Speech) 모델은 LLM(대형 언어 모델)과 구조적으로 유사하거나 파생되어, LLM용 최적화 도구(TensorRT-LLM 등)를 적용할 수 있음
- Orpheus TTS는 Llama-3(32억 파라미터) 기반 오픈소스 모델로, 더 큰 음성 토큰 집합 및 연장된 컨텍스트 길이 지원 등 음성 특화 설계가 적용됨
- 성능 지표로는 ‘최초 바이트 시간(time to first byte)’, ‘동시 처리(stream) 수’, ‘토큰 초당 처리량’ 등이 활용되며 음성 모델 특화 관점이 강조됨
- 최적화 기법으로 TensorRT-LLM 활용, FP8 양자화, 오디오 디코더의 Torch Compile 적용, 동적 배치 처리 등 다양한 방법이 실제 코드 예시와 함께 제시됨
- H100 MIG(하프 GPU)를 활용해 24개 동시 스트림 지원, 150ms 이하 최초 바이트 시간 등 높은 효율성을 실현하고 비용도 대폭 절감함
- 클라이언트 코드/인프라 설계가 전체 지연(latency)에 더 큰 영향을 미칠 수 있음; 연결, 세션 관리, 프로토콜 선택 등 세부된 노하우 설명
- 음성 파이프라인에서 ‘듣기’, ‘생각하기’, ‘말하기’를 연결하는 인프라 구조와 네트워크 지연 최적화가 최종 SLA 달성의 핵심임
세부 요약 - 주제별 정리
발표자는 모델 추론 플랫폼 Baseten의 필립 켈리로, 실전 경험을 바탕으로 최적화 현실을 공유함
- 필립 켈리는 Baseten 소속으로, AI 네이티브 기업 및 스타트업을 위한 모델 추론 플랫폼 운영 경험을 바탕으로 본 주제를 발표
- 샌프란시스코를 거주지로 삼고 있으며, 스포츠팀, 커뮤니티 언급 등 발표 분위기 조성
- 발표자는 Orpheus TTS 모델의 팬임을 밝히고, 이를 주요 사례로 활용
- Canopy Labs(Orpheus TTS 제작), Elias·Amu 팀 등의 기여를 언급하며 오픈소스 생태계에 감사를 표함
TTS 모델은 LLM 구조와 유사하여 LLM 최적화 기술을 거의 그대로 적용할 수 있음
- TTS(텍스트-음성) 모델 다수는 오토리그레시브 트랜스포머 계열(즉, LLM과 유사 혹은 파생 모델)임
- 예시로 Whisper(음성 인식), embedding 모델, 자체 TTS 등이 인용됨
- 디퓨저(이미지 생성) 계열은 완전히 달라 최적화 방식이 다름
- TTS 모델들이 LLM에서 파생하거나 구조가 유사해서 LLM용 도구/최적화 기술을 활용할 수 있다는 장점 설명
- Hugging Face config 등에서 Llama33B 기반 Orpheus TTS를 구조 예시로 사용
- Llama용 표준 최적화(텐서RT-LLM 등)을 직접 이 모델에 적용 가능
Orpheus TTS는 Llama-3(3B) 기반 오픈소스 모델로 특화 기능과 확장성을 갖춤
- Orpheus TTS는 Llama 3 기반 32억(3B) 파라미터의 오픈소스 TTS 모델임
- 오픈소스이면서 성능이 뛰어나고 제작팀(캐노피랩스 등)의 기술적 완성도를 높게 평가
- 기존 Llama와 동일한 causal LLM 구조를 그대로 사용
- 특수 토큰(예: 웃음 등 음성 특화 토큰) 확대로 vocab size 확대
- 스루프(Thrope) scaling 위한 컨텍스트 길이 확장 적용
- 이러한 구조적 특징을 파이프라인 전체 최적화에 활용 가능
음성 모델 최적화 목표는 진정한 실시간성과 높은 동시 처리를 위한 구조 설계에 있음
- 기존 LLM 최적화에서는 토큰 초당 처리량(TPS) 극대화가 주요 목표이나, 음성 모델에서는 실시간 스트림 구현이 우선
- Orpheus의 경우 실시간 기준 83TPS면 충분(3B 파라미터 모델 기준)
- TPS 극대화보단 ‘최초 바이트 응답 속도(time to first byte)’와 ‘동시 처리(concurrency)’ 수를 우선시함
- 동시 처리 증가는 더 많은 음성 에이전트를 적은 GPU에서 동작시켜 비용을 절감함
- 전체 패러다임은 ‘한 GPU 당 최대 스트림 수’ 극대화를 위한 최적화임
TensorRT-LLM 사용, FP8 양자화, Torch Compile 등 다양한 최적화 기술이 음성 모델에도 효과적임
- LLM과 동일하게 TensorRT LLM을 적용하면 대부분 성능이 크게 개선됨(TensorRT LLM의 활용 빈도가 높고, 개발자 경험은 복잡할 수 있으나 속도는 우수함)
- 모델 자체를 양자화(Quantization)하여 용량 및 속도 개선: Hopper 아키텍처에서는 FP8로 안정적인 성능 확보, KV cache까지 FP8 적용에도 성능 저하 없이 작동
- 오디오 디코딩은 LLM에 비해 복잡도가 높아, Torch Compile 및 PyTorch Inference Mode로 GPU상 디코더 실행
- SNACK(Audio Decoder) 사용, Torch Compile 도구를 오디오 디코더에도 적용
- 배치 처리에서 토큰별 연속 배치(continuous batching) 대신 15ms 단위 동적 배치(dynamic batching) 적용
- 배치 크기 조정으로 처리량-지연간 트레이드 오프 가능
동시처리(Concurrency) 최대화와 CPU 병목 극복이 전체 성능의 핵심 지점임
- 최적화 후 H100 MIG(하프 H100 GPU) 기준: 가변 트래픽 16 동시 스트림, 고정 트래픽 24 동시 스트림 처리 가능
- H100 MIG는 소형 모델 및 Hopper 아키텍처 성능 최적화를 위해 활용하며, 전체 80GB GPU를 쓰지 않고 경제적 운영이 가능
- 실 서비스점당 시간당 과금도 극소화(수 센트 단위), API per token 모델 대비 대규모 트래픽에 적합
- 토큰 생성과 오디오 코딩은 GPU에서 수행되나, 전체 파이프라인 내 CPU 병목(CPU bound)이 발생할 수 있으며 이는 추가 스케일아웃으로 보완 가능
최초 바이트 시간 등 실제 지표(150ms) 달성 과정과 파이프라인 전체 관점의 중요성
- 실환경 기준 time to first byte 150ms 달성(최적화 후)
- 파이프라인 전체의 모든 요소가 빠르진 않으나, 최초 바이트 속도가 체감 속도의 중요 요인
- 최적화 사례 및 간단한 코드 예시(동적 배치, 타임아웃 설정 등)도 구체적으로 제시됨
인프라(서버/네트워크)와 클라이언트 코드가 실제 응답 지연에서 차지하는 비중이 매우 큼
- 런타임(모델/엔진) 최적화 후에도, 인프라/클라이언트 코드의 비효율이 전체 지연을 다시 악화시킬 수 있음
- 예: 요청을 실제 지리와 다르게 먼 데이터센터(뉴욕→캘리포니아 등)로 전송, 매 요청마다 세션(커넥션) 재생성, 직렬 처리 등은 수백 ms를 추가로 더함
- Baseten 모델라이브러리의 간이 샘플코드는 보통
requests
로 직렬 세션 생성/스트림(예: ffmpeg)만 제공하여 비효율 - 실제 운영에서는 멀티프로세스 풀, 세션 공유, 동시성 구조, 전문 스트리밍 프로토콜(websocket, gRPC 등) 설계 필요
- 실벤치마킹용 코드, 세션 공유, 동시 요청 등 Best Practice 를 Baseten GitHub에서 제공
음성 파이프라인은 ‘듣기-생각하기-말하기’ 각 단계의 연결과 인프라 구조까지 신경써야 빠른 응답이 실현됨
- 실제 음성 파이프라인은 TTS(말하기) 뿐만 아니라 ‘듣기(음성인식)’, ‘생각하기(대화/이해/로직)’의 3단계로 구성
- 각 단계별 모델이 서로 다른 데이터센터, 다른 네트워크 상에 위치하면, hairpin(불필요한 DNS/네트워크 우회) 등으로 요청마다 10ms 추가 지연 발생 가능
- pipeline 내 여러 단계(음성 인식, chunking, interruption 등)에서 hairpin이 반복되면 누적 40~50ms가 되고, 이는 전체 SLA(서비스 수준 계약)의 10% 이상 차지함
- 파이프라인 구성, 데이터센터 선택, 네트워크 최적화 등이 최종 체감 속도에 주요 영향
현재 최적화 기술 외에도 맞춤 목소리, 클리닝, 음성 클로닝 등 추가 연구·실무 과제가 많음을 지적함
- Orpheus TTS 기준, 모델 자체 최적화 외에도 fine-tuning, custom voices, zero-shot voice cloning, 잡음/잡음 제거 등 아직 많은 개선 가능성 존재
- 음성 출력 단계 외에도 전체 음성 에이전트 구현 및 실서비스 적용에는 미해결 과제 다수
- 최적화 논의는 단편일 뿐, 통합 파이프라인의 글로벌 최적화가 반드시 병행되어야 함
발표는 추가 심화 이벤트 예고 및 소통 채널 안내로 마무리됨
- 향후 오픈소스 모델 시스템 구축/실전 사례를 다루는 Baseten 주최 Fogo to Chiao 이벤트(스테이크 제공) 소식 안내
- 질문 및 상호소통을 위한 Twitter, LinkedIn 등 개인 및 Baseten 공식 채널 소개
- 영상은 8초 일찍 끝나며, 실용적 정보 공유를 강조하며 발표 종료