Skip to content
Go back

Hacking the Inference Pareto Frontier - Kyle Kranen, NVIDIA

Published:  at  05:20 PM
YouTube Thumbnail

영상 링크: Hacking the Inference Pareto Frontier - Kyle Kranen, NVIDIA
채널명: AI Engineer

추론 파레토 경계 해킹하기 – Kyle Kranen, NVIDIA 핵심 요약


세부 요약 – 주제별 정리

발표자는 대규모 추론 배포 경험과 NVIDIA Dynamo 프로젝트를 바탕으로 최적화 방안을 제시함

품질, 지연시간, 비용이 추론 배포의 3대 핵심 축임을 강조함

서비스 목적(용도)에 따라 파레토 프런티어에서 최적점이 달라짐을 구체적 예시로 설명함

이미 널리 쓰이는 최적화 기법들은 복합적으로 적용 가능하고, 상호작용 효과가 큰 도구임

’스케일’ 관점에서 분리처리(Disaggregation) 기법으로 자원 활용 효율을 극대화함

적절한 분리처리 구성은 워커 배분 등 실제 운영 설정에 따라 성능 차이가 크게 발생함

분리처리 환경에서 스마트 라우팅으로 KV 캐시 활용도를 극대화하여 비용과 속도를 더 줄임

워크로드 구조화(에이전트, 반복 추론 등)를 통해 작은 모델을 여러 번 호출해 대형 모델 이상의 효과를 얻음

구조를 활용한 ‘라운드트립 최소화’, ‘스마트 스케줄링’ 등으로 무의미한 대기/오버헤드를 줄임

KV 캐시를 활용한 ‘대기 중 캐시 임시 저장 및 재사용’ 등 고급 캐시 관리로 효율 값 극대화

동적 워커 배치 및 실시간 오토스케일링으로 추론 실행 환경의 변화에 대응해야 최적화가 실효를 발휘함

NVIDIA 오픈소스 프로젝트 ‘Dynamo’는 위 모든 전략들을 실제 인프라 규모에서 구현 가능하게 함


수정 요청하기

Previous Post
How to look at your data - Jeff Huber (Choma) + Jason Liu (567)
Next Post
Infrastructure for the Singularity - Jesse Han, Morph