
영상 링크: Dream Machine: Scaling to 1m users in 4 days — Keegan McCallum, Luma AI
채널명: AI Engineer
드림 머신: 4일 만에 100만 사용자로 스케일링하기 — Luma AI의 경험 핵심 요약
- ‘Dream Machine’은 Luma AI가 공개한 첫 비디오 생성 AI 모델이며, 2024년 6월 11일 오전 9시에 공식 런칭됨
- 런칭 직후 예상보다 훨씬 많은 트래픽이 몰리며 500개의 H100 GPU 준비는 턱없이 부족했음
- 긴급 대응 차원에서 6시간 만에 5,000개의 H100 GPU를 확보해 처리 대기열을 점차 해소
- CEO인 Emit이 “10배로 스케일 아웃했다”고 공식 트윗하자마자 다시 대기열이 급증, 추가로 4,000대의 H100 GPU 투입해도 밀려드는 요청을 감당하기 어려웠음
- Dream Machine 출시 4일 만에 100만명 가입자 달성, 이는 ChatGPT(5일 소요)보다 빠른 기록임
- 출시 초기 12시간 동안 50만 개 이상의 비디오를 생성 및 처리함
- 기존 모델 서빙 방식(Triton inference server)에서 자체 개발한 PyTorch 기반 인프라로 이전해 확장성 및 유연성 확보
- 대규모 대기열 관리, 서버 폭주, 다양한 GPU 및 칩셋 지원, 현장 배포 자동화, 여러 사용 등급에 따른 우선 순위 스케줄링 등 극한 상황에서의 인프라 운영 노하우 공유
- SLO(서비스레벨목표) 기반 공정 스케줄러, 자동 롤백 및 롤아웃 시스템 등 실전에서 효과적인 대규모 AI 서비스 운영 전략 설명
- Luma AI는 범용 멀티모달 인공지능 연구소로, 동적 영상 수정 API, 쉬운 SDK 등 개발자 친화적 기능도 제공함
세부 요약 - 주제별 정리
Luma AI는 4일 만에 100만명을 확보하여 ChatGPT보다 더 빠른 성장세를 보임
- 2024년 6월 11일 ‘Dream Machine’ 모델을 전 세계에 공식 배포함
- 발표와 동시에 폭발적인 사용자 유입이 시작, 당초 예측(500 GPU)보다 훨씬 높은 트래픽 발생
- 퍼블릭 런칭 시점 이후 6시간 동안 5,000개의 H100 GPU를 총동원해도 대기열 처리에 고전
- 12시간 동안 약 50만 개의 비디오 요청을 실시간 처리
- CEO의 거듭된 트위터 홍보로 또 한 번 대기열이 치솟았으며 최종적으로 9,000대 이상의 GPU까지 확장 투입
- Dream Machine은 론칭 4일 만에 100만명 가입자 돌파에 성공, ChatGPT가 5일 걸린 기록을 앞섬
예상 외의 수요 폭주에 따른 GPU 실시간 증설과 수동 운영 과정의 상세 경험을 공유함
- 초기 할당된 500개의 H100 GPU는 즉시 한계에 도달
- 급한 대처를 위해 각 클라우드 서비스 및 공급처에서 모든 여유 GPU를 수작업(SSH 기반)으로 연결해 워커 노드로 활용
- 6시간만에 5,000 H100 GPU까지 확장, 대기열 약 10만 건에서 오후 2시쯤 점차 해소
- CEO Emit이 “10배로 스케일업했다, 빨리 들어와라!”는 트윗으로 다시 사용자 폭주
- 학습 클러스터에 남아있던 4,000 H100 GPU까지 투입했으나 대기열이 쉽게 줄지 않는 극한 상황 발생
- Luma 사내에서 ‘KEK W’ 이모지가 사태 당시의 심정을 대표하는 밈이 되었음
Luma는 단순 영상 생성이 아닌 범용 멀티모달 모델 연구실로서 더 큰 목표를 지향함
- 자사는 단순 비디오 모델 스타트업이 아닌, 범용(foundation) 멀티모달 인공지능 연구소임을 강조
- 목표는 인간처럼 실제 환경에서 ‘이해’, ‘생성’, ‘조작’이 가능한 인공지능 구축
- 최신 기능(예: Modify Video)은 사용자가 아이폰으로 촬영한 영상을 텍스트 프롬프트와 결합해 자유롭게 변형 가능
- 개발자들을 위한 공개 API, 쉬운 통합용 SDK, 프롬프트 엔지니어링 불필요 등 개발 친화적 환경 제공
- 공개 API는 Raw user prompt만 있으면 이미지/영상 생성 결과를 반환함
기존 Triton 기반 서빙 스택의 한계를 극복하고 PyTorch 기반 자체 인프라를 구축함
- 초기에 Nvidia Triton inference server 사용: 범용 모델 서비스 솔루션이나 한계점 다수 존재
- Triton 프로세스 다운시 CPU 프로세스가 인지 못하여 실패 작업 증가
- 비디오 모델은 여러 GPU/노드 협동 실행 필수, Triton은 멀티노드/멀티GPU 지원이 미흡했음
- Nvidia 외 칩셋(AMD, Groq 등) 지원이 제한적이며, 연구팀 개발 생산성도 저하됨
- 결국 ‘바닐라(PyTorch)’ 기반 자체 서빙 스택 개발, 벤더별 칩셋 호환성 및 실제 서비스에 최적화
- 대부분의 칩셋 공급사가 PyTorch 기본 지원을 보장하므로, 이 위에서 코드 변경 최소화로 폭넓은 호환성 확보
디커플링 구조와 글로벌 큐 시스템을 통해 다양한 환경에서 유연한 확장성을 확보함
- CPU 워커와 GPU 워커를 분리(디커플), CPU가 미디어 작업을 사전 큐에 올려 GPU가 필요 직전에 Pull하는 구조
- 분산 스토리지(SeaweedFS)와 Redis를 통해, VM이나 다양한 외부 공급자 GPU로도 신속 확장 가능
- 별도의 복잡한 SSH 스크립트 없이 커맨드만으로 추가 워커 투입 가능
- 훈련 클러스터의 GPU 자원을 O(1) 방식으로 실시간 인퍼런스 처리에 투입, 연구팀과 공용자원 경쟁 발생
대규모 큐와 디커플 구조, 멀티클러스터 환경에서 생기는 ‘Back Pressure’ 등 운영상의 문제 해결법 설명
- 큐 시스템 분리로 인해 특정 클러스터에 CPU 워커가 지나치게 많이 몰려 자원 낭비/지연 문제 발생 (‘Back Pressure’ 현상)
- GPU Pick-Up Pending 상태의 작업 수를 제한하는 정책(Dispatch Limitation) 개발 및 적용
- 단일 글로벌 큐에서 다수의 클러스터가 Pull할 때, 공정 분배를 위한 추가 로직 필요
다양한 사용자 등급(APIs, 엔터프라이즈, 플러스, 라이트, 프리)에 따라 SLO 기반 공정 스케줄러를 도입함
- 작업 우선순위만 고려한 기존 방식에선 하위 등급(Light, Free) 사용자 대기가 7~9시간까지 발생
- 서비스레벨목표(SLO)를 각 사용자 등급별로 정의(예: API는 2~3분, Light는 10분 허용)
- 각 작업의 SLO 대기 시간 비율을 기준으로 우선순위를 동적으로 부여(예: “API 1분 대기 = Light 10분 대기” 동급)
- 이를 통해 일관되고 직관적인 ‘공정 스케줄링’이 가능
- SLO우선 큐 방식은 소수의 SLO breach 작업이 전체 자원을 독점하는 현상도 해결
거대 영상 모델은 여러 하위 서브모델(10~20개)로 구성되어 있어 전통적 오토스케일링 방식이 비효율적임을 지적함
- 비디오 모델은 일반 텍스트 모델에 비해 매 체인지마다 10~20개 서브모델(가중치) 동시 로드 필요
- 오토스케일링 시 콜드 런(Start up/warm up) 단계에서만 수분 단위의 GPU 낭비 발생
- 이에 맞춰 Burst Auto Scale 시스템, 연구 GPU 클러스터까지 실시간 활용 가능하도록 인프라 설계
완전히 자동화된 모델 롤아웃/롤백 및 버전 관리 시스템으로 실시간 대규모 운영을 지원함
- 초기 Triton이 제공하던 ‘모델 리포지토리’ 개념을 도입: 오브젝트 스토리지에 모델별 폴더 & 서브폴더(버전별)
- 각 버전은 전체 파이썬 환경, 의존성 및 체크포인트를 포함하여 완전 불변 이미지로 빌드됨
- YAML 파일 수정만으로 수천 개의 GPU 워커가 서비스하는 모델 버전을 무중단/자동 교체 가능
- 롤백과 다양한 운영체제/환경에서 재현성 확보가 용이
다양한 벤더와 칩셋(H100, AMD, Groq 등) 운영 및 PyTorch 기반 최적화의 실전 노하우를 공유함
- 칩셋별로 PyTorch 지원 여부가 가장 중요하며, 각 벤더(특히 Nvidia, AMD, Groq 등)와 긴밀히 협업해 최적화
- PyTorch는 거의 모든 칩셋에서 기본 지원, 다만 저수준 최적화(예: Triton, 커스텀 연산자 등)는 별도 전문가팀이 담당
- 최근 Humane과 “Grock” 칩셋 협력 등 다양한 벤더와의 테스트 및 파트너십 확대
- 주로 클라우드 제공 K8s 클러스터 위에서 운영, VM/베어메탈 여부는 벤더별로 상이
- 아마존과 일부 공급자에서는 베어메탈이 아닌 경우도 많음
멀티모달/비디오 생성 AI 제품의 실제 응용과, 개발자 친화적 API·플랫폼 전략을 강조함
- 사용자는 영상·이미지 업로드시, 대화형 에이전트를 통해 비주얼 랭귀지 모델로부터 캡션 리치화 등을 제공받음
- 진정한 영상 QA(Video QA) 기능은 아직 없으나, 향후 도입 계획이 시사됨
- 간단한 프롬프트와 API만으로 고급 비디오/이미지 생성 기능을 앱에 통합 가능한 생태계 지향
- 개발자 및 리서쳐 채용을 적극적으로 추진 중임