Dream Machine: Scaling to 1m users in 4 days - Keegan McCallum, Luma AI

영상 링크: Dream Machine: Scaling to 1m users in 4 days — Keegan McCallum, Luma AI
채널명: AI Engineer

드림 머신: 4일 만에 100만 사용자로 스케일링하기 — Luma AI의 경험 핵심 요약

‘Dream Machine’은 Luma AI가 공개한 첫 비디오 생성 AI 모델이며, 2024년 6월 11일 오전 9시에 공식 런칭됨
런칭 직후 예상보다 훨씬 많은 트래픽이 몰리며 500개의 H100 GPU 준비는 턱없이 부족했음
긴급 대응 차원에서 6시간 만에 5,000개의 H100 GPU를 확보해 처리 대기열을 점차 해소
CEO인 Emit이 “10배로 스케일 아웃했다”고 공식 트윗하자마자 다시 대기열이 급증, 추가로 4,000대의 H100 GPU 투입해도 밀려드는 요청을 감당하기 어려웠음
Dream Machine 출시 4일 만에 100만명 가입자 달성, 이는 ChatGPT(5일 소요)보다 빠른 기록임
출시 초기 12시간 동안 50만 개 이상의 비디오를 생성 및 처리함
기존 모델 서빙 방식(Triton inference server)에서 자체 개발한 PyTorch 기반 인프라로 이전해 확장성 및 유연성 확보
대규모 대기열 관리, 서버 폭주, 다양한 GPU 및 칩셋 지원, 현장 배포 자동화, 여러 사용 등급에 따른 우선 순위 스케줄링 등 극한 상황에서의 인프라 운영 노하우 공유
SLO(서비스레벨목표) 기반 공정 스케줄러, 자동 롤백 및 롤아웃 시스템 등 실전에서 효과적인 대규모 AI 서비스 운영 전략 설명
Luma AI는 범용 멀티모달 인공지능 연구소로, 동적 영상 수정 API, 쉬운 SDK 등 개발자 친화적 기능도 제공함

세부 요약 - 주제별 정리

Luma AI는 4일 만에 100만명을 확보하여 ChatGPT보다 더 빠른 성장세를 보임

2024년 6월 11일 ‘Dream Machine’ 모델을 전 세계에 공식 배포함
발표와 동시에 폭발적인 사용자 유입이 시작, 당초 예측(500 GPU)보다 훨씬 높은 트래픽 발생
퍼블릭 런칭 시점 이후 6시간 동안 5,000개의 H100 GPU를 총동원해도 대기열 처리에 고전
12시간 동안 약 50만 개의 비디오 요청을 실시간 처리
CEO의 거듭된 트위터 홍보로 또 한 번 대기열이 치솟았으며 최종적으로 9,000대 이상의 GPU까지 확장 투입
Dream Machine은 론칭 4일 만에 100만명 가입자 돌파에 성공, ChatGPT가 5일 걸린 기록을 앞섬

예상 외의 수요 폭주에 따른 GPU 실시간 증설과 수동 운영 과정의 상세 경험을 공유함

초기 할당된 500개의 H100 GPU는 즉시 한계에 도달
급한 대처를 위해 각 클라우드 서비스 및 공급처에서 모든 여유 GPU를 수작업(SSH 기반)으로 연결해 워커 노드로 활용
6시간만에 5,000 H100 GPU까지 확장, 대기열 약 10만 건에서 오후 2시쯤 점차 해소
CEO Emit이 “10배로 스케일업했다, 빨리 들어와라!”는 트윗으로 다시 사용자 폭주
학습 클러스터에 남아있던 4,000 H100 GPU까지 투입했으나 대기열이 쉽게 줄지 않는 극한 상황 발생
Luma 사내에서 ‘KEK W’ 이모지가 사태 당시의 심정을 대표하는 밈이 되었음

Luma는 단순 영상 생성이 아닌 범용 멀티모달 모델 연구실로서 더 큰 목표를 지향함

자사는 단순 비디오 모델 스타트업이 아닌, 범용(foundation) 멀티모달 인공지능 연구소임을 강조
목표는 인간처럼 실제 환경에서 ‘이해’, ‘생성’, ‘조작’이 가능한 인공지능 구축
최신 기능(예: Modify Video)은 사용자가 아이폰으로 촬영한 영상을 텍스트 프롬프트와 결합해 자유롭게 변형 가능
개발자들을 위한 공개 API, 쉬운 통합용 SDK, 프롬프트 엔지니어링 불필요 등 개발 친화적 환경 제공
공개 API는 Raw user prompt만 있으면 이미지/영상 생성 결과를 반환함

기존 Triton 기반 서빙 스택의 한계를 극복하고 PyTorch 기반 자체 인프라를 구축함

초기에 Nvidia Triton inference server 사용: 범용 모델 서비스 솔루션이나 한계점 다수 존재
Triton 프로세스 다운시 CPU 프로세스가 인지 못하여 실패 작업 증가
비디오 모델은 여러 GPU/노드 협동 실행 필수, Triton은 멀티노드/멀티GPU 지원이 미흡했음
Nvidia 외 칩셋(AMD, Groq 등) 지원이 제한적이며, 연구팀 개발 생산성도 저하됨
결국 ‘바닐라(PyTorch)’ 기반 자체 서빙 스택 개발, 벤더별 칩셋 호환성 및 실제 서비스에 최적화
대부분의 칩셋 공급사가 PyTorch 기본 지원을 보장하므로, 이 위에서 코드 변경 최소화로 폭넓은 호환성 확보

디커플링 구조와 글로벌 큐 시스템을 통해 다양한 환경에서 유연한 확장성을 확보함

CPU 워커와 GPU 워커를 분리(디커플), CPU가 미디어 작업을 사전 큐에 올려 GPU가 필요 직전에 Pull하는 구조
분산 스토리지(SeaweedFS)와 Redis를 통해, VM이나 다양한 외부 공급자 GPU로도 신속 확장 가능
별도의 복잡한 SSH 스크립트 없이 커맨드만으로 추가 워커 투입 가능
훈련 클러스터의 GPU 자원을 O(1) 방식으로 실시간 인퍼런스 처리에 투입, 연구팀과 공용자원 경쟁 발생

대규모 큐와 디커플 구조, 멀티클러스터 환경에서 생기는 ‘Back Pressure’ 등 운영상의 문제 해결법 설명

큐 시스템 분리로 인해 특정 클러스터에 CPU 워커가 지나치게 많이 몰려 자원 낭비/지연 문제 발생 (‘Back Pressure’ 현상)
GPU Pick-Up Pending 상태의 작업 수를 제한하는 정책(Dispatch Limitation) 개발 및 적용
단일 글로벌 큐에서 다수의 클러스터가 Pull할 때, 공정 분배를 위한 추가 로직 필요

다양한 사용자 등급(APIs, 엔터프라이즈, 플러스, 라이트, 프리)에 따라 SLO 기반 공정 스케줄러를 도입함

작업 우선순위만 고려한 기존 방식에선 하위 등급(Light, Free) 사용자 대기가 7~9시간까지 발생
서비스레벨목표(SLO)를 각 사용자 등급별로 정의(예: API는 2~3분, Light는 10분 허용)
각 작업의 SLO 대기 시간 비율을 기준으로 우선순위를 동적으로 부여(예: “API 1분 대기 = Light 10분 대기” 동급)
이를 통해 일관되고 직관적인 ‘공정 스케줄링’이 가능
SLO우선 큐 방식은 소수의 SLO breach 작업이 전체 자원을 독점하는 현상도 해결

거대 영상 모델은 여러 하위 서브모델(10~20개)로 구성되어 있어 전통적 오토스케일링 방식이 비효율적임을 지적함

비디오 모델은 일반 텍스트 모델에 비해 매 체인지마다 10~20개 서브모델(가중치) 동시 로드 필요
오토스케일링 시 콜드 런(Start up/warm up) 단계에서만 수분 단위의 GPU 낭비 발생
이에 맞춰 Burst Auto Scale 시스템, 연구 GPU 클러스터까지 실시간 활용 가능하도록 인프라 설계

완전히 자동화된 모델 롤아웃/롤백 및 버전 관리 시스템으로 실시간 대규모 운영을 지원함

초기 Triton이 제공하던 ‘모델 리포지토리’ 개념을 도입: 오브젝트 스토리지에 모델별 폴더 & 서브폴더(버전별)
각 버전은 전체 파이썬 환경, 의존성 및 체크포인트를 포함하여 완전 불변 이미지로 빌드됨
YAML 파일 수정만으로 수천 개의 GPU 워커가 서비스하는 모델 버전을 무중단/자동 교체 가능
롤백과 다양한 운영체제/환경에서 재현성 확보가 용이

다양한 벤더와 칩셋(H100, AMD, Groq 등) 운영 및 PyTorch 기반 최적화의 실전 노하우를 공유함

칩셋별로 PyTorch 지원 여부가 가장 중요하며, 각 벤더(특히 Nvidia, AMD, Groq 등)와 긴밀히 협업해 최적화
PyTorch는 거의 모든 칩셋에서 기본 지원, 다만 저수준 최적화(예: Triton, 커스텀 연산자 등)는 별도 전문가팀이 담당
최근 Humane과 “Grock” 칩셋 협력 등 다양한 벤더와의 테스트 및 파트너십 확대
주로 클라우드 제공 K8s 클러스터 위에서 운영, VM/베어메탈 여부는 벤더별로 상이
아마존과 일부 공급자에서는 베어메탈이 아닌 경우도 많음

멀티모달/비디오 생성 AI 제품의 실제 응용과, 개발자 친화적 API·플랫폼 전략을 강조함

사용자는 영상·이미지 업로드시, 대화형 에이전트를 통해 비주얼 랭귀지 모델로부터 캡션 리치화 등을 제공받음
진정한 영상 QA(Video QA) 기능은 아직 없으나, 향후 도입 계획이 시사됨
간단한 프롬프트와 API만으로 고급 비디오/이미지 생성 기능을 앱에 통합 가능한 생태계 지향
개발자 및 리서쳐 채용을 적극적으로 추진 중임