
영상 링크: Teaching Gemini to Speak YouTube: Adapting LLMs for Video Recommendations to 2B+DAU - Devansh Tandon
채널명: AI Engineer
Gemini에게 유튜브를 가르치다: LLM 기반 추천 시스템을 통해 20억+ DAU에 대응하는 혁신적 접근 핵심 요약
- 영상 제목: Gemini에게 유튜브를 가르치다: LLM 기반 추천 시스템을 통해 20억+ DAU에 대응하는 혁신적 접근
- 기존 검색 혁신만큼이나 추천 시스템의 변화가 중요하며, LLM(대형 언어 모델) 기반 추천은 검색보다 더 큰 소비자 영향력을 가질 수 있음을 강조함
- 유튜브의 시청 시간 대부분은 추천 시스템에 의해 결정되며, 홈·다음 시청·쇼츠 등 다양하게 활용됨
- Gemini와 같은 LLM을 추천용으로 적응하기 위해 ‘LRM(Large Recommender Model)‘을 도입, 유튜브 도메인에 특화해 학습시킴
- LLM에 비디오를 처리하게 하려면 텍스트 토큰처럼 비디오도 토큰화가 필요하며, 이를 위해 ‘Semantic ID’라는 의미 기반 비디오 토큰 시스템을 개발함
- Semantic ID는 제목·설명·자막·오디오·프레임 정보 등을 다차원 임베딩 및 양자화를 통해 각각의 비디오를 고유 토큰화함
- LLM(결국 Gemini 기반)의 지속 사전학습(continued pre-training)을 통해 영어와 유튜브 비디오 언어 모두를 이해할 수 있게 하고, 추천/검색/랭킹 등 다양한 태스크에 맞게 모델을 커스텀화함
- LRM은 추천 품질이 크게 향상되지만, 서빙(운영) 비용이 매우 높아 효율화 전략(95% 이상 비용 절감, 오프라인 추천 테이블 생성 등)을 적용하여 실제 유튜브에 배포
- 유튜브 추천의 LLM 적용은 단어 사전 규모의 영어 LLM과 달리, 200억개 이상 비디오 및 매일 수백만개 신작의 ‘신선도’를 다뤄야 하는 등 훨씬 어려운 도전임
- 추천 품질 향상 폭은 최근 수년간 가장 큰 진전으로 평가하며, 앞으로 LLM 기반 추천이 점점 더 ‘대화형’·‘설명 가능’·‘개인 맞춤형 생성’ 방향으로 진화할 전망
세부 요약 - 주제별 정리
추천 시스템은 검색보다도 더 큰 소비자 영향력을 보일 잠재력이 큼
- LLM(대형 언어 모델)이 검색을 혁신할 것이라는 관심은 높지만, 추천 시스템에 미치는 영향력은 상대적으로 저평가되고 있음
- 실제로 유튜브와 같은 소비자용 앱에서는 추천 시스템이 플랫폼 경험의 핵심 역할을 함
- 유튜브의 총 시청 시간 중 대다수(수치 미공개)가 추천 결과에 의해 결정됨
- 추천 시스템은 Home, Watch Next, Shorts 심지어 일부 검색 결과까지 맞춤형으로 제공
- 추천 시스템의 발전은 사용자가 직접 체감하지 못할 정도로 ‘투명하지만 강력한’ 변화를 이끎
유저 맥락부터 추천까지, 유튜브가 수집·활용하는 데이터와 문제 정의
- 유튜브는 사용자의 인구통계(나이·성별·위치), 최근 100개 시청 영상 기록, 댓글, 구독 정보 등 다양한 컨텍스트 데이터 보유
- 추천 시스템의 기본 목표는 ‘특정 사용자와 해당 맥락’ 정보를 입력받아 추천 영상을 산출하는 함수(모델)를 학습하는 것
- 다양한 모델링 접근 시도: 멀티헤드 랭커, 임베딩, 시퀀스 투 시퀀스 트랜스포머 등
- 2년 전부터 Gemini를 기반으로 유튜브 전용 추천 시스템(LRM) 구축을 시작함
Gemini LLM을 유튜브 추천시스템으로 적응시키는 대규모 프레임워크 ‘LRM’ 개발
- Gemini의 베이스 체크포인트(Pre-trained LLM)을 기반으로 유튜브 도메인 데이터로 추가 학습, 유튜브 전용 Gemni 체크포인트(LRM) 구축
- 이후 LRM을 검색, 랭킹 등 다양한 추천 영역별 태스크 맞춤형 소모델로 커스터마이즈
- LRM은 일부 서비스(특히 검색 기반 추천)에는 이미 운영 중, 랭킹 영역에서 실험적 도입 진행 중
의미 기반 비디오 토큰화 ‘Semantic ID’를 개발해 LLM 진입의 핵심 문제를 해결함
- LLM이 비디오를 이해하려면 텍스트처럼 영상도 ‘토큰화’ 필요
- 영상 토큰화의 난점: 수백만~수십억 개 영상을 LLM 컨텍스트 한도 내에 효율적으로 요약해야 함
- 기존 해시 기반 토큰화보다 의미 중심(tokenization by meaning)의 패러다임이 필요하여 ‘Semantic ID’ 개발
- Semantic ID 생성 방식:
- 영상의 제목, 설명, 자막, 오디오, 프레임 데이터를 추출·다차원 임베딩화
- RQVE(Residual Quantization with Vector Encoding)로 임베딩을 양자화, 각 영상을 대표하는 고유 토큰 생성
- 이렇게 생성된 토큰들이 ‘유튜브 비디오의 새로운 언어’를 구성, 대규모 의미적 토큰 체계를 구축
- 예시: 토큰의 구조에 따라 음악/게임/스포츠 등 상위 주제, 개별화된 스포츠(예: 배구)까지 구체적 분기
LLM과 Semantic ID를 결합한 지속 사전학습은 영어와 유튜브 비디오 언어의 ‘바이링궐’ 능력을 만든다
- LRM의 구성 학습(continued pre-training)은 2단계:
- 텍스트(제목 등)와 Semantic ID를 연결하는 태스크로 두 언어 연결(예: Semantic ID 주면 타이틀 뽑기)
- 시청 시퀀스(유저가 실제 본 영상 기록)를 입력, 일부 영상 마스킹 후 예측/복원하게 훈련 → 콘텐츠 간의 연관성/공동시청 패턴 기반 관계 학습
- 이 모델은 “Wimbledon 하이라이트 → 테니스 팬”, “스페인 그랑프리 → F1 팬”, “파이 숏츠 영상 → 수학 팬”, “AI 영상 → 기술 팬” 등 의미 연결이 가능해짐
- 영어와 유튜브 비디오 언어 모두를 자연스럽게 넘나드는 ‘이중 언어 LLM’ 성능을 달성
추천 태스크 실제 적용: 생성적(Generative) Retrieval과 오프라인 추천 테이블 전략
- 각 사용자별로 인구통계, 시청 이력, 현재 시청 영상 등 정보를 프롬프트(문장)로 구성해 LLM에 입력
- LRM이 해당 사용자에 최적화된 비디오 추천 토큰(SID) 세트를 생성함
- 결과적으로 이전(기존) 추천 시스템이 추천하지 못했던 새로운/특이한 영상을 적합 사용자에게 추천 가능
- 예: 올림픽 남자 하이라이트 시청자에게, 본인 특성·최근 시청 이력 반영해 여성 경기를 정교하게 연결 추천
- 데이터 별로 가장 추천하기 어려운 환경(신규 사용자, 미지 정보 등)에서 특히 독보적 성능 발휘
- 수십억 사용자를 상대할 때 LRM 서빙비용이 막대하므로, TPU(서버) 비용을 95% 이상 절감하는 엔지니어링 달성
- 오프라인 추천 방식: 개인화 요소를 제거한 추천표를 미리 생성해 lookup하는 전략도 병행, 이는 오프라인에서도 LLM의 차별적 추천 효과를 발휘함
LLM 기반 추천은 기존 LLM 훈련보다 훨씬 큰 규모와 신선성 요건 문제에 직면함
- 영어 LLM(예: Gemini)은 약 10만 단어(Oxford 사전)를 단어장으로 삼지만, 유튜브는 200억 개 영상이 실체적인 ‘어휘’임
- 매일 수백만 개 새로운 영상이 추가되는 상황에서 인기 영상(예: Taylor Swift 신곡 등)에 즉각적 추천이 필수
- LRM은 수시간
수일 단위로 연속적으로 사전학습을 진행해야 하며, 기존 LLM(36개월 학습 주기)보다 훨씬 빠른 업데이트 주기가 필요 - Gemini Pro 같은 대형 LLM을 20억+ DAU(일일 순 사용자)에 적용하는 것은 현실적으로 불가능해 고효율 소형 모델(예: 디코더 플래시, 경량 체크포인트 등) 활용
‘도메인별 LLM 추천’ 개발을 위한 3단계 레시피 제안
-
- 콘텐츠를 의미 있는 토큰(atomic token)으로 치환: 다양한 특성(피처)로 임베딩 → 양자화(토큰화) → 해당 도메인의 언어 창조
-
- 영어-LRM 도메인 언어 간 연결 및 관련 태스크 훈련: ‘영어↔도메인 언어’ 복수 언어 능력을 갖게 함
-
- 사용자 데이터(인구통계, 이력 등) 포함 개별 프롬프트를 LLM에 주어 퍼스널라이즈된 추천 생성기가 됨(서피스·태스크별 미세조정 가능)
- 이 레시피는 2년 간 프로젝트를 하나의 트윗도 안 되는 분량으로 요약한 것이라고 언급
LLM이 점차 추천 품질 개선에서 인터랙티브·생성 추천까지 발전할 전망
- 현재 LLM은 추천 품질을 비약적으로 높이지만, 사용자는 이 변화가 눈에 띄지 않게 ‘투명하게’ 경험함
- 가까운 미래에는 사용자가 자연어로 추천 시스템에 직접 피드백/목표 제시, 추천 근거 제공 등 ‘대화 가능한 추천기’로 진화할 것으로 기대
- 장기적으로 ‘검색과 추천의 경계’가 모호해지고, 추천과 생성(콘텐츠 자체 생성)이 융합되어 오직 한 사용자만을 위한 1:1 맞춤 콘텐츠가 실시간 생성될 수 있음
- 이 변화는 AI 발전 속도를 고려할 때 예상보다 빠르게 도래할 수 있음
LLM과 ‘추천 언어’(SID) 균형 유지 및 학습 전략: 다양한 실험과 고민이 수반됨
- Semantic ID 언어 학습에 지나치게 치우치면 영어 문장 이해 범용성이 저하되는 현상 관찰
- Mixture of Experts(전문가 혼합) 구조 등으로 일부 레이어는 텍스트, 다른 일부는 도메인 언어(SID) 보존하도록 설계 실험 중
- 언어적 인터랙션이 중요해질 미래에는 텍스트 보존 더 중시할 계획
Semantic ID 임베딩 초기가 완전히 비지도(unsupervised)로 ‘스스로 의미 공간’을 구축함
- SID는 감독 데이터(정답/라벨/카테고리) 없이 영상 자체 임베딩을 양자화하여 도메인 언어를 생성
- 실제로 “스포츠 vs 영화·엔터테인먼트” 등 의미적 분리가 자발적으로 등장함
- SID 도입 후 ‘신선한 영상’(업로드 1일~1주 미만)에 대한 추천 정확도도 비약적으로 개선됨
비디오 프레임 샘플링은 다양한 접근을 시도하며 사용자 ‘관심 구간’ 중심으로 계속 진화 중
- 프레임 샘플링 방식은 3~30fps 범위, 영상의 다양한 구간 혹은 유튜브 ‘가장 많이 시청된 순간’ 데이터 기반으로 중요 프레임 추출
- 모든 프레임을 다 쓰기엔 유튜브 전체 규모가 방대하므로, ‘의미 구간’ 위주로 지능적으로 샘플링 진행
- 한 영상이 최대 8개의 토큰(프레임·정보)으로 요약됨 → 세부적인(예: 작은 사물 등) 포착 정도는 한계점이 있을 수 있으나, 전체 의미에서는 효과적
사용자는 현재 ‘콘텐츠 토큰화’의 단계지만, 장기적으로 ‘유저 토큰화’까지 연구되고 있음
- 현재 LRM 학습은 영상(콘텐츠)만 토큰화하며 유저 토큰화는 적용하지 않음
- 향후 500개 이상의 시청 이력 등으로 사용자를 대표하는 User Token 생성·활용하는 방향도 연구 중임
LLM 기반 추천은 기존 방식 대비 최근 몇 년간 가장 큰 품질 향상을 보임
- 구체적인 수치 등은 외부에 공개 불가지만, LRM 도입은 기존 추천 시스템 이후 유튜브 추천 품질에 가장 큰 발전을 보임
- 향후에는 전통적 방식과 LLM 기반 방식 각각의 장단점을 상황별로 혼합 적용하며 발전시킬 예정임