
영상 링크: 360Brew: LLM-based Personalized Ranking and Recommendation - Hamed and Maziar, LinkedIn AI
채널명: AI Engineer
LLM 기반 맞춤형 랭킹 및 추천 시스템: LinkedIn 360Brew 개발 여정 핵심 요약
- 영상은 LinkedIn AI 팀(하메드, 마지아르)이 LLM(대형 언어 모델)을 활용한 차세대 맞춤형 랭킹 및 추천 시스템 ‘360Brew’의 개발 여정을 상세히 설명함
- 기존 추천 시스템의 과제는 목적별로 각각 최적화된 모델 유지, 고도화된 아키텍처 도입 한계, 개발·배포의 비효율성이었음
- 목표는 한 개의 LLM 기반 파운데이션 모델이 모든 개인화 추천 관련 과제를 통합적으로 해결하는 것
- 이 모델은 ‘제로샷(Zero-shot) 대응’, ‘상황 내 학습(In-Context Learning)’, ‘사용자 지시(Instruction Following)’ 등 세 가지 핵심 기능을 갖춤
- 사용자 이력·프로필 등 모든 정보를 자연어 프롬프트로 변환하는 ‘프롬프트화(promptification)’ 기술을 활용해 LLM과 추천 시스템을 결합
- 오픈소스 LLM을 기반으로 150B(1,500억) 파라미터의 ‘Blue XL’ 대형 모델을 개발하고, 효율화를 위해 반복적 증류(distillation), 프루닝(pruning), 양자화(quantization) 등 과정을 거쳐 3B 모델까지 경량화
- 모델 성능 향상 요인으로 데이터량, 모델 크기, 컨텍스트 길이 세 가지를 실험적으로 분석하고, 각 요소의 효과를 구체적으로 입증
- 실험 결과, 콜드 스타트(Cold Start) 사용자의 추천 품질, 도메인 일반화 능력(미학습 신규 과제에 대한 처리), 오프라인·온라인 성능에서 기존 맞춤형 모델 대비 우수함을 확인
- 서빙 단계에서는 고QPS(초당쿼리수)·저지연(400~500ms 미만) 환경에서 동작할 수 있도록 단계적 경량화, 지정적 서브어텐션, FP8 혼합정밀도 등 다양한 최적화 전략을 결합
- 7배의 지연 감소, 30배의 GPU 처리율 향상 등 실질적인 인프라 효율 개선을 달성함
- 모델의 일반화 성능은 약 50~60개의 포괄적 벤치마크(내·외부)로 지속적 평가
- 높은 반복 실험과 다양한 최적화 조합이 가능한 자동화된 ML 시스템 인프라를 자가 구축 및 오픈소스 연동
세부 요약 - 주제별 정리
기존 추천 시스템은 개별 최적화 한계와 확장성 문제를 겪음
- 현대 추천 및 랭킹 시스템은 사용자의 취향과 관련도에 따라 적합한 콘텐츠·엔터티를 찾아 제공하는 역할을 함
- 뉴스 피드, 채용, 검색, 전자상거래 등 다양한 서비스에 필수적으로 적용됨
- 그러나 대다수 추천 시스템은 각 과제(뉴스피드, 구인구직 등)마다 분리된 특화 모델을 따로 훈련·배포해야함
- 최신 아키텍처를 전면 반영하기 어렵고, 각 모델의 롤아웃 및 갱신이 비효율적으로 진행됨
- 여러 과제를 통합적으로 해결하지 못하고, 개발·운영 비용과 시간 소모가 커지는 비생산적 한계에 직면함
하나의 LLM 파운데이션 모델로 모든 맞춤형 과제 해결이라는 목표를 세움
- LinkedIn AI 팀은 LLM을 기반으로 한 하나의 거대 파운데이션 모델로 플랫폼 내 모든 개인화·추천 과제를 해결하고자 함
- 이러한 모델은 전체 사용자의 행동·피드·지원이력 등 ‘여정(journey)’을 거시적으로 이해하도록 설계됨
- 동적·다분야적 과제에 동시 대응할 수 있도록 범용성과 확장성을 핵심 목표로 설정함
- “여러 번의 데이터 수집–모델 설계–배포 순환 없이, 프롬프트만 변경해 신규 과제 적용”을 궁극적으로 지향
제로샷, 인컨텍스트 학습, 사용자인스트럭션 지원 세 가지 능력을 추구
- 첫 번째, 제로샷(Zero-shot) 기능: 모델 학습 없이, 프롬프트만 업데이트해 미지의 새로운 과제도 즉시 대응 가능
- 예: 신사업 기능 추가 시 데이터 수집·신규 추천모델 구축 없이 프롬프트만으로 추천 제공
- 두 번째, 인컨텍스트 학습(In-context learning): 소량의 예시, 혹은 사용자 의향 설명만으로 콜드 스타트 상황(신규가입 사용자 등)도 빠르게 맞춤화
- 세 번째, 사용자인스트럭션(Instruction following): 사용자가 피드 내에서 자신이 선호하는 주제, 니치(니치) 관심 분야를 명시하면 그에 최적화된 콘텐츠 추천 가능
- “제가 이런 주제에 관심 있으니 추천해주세요” 등 직접적 지침 입력 반영
모든 사용자·이력 정보를 프롬프트로 변환하는 ‘프롬프트화’가 LLM 활용의 핵심
- 사용자 히스토리, 프로필정보, 과거 상호작용 등을 조합한 자연어 프롬프트로 LLM에 입력
- 프롬프트 구조: ‘모델 수행 지시’(Instruction) + ‘회원 정보’ + ‘과거 상호작용’ + ‘추천에 대한 평가질문’ 형식
- 예: 사용자가 이전에 본 콘텐츠/지원한 잡 리스트/프로필 정보와 함께 “이 사용자가 새로운 A 콘텐츠에 어떻게 반응할 것인가?”라는 질의
- 프롬프트화(Magic of promptification)는 추천 시스템 문제를 LLM이 처리할 수 있도록 문제를 공식화하는 핵심 기법
- 기존 범용 LLM을 바로 활용하는 것보다, 이처럼 프롬프트화–특화학습 절차가 성능에 크게 기여함
모델 개발은 오픈소스 LLM 기반, 대형 ‘Blue XL’ 모델 훈련–경량화–파이프라인 자동화 순으로 진행됨
- 초기에는 오픈소스 LLM을 베이스로 채택, 1.5억~1,500억(150B) 파라미터의 Blue XL 대형 모델로 성능 맥시마이즈
- 대규모 연산량 및 효율성 문제 해결을 위해 단계별 업사이클링, 연속 프리트레이닝, 파인튜닝, 인스트럭션 파인튜닝, 얼라인먼트(정합화) 등 폭넓은 훈련과정 수행
- 피크 모델은 150B(Blue XL)이지만, 실제 서비스에는 증류(distillation)를 반복 적용해 8B와 3B, 최종적으로는 1B 모델까지 순차적으로 경량화(서빙 목적)
- 실험 결과, 처음부터 소형 모델로 직접 훈련하는 것은 성능 저하가 크며, 반드시 대형 모델 기반–증류 프로세스가 필요하다는 점을 확인
- 전체 파이프라인의 복잡성을 해결하기 위해 강력한 자동화 시스템을 구축, 실험–훈련–배포의 반복을 효율적으로 관리
모델 성능 개선의 3대 요인: 데이터 데이터량, 모델 크기, 컨텍스트 길이로 실증 분석함
-
- 데이터 스케일링: 과거 사용자 데이터를 6개월, 1년 단위로 확장할수록 모델 성능이 꾸준히 향상됨을 실험적으로 도출
-
- 모델 크기 확대: 7B → 8x22B(혼합 구조) 등 파라미터 수 증가시 성능지표가 상승하며, 대형화가 결국 소형 모델성능 향상에도 필수적임이 확인됨
-
- 컨텍스트 길이: LLM에 입력하는 히스토리(예: 사용자 과거 행위)의 길이를 늘리면 정확도 증가, 다만 일정 길이(모델 한계치) 이후엔 오히려 성능 저하(Catastrophic forgetting, 컨텍스트 범위 일반화 문제)도 일부 관찰됨
콜드 스타트·일반화 성능 등 실제 추천 시스템 주요 난제를 기존 모델 대비 우수하게 해결함
- 기존 production 모델과 비교 시, 상호작용 이력이 거의 없는 신규(콜드스타트) 사용자 그룹에서 360Brew의 추천 품질이 가장 큰 격차로 우수함을 데이터로 입증
- 이는 LLM의 세계지식·추론능력이 실제 사용자 정보 부족시 강점으로 작동함을 의미
- 도메인 범용성 평가: 모델이 훈련 시 한 번도 관측하지 못한 전혀 새로운 분야(4가지 out-of-domain 태스크)에서도, 해당 분야 특화형 production 모델과 대등하거나 능가하는 성과 기록
- 벤치마크 테스트로, 새로운 활용 사례와 과제에 모델을 빠르게 적용 가능함을 확인
추천 시스템 서빙(Serving)에서 고QPS·저지연 달성을 위한 다단계 최적화 전략을 도입함
- 대형 LLM은 단일 GPU 당 처리할 수 있는 요청 수(QPS), 예측 지연시간(400~500ms 미만) 등 인프라 제약이 핵심 난제
- 증류(distillation): 150B→8B→3B→1B 순으로 점진적 모델 경량화, 한 단계씩 점진적 증류가 단번에 경량화하는 것보다 품질 손실이 적음
- 프루닝(pruning): 트랜스포머 내부에서 레이어, 어텐션 헤드 수, MLP 수 등을 점진적으로 줄이면서 피해(품질 저하) 최소화
- 급격한 프루닝 시 1% 이상 품질 하락, 작게–여러 번에 걸쳐 프루닝+증류 반복 시 정보손실 거의 없음
- 양자화(quantization): FP8 혼합 정밀도 사용, 단 최종 LM 헤드(로짓·출력 확률 예측 파트)는 FP32 정밀도 유지(정밀도 및 캘리브레이션 성능 이유)
- 스파스 어텐션(Specified attention): 추천 항목들 간 상호어텐션 제거, 효율적 시퀀스 처리 가능
- 종합적으로, 여러 차례 업데이트 과정에서 지연 시간을 1/7로, GPU 당 쿼리 처리량을 30배까지 개선함
모델 일반화 및 품질은 50~60개 내·외부 태스크 벤치마크로 주기적·체계적으로 평가함
- 고급 벤치마킹 세트를 자체 구축, 내재된 50~60개의 평가셋을 실험·배포 주기마다 검증에 활용
- 예시: EVaL(외부 벤치마크)로 LLM의 명령 준수(Following instruction) 등 품질도 평가
- LinkedIn 내부 신규태스크 및 외부 과제 모두에서 도메인 범용성을 계량적으로 관리
LLM 기반 추천 시스템은 타 서비스(부동산 리스트 등)에도 보편 적용 가능하지만, 현재 즉시 쓸 수 있는 오픈모델은 부족함
- 소규모 리스팅 웹사이트(부동산 등)에서도 이런 LLM 기반 추천모델이 이상적이지만, 즉시 사용할 수 있는 범용 파운데이션 모델은 아직 부족함
- MS의 NL Web(추천 API) 등 일부 서비스가 있으나, 대형기업 밖에서 상용 적용은 시작 단계임
프롬프트 내 후보(추천 항목) 다중 스코어링은 내부적으로 마스킹과 전산최적화 커널로 처리함
- 단일 예측 시 최대 500개 후보를 시퀀스상에 나열하고, 아이템 간 어텐션 제거(마스킹)로 서로 영향을 차단
- 추론 시 speculative decoding 등 복잡한 다단계 디코딩 없이, 프리딕션 단계에서 멀티 아이템 스코어링을 처리함
- SG Lang, VLM 등 사내 커널로 병렬처리 최적화 구현
사용자 히스토리의 입력 방식은 주로 최신순(chronological order)을 활용하고, 긍정·부정 샘플 균형 등 ML 엔지니어링으로 세부 튜닝함
- 사용자 이력(지원한 일자리, 열람한 포스팅 등)이 방대해지면, 어떤 정보를 우선적으로 추출해 LLM에 넣을지가 핵심 쟁점
- RAG(검색 기반), 최신순, 웨이트 조정 등 다양한 방법 실험결과, 대부분의 추천에서는 단순 최신순이 품질적으로 충분함
- 추천 시스템의 ‘신선도 편향’(최신 정보가 추천 품질에 더 크게 기여하는 특성)이 그 이유
- 긍정·부정 샘플 구성 방식 등은 ML 엔지니어링 차원에서 설정: 예) 몇 개의 긍정–부정 상호작용을 프롬프트에 포함할지
다수의 반복 실험·최적화가 가능한 엔드-투-엔드 자동화 인프라와 오픈소스 연동이 강점
- 파라미터(양자화 방식 등) 변경→학습→결과 수집→엑셀 등 자동 기록 등 전체 실험–파이프라인이 자동화
- 개발자는 파라미터만 조정하면 전체 워크플로우가 원클릭으로 수행될 만큼 고효율 ML 실험 인프라 구축
- Lightning, VLM, SG Lang 등 오픈소스 도구도 내부 파이프라인에 긴밀히 통합하여 확장·최적화