360Brew: LLM-based Personalized Ranking and Recommendation - Hamed and Maziar, LinkedIn AI

영상 링크: 360Brew: LLM-based Personalized Ranking and Recommendation - Hamed and Maziar, LinkedIn AI
채널명: AI Engineer

LLM 기반 맞춤형 랭킹 및 추천 시스템: LinkedIn 360Brew 개발 여정 핵심 요약

영상은 LinkedIn AI 팀(하메드, 마지아르)이 LLM(대형 언어 모델)을 활용한 차세대 맞춤형 랭킹 및 추천 시스템 ‘360Brew’의 개발 여정을 상세히 설명함
기존 추천 시스템의 과제는 목적별로 각각 최적화된 모델 유지, 고도화된 아키텍처 도입 한계, 개발·배포의 비효율성이었음
목표는 한 개의 LLM 기반 파운데이션 모델이 모든 개인화 추천 관련 과제를 통합적으로 해결하는 것
이 모델은 ‘제로샷(Zero-shot) 대응’, ‘상황 내 학습(In-Context Learning)’, ‘사용자 지시(Instruction Following)’ 등 세 가지 핵심 기능을 갖춤
사용자 이력·프로필 등 모든 정보를 자연어 프롬프트로 변환하는 ‘프롬프트화(promptification)’ 기술을 활용해 LLM과 추천 시스템을 결합
오픈소스 LLM을 기반으로 150B(1,500억) 파라미터의 ‘Blue XL’ 대형 모델을 개발하고, 효율화를 위해 반복적 증류(distillation), 프루닝(pruning), 양자화(quantization) 등 과정을 거쳐 3B 모델까지 경량화
모델 성능 향상 요인으로 데이터량, 모델 크기, 컨텍스트 길이 세 가지를 실험적으로 분석하고, 각 요소의 효과를 구체적으로 입증
실험 결과, 콜드 스타트(Cold Start) 사용자의 추천 품질, 도메인 일반화 능력(미학습 신규 과제에 대한 처리), 오프라인·온라인 성능에서 기존 맞춤형 모델 대비 우수함을 확인
서빙 단계에서는 고QPS(초당쿼리수)·저지연(400~500ms 미만) 환경에서 동작할 수 있도록 단계적 경량화, 지정적 서브어텐션, FP8 혼합정밀도 등 다양한 최적화 전략을 결합
7배의 지연 감소, 30배의 GPU 처리율 향상 등 실질적인 인프라 효율 개선을 달성함
모델의 일반화 성능은 약 50~60개의 포괄적 벤치마크(내·외부)로 지속적 평가
높은 반복 실험과 다양한 최적화 조합이 가능한 자동화된 ML 시스템 인프라를 자가 구축 및 오픈소스 연동

세부 요약 - 주제별 정리

기존 추천 시스템은 개별 최적화 한계와 확장성 문제를 겪음

현대 추천 및 랭킹 시스템은 사용자의 취향과 관련도에 따라 적합한 콘텐츠·엔터티를 찾아 제공하는 역할을 함
뉴스 피드, 채용, 검색, 전자상거래 등 다양한 서비스에 필수적으로 적용됨
그러나 대다수 추천 시스템은 각 과제(뉴스피드, 구인구직 등)마다 분리된 특화 모델을 따로 훈련·배포해야함
최신 아키텍처를 전면 반영하기 어렵고, 각 모델의 롤아웃 및 갱신이 비효율적으로 진행됨
여러 과제를 통합적으로 해결하지 못하고, 개발·운영 비용과 시간 소모가 커지는 비생산적 한계에 직면함

하나의 LLM 파운데이션 모델로 모든 맞춤형 과제 해결이라는 목표를 세움

LinkedIn AI 팀은 LLM을 기반으로 한 하나의 거대 파운데이션 모델로 플랫폼 내 모든 개인화·추천 과제를 해결하고자 함
이러한 모델은 전체 사용자의 행동·피드·지원이력 등 ‘여정(journey)’을 거시적으로 이해하도록 설계됨
동적·다분야적 과제에 동시 대응할 수 있도록 범용성과 확장성을 핵심 목표로 설정함
“여러 번의 데이터 수집–모델 설계–배포 순환 없이, 프롬프트만 변경해 신규 과제 적용”을 궁극적으로 지향

제로샷, 인컨텍스트 학습, 사용자인스트럭션 지원 세 가지 능력을 추구

첫 번째, 제로샷(Zero-shot) 기능: 모델 학습 없이, 프롬프트만 업데이트해 미지의 새로운 과제도 즉시 대응 가능
- 예: 신사업 기능 추가 시 데이터 수집·신규 추천모델 구축 없이 프롬프트만으로 추천 제공
두 번째, 인컨텍스트 학습(In-context learning): 소량의 예시, 혹은 사용자 의향 설명만으로 콜드 스타트 상황(신규가입 사용자 등)도 빠르게 맞춤화
세 번째, 사용자인스트럭션(Instruction following): 사용자가 피드 내에서 자신이 선호하는 주제, 니치(니치) 관심 분야를 명시하면 그에 최적화된 콘텐츠 추천 가능
- “제가 이런 주제에 관심 있으니 추천해주세요” 등 직접적 지침 입력 반영

모든 사용자·이력 정보를 프롬프트로 변환하는 ‘프롬프트화’가 LLM 활용의 핵심

사용자 히스토리, 프로필정보, 과거 상호작용 등을 조합한 자연어 프롬프트로 LLM에 입력
프롬프트 구조: ‘모델 수행 지시’(Instruction) + ‘회원 정보’ + ‘과거 상호작용’ + ‘추천에 대한 평가질문’ 형식
- 예: 사용자가 이전에 본 콘텐츠/지원한 잡 리스트/프로필 정보와 함께 “이 사용자가 새로운 A 콘텐츠에 어떻게 반응할 것인가?”라는 질의
프롬프트화(Magic of promptification)는 추천 시스템 문제를 LLM이 처리할 수 있도록 문제를 공식화하는 핵심 기법
기존 범용 LLM을 바로 활용하는 것보다, 이처럼 프롬프트화–특화학습 절차가 성능에 크게 기여함

모델 개발은 오픈소스 LLM 기반, 대형 ‘Blue XL’ 모델 훈련–경량화–파이프라인 자동화 순으로 진행됨

초기에는 오픈소스 LLM을 베이스로 채택, 1.5억~1,500억(150B) 파라미터의 Blue XL 대형 모델로 성능 맥시마이즈
대규모 연산량 및 효율성 문제 해결을 위해 단계별 업사이클링, 연속 프리트레이닝, 파인튜닝, 인스트럭션 파인튜닝, 얼라인먼트(정합화) 등 폭넓은 훈련과정 수행
피크 모델은 150B(Blue XL)이지만, 실제 서비스에는 증류(distillation)를 반복 적용해 8B와 3B, 최종적으로는 1B 모델까지 순차적으로 경량화(서빙 목적)
실험 결과, 처음부터 소형 모델로 직접 훈련하는 것은 성능 저하가 크며, 반드시 대형 모델 기반–증류 프로세스가 필요하다는 점을 확인
전체 파이프라인의 복잡성을 해결하기 위해 강력한 자동화 시스템을 구축, 실험–훈련–배포의 반복을 효율적으로 관리

모델 성능 개선의 3대 요인: 데이터 데이터량, 모델 크기, 컨텍스트 길이로 실증 분석함

1. 데이터 스케일링: 과거 사용자 데이터를 6개월, 1년 단위로 확장할수록 모델 성능이 꾸준히 향상됨을 실험적으로 도출
1. 모델 크기 확대: 7B → 8x22B(혼합 구조) 등 파라미터 수 증가시 성능지표가 상승하며, 대형화가 결국 소형 모델성능 향상에도 필수적임이 확인됨
1. 컨텍스트 길이: LLM에 입력하는 히스토리(예: 사용자 과거 행위)의 길이를 늘리면 정확도 증가, 다만 일정 길이(모델 한계치) 이후엔 오히려 성능 저하(Catastrophic forgetting, 컨텍스트 범위 일반화 문제)도 일부 관찰됨

콜드 스타트·일반화 성능 등 실제 추천 시스템 주요 난제를 기존 모델 대비 우수하게 해결함

기존 production 모델과 비교 시, 상호작용 이력이 거의 없는 신규(콜드스타트) 사용자 그룹에서 360Brew의 추천 품질이 가장 큰 격차로 우수함을 데이터로 입증
이는 LLM의 세계지식·추론능력이 실제 사용자 정보 부족시 강점으로 작동함을 의미
도메인 범용성 평가: 모델이 훈련 시 한 번도 관측하지 못한 전혀 새로운 분야(4가지 out-of-domain 태스크)에서도, 해당 분야 특화형 production 모델과 대등하거나 능가하는 성과 기록
벤치마크 테스트로, 새로운 활용 사례와 과제에 모델을 빠르게 적용 가능함을 확인

모델 일반화 및 품질은 50~60개 내·외부 태스크 벤치마크로 주기적·체계적으로 평가함

고급 벤치마킹 세트를 자체 구축, 내재된 50~60개의 평가셋을 실험·배포 주기마다 검증에 활용
예시: EVaL(외부 벤치마크)로 LLM의 명령 준수(Following instruction) 등 품질도 평가
LinkedIn 내부 신규태스크 및 외부 과제 모두에서 도메인 범용성을 계량적으로 관리

LLM 기반 추천 시스템은 타 서비스(부동산 리스트 등)에도 보편 적용 가능하지만, 현재 즉시 쓸 수 있는 오픈모델은 부족함

소규모 리스팅 웹사이트(부동산 등)에서도 이런 LLM 기반 추천모델이 이상적이지만, 즉시 사용할 수 있는 범용 파운데이션 모델은 아직 부족함
MS의 NL Web(추천 API) 등 일부 서비스가 있으나, 대형기업 밖에서 상용 적용은 시작 단계임

프롬프트 내 후보(추천 항목) 다중 스코어링은 내부적으로 마스킹과 전산최적화 커널로 처리함

단일 예측 시 최대 500개 후보를 시퀀스상에 나열하고, 아이템 간 어텐션 제거(마스킹)로 서로 영향을 차단
추론 시 speculative decoding 등 복잡한 다단계 디코딩 없이, 프리딕션 단계에서 멀티 아이템 스코어링을 처리함
SG Lang, VLM 등 사내 커널로 병렬처리 최적화 구현

사용자 히스토리의 입력 방식은 주로 최신순(chronological order)을 활용하고, 긍정·부정 샘플 균형 등 ML 엔지니어링으로 세부 튜닝함

사용자 이력(지원한 일자리, 열람한 포스팅 등)이 방대해지면, 어떤 정보를 우선적으로 추출해 LLM에 넣을지가 핵심 쟁점
RAG(검색 기반), 최신순, 웨이트 조정 등 다양한 방법 실험결과, 대부분의 추천에서는 단순 최신순이 품질적으로 충분함
추천 시스템의 ‘신선도 편향’(최신 정보가 추천 품질에 더 크게 기여하는 특성)이 그 이유
긍정·부정 샘플 구성 방식 등은 ML 엔지니어링 차원에서 설정: 예) 몇 개의 긍정–부정 상호작용을 프롬프트에 포함할지

다수의 반복 실험·최적화가 가능한 엔드-투-엔드 자동화 인프라와 오픈소스 연동이 강점

파라미터(양자화 방식 등) 변경→학습→결과 수집→엑셀 등 자동 기록 등 전체 실험–파이프라인이 자동화
개발자는 파라미터만 조정하면 전체 워크플로우가 원클릭으로 수행될 만큼 고효율 ML 실험 인프라 구축
Lightning, VLM, SG Lang 등 오픈소스 도구도 내부 파이프라인에 긴밀히 통합하여 확장·최적화

360Brew: LLM-based Personalized Ranking and Recommendation - Hamed and Maziar, LinkedIn AI

LLM 기반 맞춤형 랭킹 및 추천 시스템: LinkedIn 360Brew 개발 여정 핵심 요약

세부 요약 - 주제별 정리

기존 추천 시스템은 개별 최적화 한계와 확장성 문제를 겪음

하나의 LLM 파운데이션 모델로 모든 맞춤형 과제 해결이라는 목표를 세움

제로샷, 인컨텍스트 학습, 사용자인스트럭션 지원 세 가지 능력을 추구

모든 사용자·이력 정보를 프롬프트로 변환하는 ‘프롬프트화’가 LLM 활용의 핵심

모델 개발은 오픈소스 LLM 기반, 대형 ‘Blue XL’ 모델 훈련–경량화–파이프라인 자동화 순으로 진행됨

모델 성능 개선의 3대 요인: 데이터 데이터량, 모델 크기, 컨텍스트 길이로 실증 분석함

콜드 스타트·일반화 성능 등 실제 추천 시스템 주요 난제를 기존 모델 대비 우수하게 해결함

추천 시스템 서빙(Serving)에서 고QPS·저지연 달성을 위한 다단계 최적화 전략을 도입함

모델 일반화 및 품질은 50~60개 내·외부 태스크 벤치마크로 주기적·체계적으로 평가함

LLM 기반 추천 시스템은 타 서비스(부동산 리스트 등)에도 보편 적용 가능하지만, 현재 즉시 쓸 수 있는 오픈모델은 부족함

프롬프트 내 후보(추천 항목) 다중 스코어링은 내부적으로 마스킹과 전산최적화 커널로 처리함

사용자 히스토리의 입력 방식은 주로 최신순(chronological order)을 활용하고, 긍정·부정 샘플 균형 등 ML 엔지니어링으로 세부 튜닝함

다수의 반복 실험·최적화가 가능한 엔드-투-엔드 자동화 인프라와 오픈소스 연동이 강점