
영상 링크: Recsys Keynote: Improving Recommendation Systems & Search in the Age of LLMs - Eugene Yan, Amazon
채널명: AI Engineer
LLM 시대, 추천 시스템과 검색의 진화: 아마존의 유진 얀 RecSys Keynote 핵심 요약
- 추천 시스템은 과거부터 언어 모델링 기법을 활용해 발전해왔으며, 최근에는 트랜스포머와 멀티모달 임베딩이 주요 기술로 떠오르고 있음
- 단순 해시 기반 아이템 ID의 한계를 극복하기 위해 의미 기반(semantic) ID, 특히 멀티모달 콘텐츠(이미지/텍스트/오디오) 임베딩을 활용하는 사례가 증가 중임
- 중국 숏폼 비디오 플랫폼 ‘콰이쇼우’는 멀티모달 임베딩과 클러스터링 기반 의미 ID로 콜드스타트(신규 아이템 추천) 커버리지를 3.6% 개선하고, 추천 효율성도 크게 향상시킴
- 데이터 품질과 규모가 중요한데, LLM 기반 데이터 증강과 시뮬레이티드 라벨 생성이 검색 및 추천 품질을 혁신적으로 개선함
- 구직 플랫폼 인디드는 LLM 및 경량화 분류기를 조합해 ‘부적합 채용 공고 추천’을 20% 감소시키고, 전송 속도와 비용을 크게 절감함
- Spotify는 LLM을 활용한 자연어 쿼리 생성과 기존 데이터를 결합, 오디오북·팟캐스트 등 신규 카테고리로의 탐색을 유도해 9%의 탐색 쿼리 증가라는 성과를 달성함
- 기업 내 광고/추천/검색 시스템이 개별적으로 운영되는 비효율이 크게 발생, 유니파이드(unified) 모델 도입이 중복 엔지니어링과 유지보수 비용을 절감함
- 넷플릭스와 Etsy는 컨텍스트 통합 랭커 및 유니파이드 임베딩 구조를 통해, 전체 시스템 성능을 전문화 모델 대비 동등 또는 더 우수하게 향상시켰고, 이커머스 구매 전환율도 2.6~5% 높였음
- 요약하면, 의미 기반 ID, LLM 데이터 증강, 유니파이드 모델이 LLM 시대 추천·검색 시스템 혁신의 핵심임
세부 요약 - 주제별 정리
과거부터 언어 모델과 딥러닝은 추천 시스템 진화의 핵심이었다
- 추천 분야에서 언어 모델링 도입은 2013년경 아이템 임베딩 학습에서 시작
- GRU(게이트 순환 유닛) 등 RNN 방식은 짧은 사용자 시퀀스 내 다음 아이템 예측에 사용됨
- 트랜스포머와 어텐션 구조의 도입으로 수백~수천 길이의 장기 사용자 이력 처리 가능
- 추천 시스템의 진화는 데이터 시퀀스 처리, 임베딩 기법, 딥러닝 모델 차원에서 점진적으로 발전해옴
해시 ID 방식의 한계는 콜드스타트와 희소성, 인기 편향으로 나타난다
- 해시 기반 아이템 ID는 실제 아이템의 의미나 속성을 반영하지 못함
- 신규 아이템이 추가될 때마다 초기 데이터가 충분하지 않아 콜드스타트 문제 심화(“모든 걸 처음부터 다시 학습”)
- 사용자의 상호작용이 적은 롱테일 아이템은 학습 데이터가 희박해 추천의 품질이 낮아짐
- 인기 아이템 위주의 추천이 반복되면서 다양성 저하 현상 발생
콰이쇼우는 멀티모달 의미 ID와 클러스터링으로 콜드스타트 극복 및 추천 품질 혁신을 실현함
- 콰이쇼우(중국 2위 숏폼 비디오 플랫폼)는 매일 수억 개의 영상을 신규 등록, 추천 품질과 콜드스타트가 핵심 이슈
- 2-타워(two-tower) 신경망 구조: 한쪽은 사용자 시퀀스 임베딩, 한쪽은 아이템(콘텐츠) 임베딩
- 영상 임베딩: 시각적 정보(ResNet), 텍스트 설명(BERT), 오디오(vGish 모델) 등 멀티모달 임베딩을 결합(concat)
- 약 1억 개의 동영상을 1천 개 클러스터로 군집화하여, 각각을 의미 기반 ID로 학습
- 클러스터 ID와 임베딩 테이블을 연동해, 콘텐츠 특성과 사용자 행동 데이터 간 다리 역할을 수행
- 기존 해시 ID 대비 클릭/좋아요 등 행동지표에서 우수, 특히 콜드스타트 커버리지 3.6%↑와 신규 영상 추천 및 도달 속도 향상
- 추천 시스템이 콘텐츠 의미를 이해함으로써, 향후 LLM 활용 설명형 추천(예: YouTube에서 “왜 이 콘텐츠를 추천하는가” 설명)에 응용 가능
LLM 기반 데이터 증강은 추천 및 검색 체계 혁신의 필수 열쇠이다
- 추천과 검색 시스템의 토대는 대규모·고품질 데이터(메타데이터, 쿼리 확장, 시소러스, 철자교정 등)
- 기존엔 인적 라벨링이나 자동화 기법이 주류였으나, 비용 및 품질 비효율적
- 대형 언어 모델(LLM) 활용으로 의미 기반 시뮬레이티드 데이터/라벨 대량 생성 및 확장 가능
- LLM을 활용한 데이터 생성은 인간 라벨링 대비 비용/노력 절감 및 롱테일 쿼리/아이템에도 효과적임
인디드는 LLM과 경량화 분류기를 결합해 악성 추천 필터링과 신뢰성 향상 성과를 거두었다
- 인디드(구직 플랫폼)에서 이메일 추천 구직공고 중 부적합(사용자 신뢰 저하) 문제가 발생
- 명시적 피드백(좋아요/싫어요)은 데이터 희소, 암묵적 피드백(선택X 등)은 부정확
- 실무 과정:
- 전문가가 일부 데이터 라벨링 → 개방형 LLM(Open AI, Mistral, Llama2)에 프로프트 시도: 성능 저조
- GPT-4 사용 시 정확도·재현율 90% 달성했으나 응답 지연(32초)과 비용이 문제
- GPT-3.5는 Precision 63%(부정확), 37%를 쓸데없이 버리는 한계
- GPT-3.5 파인튜닝으로 precision 0.83 확보, 비용/지연 ¼로 감소(6.7초), 그러나 실시간 처리 한계
- LLM 라벨로 학습한 경량화 분류기(0.86 AUROC, 200ms 미만) 도입 → 실시간 필터링 가능
- 결과: 악성 추천 20% 감소, 지원률 4%↑, 구독 해지율 5%↓, 즉 “적은 양의 고품질 추천이 전반적 신뢰 및 성과 개선”
Spotify는 LLM 활용 쿼리 추천으로 신규 오디오 카테고리로의 유입을 극대화했다
- 스포티파이의 핵심 과제: 음악 외 팟캐스트/오디오북 신규 카테고리 성장 촉진, 카테고리 차원의 콜드스타트 극복
- 해결책:
- 기존 곡/아티스트/플레이리스트 타이틀, 검색 로그 등에서 쿼리 아이디어 발굴
- LLM으로 자연스러운 문장(검색 쿼리) 생성 및 보강 → 기존 쿼리 + LLM 생성 쿼리 결합
- 검색 결과(UX): 기존 하단에 아이템 추천을 유지하되, 상단에는 쿼리 추천으로 신규 카테고리 노출
- 성과: 탐색(Exploratory) 쿼리 9%↑ → 매일 전체 사용자 중 1/10이 신규 카테고리 탐색, 신제품 카테고리의 빠른 성장 견인
LLM 데이터 증강은 인간 라벨 대비 롱테일 확장성과 비용 경쟁력을 압도한다
- LLM으로 아웃풋되는 대량/다양한 데이터는 롱테일 문제(적은 상호작용 아이템/쿼리) 해결에 매우 효과적
- 고비용/고노력의 인간 메타데이터 제작 없이, 높은 품질의 시뮬레이티드 데이터 확장 가능
- Instacart 등 대형 서비스들도 LLM 기반 검색 품질 개선을 적극 도입 중임
엔터프라이즈 내 시스템 중복 문제는 유니파이드 모델 도입으로 구조적 혁신이 가능하다
- 일반적으로 광고, 추천, 검색 등 시스템이 각각 개별적으로 따로 구축, 운용됨
- 동일 서비스 내에서도, 홈, 아이템, 카트, 결제완료 페이지 등 각각 다른 추천 모델 운용(중복, 유지보수 비용 증가)
- 인력은 동일하지만 시스템 수가 많아 비효율과 확장성, 공통 기술 적용의 한계
- 유니파이드 모델(입력 스키마 통합, 멀티태스크 러닝 등)로 구조 재편, 반복적 중복 엔지니어링 최소화
넷플릭스 ‘유니콘’과 Stripe 등은 통합 랭커 모델로 전사적 효율화와 성능을 동시에 잡았다
- 넷플릭스 Unified Contextual Ranker(유니콘) 구조:
- 사용자 히스토리·콘텍스트 입력 통합
- 단일 입력(사용자 ID, 아이템 ID, 쿼리, 국가, 태스크 등)으로 멀티태스킹(탐색, 검색, 유사 아이템 등) 처리
- 결측치(예: 쿼리 없는 아이템→아이템 추천) 처리 방법 논의(현재 시청 중인 아이템 제목 사용)
- 성과: 특화모델 대비 동등 또는 그 이상 성능, 시스템 복잡성/운영비용 혁신적 절감, 추후 신모델/파이프라인 도입 가속화
Etsy의 통합 임베딩 및 품질 벡터 구조는 검색·구매 전환율 모두 대폭 향상시켰다
- 문제: Etsy 상품은 재고·구성이 상시 변동, 특정 쿼리(예: ‘어머니날 선물’)와 상품 연결이 매우 약함
- 기존 임베딩은 텍스트 기반/사용자 취향 반영 어려움
- 솔루션:
- 제품 임베딩: T5 기반 텍스트 임베딩 + 쿼리-구매 로그 통합
- 쿼리 임베딩: 검색 쿼리, 제품 카테고리, 사용자 위치 등 다양한 토큰 공유
- 사용자 과거 구매·검색 등 선호도 데이터 스케일러 피처로 반영
- ‘퀄리티 벡터’(리뷰 평점, 신선도, 전환율 등) 상품 임베딩에 추가, 쿼리 임베딩에도 동일 차원 상수 벡터 합성
- 결과: 전체 구매 전환 2.6%↑, 검색 통한 구매 5%↑, 추천/검색 시스템 구조 단순화 및 품질 동반 개선
유니파이드 모델은 멀티유스케이스 개선의 효과가 크지만, 일치(alignment) 텍스 조율이 필요하다
- 유니파이드 모델은 개선점이 전체 유스케이스에 전파되는 장점
- 다만 너무 다양한 태스크를 하나의 모델로 통합할 경우, 태스크 간 제약(alignment tax) 발생 가능
- 따라서 경우에 따라 2~3개의 부분 유니파이드 모델로 분할하는 전략 필요
- LinkedIn, Netflix 등 다양한 업계 사례에서 연속적으로 탐구되고 있음
의미 기반 ID, LLM 데이터 증강, 유니파이드 모델 적용은 LLM 시대 추천·검색 혁신의 3대 축이다
- 의미 ID 도입이 콜드스타트와 의미 해석에 큰 강점 제공
- LLM 활용한 대규모 데이터 증강이 전방위 검색 및 추천 품질·러스팅의 정량적 향상을 견인
- 유니파이드 모델 도입으로 복잡성, 중복, 유지관리 비용을 줄이면서도 시스템 확장성 및 혁신성을 동시 달성
- 다양한 기업 실무 사례 및 실험적 논문을 통해 그 효과와 한계가 순차적으로 밝혀지고 있음