영상 링크: Memory in LLMs: Weights and Activations - Jack Morris, Cornell
채널명: AI Engineer
LLM(대형 언어 모델)의 메모리: 가중치와 활성화 핵심 요약
- LLM의 지식 한계와 실제 사용 경험: 챗GPT(Chad GPT)는 방대한 지식을 갖고 있으나, 지식 컷오프(knowledge cut-off)로 최신 정보나 특정 기업, 개인화, 니치(롱테일) 업무에 약점이 있다.
- 3가지 LLM 메모리 접근법 개관: (1) 전부 컨텍스트에 넣기(Full context), (2) RAG(검색 기반 생성), (3) 지식을 가중치(weights)로 학습 — 본 발표는 3번 방식을 중점적으로 다룸.
- 풀 컨텍스트의 한계: 입력 토큰 수가 많아질수록 비용과 속도 저하, 모델 아키텍처(특히 transformers의 self-attention)가 가진 메모리·계산 복잡도(Q)가 병목, 맥락이 길어질수록 정확도 급락.
- RAG·임베딩 기반 접근의 실용성: 운영 환경, 특히 기업 검색, Q&A 등에 RAG와 임베딩(vector database)가 널리 활용 중. 다양한 벡터 데이터베이스(ex. Chroma, Pinecone 등) 존재.
- 임베딩의 중요 문제점: 임베딩은 보안상 한계(역변환 가능), 도메인 적응성 부족, 고차원적 의미/관계 정보 포착 한계(“고정 차원 벡터로 모든 관계 표현 불가”).
- RAG의 기능 한계 및 개선 시도: 단순 정보 검색은 강점이나, “여러 문서 간의 암묵적 추론” 같이 복잡한 질의엔 취약. 문서 간 관계 추론이나 컨텍스트 초과를 근본적으로 해결하긴 어렵다.
- 지식의 가중치 삽입(Weight Training) 필요성: 원하는 지식을 모델 가중치에 학습시키는 접근이 중요. 하지만 모델 용량(파라미터당 비트 제한) 문제와 “망각(catastrophic forgetting)” 리스크 존재.
- 파라미터 효율적 학습 기법 비교: LoRA·프리픽스 튜닝·Memory Layer 등 다양한 “부분 미세조정(parameter-efficient tuning)” 기법이 제시되며, 각각의 장단점이 실제 테스트 및 논문 결과로 소개됨.
- 합성 데이터 생성 및 학습 전략 발전: 소량의 도메인 데이터만 있어도, LLM으로 대량의 합성(시뮬레이션) 데이터를 생성해 효과적으로 미세조정이 가능(Stanford Synthetically Continued Pretraining, SEAL 등).
- 실무 적용의 의문점·토론: 대규모 퍼스널라이징, 최신성/빈번변경 데이터 처리, RAG와 fine-tuning의 적절한 경계, 효과적 프롬프트/합성 데이터 설계 등 여러 실제적 쟁점이 청중 QnA로 제기됨.
세부 요약 - 주제별 정리
챗GPT 등 LLM의 지식 범위는 방대하나 롱테일·개별 업무적 요구에는 본질적 한계가 있음
- 챗GPT는 많은 것을 알고 있고 일상적으로 활용도가 높음(예: 발표 준비, 요리 등).
- 반면, 최근 사건·특정 조직·개인화된 지식에는 약함. 예: 최신 월드시리즈 우승팀, 개인의 사소한 업무 문제 등은 답하지 못함.
- 이는 학습 데이터의 시점 한정(knowledge cutoff) 때문임.
- 특정 GPU 커널 튜닝, 회사 내부 협약, 개별 이메일 작성, 조직 내 질의, 희귀 환자 진단 등 “롱테일 태스크”에서 한계를 보임.
- LLM에 정보를 가르친다고 해도, 추가 학습(즉석 연습학습)은 지원하지 않음.
LLM의 메모리 구성 방식은 ‘풀 컨텍스트’, ‘RAG’, ‘가중치 주입’으로 나뉨
- (1) Full Context Input: 필요한 모든 정보를 프롬프트(컨텍스트)에 넣는 방식.
- (2) RAG(Retrieval Augmented Generation): 임베딩/검색 엔진이 관련 문서를 찾아 LLM에 전달(검색 기반 생성).
- (3) Knowledge in Weights(가중치 학습): 모델의 파라미터에 원하는 지식을 직접 삽입.
- 본 발표는 3번(가중치 학습)의 장점을 중점적으로 소개.
풀 컨텍스트 입력은 메모리·속도·정확도 측면에서 본질적으로 한계에 부딪힘
- 소규모 문서(예: 단건 의료기록)에는 적합하나, 입력 토큰이 일정 수준 넘어서면 비용 증가 및 응답 지연.
- 입력 1,000토큰→초당 10,000토큰 생성, 128,000토큰→초당 130토큰으로 현저한 처리속도 저하.
- 트랜스포머 모델의 self-attention 구조상 입력 길이 제곱(Quadratic)으로 메모리·계산량이 증가.
- Grok4의 200만, Gemini3의 100만 토큰 윈도우 등 대형 모델 역시, 실제로는 “튼튼하게 깨지지 않을 뿐” 대량 입력을 깊이 이해/추론하지는 못함.
- Chroma의 실험 결과, 입력 컨텍스트 크기가 커질수록 정확도는 감소. 10,000토큰 시점 성능 급락.
- 다양한 아키텍처 개선(Linear Attention, State Space Model, Sparse 등) 시도되나, 근본적 한계는 여전.
실제 산업에서는 문서 규모가 방대하여 풀 컨텍스트만으로는 불가능에 가까움
- 수억~수조 토큰의 사내 문서 집합에 대해 전부 프롬프트로 넣는 것은 아직 비현실적.
- 시스템 최적화 등 개선은 이루어지고 있으나, 근본적으로 모델에 다 담기는 불가능.
RAG, 즉 임베딩·검색 기반 아키텍처는 가장 널리 쓰이나 치명적 제약이 동반됨
- RAG의 실전 활용: 대부분의 기업 내 검색/질의응답 시스템은 RAG+임베딩 기반(Chroma, Pinecone, Turboroper 등).
- 임베딩 벡터는 직관적으로 해석 불가하나, 복원 모델 개발 시 90% 이상의 텍스트 정확도로 복원 가능(보안 문제).
- “임베딩=현 LLM의 파일 시스템”이란 표현 등장(Andre Karpathy 인용), 그러나 미래에는 바뀔 것이라고 강조.
- 임베딩 자체는 손쉬운 활용·초기 적용에 적합.
임베딩 모델은 도메인 적응성과 보안, 의미 해상도에서 근본적 한계 노출
- 벡터로 전환된 정보는 완전히 익명/불투명한 듯 보이지만, 복호화하면 원본에 근접하게 복원됨(보안 허점).
- 임베딩은 “글로벌” 시멘틱만 포착: 예를 들어 Visa/마스터카드 등 신용카드 문서도 임베딩 공간에선 분리되지 않아 잘못된 문서 추천이 발생.
- 신규 임베딩 모델(컨텍스트 임베딩)이 주변 문서 맥락을 함께 반영하여 부분적으로 개선. OpenAI, Anthropic 등 대형 벤더도 채택 중.
- 하지만 관계 정보 등, “고정 차원 벡터로 모든 관계/추론 구조”를 표현할 수 없다는 한계(컴비네토리얼한 관계, 벡터로는 불충분).
RAG로도 풀 수 없는 근본적 한계: 다수 문서 간 암묵적, 맥락적 추론
- 실무에서 RAG로 해결이 어려운 질문 유형: 여러 문서를 종합해야만 알 수 있거나, 답이 직접적으로 적혀있지 않은 경우.
- RAG/임베딩 방식은 각 문서와의 유사도 위주여서 포괄적 추론·관계망 이해에는 한계.
- “Deep Research” 등 agentic search, 다단계 조회 등 최신 시도는 있으나, 비용/속도/컴퓨팅 자원 소모가 막대.
모델 가중치에 지식 주입은 효율성과 저장 용량 제한, 망각 현상에서 도전과제에 직면
- LLM은 파라미터당 3.6비트 정도의 정보만 저장 가능(예: 10억 파라미터=대략 4GB에 상응).
- 불필요한 사실(예: 타지키스탄 주의 수도)도 저장함—원하는 사실만 저장/치환할 필요.
- “망각(catastrophic forgetting)” 문제: 추가 학습 시 기존 지식 손실.
- 새로운 지식 주입은 전체 파라미터 재학습 없이, ‘부분 미세조정’ 방식 활용이 바람직.
합성 데이터 생성(시뮬레이션) 기반 학습은 LLM 특유의 효과적 데이터 증강법으로 각광받음
- 소규모 도메인 데이터만 있어도 LLM(자체 또는 외부)을 사용해 대량의 시뮬레이션(합성) QA 데이터 세트 생성 가능.
- Stanford의 Synthetic Continued Pretraining, 자가학습(Self-Study), SEAL 등 다양한 논문이 증명.
- 실험 결과: 원본 데이터로만 미세조정 시 오버핏/범용 추론 불가. 합성 데이터로 보강시 GPT-4 등 대형모델 대비 우수 결과.
- Active Reading, SEAL 등은 모델이 “스스로 어떤 정보를 학습해야 더 좋은가?”까지 평가·반영 가능.
파라미터 효율적 미세조정(LoRA, Memory Layer, Prefix Tuning 등)의 트레이드오프는 실험/논문별로 상이
- LoRA(Low-Rank Adaptation): 소량 파라미터만 추가·학습(수백만~수천만 파라미터). 전체 파라미터 수정보다 망각 적고, 효율적.
- Prefix Tuning: key-value 캐시(프롬프트 관련 파트) 만 학습. Meta 등 빅테크에서 활용. 빠르고 메모리 절감.
- Memory Layer: MLP에 거대한 lookup table을 추가, 업데이트 범위 제어 가능. 최신 연구(2024 Jesse Lynn 등)에서 망각이 가장 적고 학습 효과 높다고 평가.
- 연구자, 벤더별 실제 효과 판단은 아직 상이. RL(강화학습) 기법 활용하면 소수 파라미터로도 성능 극대화 가능(14개 파라미터로 91% 도달 사례, 1개 파라미터 실험도 소개).
- SFT(수퍼바이저드 파인튜닝)는 훨씬 많은 파라미터 필요, RL에 비해 정보 신호 희박(스팟성).
실무/확장 적용에 관한 Q&A: 최신화, 충돌, 버전 관리, 퍼스널라이징, 비용 등 다양한 이슈
- 일정 주기(예: 하루)마다 대량 데이터 재학습, RAG와 파인튜닝을 병행하는 하이브리드 전략이 현실적 대안 제시.
- 기업 대규모(수백만~억명) 사용자별 퍼스널라이즈드 파인튜닝도 메가바이트 수준 신규 파라미터만 저장하면 충분히 가능(유튜브 등 사례 비교).
- 데이터 빈도, 변동성, 손쉬운 “상충 정보” 업데이트, 버전 관리 등에서 실무적으로 추가 연구 필요.
- Federated Tuning 등 분산·개인화 학습 기법(네트워크 비용 감소, RL 기반 등)은 미래 적용 가능성이 큼.
- 이상적으로는 정보와 지식이 가중치에 최적화해 저장(모델+합성데이터 조합), 프롬프트 없이 질의 가능.
정보 저장 위치(가중치 vs. 툴): 범용 툴 유도형 LLM이냐 도메인 파인튜닝 LLM이냐의 논쟁
- Andre Karpathy 등 일부는 “최소화된 지식+툴 사용 능력”을 주장.
- 발표자는 도메인별 맞춤형(특정 꼬집어 가르침) 모델의 효용을 강조. Universal LLM이 무조건 최선이 아니며, 효율적 저장/추론 관점에서는 전문화가 성공적.
- 실제론 두 방향(추론 엔진+정보 저장)의 복합적 방식이 현실적일 것.
미래 연구 방향 및 실무 적용 API, 시스템 설계적 고려 사항
- 실질적 정보 최신화/충돌·버전 관리/개별 정보 반영 알고리즘 구축은 아직 해결 과제.
- Thinking Machines의 “Tinker” API: 다수 LoRA 파인튜닝 배치 처리, 트레이닝/서빙의 경제성 측면에서 주목.
- Prefix Tuning, LoRA 모두 시스템 레벨 지원·커널 개발(훈련, 복수 모델 동시 처리)의 필요성.
- Temporal Element(시간 흐름 지속 업데이트), 보안/공격 복원성, 대량 데이터에서의 합성 데이터 설계 등 실무 현안 연구진행/논의 중.