
영상 링크: Thinking Deeper in Gemini — Jack Rae, Google DeepMind
채널명: AI Engineer
Gemini에서의 딥싱킹: 구글 딥마인드 Jack Rae의 심층적 사고 접근 핵심 요약
- Google DeepMind의 연구원이자 Gemini 사고(Thinking) 기능의 기술 리드인 Jack Rae가 Gemini 모델에서 ‘생각하는’ 메커니즘 및 그 연구 의의에 대해 발표함
- AI 발전사는 ‘지능의 병목 발견 → 해결’의 반복 기록이며, Gemini에서의 사고도 이 흐름을 잇고 있음
- 클로드 섀넌(1948)의 2-그램(ngram) 언어모델부터 딥러닝, RNN, 어텐션, 트랜스포머 등 주요한 병목 → 혁신의 사례들을 역사적으로 조명
- 현재 모델(Gemini, ChatGPT 등)은 테스트 타임(test time)에서 고정된 컴퓨팅만 사용하며, 요구에 따라 연산량을 조절하거나 깊은 추론을 장기간 반복하는 능력에 제한이 있었음
- Gemini의 ‘생각’ 단계는 중간에 반복적 사고회로(thinking loop)를 삽입, 강화학습(reinforcement learning) 기반으로 추가연산을 할당해 더 깊고 질 높은 답변을 유도함
- 실제로 모델이 자기 가설을 세우고, 검증하며, 오류를 자가 수정하는 등 다양한 추론 행동이 강화학습 과정에서 자연스럽게 발생함을 시각적·구체적 예시로 설명
- 사용자는 문제의 난이도에 따라 연산 예산(think budget)을 연속적으로 세밀하게 조정할 수 있게 되었으며, Pro 2.5 및 Flash 등 최신 모델에 이미 적용됨
- 딥싱킹(Deep Think) 등 고비용·고성능 모드를 도입, Math Olympiad 등 난이도 높은 문제에서 상위 65백분위의 성능을 발휘할 정도로 성능 향상
- Gemini는 수학, 코딩 등 복잡한 작업도 고차원의 반복적 사고와 연산 분배를 통해 점진적으로 푸는 구조로 진화 중임
- 인간 수학자 라마누잔 사례처럼, 적은 데이터로 깊은 내적 추론을 통해 새로운 지식을 창출하는 AI 구현이 장기적 비전으로 제시됨
세부 요약 - 주제별 정리
AI 발전은 ‘지능의 병목’과 해소의 반복으로 이뤄졌음을 다양한 역사적 사례로 보여줌
- 발표는 ‘왜 딥씽킹(Think Deep) 연구에 흥분하는가’에서 출발해, AI 발전사를 ‘지능의 병목’ 탐지와 돌파의 연속으로 설명함
- 1948년 Claude Shannon은 수작업으로 2-그램 언어모델을 만들고, 더 나은 모델을 희망했으나, 데이터와 컴퓨터 인프라의 한계가 돌파구였음
- 2000년대 구글의 Jeff Dean 등이 수조 단어 단위 엔그램 모델을 구축, 당시 음성인식·번역 시스템의 초석이 됐으나, 짧은 컨텍스트밖에 다루지 못하는 것이 병목이었음
- 2010년대의 RNN(순환신경망)은 문장이나 단락 등 긴 맥락의 보존이 가능했으나, 고정 크기 상태 표현의 한계로 정보 손실 발생
- 이 한계를 어텐션(attention) 메커니즘이 해결, 최종적으로 트랜스포머(transformer) 혁신으로 이어졌음
- AI 발전사는 결국 지능 창출의 병목이 어디인가를 파악하고, 이를 근본적으로 해결하는 과정임을 강조
현재 LLM들은 테스트 타임 컴퓨팅이 고정되어 추론 능력에 한계가 있음
- Gemini, ChatGPT 등의 LLM은 질의→응답의 각 인퍼런스에서 항상 고정된 규모의 연산만 사용함
- 즉, 어려운 문제든, 쉬운 문제든 동일한 ‘테스트 타임 컴퓨팅’만 적용
- 모델이 더 어렵거나 가치 있는 작업에 더 많은 계산을 할당하거나, 연산량을 동적으로 조절하는 능력은 부재했음
Gemini의 사고(Thinking) 기능은 반복적 사고 루프 삽입으로 ‘동적 연산 할당’을 가능하게 함
- Gemini의 사고 구조: 질의와 응답 사이에 ‘Thinking Stage(추론 루프)‘를 삽입해, 모델이 반복적으로 생각 과정을 거친 후 답변을 내림
- 사고 루프는 수 천, 수 만 번까지 반복될 수 있어, 어려운 문제일수록 더 많은 테스트 타임 컴퓨팅을 사용할 수 있음
- 루프의 반복 횟수는 정해진 것이 아니라, 모델이 작업 난이도에 따라 스스로 조절
- 각 사고 루프는 토큰·계산에 대한 유연한 분배와 동적인 연산 할당을 핵심 목표로 함
강화학습 기반 사고 학습은 다양한 추론 행동(가설 설정, 자기 수정 등)을 자연스럽게 유발함
- Gemini는 프리트레인(pre-train) 이후, 다양한 작업을 강화학습으로 학습하며, 성공 여부에 따라 보상/패널티를 부여
- 생각 루프 내 사용된 토큰과 연산 방법을 RL로 조정, 올바른 답을 낼 수 있도록 유도
- 실제 예시: 산술 문제에서 “이 공식은 틀리다”라고 자기 가설을 부정하고, 새로운 접근을 시도하는 등 자기 교정·실험 행동이 출현
- 이 외에도 문제를 여러 하위 단계로 쪼개기, 다수의 방안 실험, 모듈화된 코드 작성, 도구 활용 등 복잡한 전략이 자연스럽게 등장함
’사고 예산(Thinking Budget)’ 기능으로 원하는 연산량-품질-비용 트레이드오프를 세밀하게 조절 가능해짐
- 이전에는 모델의 크기에 따라 성능-비용만 매우 제한적으로 조절(불연속적 변수) 가능했음
- 사실상 품질과 비용 트레이드오프 조절이 ‘모델 선택’에 국한되어 있었음
- 사고 루프의 도입 및 ‘Thinking Budget’ 기능은 사용자가 연산량(=비용)을 연속적으로 세분화하여 조절 가능하게 함
- Flash, Pro 2.5 계열의 Gemini 모델에 사고 예산 기능이 이미 적용되어, 성능·대응 속도·비용을 유동적으로 맞출 수 있음
테스트 타임 컴퓨팅 증가가 수학, 코드 등 고차원 추론 성능 강화를 증명함
- 사고 루프 반복 횟수(테스트 타임 컴퓨팅)와 실제 수학·코드 등 다양한 시험 문제에서의 성능은 로그스케일로 상관관계가 뚜렷함
- 예: 2.0 Flash(비사고 모델) → 2.5 Pro(사고 루프 도입)로 성능 비약적 상승 확인
- 토픽별 시험(수학, 코드, 과학)에서 연산 예산 할당이 실제 추론 성능과 직결됨
Deep Think 모드 도입으로 난이도 높은 작업에서 상위권 성능 도달
- Deep Think(딥싱킹) 모드는 “초고연산 예산”이 필요한 문제에 특화된 기능으로, Pro 2.5 기반으로 개발됨
- 비동기적(Asynchronous) 사고 과정을 수분~수십분에 걸쳐 실행하며, 대학수학올림피아드(USA Math Olympiad) 등 매우 난도 높은 문제도 풀 수 있게 함
- 2023년 1월 기준 최고 모델 성능은 Math Olympiad 참가자 집단의 하위권이었으나, Pro 2.5에서는 50백분위(중위권), Deep Think는 65백분위(상위권)까지 도약
- Deep Think는 여러 ‘체인 오브 쏘트’를 병렬 실행·통합, 복잡한 수학적 추론이나 멀티모달 코드 문제 등에서 강점을 보임
사고 루프와 Deep Think는 코드 생성 및 게임 환경 모방 등 다양한 AI 작업에 새로운 도약점 제공
- 기존 딥마인드 DQN 논문(Deep Q-Network) 기반 알고리즘·환경의 구현을 Gemini가 단 몇 분 만에 ‘vibe code’(느슨한 코드 초안)로 작성한 사례 언급
- 과거 같은 환경 재현 작업이 연구자에게 수개월이 걸렸다면, 이제는 LLM의 반복적 사고로 단시간 내 설계·구현 가능해짐
- Open-ended code, one-shot code, 복잡한 인터랙션이 요구되는 작업에서 Gemini의 반복 사고-코드 생성 능력이 큰 방향성을 제시
장기적으로 인간처럼 ‘적은 정보로 깊은 내적 추론과 창조적 발견’ 가능한 AI를 추구함
- 천재 수학자 라마누잔(Ramanujan)이 단 한 권의 책에서 독창적 수학 이론을 수십 권 분량으로 확장해낸 사례를 인용
- Gemini의 사고(think) 목표: 방대한 데이터 학습 없이, 적은 단서를 중심으로 깊은 사고를 축적, 새로운 지식 및 아티팩트 제작에 도달하는 역량
- “수백만 토큰, 혹은 그 이상의 추론”이 가능하도록 사고 루프의 효율성과 구조를 계속 진화시키는 것이 연구의 중장기 목표임
Gemini 모델의 사고 효율성과 비용 절감도 동시에 적극 개선 중임
- 더 짧은 연산, 더 빠른 응답에 맞춰 모델의 사고 루프 효율화에 힘쓰고 있음
- 피드백 기반 세밀한 사고 사용·최적화(과도한 사고 방지, 빠른 수렴 등)가 중요 연구 테마
- Gemini의 “cost-effectiveness”에 자부심을 표환, 더 효율적이고 저렴한 사고 루프 구조로 발전시킨다는 점 강조
사고 루프 확장은 사전학습/후처리와 병행적·승수적 성능 향상을 이룸
- 사고 루프에 연산을 더하는 것은 “사전학습 데이터/모델 용량 확장” 및 “피드백 기반 후처리”와 더불어 AI 성능 증가의 새로운 축으로 자리잡음
- 세 축을 모두 동시 강화할 때 시너지, 개발자·사용자 입장에서는 더 빠르고 광범위한 모델 개선 경험이 가능해짐
결론적으로 Gemini와 사고 기능 확장은 AI의 추론 한계와 창조적 작업 능력을 크게 넓히는 방안임을 강조
- 기존 AI의 병목(고정 연산, 부족한 추론 등)을 뛰어넘어 동적·적응적 사고 및 비용-품질 조절을 제공
- Deep Think, 사고 예산 등은 극한 난이도의 문제와 새로운 오픈엔디드 작업을 현실화
- 인간처럼 적은 정보로 깊은 사고를 통해 새로운 지식을 상상·창출하는 AI 구현이 향후 궁극적 목표임