Thinking Deeper in Gemini - Jack Rae, Google DeepMind

영상 링크: Thinking Deeper in Gemini — Jack Rae, Google DeepMind
채널명: AI Engineer

Gemini에서의 딥싱킹: 구글 딥마인드 Jack Rae의 심층적 사고 접근 핵심 요약

Google DeepMind의 연구원이자 Gemini 사고(Thinking) 기능의 기술 리드인 Jack Rae가 Gemini 모델에서 ‘생각하는’ 메커니즘 및 그 연구 의의에 대해 발표함
AI 발전사는 ‘지능의 병목 발견 → 해결’의 반복 기록이며, Gemini에서의 사고도 이 흐름을 잇고 있음
클로드 섀넌(1948)의 2-그램(ngram) 언어모델부터 딥러닝, RNN, 어텐션, 트랜스포머 등 주요한 병목 → 혁신의 사례들을 역사적으로 조명
현재 모델(Gemini, ChatGPT 등)은 테스트 타임(test time)에서 고정된 컴퓨팅만 사용하며, 요구에 따라 연산량을 조절하거나 깊은 추론을 장기간 반복하는 능력에 제한이 있었음
Gemini의 ‘생각’ 단계는 중간에 반복적 사고회로(thinking loop)를 삽입, 강화학습(reinforcement learning) 기반으로 추가연산을 할당해 더 깊고 질 높은 답변을 유도함
실제로 모델이 자기 가설을 세우고, 검증하며, 오류를 자가 수정하는 등 다양한 추론 행동이 강화학습 과정에서 자연스럽게 발생함을 시각적·구체적 예시로 설명
사용자는 문제의 난이도에 따라 연산 예산(think budget)을 연속적으로 세밀하게 조정할 수 있게 되었으며, Pro 2.5 및 Flash 등 최신 모델에 이미 적용됨
딥싱킹(Deep Think) 등 고비용·고성능 모드를 도입, Math Olympiad 등 난이도 높은 문제에서 상위 65백분위의 성능을 발휘할 정도로 성능 향상
Gemini는 수학, 코딩 등 복잡한 작업도 고차원의 반복적 사고와 연산 분배를 통해 점진적으로 푸는 구조로 진화 중임
인간 수학자 라마누잔 사례처럼, 적은 데이터로 깊은 내적 추론을 통해 새로운 지식을 창출하는 AI 구현이 장기적 비전으로 제시됨

세부 요약 - 주제별 정리

AI 발전은 ‘지능의 병목’과 해소의 반복으로 이뤄졌음을 다양한 역사적 사례로 보여줌

발표는 ‘왜 딥씽킹(Think Deep) 연구에 흥분하는가’에서 출발해, AI 발전사를 ‘지능의 병목’ 탐지와 돌파의 연속으로 설명함
1948년 Claude Shannon은 수작업으로 2-그램 언어모델을 만들고, 더 나은 모델을 희망했으나, 데이터와 컴퓨터 인프라의 한계가 돌파구였음
2000년대 구글의 Jeff Dean 등이 수조 단어 단위 엔그램 모델을 구축, 당시 음성인식·번역 시스템의 초석이 됐으나, 짧은 컨텍스트밖에 다루지 못하는 것이 병목이었음
2010년대의 RNN(순환신경망)은 문장이나 단락 등 긴 맥락의 보존이 가능했으나, 고정 크기 상태 표현의 한계로 정보 손실 발생
이 한계를 어텐션(attention) 메커니즘이 해결, 최종적으로 트랜스포머(transformer) 혁신으로 이어졌음
AI 발전사는 결국 지능 창출의 병목이 어디인가를 파악하고, 이를 근본적으로 해결하는 과정임을 강조

현재 LLM들은 테스트 타임 컴퓨팅이 고정되어 추론 능력에 한계가 있음

Gemini, ChatGPT 등의 LLM은 질의→응답의 각 인퍼런스에서 항상 고정된 규모의 연산만 사용함
즉, 어려운 문제든, 쉬운 문제든 동일한 ‘테스트 타임 컴퓨팅’만 적용
모델이 더 어렵거나 가치 있는 작업에 더 많은 계산을 할당하거나, 연산량을 동적으로 조절하는 능력은 부재했음

Gemini의 사고(Thinking) 기능은 반복적 사고 루프 삽입으로 ‘동적 연산 할당’을 가능하게 함

Gemini의 사고 구조: 질의와 응답 사이에 ‘Thinking Stage(추론 루프)‘를 삽입해, 모델이 반복적으로 생각 과정을 거친 후 답변을 내림
사고 루프는 수 천, 수 만 번까지 반복될 수 있어, 어려운 문제일수록 더 많은 테스트 타임 컴퓨팅을 사용할 수 있음
루프의 반복 횟수는 정해진 것이 아니라, 모델이 작업 난이도에 따라 스스로 조절
각 사고 루프는 토큰·계산에 대한 유연한 분배와 동적인 연산 할당을 핵심 목표로 함

강화학습 기반 사고 학습은 다양한 추론 행동(가설 설정, 자기 수정 등)을 자연스럽게 유발함

Gemini는 프리트레인(pre-train) 이후, 다양한 작업을 강화학습으로 학습하며, 성공 여부에 따라 보상/패널티를 부여
생각 루프 내 사용된 토큰과 연산 방법을 RL로 조정, 올바른 답을 낼 수 있도록 유도
실제 예시: 산술 문제에서 “이 공식은 틀리다”라고 자기 가설을 부정하고, 새로운 접근을 시도하는 등 자기 교정·실험 행동이 출현
이 외에도 문제를 여러 하위 단계로 쪼개기, 다수의 방안 실험, 모듈화된 코드 작성, 도구 활용 등 복잡한 전략이 자연스럽게 등장함

’사고 예산(Thinking Budget)’ 기능으로 원하는 연산량-품질-비용 트레이드오프를 세밀하게 조절 가능해짐

이전에는 모델의 크기에 따라 성능-비용만 매우 제한적으로 조절(불연속적 변수) 가능했음
사실상 품질과 비용 트레이드오프 조절이 ‘모델 선택’에 국한되어 있었음
사고 루프의 도입 및 ‘Thinking Budget’ 기능은 사용자가 연산량(=비용)을 연속적으로 세분화하여 조절 가능하게 함
Flash, Pro 2.5 계열의 Gemini 모델에 사고 예산 기능이 이미 적용되어, 성능·대응 속도·비용을 유동적으로 맞출 수 있음

테스트 타임 컴퓨팅 증가가 수학, 코드 등 고차원 추론 성능 강화를 증명함

사고 루프 반복 횟수(테스트 타임 컴퓨팅)와 실제 수학·코드 등 다양한 시험 문제에서의 성능은 로그스케일로 상관관계가 뚜렷함
예: 2.0 Flash(비사고 모델) → 2.5 Pro(사고 루프 도입)로 성능 비약적 상승 확인
토픽별 시험(수학, 코드, 과학)에서 연산 예산 할당이 실제 추론 성능과 직결됨

Deep Think 모드 도입으로 난이도 높은 작업에서 상위권 성능 도달

Deep Think(딥싱킹) 모드는 “초고연산 예산”이 필요한 문제에 특화된 기능으로, Pro 2.5 기반으로 개발됨
비동기적(Asynchronous) 사고 과정을 수분~수십분에 걸쳐 실행하며, 대학수학올림피아드(USA Math Olympiad) 등 매우 난도 높은 문제도 풀 수 있게 함
2023년 1월 기준 최고 모델 성능은 Math Olympiad 참가자 집단의 하위권이었으나, Pro 2.5에서는 50백분위(중위권), Deep Think는 65백분위(상위권)까지 도약
Deep Think는 여러 ‘체인 오브 쏘트’를 병렬 실행·통합, 복잡한 수학적 추론이나 멀티모달 코드 문제 등에서 강점을 보임

사고 루프와 Deep Think는 코드 생성 및 게임 환경 모방 등 다양한 AI 작업에 새로운 도약점 제공

기존 딥마인드 DQN 논문(Deep Q-Network) 기반 알고리즘·환경의 구현을 Gemini가 단 몇 분 만에 ‘vibe code’(느슨한 코드 초안)로 작성한 사례 언급
과거 같은 환경 재현 작업이 연구자에게 수개월이 걸렸다면, 이제는 LLM의 반복적 사고로 단시간 내 설계·구현 가능해짐
Open-ended code, one-shot code, 복잡한 인터랙션이 요구되는 작업에서 Gemini의 반복 사고-코드 생성 능력이 큰 방향성을 제시

장기적으로 인간처럼 ‘적은 정보로 깊은 내적 추론과 창조적 발견’ 가능한 AI를 추구함

천재 수학자 라마누잔(Ramanujan)이 단 한 권의 책에서 독창적 수학 이론을 수십 권 분량으로 확장해낸 사례를 인용
Gemini의 사고(think) 목표: 방대한 데이터 학습 없이, 적은 단서를 중심으로 깊은 사고를 축적, 새로운 지식 및 아티팩트 제작에 도달하는 역량
“수백만 토큰, 혹은 그 이상의 추론”이 가능하도록 사고 루프의 효율성과 구조를 계속 진화시키는 것이 연구의 중장기 목표임

Gemini 모델의 사고 효율성과 비용 절감도 동시에 적극 개선 중임

더 짧은 연산, 더 빠른 응답에 맞춰 모델의 사고 루프 효율화에 힘쓰고 있음
피드백 기반 세밀한 사고 사용·최적화(과도한 사고 방지, 빠른 수렴 등)가 중요 연구 테마
Gemini의 “cost-effectiveness”에 자부심을 표환, 더 효율적이고 저렴한 사고 루프 구조로 발전시킨다는 점 강조

사고 루프 확장은 사전학습/후처리와 병행적·승수적 성능 향상을 이룸

사고 루프에 연산을 더하는 것은 “사전학습 데이터/모델 용량 확장” 및 “피드백 기반 후처리”와 더불어 AI 성능 증가의 새로운 축으로 자리잡음
세 축을 모두 동시 강화할 때 시너지, 개발자·사용자 입장에서는 더 빠르고 광범위한 모델 개선 경험이 가능해짐

결론적으로 Gemini와 사고 기능 확장은 AI의 추론 한계와 창조적 작업 능력을 크게 넓히는 방안임을 강조

기존 AI의 병목(고정 연산, 부족한 추론 등)을 뛰어넘어 동적·적응적 사고 및 비용-품질 조절을 제공
Deep Think, 사고 예산 등은 극한 난이도의 문제와 새로운 오픈엔디드 작업을 현실화
인간처럼 적은 정보로 깊은 사고를 통해 새로운 지식을 상상·창출하는 AI 구현이 향후 궁극적 목표임