A year of Gemini progress + what comes next - Logan Kilpatrick, Google DeepMind

10 Jul, 2025 05:18 PM

수정 요청하기

YouTube Thumbnail

영상 링크: A year of Gemini progress + what comes next — Logan Kilpatrick, Google DeepMind
채널명: AI Engineer

Gemini의 1년간 발전과 앞으로의 로드맵 핵심 요약

영상 제목은 “Gemini의 1년간 발전과 앞으로의 로드맵”으로, Google DeepMind 소속 Logan Kilpatrick이 발표함
최신 Gemini 2.5 Pro 모델의 론칭을 알리는 공지와, 성능 향상 및 벤치마크 결과(ADER, HLE 등)에서의 우수성을 강조
Gemini는 여러 DeepMind 연구팀의 다양한 결과를 집대성하여 멀티모달 메인라인 모델로 발전함
1년만에 Google 서버에서 실행되는 AI 인퍼런스가 50배 급증, 외부 개발자 생태계에서도 폭발적인 채택을 기록
조직적으로 Google AI 팀을 DeepMind 중심으로 재편하며, 모델 및 제품 개발·공급 프로세스가 일원화됨
Gemini 앱은 Google 서비스 전반을 연결하는 ‘유니버설 어시스턴트’로, 앞으로 더욱 주도적이고 통합적인 역할을 목표로 함
목소리 합성(TTS), 오디오·비디오 지원 등 멀티모달 특성이 지속적으로 강화되고 있으며, 신규 ‘Gemini Live’, VO 지원 등 다양한 혁신 적용
제품팀 및 연구팀의 긴밀한 협력으로 신규 모델, 소형·대형 모델, 무한 컨텍스트 지원 등 폭넓은 개발 추진 중임을 분명히 함
임베딩, Deep Research API, V3·Imagine 4 API, AI Studio의 정체성 전환(소비자앱→개발자 플랫폼) 등 플랫폼 차원의 변화가 예고됨
사용자·개발자 피드백을 적극 수렴·적용하며 Gemini 발전을 지속할 것임을 강조

세부 요약 – 주제별 정리

최신 Gemini 2.5 Pro 모델 발표와 그 의의

오늘 공식적으로 새로운 Gemini 모델(2.5 Pro)이 출시됨을 알림 (트윗으로 곧 공지 예정)
2.5 Pro 모델은 ADER, HLE 등 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성함
이전 버전에서 제기된 피드백과 성능 격차를 해소했으며 ‘최종’ 2.5 Pro 업데이트가 되기를 기대함
내부적으로, 그리고 개발자 커뮤니티에서도 2.5 Pro의 등장은 Gemini 발전의 ‘터닝포인트’로 평가됨
ai.dev, Gemini 앱 등에서 즉시 체험 가능하며, 지속적인 피드백 수렴 및 개선 약속

Gemini 모델 1년의 폭발적 성장과 발전상

Google IO 2024 행사에서 Sundar Pichai가 Gemini의 지난 1년간 성장폭을 강조하는 슬라이드를 공개함
지난 12개월 동안 DeepMind의 다양한 연구 성과가 결집되어 Gemini 메인라인 모델의 급진적 발전이 이뤄짐
AlphaProof, AlphaGeometry 등 개별 맞춤형 모델 연구가 메인라인 성능 개선에 기여
혁신의 ‘속도’ 뿐 아니라 ‘채택률’도 비약적으로 증가: 지난 한 해 AI 인퍼런스 처리량이 50배 증가
외부(서드파티) 개발자 생태계와 파트너십 확대도 주요 성장 동력

DeepMind 중심의 조직 재편이 Gemini 발전의 기초가 됨

2023년 초·말 Google 내 여러 AI 팀들이 DeepMind로 통합, 전략적 방향성을 새롭게 설정함
DeepMind는 이론적 연구 뿐 아니라 모델·제품 구축 및 대내외 공급 역할을 통합적으로 수행하게 됨
이어서 Products 팀까지 흡수, 모델연구–제품개발–서비스 전 과정이 DeepMind에 집중
Gemini 앱, Gemini API 등 연구·개발·서비스가 하나의 협업 구조에서 빠르게 전개됨

Gemini 앱은 Google 전체를 통합하는 핵심 스레드로 발전함

Gemini 앱은 ‘유니버설 어시스턴트’ 목적을 지향하며 Google 전체 서비스의 실질적 연계를 추진
과거의 ‘Google 계정’이 단순히 로그인 정보를 통합했다면, Gemini는 실질적 서비스 연결의 역할까지 확대함
미래에는 Gemini가 Google 내 모든 서비스에서 사용자를 잇는 핵심 ‘스레드’로 기능할 것으로 기대
앱의 ‘프로액티브(proactive, 사용자 주도 지원)’ 특성을 중점적으로 고도화할 방침

멀티모달 및 옴니모델(Omnimodal) 지향이 가속화됨

Gemini는 출시 초기부터 오디오, 이미지, 비디오 등 멀티모달 지원을 핵심으로 설계됨
올해 Google IO에서 TTS(음성합성), 네이티브 오디오 입력 등 본격적 오디오 지원을 발표
이 기술은 Astro, Gemini Live 등 신제품에 바로 적용됨
VO 모델의 폭발적인 인기도 언급(“TPU가 타들어가는 수준의 수요”)
Diffusion 기반 실험(1초당 폭발적 토큰 생성)은 연구 단계로, 향후 본 모델에 통합될 여지 남김

모델 자체가 점점 더 ‘에이전트’처럼 지능적으로 진화함

기존에는 생성형 모델이 단순히 “입력→출력”의 토큰 주고받기 역할이었다면, 최근에는 스스로가 점차 ‘시스템적’으로 복잡한 작업·추론을 수행
“스캐폴딩(Scaffolding)”이 요구되던 과거와 달리, 향후에는 모델의 ‘추론 단계’에 많은 기능이 내재될 전망
Jack(DeepMind)의 ‘스케일업된 추론(reasoning)’ 관련 발표를 예고
소형 모델, 대형 모델 등 다양한 스펙트럼의 Gemini 신규 모델도 준비 중임을 언급
“무한 컨텍스트(infinite context)” 지원 등 차세대 AI 아키텍처 연구 병행

사용자·개발자 피드백을 실시간 반영하며 플랫폼을 진화시킴

Gemini 앱 피드백·이슈는 Josh(제작팀 리더)에게 트위터 태그할 것을 안내, 적극적 소통 강조
모델 이슈 및 아이디어 건의는 Tulsi(모델 상품 리더) 담당자 언급
실제로 많은 사용 피드백을 받아 신속한 기능 개선이 이루어지고 있음을 자랑

임베딩, Deep Research API 등 개발자용 신규 도구 공개 예정

‘Embeddings’가 RAG 기반 앱 등에서 여전히 핵심적이며 Gemini Embeddings도 SOTA임을 강조
임베딩 모델, 수 주 내에 전체 개발자 대상으로 단계적 확장 전망
‘Deep Research API’: 연구 중심 태스크를 지원하는 새로운 API 제공 예고, 인기 높은 소비자 제품 경험 통합 지향
V3, Imagine 4 등의 API도 곧 출시 예정(구체적 시기는 미정, 매우 가깝다고 언급)

AI Studio는 명확히 ‘개발자 플랫폼’으로 정체성을 전환함

기존 소비자 친화적 UI·UX에서 완전히 개발자 중심 플랫폼으로 포지셔닝 변화 진행
개발자를 위한 feature(에이전트 통합, Jewels, 코딩 에이전트 등)를 Native하게 제공 예정
여러 차례의 ‘뉴 이터레이션’(새 버전) 출시를 예고, 혁신적인 개발 경험 설계에 집중할 계획임

연구·제품팀의 협업 및 앞으로의 비전, 그리고 지속적 혁신 의지

DeepMind 소속 각 팀의 유기적 협업이 실질적 혁신으로 이어지고 있음을 언급
‘최고의 인재 결집–인프라 강점 확보–빠른 배포’라는 단순 공식이 큰 효율을 내고 있다고 자평
앞으로도 사용자의 다양한 의견을 적극 수렴해 Gemini 플랫폼을 꾸준히 발전시킬 것을 약속함

결론 및 마무리 발언

Gemini 발전은 아직 초입 단계이며, 다양한 신기술 및 플랫폼의 빠른 진화를 강조
사용자의 지속적 피드백과 관심을 통해 Gemini가 모두를 위한 최고의 AI가 되도록 노력할 것임을 재확인
질의응답 및 피드백 채널을 열어 두겠다고 마무리하며, 모든 노력은 Gemini 엔지니어링·생태계 전체의 성공을 위한 것임을 밝힘

수정 요청하기

공유하기

Build and Ship Any MCP Server in MINUTES (Full Guide)

2025 in LLMs so far, illustrated by Pelicans on Bicycles - Simon Willison