
영상 링크: A year of Gemini progress + what comes next — Logan Kilpatrick, Google DeepMind
채널명: AI Engineer
Gemini의 1년간 발전과 앞으로의 로드맵 핵심 요약
- 영상 제목은 “Gemini의 1년간 발전과 앞으로의 로드맵”으로, Google DeepMind 소속 Logan Kilpatrick이 발표함
- 최신 Gemini 2.5 Pro 모델의 론칭을 알리는 공지와, 성능 향상 및 벤치마크 결과(ADER, HLE 등)에서의 우수성을 강조
- Gemini는 여러 DeepMind 연구팀의 다양한 결과를 집대성하여 멀티모달 메인라인 모델로 발전함
- 1년만에 Google 서버에서 실행되는 AI 인퍼런스가 50배 급증, 외부 개발자 생태계에서도 폭발적인 채택을 기록
- 조직적으로 Google AI 팀을 DeepMind 중심으로 재편하며, 모델 및 제품 개발·공급 프로세스가 일원화됨
- Gemini 앱은 Google 서비스 전반을 연결하는 ‘유니버설 어시스턴트’로, 앞으로 더욱 주도적이고 통합적인 역할을 목표로 함
- 목소리 합성(TTS), 오디오·비디오 지원 등 멀티모달 특성이 지속적으로 강화되고 있으며, 신규 ‘Gemini Live’, VO 지원 등 다양한 혁신 적용
- 제품팀 및 연구팀의 긴밀한 협력으로 신규 모델, 소형·대형 모델, 무한 컨텍스트 지원 등 폭넓은 개발 추진 중임을 분명히 함
- 임베딩, Deep Research API, V3·Imagine 4 API, AI Studio의 정체성 전환(소비자앱→개발자 플랫폼) 등 플랫폼 차원의 변화가 예고됨
- 사용자·개발자 피드백을 적극 수렴·적용하며 Gemini 발전을 지속할 것임을 강조
세부 요약 – 주제별 정리
최신 Gemini 2.5 Pro 모델 발표와 그 의의
- 오늘 공식적으로 새로운 Gemini 모델(2.5 Pro)이 출시됨을 알림 (트윗으로 곧 공지 예정)
- 2.5 Pro 모델은 ADER, HLE 등 주요 벤치마크에서 SOTA(State-of-the-Art) 성능을 달성함
- 이전 버전에서 제기된 피드백과 성능 격차를 해소했으며 ‘최종’ 2.5 Pro 업데이트가 되기를 기대함
- 내부적으로, 그리고 개발자 커뮤니티에서도 2.5 Pro의 등장은 Gemini 발전의 ‘터닝포인트’로 평가됨
- ai.dev, Gemini 앱 등에서 즉시 체험 가능하며, 지속적인 피드백 수렴 및 개선 약속
Gemini 모델 1년의 폭발적 성장과 발전상
- Google IO 2024 행사에서 Sundar Pichai가 Gemini의 지난 1년간 성장폭을 강조하는 슬라이드를 공개함
- 지난 12개월 동안 DeepMind의 다양한 연구 성과가 결집되어 Gemini 메인라인 모델의 급진적 발전이 이뤄짐
- AlphaProof, AlphaGeometry 등 개별 맞춤형 모델 연구가 메인라인 성능 개선에 기여
- 혁신의 ‘속도’ 뿐 아니라 ‘채택률’도 비약적으로 증가: 지난 한 해 AI 인퍼런스 처리량이 50배 증가
- 외부(서드파티) 개발자 생태계와 파트너십 확대도 주요 성장 동력
DeepMind 중심의 조직 재편이 Gemini 발전의 기초가 됨
- 2023년 초·말 Google 내 여러 AI 팀들이 DeepMind로 통합, 전략적 방향성을 새롭게 설정함
- DeepMind는 이론적 연구 뿐 아니라 모델·제품 구축 및 대내외 공급 역할을 통합적으로 수행하게 됨
- 이어서 Products 팀까지 흡수, 모델연구–제품개발–서비스 전 과정이 DeepMind에 집중
- Gemini 앱, Gemini API 등 연구·개발·서비스가 하나의 협업 구조에서 빠르게 전개됨
Gemini 앱은 Google 전체를 통합하는 핵심 스레드로 발전함
- Gemini 앱은 ‘유니버설 어시스턴트’ 목적을 지향하며 Google 전체 서비스의 실질적 연계를 추진
- 과거의 ‘Google 계정’이 단순히 로그인 정보를 통합했다면, Gemini는 실질적 서비스 연결의 역할까지 확대함
- 미래에는 Gemini가 Google 내 모든 서비스에서 사용자를 잇는 핵심 ‘스레드’로 기능할 것으로 기대
- 앱의 ‘프로액티브(proactive, 사용자 주도 지원)’ 특성을 중점적으로 고도화할 방침
멀티모달 및 옴니모델(Omnimodal) 지향이 가속화됨
- Gemini는 출시 초기부터 오디오, 이미지, 비디오 등 멀티모달 지원을 핵심으로 설계됨
- 올해 Google IO에서 TTS(음성합성), 네이티브 오디오 입력 등 본격적 오디오 지원을 발표
- 이 기술은 Astro, Gemini Live 등 신제품에 바로 적용됨
- VO 모델의 폭발적인 인기도 언급(“TPU가 타들어가는 수준의 수요”)
- Diffusion 기반 실험(1초당 폭발적 토큰 생성)은 연구 단계로, 향후 본 모델에 통합될 여지 남김
모델 자체가 점점 더 ‘에이전트’처럼 지능적으로 진화함
- 기존에는 생성형 모델이 단순히 “입력→출력”의 토큰 주고받기 역할이었다면, 최근에는 스스로가 점차 ‘시스템적’으로 복잡한 작업·추론을 수행
- “스캐폴딩(Scaffolding)”이 요구되던 과거와 달리, 향후에는 모델의 ‘추론 단계’에 많은 기능이 내재될 전망
- Jack(DeepMind)의 ‘스케일업된 추론(reasoning)’ 관련 발표를 예고
- 소형 모델, 대형 모델 등 다양한 스펙트럼의 Gemini 신규 모델도 준비 중임을 언급
- “무한 컨텍스트(infinite context)” 지원 등 차세대 AI 아키텍처 연구 병행
사용자·개발자 피드백을 실시간 반영하며 플랫폼을 진화시킴
- Gemini 앱 피드백·이슈는 Josh(제작팀 리더)에게 트위터 태그할 것을 안내, 적극적 소통 강조
- 모델 이슈 및 아이디어 건의는 Tulsi(모델 상품 리더) 담당자 언급
- 실제로 많은 사용 피드백을 받아 신속한 기능 개선이 이루어지고 있음을 자랑
임베딩, Deep Research API 등 개발자용 신규 도구 공개 예정
- ‘Embeddings’가 RAG 기반 앱 등에서 여전히 핵심적이며 Gemini Embeddings도 SOTA임을 강조
- 임베딩 모델, 수 주 내에 전체 개발자 대상으로 단계적 확장 전망
- ‘Deep Research API’: 연구 중심 태스크를 지원하는 새로운 API 제공 예고, 인기 높은 소비자 제품 경험 통합 지향
- V3, Imagine 4 등의 API도 곧 출시 예정(구체적 시기는 미정, 매우 가깝다고 언급)
AI Studio는 명확히 ‘개발자 플랫폼’으로 정체성을 전환함
- 기존 소비자 친화적 UI·UX에서 완전히 개발자 중심 플랫폼으로 포지셔닝 변화 진행
- 개발자를 위한 feature(에이전트 통합, Jewels, 코딩 에이전트 등)를 Native하게 제공 예정
- 여러 차례의 ‘뉴 이터레이션’(새 버전) 출시를 예고, 혁신적인 개발 경험 설계에 집중할 계획임
연구·제품팀의 협업 및 앞으로의 비전, 그리고 지속적 혁신 의지
- DeepMind 소속 각 팀의 유기적 협업이 실질적 혁신으로 이어지고 있음을 언급
- ‘최고의 인재 결집–인프라 강점 확보–빠른 배포’라는 단순 공식이 큰 효율을 내고 있다고 자평
- 앞으로도 사용자의 다양한 의견을 적극 수렴해 Gemini 플랫폼을 꾸준히 발전시킬 것을 약속함
결론 및 마무리 발언
- Gemini 발전은 아직 초입 단계이며, 다양한 신기술 및 플랫폼의 빠른 진화를 강조
- 사용자의 지속적 피드백과 관심을 통해 Gemini가 모두를 위한 최고의 AI가 되도록 노력할 것임을 재확인
- 질의응답 및 피드백 채널을 열어 두겠다고 마무리하며, 모든 노력은 Gemini 엔지니어링·생태계 전체의 성공을 위한 것임을 밝힘