Is Gemini 3 Really the Best AI Ever?

영상 링크: Is Gemini 3 Really the Best AI Ever?
채널명: Cole Medin

Gemini 3는 정말 역대 최고 AI인가? 핵심 요약

Google이 공개한 Gemini 3가 주간 AI 업계의 중대한 뉴스로 다뤄짐
발표와 동시에 다양한 벤치마크에서 최고의 성능을 보여준다는 ‘하이프’가 형성
실제 현장 활용, 특히 AI 코딩 보조 도구 맥락에서는 벤치마크와 무관하게 체감 성능에는 큰 차이가 없다고 지적
예시로, 대형 오픈소스 프로젝트 핵심 기여자 생산성을 측정한 연구에 따르면 최근 LLM의 성능 향상은 개발자 생산성과 직결되지 않음
저자가 과거 버전인 Claude Sonnet 3.5 사용 시점과 최신 4.5 및 Gemini 3를 도입한 현재 모두 우수한 결과를 경험했으며, 이는 LLM 자체보다는 주변 도구·시스템 영향이 크다고 분석
Google의 새로운 AI IDE인 ‘Antigravity’에서 Gemini 3와 크롬 통합 등 첨단 기능이 실제 현장 문제 해결에 중요한 역할을 함을 시연
실시간 사이트 분석, 시각적 피드백 등 환경적 기능 혁신이 LLM 자체 성능보다 더 체감 효과를 크게 만듦
벤치마크만으로 LLM의 실제 능력을 평가하기 어렵기에, 오픈소스 실제 코드 작업 기반의 ‘클라인벤치(Kleinbench)‘가 현실적 대안으로 소개됨
클라인벤치는 실제 엔지니어의 오픈소스 리포지토리 활동 데이터를 활용해 신뢰할 수 있는 LLM 성능 평가를 목표로 함
결론적으로, 벤치마크 수치가 아닌 실전 과제 중심의 평가로 LLM과 도구의 실제 효과를 판단하는 것이 중요하다고 주장

세부 요약 - 주제별 정리

AI LLM의 새로운 공개는 과장된 벤치마크를 동반하며 체감 성능과 괴리가 존재함

Google의 Gemini 3 공개가 “역대 최고 AI”라는 마케팅적 벤치마크와 함께 주목받음
새로운 LLM이 발표될 때마다 업계는 벤치마크 수치 중심의 대대적 홍보를 반복
실제로 AI 코딩 사용 등 응용에서는 벤치마크와 체감 성능 간에 큰 간극이 존재
LLM의 기능이 ‘폭발적’으로 개선된다는 홍보에도 불구하고, 개발자들이 직접 써보면 기대에 못 미치는 경우가 많음
기존 Claude Sonnet 4.5가 코딩에 가장 좋다는 공감대처럼, ‘최고 LLM’도 지속적으로 교체됨
대부분의 사용 평가는 대중의 체험 축적과 시간이 절대적으로 필요하며, 벤치마크만으론 한계가 존재

개발자 생산성 데이터와 실제 AI 코딩 도입 효과는 다소 미미함

최근 LLM 발전 곡선이 가파르지만, 개발자 생산성(특히 대규모 오픈소스 프로젝트 주요 기여자 기준)은 거의 정체
연구에서 LLM의 발전이 실제 생산성에 직접적 영향을 미치지 못한 것으로 나타남
저자의 개인 경험에서도 LLM이 발전했다기보다는, 사용하는 도구(IDE, 시스템) 진화가 더 큰 영향을 미침
Sonnet 3.5(이전 세대 모델)만 이용해도 무(無)AI 대비 큰 코드 작성 속도 향상을 경험함
최신 LLM 도입이 직접적으로 극적인 도약을 의미하지는 않음

도구와 시스템의 발전이 LLM의 실제 체감 품질을 좌우함

AI 코딩 경험 개선의 본질이 LLM 자체가 아닌 그 위에 구축된 시스템·툴에 있다는 점을 강조
기존에 사용한 Windsurf와 연동된 Claude Sonnet 구버전에서도 현재와 큰 차이 없는 개발 효율을 경험
새로운 도구 및 워크플로우가 체감 효율에 미치는 영향이 큼
도구 발전에 따라 같은 LLM이라도 성능·효과가 체감적으로 달라질 수 있음을 지적

Google의 ‘Antigravity’ IDE에서 Gemini 3의 실제 적용과 혁신적 기능 시연

Google이 발표한 새로운 AI IDE인 ‘Antigravity’가 Gemini 3와 기본 연동됨
Antigravity는 디자인, 프론트엔드 구성에서 Gemini 3가 새로운 가능성을 보여줌
크롬 통합 기능을 활용해 코딩 보조가 직접 웹사이트를 띄우고, 시각적으로 검사 및 제안 가능
코드베이스 분석 후 프론트엔드 자동 기동, 사이트 스크롤 및 개선 제안 등 실시간 상호작용 가능
Gemini 3의 비전(시각) 처리 능력과 브라우저 자율 탐색 기능이 결합
웹사이트를 실제로 띄워 스크린샷을 자동 촬영, 유저가 플레이백 관찰(마우스 클릭, 스크롤 등)
장애 예시: 일정 작업에서 ‘overload error’ 빈번 발생, 반복 요청이 필요함도 언급
이러한 도구 통합 혁신이 실제 업무에서 LLM 고유 성능보다 더 큰 영향을 미침

Antigravity와 기존 자동화/에이전트 시스템과의 비교 및 평가

Antigravity의 크롬 통합 기능은 Playright, Stage Hand MCP 서버와 유사하지만, Antigravity 전용 최적화가 돋보임
예를 들어, 페이지 렌더링을 위해 스크린샷 5초 대기 등 세심한 시스템 프롬프트 설계 내장
IDE 내에서 실시간으로 스크린샷, 플레이백, 코멘트 등 다양한 피드백 기능 구현
Agent Manager 모드는 코드 파일 없이 대화 기반 협업 및 병렬 작업 관리 등 진보된 프로젝트 운영 가능
코드 라인별 코멘트(전통적 코드 리뷰) 기능도 내장

현행 벤치마크의 한계를 극복하기 위한 ‘Kleinbench’의 실전 과제 기반 평가 시스템 소개

기존 벤치마크(예:Lecode 문제풀이)는 실제 엔지니어링 업무와 동떨어져 있음
Kleinbench는 GitHub 등 오픈소스 리포지토리의 실제 작업 과정을 수집해 LLM 성능을 평가함
사용자는 개인정보 보호 기반으로 옵트인하여, 프롬프트 및 사용 과정이 기록됨(개인 저장소는 적용 제한)
평가 항목: 시작 시점 리포지토리 스냅샷, AI 프롬프트 내용, 최종 커밋 결과 세 가지 정보만 필요
단일 프롬프트뿐 아니라 복수 프롬프트-작업도 지원 가능
실제 엔지니어별로 사용하는 도구·시스템이 달라 결과에 영향을 미칠 수 있음을 인정
Agentic Engineering Environment 표준화를 통해 결과 신뢰성 확보 시도

신뢰 가능한 성능 측정을 위해 ‘실제 작업 기반 평가’로 방향 전환이 필요함

LLM 발전의 실효성 판단을 위해선 실제 애플리케이션/개발 환경에서의 효과 측정이 반드시 필요
Kleinbench처럼 현장 실전 데이터를 기반으로 도구·시스템 영향력까지 고려할 수 있어야 함
궁극적 목표는 개발자/팀이 자신에게 맞는 LLM과 도구를 현실적으로 평가 및 선정하는 데 있음
Kleinbench를 예시로 들었지만 특정 업체가 표준이 되는 것 자체가 목적은 아님
다양한 실제 과제를 기반으로 한 평가지향 전환의 필요성을 강조

기타: 라이브스트림 이벤트 및 채널 안내

저자는 11월 29일 오전 9시(중부 표준시) 실시간 스트리밍 예고
현장에서 직접 개발 중인 리모트 에이전틱 코딩 시스템을 공개(오직 라이브 진행 중 배포)
AI 코딩 관련 추가 콘텐츠 및 정보 제공을 위해 채널 구독·좋아요 요청