영상 링크: Is Gemini 3 Really the Best AI Ever?
채널명: Cole Medin
Gemini 3는 정말 역대 최고 AI인가? 핵심 요약
- Google이 공개한 Gemini 3가 주간 AI 업계의 중대한 뉴스로 다뤄짐
- 발표와 동시에 다양한 벤치마크에서 최고의 성능을 보여준다는 ‘하이프’가 형성
- 실제 현장 활용, 특히 AI 코딩 보조 도구 맥락에서는 벤치마크와 무관하게 체감 성능에는 큰 차이가 없다고 지적
- 예시로, 대형 오픈소스 프로젝트 핵심 기여자 생산성을 측정한 연구에 따르면 최근 LLM의 성능 향상은 개발자 생산성과 직결되지 않음
- 저자가 과거 버전인 Claude Sonnet 3.5 사용 시점과 최신 4.5 및 Gemini 3를 도입한 현재 모두 우수한 결과를 경험했으며, 이는 LLM 자체보다는 주변 도구·시스템 영향이 크다고 분석
- Google의 새로운 AI IDE인 ‘Antigravity’에서 Gemini 3와 크롬 통합 등 첨단 기능이 실제 현장 문제 해결에 중요한 역할을 함을 시연
- 실시간 사이트 분석, 시각적 피드백 등 환경적 기능 혁신이 LLM 자체 성능보다 더 체감 효과를 크게 만듦
- 벤치마크만으로 LLM의 실제 능력을 평가하기 어렵기에, 오픈소스 실제 코드 작업 기반의 ‘클라인벤치(Kleinbench)‘가 현실적 대안으로 소개됨
- 클라인벤치는 실제 엔지니어의 오픈소스 리포지토리 활동 데이터를 활용해 신뢰할 수 있는 LLM 성능 평가를 목표로 함
- 결론적으로, 벤치마크 수치가 아닌 실전 과제 중심의 평가로 LLM과 도구의 실제 효과를 판단하는 것이 중요하다고 주장
세부 요약 - 주제별 정리
AI LLM의 새로운 공개는 과장된 벤치마크를 동반하며 체감 성능과 괴리가 존재함
- Google의 Gemini 3 공개가 “역대 최고 AI”라는 마케팅적 벤치마크와 함께 주목받음
- 새로운 LLM이 발표될 때마다 업계는 벤치마크 수치 중심의 대대적 홍보를 반복
- 실제로 AI 코딩 사용 등 응용에서는 벤치마크와 체감 성능 간에 큰 간극이 존재
- LLM의 기능이 ‘폭발적’으로 개선된다는 홍보에도 불구하고, 개발자들이 직접 써보면 기대에 못 미치는 경우가 많음
- 기존 Claude Sonnet 4.5가 코딩에 가장 좋다는 공감대처럼, ‘최고 LLM’도 지속적으로 교체됨
- 대부분의 사용 평가는 대중의 체험 축적과 시간이 절대적으로 필요하며, 벤치마크만으론 한계가 존재
개발자 생산성 데이터와 실제 AI 코딩 도입 효과는 다소 미미함
- 최근 LLM 발전 곡선이 가파르지만, 개발자 생산성(특히 대규모 오픈소스 프로젝트 주요 기여자 기준)은 거의 정체
- 연구에서 LLM의 발전이 실제 생산성에 직접적 영향을 미치지 못한 것으로 나타남
- 저자의 개인 경험에서도 LLM이 발전했다기보다는, 사용하는 도구(IDE, 시스템) 진화가 더 큰 영향을 미침
- Sonnet 3.5(이전 세대 모델)만 이용해도 무(無)AI 대비 큰 코드 작성 속도 향상을 경험함
- 최신 LLM 도입이 직접적으로 극적인 도약을 의미하지는 않음
도구와 시스템의 발전이 LLM의 실제 체감 품질을 좌우함
- AI 코딩 경험 개선의 본질이 LLM 자체가 아닌 그 위에 구축된 시스템·툴에 있다는 점을 강조
- 기존에 사용한 Windsurf와 연동된 Claude Sonnet 구버전에서도 현재와 큰 차이 없는 개발 효율을 경험
- 새로운 도구 및 워크플로우가 체감 효율에 미치는 영향이 큼
- 도구 발전에 따라 같은 LLM이라도 성능·효과가 체감적으로 달라질 수 있음을 지적
Google의 ‘Antigravity’ IDE에서 Gemini 3의 실제 적용과 혁신적 기능 시연
- Google이 발표한 새로운 AI IDE인 ‘Antigravity’가 Gemini 3와 기본 연동됨
- Antigravity는 디자인, 프론트엔드 구성에서 Gemini 3가 새로운 가능성을 보여줌
- 크롬 통합 기능을 활용해 코딩 보조가 직접 웹사이트를 띄우고, 시각적으로 검사 및 제안 가능
- 코드베이스 분석 후 프론트엔드 자동 기동, 사이트 스크롤 및 개선 제안 등 실시간 상호작용 가능
- Gemini 3의 비전(시각) 처리 능력과 브라우저 자율 탐색 기능이 결합
- 웹사이트를 실제로 띄워 스크린샷을 자동 촬영, 유저가 플레이백 관찰(마우스 클릭, 스크롤 등)
- 장애 예시: 일정 작업에서 ‘overload error’ 빈번 발생, 반복 요청이 필요함도 언급
- 이러한 도구 통합 혁신이 실제 업무에서 LLM 고유 성능보다 더 큰 영향을 미침
Antigravity와 기존 자동화/에이전트 시스템과의 비교 및 평가
- Antigravity의 크롬 통합 기능은 Playright, Stage Hand MCP 서버와 유사하지만, Antigravity 전용 최적화가 돋보임
- 예를 들어, 페이지 렌더링을 위해 스크린샷 5초 대기 등 세심한 시스템 프롬프트 설계 내장
- IDE 내에서 실시간으로 스크린샷, 플레이백, 코멘트 등 다양한 피드백 기능 구현
- Agent Manager 모드는 코드 파일 없이 대화 기반 협업 및 병렬 작업 관리 등 진보된 프로젝트 운영 가능
- 코드 라인별 코멘트(전통적 코드 리뷰) 기능도 내장
현행 벤치마크의 한계를 극복하기 위한 ‘Kleinbench’의 실전 과제 기반 평가 시스템 소개
- 기존 벤치마크(예:Lecode 문제풀이)는 실제 엔지니어링 업무와 동떨어져 있음
- Kleinbench는 GitHub 등 오픈소스 리포지토리의 실제 작업 과정을 수집해 LLM 성능을 평가함
- 사용자는 개인정보 보호 기반으로 옵트인하여, 프롬프트 및 사용 과정이 기록됨(개인 저장소는 적용 제한)
- 평가 항목: 시작 시점 리포지토리 스냅샷, AI 프롬프트 내용, 최종 커밋 결과 세 가지 정보만 필요
- 단일 프롬프트뿐 아니라 복수 프롬프트-작업도 지원 가능
- 실제 엔지니어별로 사용하는 도구·시스템이 달라 결과에 영향을 미칠 수 있음을 인정
- Agentic Engineering Environment 표준화를 통해 결과 신뢰성 확보 시도
신뢰 가능한 성능 측정을 위해 ‘실제 작업 기반 평가’로 방향 전환이 필요함
- LLM 발전의 실효성 판단을 위해선 실제 애플리케이션/개발 환경에서의 효과 측정이 반드시 필요
- Kleinbench처럼 현장 실전 데이터를 기반으로 도구·시스템 영향력까지 고려할 수 있어야 함
- 궁극적 목표는 개발자/팀이 자신에게 맞는 LLM과 도구를 현실적으로 평가 및 선정하는 데 있음
- Kleinbench를 예시로 들었지만 특정 업체가 표준이 되는 것 자체가 목적은 아님
- 다양한 실제 과제를 기반으로 한 평가지향 전환의 필요성을 강조
기타: 라이브스트림 이벤트 및 채널 안내
- 저자는 11월 29일 오전 9시(중부 표준시) 실시간 스트리밍 예고
- 현장에서 직접 개발 중인 리모트 에이전틱 코딩 시스템을 공개(오직 라이브 진행 중 배포)
- AI 코딩 관련 추가 콘텐츠 및 정보 제공을 위해 채널 구독·좋아요 요청