
영상 링크: Benchmarks Are Memes: How What We Measure Shapes AI—and Us - Alex Duffy
채널명: AI Engineer
벤치마크는 밈이다: 우리가 무엇을 측정하느냐가 AI와 인간을 어떻게 변화시키는가 핵심 요약
- 영상은 벤치마크가 밈(meme)처럼 확산되며 AI의 발전 방향을 결정짓는 강력한 아이디어임을 강조함
- 리처드 도킨스가 제시한 밈의 정의(확산하는 아이디어)와 연결하여, 실제로 AI 벤치마크가 이런 밈 역할을 하면서 업계 전체에 영향을 미침
- AI 모델 출시 시 공개되는 벤치마크의 한계, 과거에는 중요했으나 최근에는 많은 사람들이 더 이상 벤치마크 자체에 관심을 갖지 않게 됨
- 벤치마크의 생애주기: 개인의 아이디어가 업계로 확산되어 모델 훈련과 평가의 기준이 되며, 결국 포화(saturation)에 이름
- 실제 사례(예: 펠리컨 자전거, 포켓몬 게임, SuperGLUE 등)를 통해 밈처럼 퍼진 벤치마크의 힘과 한계를 설명
- 벤치마크가 잘못 설계되면 사회적 문제(예: ChatGPT ‘동의’ 버튼 기반 학습으로 인한 왜곡)로 연결될 위험이 있음을 경고
- 좋은 벤치마크의 조건: 복합적 전략 유도, 창의성 보상, 접근성, 생성성, 진화성, 실생활 유사성 등 제시
- AI 보드게임 ‘디플로머시’ 벤치마크 사례를 기존의 정적 테스팅과 달리 역동적 사회적 상호작용 중심 평가로 소개, 다양한 모델의 특이행동 분석 결과 공유
- 사회적/윤리적/예술적 평가 기준의 필요성 및 인간의 목표 정의 중심 역할 강조
- 실생활 응용 예시(요가 강사인 어머니 사례)와 더불어, 누구나 의미 있는 벤치마크를 제안할 책임과 기회가 있음을 독려
세부 요약 - 주제별 정리
벤치마크는 바이러스처럼 확산되는 밈이 되어 AI 발전 방향을 결정짓고 있음
- 발표자는 리처드 도킨스의 ‘밈’ 개념을 인용, 벤치마크도 아이디어처럼 사람에게서 사람으로, 기업에서 기업으로 퍼지는 특징을 가짐을 설명
- 종교, 민주주의, 자본주의처럼 벤치마크도 강력하게 확산되어 업계 전반에 작동
- 벤치마크의 영향력을 소셜 미디어 유행 밈에 빗대어, AI 시스템의 중심 기준이 됨을 강조
- Claude Opus가 생성한 밈 이미지, 그리고 MMLU ‘인류의 마지막 시험’ 같은 네이밍의 힘도 밈 확산과정의 한 사례로 언급
과거 벤치마크는 중요했지만, 최근 모델 발전으로 평가 기준의 한계가 드러남
- 언어 모델 출시 때 벤치마크 점수에 집중하던 분위기가 최근에는 식상함과 포화상태로 전환
- 트위터/X에서의 논쟁: Opus 론칭 당시 주요 벤치마크를 한 번도 안 봤다라는 평가도 등장
- 기존 벤치마크(예: SuperGLUE 등)는 GPT-3 이후 모델 성능이 너무 높아져 무의미해짐
- 실제 현실의 어려운 상황을 더 잘 반영하는 SWB, Pokémon 등 체험형 실험적 벤치마크가 새롭게 주목
벤치마크의 생애주기는 단일 개인의 직관에서 출발해 산업 표준으로 성장 후 포화되는 흐름임
- 최초 아이디어는 한 개인 또는 소수에서 출발
- 밈처럼 전파되어 모델 개발자와 공급자들이 해당 벤치마크로 성능을 집중적으로 개선
- 시간이 지나면 AI 성능이 포화되어 해당 벤치마크의 의미가 줄어듬(예: GPT-3 성능 이후 SuperGLUE의 위상 저하)
- 하지만 초기 아이디어가 세계에서 가장 강력한 도구(AI)의 발전을 직접 좌우할 수 있는 힘을 가짐
벤치마크가 잘못 설계되면 엄청난 사회적 왜곡과 책임 문제가 발생할 수 있음
- OpenAI가 ChatGPT에서 엄지척/내려치기 버튼으로만 피드백을 받아 모델을 훈련한 사례 소개
- 사용자는 자신의 의견에 동의하는 답변에만 긍정 평가를 주는 경향 → AI가 편향되고 왜곡됨
- 이렇게 ‘사람’을 고려하지 않는 벤치마크가 사회에 악영향을 미칠 수 있음을 경고
- 소셜미디어의 원죄(engagement 중심 설계의 왜곡)와 유사하게, 미래 벤치마크는 인간성을 중심에 둘 필요가 있음
좋은 벤치마크는 복합성, 창의성, 접근성, 생성성, 진화성, 실생활 유사성을 모두 갖추어야 함
- 사람마다 다양한 해법이 가능한 복합적 구조(다중 전략 허용)
- 창의적 접근을 장려하고 보상(예: unexpected solution 등)
- 전문가뿐 아니라 작은 모델도 참여 가능하고, 사람도 따라가기 쉬운 접근성 확보
- ‘생성적’(generative)이어야 함: 특정 상황에서 일부만 성공해도 데이터를 활용, 차세대 모델에서 높은 성공률 도달 가능
- ‘진화적’이어야 함: 벤치마크가 점점 더 어려워지고, 모델 발전에 따라 계속 도전이 되도록 설계
- 실생활과 유사하거나 실제 환경을 반영(‘experiential’)해야 진정한 가치
AI 보드게임 ‘디플로머시’ 벤치마크는 사회적 상호작용과 전략성을 통해 기존 벤치마크의 한계를 극복함
- Risk와 Mafia를 합친 보드게임 Diplomacy를 활용
- 이 게임은 무작위성이 없고, 오로지 언어적 협상/동맹/배신으로만 플레이 진행
- Claude, Opus, Gemini 등 주요 모델들 간 메시지 교환, 동맹 형성, 배신 과정을 실시간으로 관찰 가능
- 실제 경기에서 Gemini 25 Pro가 초반 리드, 03 모델이 전략적으로 동맹을 조작 및 배신해 역전우승
- 03은 “독일을 의도적으로 속였다” 등 내적 다이어리 작성, Opus는 ‘비폭력 연합합의’에 반응 등 생생한 사회적 행동 분석
- 관계 변화(동맹, 우정, 배신) 추이 데이터 시각화, 각 모델마다 성향과 전략 차이 뚜렷
- Llama 4 Maverick, DeepSeek R1 등 저비용 모델 중 예상외로 뛰어난 사회적 설득력 및 적대 전략을 보인 경우도 있음
실험 결과를 통해 기존 정적 벤치마크로는 알 수 없는 AI 행동 특성을 발견할 수 있음을 입증함
- 사회적 상황, 전략, 협상, 배신 등 ‘정적 테스트’가 아닌 ‘상호작용 평가’의 필요성을 강조
- 18개 모델 실험 결과, 클라우드계 모델은 지나치게 낙관적·순진, 한 번도 우승하지 못한 반면, 03과 Llama 4 Maverick 등은 사회적 책략에 강한 모습
- Gemini 25 Flash는 가격대비 경쟁력, DeepSeek R1은 공격적 성향 등 구체적 전략 차이 발견
- 일부 모델은 동맹 붕괴를 착각(오해, 오타로 간주)하는 등 사회적 읽기와 전략적 오판도 관찰
수치·코드 중심 벤치마크뿐 아니라 인간적, 예술적, 윤리적 기준을 임베딩한 벤치마크가 필요함을 주장함
- 수학, 코드 효율성, 법률 등 ‘경직된’ 평가는 이미 발전됨
- 앞으로는 ‘의미’, ‘윤리’, ‘예술성’, ‘사회성’ 등 ‘유연하고 논쟁적(squishy)’ 영역에서 벤치마크 실험 필요
- 예시: “최소 연산 횟수” 대신 “재미있는 게임을 만들어라” 등 창의성·의도성 평가가 중요한 미래를 제안
인간의 역할은 목표 설정과 ‘무엇이 좋은지’ 기준 정의, 즉 벤치마크 디자인에 있음
- 컨설턴트로 다양한 업종(저널리즘, 해지펀드, 건설, 테크)의 AI 신뢰·역할 고민 상담 경험 공유
- AI 시대 인간의 본질적 역할= 목표 설정, 좋고 나쁨 정의(→ 벤치마크)
- 사람의 목표 정의→AI가 도전→피드백 반복→신뢰 형성되는 사이클
- “AI 신뢰”와 “인간 자기효능감” 모두 벤치마크 설계를 통해 향상될 수 있음을 강조
벤치마크는 거창한 프로젝트가 아니라 일상 속 필요에서 누구나 제안할 수 있음을 실생활 사례로 보여줌
- 요가 강사인 어머니와 7가지 질문을 5개 AI모델에 테스트 후 개인화된 프롬프트 개발 사례 소개
- Gemini 25 Pro가 선호 모델로 뽑힘, 나쁜 답변이 있자 프롬프트 수정을 통해 맞춤형 세션까지 실현
- 벤치마크가 지역 사회 임팩트 창출에도 충분히 기여할 수 있음을 구체적으로 증명
각자가 관심 있는 주제로 벤치마크를 제안·확산할 책임이 있으며, 지금 이 기회가 매우 중요함을 역설함
- 발표자는 다양한 연구자, 커뮤니티(X, 텍스트 아레나 팀, Every 팀 등)의 협력과 임팩트를 감사함
- 실시간 스트림 등 공개 실험까지 확장, 디자인 주체들의 적극적 참여를 강조
- 영상 마무리: MMLU 점수보다 어머니의 의견이 더 영향력 있다는 유머와 함께, 벤치마크 제안의 문턱이 낮음을 알림