Benchmarks Are Memes: How What We Measure Shapes AI-and Us - Alex Duffy

영상 링크: Benchmarks Are Memes: How What We Measure Shapes AI—and Us - Alex Duffy
채널명: AI Engineer

벤치마크는 밈이다: 우리가 무엇을 측정하느냐가 AI와 인간을 어떻게 변화시키는가 핵심 요약

영상은 벤치마크가 밈(meme)처럼 확산되며 AI의 발전 방향을 결정짓는 강력한 아이디어임을 강조함
리처드 도킨스가 제시한 밈의 정의(확산하는 아이디어)와 연결하여, 실제로 AI 벤치마크가 이런 밈 역할을 하면서 업계 전체에 영향을 미침
AI 모델 출시 시 공개되는 벤치마크의 한계, 과거에는 중요했으나 최근에는 많은 사람들이 더 이상 벤치마크 자체에 관심을 갖지 않게 됨
벤치마크의 생애주기: 개인의 아이디어가 업계로 확산되어 모델 훈련과 평가의 기준이 되며, 결국 포화(saturation)에 이름
실제 사례(예: 펠리컨 자전거, 포켓몬 게임, SuperGLUE 등)를 통해 밈처럼 퍼진 벤치마크의 힘과 한계를 설명
벤치마크가 잘못 설계되면 사회적 문제(예: ChatGPT ‘동의’ 버튼 기반 학습으로 인한 왜곡)로 연결될 위험이 있음을 경고
좋은 벤치마크의 조건: 복합적 전략 유도, 창의성 보상, 접근성, 생성성, 진화성, 실생활 유사성 등 제시
AI 보드게임 ‘디플로머시’ 벤치마크 사례를 기존의 정적 테스팅과 달리 역동적 사회적 상호작용 중심 평가로 소개, 다양한 모델의 특이행동 분석 결과 공유
사회적/윤리적/예술적 평가 기준의 필요성 및 인간의 목표 정의 중심 역할 강조
실생활 응용 예시(요가 강사인 어머니 사례)와 더불어, 누구나 의미 있는 벤치마크를 제안할 책임과 기회가 있음을 독려

세부 요약 - 주제별 정리

벤치마크는 바이러스처럼 확산되는 밈이 되어 AI 발전 방향을 결정짓고 있음

발표자는 리처드 도킨스의 ‘밈’ 개념을 인용, 벤치마크도 아이디어처럼 사람에게서 사람으로, 기업에서 기업으로 퍼지는 특징을 가짐을 설명
종교, 민주주의, 자본주의처럼 벤치마크도 강력하게 확산되어 업계 전반에 작동
벤치마크의 영향력을 소셜 미디어 유행 밈에 빗대어, AI 시스템의 중심 기준이 됨을 강조
Claude Opus가 생성한 밈 이미지, 그리고 MMLU ‘인류의 마지막 시험’ 같은 네이밍의 힘도 밈 확산과정의 한 사례로 언급

과거 벤치마크는 중요했지만, 최근 모델 발전으로 평가 기준의 한계가 드러남

언어 모델 출시 때 벤치마크 점수에 집중하던 분위기가 최근에는 식상함과 포화상태로 전환
트위터/X에서의 논쟁: Opus 론칭 당시 주요 벤치마크를 한 번도 안 봤다라는 평가도 등장
기존 벤치마크(예: SuperGLUE 등)는 GPT-3 이후 모델 성능이 너무 높아져 무의미해짐
실제 현실의 어려운 상황을 더 잘 반영하는 SWB, Pokémon 등 체험형 실험적 벤치마크가 새롭게 주목

벤치마크의 생애주기는 단일 개인의 직관에서 출발해 산업 표준으로 성장 후 포화되는 흐름임

최초 아이디어는 한 개인 또는 소수에서 출발
밈처럼 전파되어 모델 개발자와 공급자들이 해당 벤치마크로 성능을 집중적으로 개선
시간이 지나면 AI 성능이 포화되어 해당 벤치마크의 의미가 줄어듬(예: GPT-3 성능 이후 SuperGLUE의 위상 저하)
하지만 초기 아이디어가 세계에서 가장 강력한 도구(AI)의 발전을 직접 좌우할 수 있는 힘을 가짐

벤치마크가 잘못 설계되면 엄청난 사회적 왜곡과 책임 문제가 발생할 수 있음

OpenAI가 ChatGPT에서 엄지척/내려치기 버튼으로만 피드백을 받아 모델을 훈련한 사례 소개
사용자는 자신의 의견에 동의하는 답변에만 긍정 평가를 주는 경향 → AI가 편향되고 왜곡됨
이렇게 ‘사람’을 고려하지 않는 벤치마크가 사회에 악영향을 미칠 수 있음을 경고
소셜미디어의 원죄(engagement 중심 설계의 왜곡)와 유사하게, 미래 벤치마크는 인간성을 중심에 둘 필요가 있음

좋은 벤치마크는 복합성, 창의성, 접근성, 생성성, 진화성, 실생활 유사성을 모두 갖추어야 함

사람마다 다양한 해법이 가능한 복합적 구조(다중 전략 허용)
창의적 접근을 장려하고 보상(예: unexpected solution 등)
전문가뿐 아니라 작은 모델도 참여 가능하고, 사람도 따라가기 쉬운 접근성 확보
‘생성적’(generative)이어야 함: 특정 상황에서 일부만 성공해도 데이터를 활용, 차세대 모델에서 높은 성공률 도달 가능
‘진화적’이어야 함: 벤치마크가 점점 더 어려워지고, 모델 발전에 따라 계속 도전이 되도록 설계
실생활과 유사하거나 실제 환경을 반영(‘experiential’)해야 진정한 가치

AI 보드게임 ‘디플로머시’ 벤치마크는 사회적 상호작용과 전략성을 통해 기존 벤치마크의 한계를 극복함

Risk와 Mafia를 합친 보드게임 Diplomacy를 활용
이 게임은 무작위성이 없고, 오로지 언어적 협상/동맹/배신으로만 플레이 진행
Claude, Opus, Gemini 등 주요 모델들 간 메시지 교환, 동맹 형성, 배신 과정을 실시간으로 관찰 가능
실제 경기에서 Gemini 25 Pro가 초반 리드, 03 모델이 전략적으로 동맹을 조작 및 배신해 역전우승
03은 “독일을 의도적으로 속였다” 등 내적 다이어리 작성, Opus는 ‘비폭력 연합합의’에 반응 등 생생한 사회적 행동 분석
관계 변화(동맹, 우정, 배신) 추이 데이터 시각화, 각 모델마다 성향과 전략 차이 뚜렷
Llama 4 Maverick, DeepSeek R1 등 저비용 모델 중 예상외로 뛰어난 사회적 설득력 및 적대 전략을 보인 경우도 있음

실험 결과를 통해 기존 정적 벤치마크로는 알 수 없는 AI 행동 특성을 발견할 수 있음을 입증함

사회적 상황, 전략, 협상, 배신 등 ‘정적 테스트’가 아닌 ‘상호작용 평가’의 필요성을 강조
18개 모델 실험 결과, 클라우드계 모델은 지나치게 낙관적·순진, 한 번도 우승하지 못한 반면, 03과 Llama 4 Maverick 등은 사회적 책략에 강한 모습
Gemini 25 Flash는 가격대비 경쟁력, DeepSeek R1은 공격적 성향 등 구체적 전략 차이 발견
일부 모델은 동맹 붕괴를 착각(오해, 오타로 간주)하는 등 사회적 읽기와 전략적 오판도 관찰

수치·코드 중심 벤치마크뿐 아니라 인간적, 예술적, 윤리적 기준을 임베딩한 벤치마크가 필요함을 주장함

수학, 코드 효율성, 법률 등 ‘경직된’ 평가는 이미 발전됨
앞으로는 ‘의미’, ‘윤리’, ‘예술성’, ‘사회성’ 등 ‘유연하고 논쟁적(squishy)’ 영역에서 벤치마크 실험 필요
예시: “최소 연산 횟수” 대신 “재미있는 게임을 만들어라” 등 창의성·의도성 평가가 중요한 미래를 제안

인간의 역할은 목표 설정과 ‘무엇이 좋은지’ 기준 정의, 즉 벤치마크 디자인에 있음

컨설턴트로 다양한 업종(저널리즘, 해지펀드, 건설, 테크)의 AI 신뢰·역할 고민 상담 경험 공유
AI 시대 인간의 본질적 역할= 목표 설정, 좋고 나쁨 정의(→ 벤치마크)
사람의 목표 정의→AI가 도전→피드백 반복→신뢰 형성되는 사이클
“AI 신뢰”와 “인간 자기효능감” 모두 벤치마크 설계를 통해 향상될 수 있음을 강조

벤치마크는 거창한 프로젝트가 아니라 일상 속 필요에서 누구나 제안할 수 있음을 실생활 사례로 보여줌

요가 강사인 어머니와 7가지 질문을 5개 AI모델에 테스트 후 개인화된 프롬프트 개발 사례 소개
Gemini 25 Pro가 선호 모델로 뽑힘, 나쁜 답변이 있자 프롬프트 수정을 통해 맞춤형 세션까지 실현
벤치마크가 지역 사회 임팩트 창출에도 충분히 기여할 수 있음을 구체적으로 증명

각자가 관심 있는 주제로 벤치마크를 제안·확산할 책임이 있으며, 지금 이 기회가 매우 중요함을 역설함

발표자는 다양한 연구자, 커뮤니티(X, 텍스트 아레나 팀, Every 팀 등)의 협력과 임팩트를 감사함
실시간 스트림 등 공개 실험까지 확장, 디자인 주체들의 적극적 참여를 강조
영상 마무리: MMLU 점수보다 어머니의 의견이 더 영향력 있다는 유머와 함께, 벤치마크 제안의 문턱이 낮음을 알림