
영상 링크: Trends Across the AI Frontier — George Cameron, ArtificialAnalysis.ai
채널명: AI Engineer
AI 최전선의 트렌드 — AI 분야의 다양한 척도를 수치로 분석함 핵심 요약
- 본 영상은 인공지능 벤치마킹 전문기업 ArtificialAnalysis.ai의 조지(George Cameron) 공동설립자가 AI 모델의 추세, 성능, 비용, 속도 등 다양한 ‘프론티어(최전선)’ 지표에 대한 최근 통찰과 수치 기반 분석을 제시함
- ArtificialAnalysis.ai는 150종 이상의 AI 모델(언어·비전·음성·이미지·영상 등)을 다양한 메트릭으로 벤치마킹하여 웹사이트에 무료로 공개하며, 기업 대상 구독 서비스도 제공함
- 최근 2년간 OpenAI(ChatGPT, GPT-3.5) 주도의 모델 경쟁이 심해졌으며, O3, 04 Mini Reasoning High, Deepseek R1, Gemini 2.5 Pro, Claude 4 Opus 등이 AI 인텔리전스 척도에서 상위권을 차지
- Artificial Analysis Intelligence Index는 7가지 평가 지표를 가중평균하는 복합 지수로, 다양한 모델의 종합적 지능을 비교
- 모델 선택 시 단순 최고 성능 모델만 고려할 것이 아니라, 속도, 비용, 토큰 출력량 등 여러가지 트레이드오프를 고려해야 함
- GPT-4.1의 인텔리전스 평가에 700만 토큰이 소요된 반면, 04 Mini Reasoning High는 7200만, Gemini 2.5 Pro는 1억 3000만 토큰 소요
- 평균 API 응답속도는 GPT-4.1이 약 4.7초, 04 Mini High는 40초로, 추론형 모델일수록 1~2차원 더 느림 (사용 환경/에이전트 설계에 큰 영향)
- 열려있는 오픈웨이트(open weights) 모델들과 독점(proprietary) 모델 간 지능 격차는 Deepseek R1 등의 등장으로 과거에 비해 매우 좁아짐; 특히 중국 AI 랩(Deepseek, Alibaba)이 리드
- 모델 활용 단가가 급격히 하락 중(GPT-4 수준 활용 단가가 2023년 중반 대비 100배 이상 하락); 미래 개발환경 변화에 유의해야 함
- 초당 출력 토큰 수가 2023년 40개에서 2024년 300~1000개 이상으로 상승; Mixture-of-Experts, 소프트웨어 최적화, 하드웨어 발전(H100, B200, Cerebra 등)의 결과
- 하드웨어가 빨라지고 단가가 낮아지지만, 추론형 모델과 에이전트 구조, 대형화 추세로 계산 수요도 증가할 전망임
세부 요약 - 주제별 정리
ArtificialAnalysis.ai는 AI 전 분야를 다각도로 벤치마킹하는 독립 전문 기업임
- ArtificialAnalysis.ai는 언어처리 모델뿐만 아니라 비전, 음성, 이미지 생성, 영상 생성 등 여러 모달리티에 대해 벤치마킹 진행
- 150종 이상의 주요 AI 모델들을 다양한 성능 지표로 분석하고, 이를 대중에게 거의 무료로 공개
- 각각의 모델 인텔리전스, API 엔드포인트의 속도/비용, 하드웨어, AI 가속기 등도 모두 측정 및 공개
- 기업 고객을 위한 AI 프로덕션 적용 효율화 구독 서비스도 운영
- 핵심 벤치마크 지수는 Artificial Analysis Intelligence Index로, 7개 평가 모델의 결과를 가중 평균하여 산출
최근 2년간 AI 최전선은 치열한 모델 경쟁과 발전으로 급속 변화함
- OpenAI의 ChatGPT 및 GPT-3.5 론칭(2022년 말)이 본격적 혁신 경쟁 신호탄이었음
- 그 이후 각 기업/연구소들은 더 강력한 모델들을 빠르게 릴리즈하며 최전선 지능 경쟁 가열
- ArtificialAnalysis.ai의 intelligence index에서, O3가 1위이긴 하지만 04 Mini Reasoning High, Deepseek R1, Gemini 2.5 Pro, Claude 4 Opus 등도 근접한 ‘지능’ 점수
- 이 인텔리전스 지수는 각 모델별 7가지 평가 세트(세부 Task 등)의 복합 점수로, 종합적·비교적 ‘지능’ 파악에 활용
- 영상은 “최고 지능 모델 자동 선택”이 아닌, 각 프론티어별 트레이드오프를 수치로 분석하여 실전적 기준 제시 목표
추론형(reasoning) 모델은 비추론형 대비 토큰 사용량이 한 자릿수 차이로 압도적임
- Artificial Analysis Intelligence Index의 테스트 수행에 필요한 ‘출력 토큰’을 비교하면, 추론 모델들이 훨씬 ‘말이 많음’
- 예시: GPT-4.1은 700만 토큰, 04 Mini Reasoning High는 7200만 토큰, Gemini 2.5 Pro는 1억 3천만 토큰 필요(10~20배 차이)
- 이는 단순히 “느리다”는 체감이 아니라 실제 데이터로 입증; 토큰 사용량 증가는 latency(응답속도)와 비용 두 측면 모두에 부담
- 사용자 입장에서는 특히 에이전트 등의 멀티 쿼리 환경에서 누적 대기시간이 크게 늘어나는 구조
대기시간(latency)은 모델 종류별로 10배 이상 차이나며, 에이전트 구축 시 곱절로 문제화될 수 있음
- API 요청 시 전체 응답에 소요되는 시간: GPT-4.1은 중간값 4.7초, 04 Mini Reasoning High는 40초 이상(10배 차이)
- 실서비스·엔터프라이즈 챗봇 등에서 ‘수신 응답 지연’은 사용자 이탈율과 직접적으로 연관(Facebook 등 대형 IT 기업 조사 사례 인용)
- 에이전트 등 다단계 자동화에서는 30여 차례 연쇄 질의가 일반적이므로, 각 쿼리 지연의 누적으로 전체 대기시간이 수분으로 상승
- 같은 질의라 하더라도 모델 응답시간이 1초면 전체 30회 기준 30초, 10초라면 300초(5분)로 늘어나, 사용성/서비스 설계에 결정적 영향
- 영상은 “측정 및 기준 수치화를 권장”하며, 숫자의 중요성을 강조
오픈웨이트(open weights) 모델과 독점형 모델의 지능 격차는 최근 극적으로 좁아지고 있음
- GPT-4 등장 당시, Llama-65B·Llama-270B 수준은 아직 상당한 성능 격차(‘델타’) 존재
- 2023~2024년 사이 Mixture of Experts(LateTime-7 등), LM45B, Deepseek V3·R1 등 잇따라 오픈웨이트 모델 개선 가속화
- 특히 2024년 초 Deepseek R1 출시 이후, artificial analysis intelligence index 기준 선두권(독점 사유모델 대비) 점수 차이는 단 2~3점 이내에 불과
- 중국 AI 랩(Deepseek, Alibaba Quen 3 시리즈)이 reasoning, non-reasoning 양쪽 모두 오픈웨이트 리더
- Meta, Nvidia(Neotron+Llama 등)도 근접하게 뒤따름
모델 활용 비용(cost)은 최근 몇 년간 급격히 감소하였고, 앞으로도 추가 하락이 전망됨
- 예시: O3로 Intelligence Index 실행 비용 2,000달러 (실제 TechCrunch 등 언론에서 화제)
- 4.1 (이전 모델)은 01 대비 약 30배 저렴, 4.1 nano는 03 대비 500배가량 저렴
- 즉, 같은 복합평가 지능을 활용하는 단가가 기하급수적으로 내려가 다수 모델-API 호출 구조에서도 경제성 확보 가능
- 비용 산정을 단순 ‘토큰당’ 가격만으로 볼 것이 아니라, 실제로 ‘얼마나 verbose(장황하게)’ 모델이 응답하는지(실토큰 출력량)까지 총합을 측정해야 함
- reasoning/비reasoning 모델 간에도 토큰 출력량 편차가 크기 때문에, 실제 응용비용 산정시 이 요인 반드시 반영해야
고지능 모델 접근 단가는 2023년 중반 대비 100배 이상 하락했으며, 프론티어 점프시 메가트렌드로 비용 급락이 뒤따름
- GPT-4급 수준의 지능에 접근하는 단가는 2023년 중반 이후 100배 이상 하락
- 모든 품질대(quality band)에서 이런 비용 하락 ‘도미노’ 발생; 새 품질대 진입(01 mini 등)도 몇 달 만에 비용 절반 이하로 하락
- “비용이 제한이 아니라면 무엇을 만들고 싶은가?”라는 가정 아래, 미래 변화까지 염두에 두고 구조 설계 권장
- 6개월 후 비용 구조가 지금보다 훨씬 나아질 가능성 존재
초당 토큰 출력 속도(output tokens/sec)는 1년 만에 10~20배 이상 급상승함
- GPT-4(2023년) 기준 초당 40 토큰 → 2024년에는 300~1,000 토큰 이상 지원 모델 등장
- 예시: 2023년엔 reasoning 모델들은 특히 채팅 시 코드 등 출력에 지연 많았으나, 현재는 즉시 편집기에 복붙 가능한 수준
- 전보다 빠른 응답에 따라, 새로운 AI 응용 설계 가능
- 향후 속도 개선 요인은 다음과 같음
Mixture-of-Experts, 소프트웨어 최적화 및 하드웨어 발전이 속도와 효율 향상의 핵심적 역할을 함
- Mixture-of-Experts(모델 파라미터의 일부만 추론 시 활성화): inference당 필요 연산량을 큰 폭으로 줄여 최적화
- 모델 distillation(8B distillation 등)로 작은 모델도 고성능화
- 소프트웨어 최적화(예: Flash Attention, speculative decoding)는 inference 연산 효율 극대화
- 하드웨어도 빠르게 발전 중(H100, B200: B200 기준 초당 1,000+ 토큰)
- Cerebra, Grok, Samova 등 특화 AI 가속기의 등장
하드웨어·단가 발전에도 불구, reasoning 모델 증가·대규모 에이전트 구조 등으로 연산 수요는 계속 늘어남
- 모델/하드웨어 속도·비용 효율화가 빠르게 진행되고 있으나, 대규모 고지능 reasoning 모델 및 오토에이전트, 20/30/100 이벤트 순차 호출 등으로 인한 연산 수요 확대
- Deepseek R1은 총 파라미터가 6000억 이상에 달하는 등, 초거대화가 진행 중
- “지능 수요는 포화되지 않는다”는 판단 아래, 전체 컴퓨팅 수요도 지속적으로 증가 예상
- 현 시스템과 환경에서도 throughput(처리량) 개선은 분명하지만, 수요 증가로 인해 전체 컴퓨팅 자원 경쟁은 계속될 전망