2025 is the Year of Evals! Just like 2024, and 2023, and … - John Dickerson, CEO Mozilla AI

영상 링크: 2025 is the Year of Evals! Just like 2024, and 2023, and … — John Dickerson, CEO Mozilla AI
채널명: AI Engineer

2025년은 평가(Eval)의 해다! 2024년, 2023년과 마찬가지로… 핵심 요약

본 강연자는 Mozilla AI CEO이며, 6년간 Arthur AI의 공동 창립자 겸 수석 과학자로서 AI/ML 시스템의 모니터링과 평가, 보안 분야에서 활동해 왔음을 소개
평가(evaluation)와 모니터링(monitoring)은 AI 시스템 관점에서 같은 본질적 목적(측정)을 가진 ‘동전의 양면’임을 강조, 이는 기업 시장에서 점점 중요해지고 있음
과거에는 ML 평가와 관측이 CIO/CTO에 국한되었으나 ChatGPT의 등장(2022년 11월) 이후 모든 CEO, CFO, CISO 등 비기술 임원층까지 AI에 관심을 품게 된 계기가 마련됨
2022년 말 미국 기업들은 경기침체 우려로 IT 예산을 동결하고 있었으나, ChatGPT 공개로 인해 유일하게 예산이 열린 ‘펫 프로젝트’가 바로 생성형 AI였음
2023년에는 기업 예산 중 신규 프로젝트가 사실상 ‘생성형 AI 연구’에만 집중되었고, 2024년부터는 그 결과물(예: 내부 챗봇, 채용 시스템 등)이 실제 업무에 적용되기 시작
이에 따라 2025년에는 AI가 실제 ‘의사결정’과 ‘행동’을 수행하는 에이전트(Agent) 시스템으로 발전하며, 평가와 관측이 기업 전반의 중요한 논의대상으로 부상
이러한 변화는 평가/관측/보안 스타트업(Arthur AI, Arise AI, Galileo 등) 및 빅테크(Snowflake, Databricks, Microsoft 등)의 시장 성장세로 가시화
지금까지 “AI 사고로 CEO가 해고될 것”이라는 위기감이 현실화되진 않았지만, 2025년에는 AI 평가가 본격적으로 예산과 경영의 중심에 서게 될 것임을 주장
평가의 현실적 난점(도메인 전문성, 데이터셋/환경 구축, LLM Judge의 한계)과 이를 보완하는 인간 전문가의 필요성 및 시장 구조 변화도 상세히 언급
오픈소스 커뮤니티 역할, 자가 평가 도구(LLM as a Judge) 실전 도입, 기업 조직 내 각 임원의 역할 변화 등 다양한 사례와 수치가 인용됨

세부 요약 - 주제별 정리

Arthur AI와 Mozilla AI에서 축적한 경험이 AI 평가지형 변화의 흐름을 직접적으로 보여줌

발표자 John Dickerson은 6년간 Arthur AI에서 공동 창업자/수석 과학자, 이후 Mozilla AI CEO로 AI 관측 및 평가 생태계 전환을 경험
Arthur AI 및 경쟁 스타트업들은 ML/AI 시스템의 관측(observability), 평가(evaluation), 보안(security) 분야에서 활동
초기에는 ‘전통적 ML’, ‘딥러닝 혁명’, ‘생성형 AI’, 그리고 ‘에이전트 혁명’ 단계로 발전
여러 세대에 걸쳐 AI 도구 제공 및 오픈소스 생태계 지원 경험을 기반으로 시장 트렌드 설명을 이끎

평가(evaluation)와 모니터링(monitoring)은 본질적으로 같은 기능(측정)을 수행하며, 엔터프라이즈에 핵심이 됨

평가(Eval)와 모니터링은 모두 ‘측정(measurement)‘이라는 핵심적 기능을 공유
모니터링/관측이 없다면 시스템 상태 파악과 개선이 불가
과거에는 이 기능이 CIO/CTO 등 기술 임원에 한정되었으나, 예산/경영층까지 커버하게 된 것이 최근 트렌드
단순한 통계적 모니터링이 아닌, 비즈니스 KPI(수익, 비용 등)와 직접 연결하는 ‘정량 평가’가 중요

ChatGPT 출시와 동시 미국 기업의 예산 동결이 AI 평가 중요성 부각의 결정적 계기로 작용

2022년 10~11월: 경기침체 우려로 미국 대부분 엔터프라이즈 IT 예산 동결
단, CEO/CFO의 ‘펫 프로젝트’에는 예외적 예산 배정 가능 → ChatGPT 공개가 그 대상이 됨
비기술 임원(CEO, CFO, CISO 등)들도 ChatGPT 직접 사용 및 체험 후 AI의 중요성·가능성 인식
“ML 사고로 CEO가 해고될 것”이라는 위기감은 현실화되지 않았으나, 이제는 실제 예산/책임 소재로 이어질 구도

생성형 AI 붐(2023)과 최신 에이전트 시스템 등장(2024~2025)이 ‘평가’의 경영적 무게를 극적으로 높임

2023년 신규 IT 프로젝트의 다수가 생성형 AI에만 예산 집중
사내 챗봇, 내부 채용 도구 등 AI 기반 실전 애플리케이션이 2024년부터 실제 운영에 투입
2025년 들어 에이전트 시스템이 자율적으로 또는 준자율적으로 복잡한 의사결정과 행동을 수행
이로 인해 위험 관리(ROI, 거버넌스, 컴플라이언스, 브랜드 위기 등) 필요성이 C-level 임원 전체로 확대
평가, 모니터링, 보안 스타트업과 대기업까지 시장 관심 폭증

과거에는 평가가 상층부 임원에게는 우선순위 이슈가 아니었지만, 2025년에는 경영의 중심이 됨

전통적 ML 시스템은 결과가 복잡한 downstream 시스템에 포함되어 최상위 의사결정층(C-suite)이 직접 신경쓰지 않음
예산 논의 시, 보안, 지연(latency) 등이 우선과제가 되었고, 평가/관측/AI 내재 이슈는 부차적으로 취급됨
Ian Diamond(JPMC) 2022년 연차보고서: 2017~2021년 동안 AI 관련 1억 달러 투자(거대 금융사에 비해 매우 소규모)
ChatGPT 이후 비기술 경영진이 체감하는 AI의 가치와 위험이 상층부에 실질적으로 전달

AI 평가 및 관측 생태계의 스타트업과 주요 빅테크 기업 동향과 성장

2012년경: H2O, Algorithmia, Seldon 등 1세대 AI 평가/모니터링 스타트업 등장
이후 Ylabs, Aporeia, Arise AI, Galileo, Fiddler, Protect AI, Arthur AI 등 다양한 솔루션 등장
최근에는 Snowflake, Databricks, DataDog, AWS SageMaker 등 빅테크 기업도 이 시장에 적극 진출
2023~2025년: ChatGPT 효과와 예산 재배분에 힘입어 이 분야의 매출 및 고객 수가 급격히 증가
시장 조사(Information, 2024년 4월): 평가 스타트업들의 실매출은 최근 폭발적으로 상승, 향후에도 기대

에이전트(Agent) 시스템의 도입으로 평가/관측/보안의 난이도와 중요도가 동시에 상승함

에이전트 시스템은 환경 인식, 학습, 추상화/일반화, 추론/행동 등 복잡한 운영 구조를 가짐(1950년대 개념에서 발전)
가상환경, 사이버-피지컬 환경 등 실세계 영향도 증가
이로 인해 시스템 내 위험 요소와 복잡성이 대폭 상승하여, 경영 리스크 및 평가 수요 급등
단일 모델 단위가 아니라, ‘멀티 에이전트 시스템’ 전체를 관측/평가/보안 조치해야 함

각 기업 내 임원(CEO, CFO, CIO, CTO, CISO 등)의 AI 및 평가 관련 역할과 예산 결정 권한이 변경됨

CEO: ChatGPT 이후 기술 세부사항은 몰라도, AI 시스템의 실질적 영향과 가능성, 위험을 인식하고 예산 결정에 매우 적극
CFO: 혁신의 비용/효과(ROI 등) 측정을 위해 정량적 평가 지표 요구, 예산 편성에 반영
CISO: 보안 위협(환각, 프롬프트 인젝션 등) 부각에 따라 평가/모니터링/보안 툴 도입을 신속 추진 (“실험적 구매자” 역할)
CIO/CTO: 운영 표준화와 평가 기준 확립에 중점, 실질적 KPI 관리 및 평가/관측 툴 표준 채택에 영향력 행사
CEO~CISO에 걸쳐 예산 결정을 평가/관측에 집중하는 경향, 전체 조직의 합의도 상승

전문 도메인 지식이 요구되는 AI 평가 과제와 LLM Judge 패러다임 한계, 인간 전문가 병행 방식의 시장 구조

피드백: 예를 들어, 금융 도메인의 멀티에이전트 시스템이 DCF(Discounted Cash Flow) 분석을 제대로 수행하는지 판단 시, 정밀한 도메인 전문성이 필요
시장 대응 사례: Merkor(인력 서비스)의 누출 문서에 따르면, 구글·메타·대형은행 등에서 도메인 전문가를 $50~$200/시간 수준으로 AI 시스템 평가에 투입
“AI가 인턴의 역할을 대체하거나 변화시키긴 하지만, 인간 전문가의 병행 검증 역시 중요한 역할”
human-in-the-loop 방식으로 비싼 인간 검증이 사업 리스크가 높은 미션에 투입되고, 향후에는 그 데이터가 에이전트/모델 개선을 위한 자산이 됨
데이터셋·환경 구축(Env Creation), 고품질 경쟁적 평가 환경 확보 등에도 적극적 투자

LLM 기반 평가(LLM as a Judge)가 실제로 널리 도입되나, 인간 대비 편향성·한계도 존재

데이터셋 생성 문제의 해법 중 하나로 “LLM에 평가 기준을 제시하면 저렴하게 평가 자동화 가능” 패러다임 부상
실제 제품 및 서비스에서 LLM Judge 방식이 채택되고 있지만, 인간과 LLM의 평가 기준(간결성, 유용성 등)에서 편향이 드러남
발표자의 논문(iClar, Nature Machine Intelligence 등)에서 LLM Judge 방식의 한계 및 인간과 평가 점수 차이 연구 사례 제시
장기적으로는 인간 검증-LLM Judge 결합, 지속적 검증 및 개선이 필수

오픈소스 커뮤니티와 도구의 역할 및 Mozilla AI의 구체적 프로젝트 언급

Mozilla AI는 상업적 평가 시장과 달리 오픈소스 프레임워크 및 개발 도구 집중 지원
예시: 다중 에이전트 시스템 실험을 위한 ‘light LLM for multi-agent system(AnyAgent)‘을 직접 오픈소스 제공, 통합 인터페이스 기반 다양한 프레임워크 지원
시장 솔루션 및 수익화와는 별개로, 커뮤니티 생태계 확장을 위한 비상업적 툴 제공 정책 공유

향후 AI 평가 생태계의 주요 이슈와 변화상, 그리고 발전 방향에 대한 정리

2025년에는 에이전트 시스템, 정량 평가 수요, 다양한 도구/플레이어의 합류, 임원진 의사결정 구조 변화가 모두 함께 진행
주요 평가/관측 스타트업의 매출 및 시장 영향력이 단기 내 대폭 증가할 전망
에이전트 시스템으로의 급속한 전환에 따라, 데이터셋/환경 구축, 평가 자동화, 휴먼 밸리데이션 등 전략적 투자가 경쟁력의 핵심
평가/관측/보안 기술의 발전과 함께, 안티패턴(예: LLM Judge로 인한 편향성) 및 한계도 병행해 다뤄져야 함
시장/조직/기술/오픈소스 생태계가 유기적으로 연결되어 패러다임을 빠르게 전환 중임