
영상 링크: 2025 is the Year of Evals! Just like 2024, and 2023, and … — John Dickerson, CEO Mozilla AI
채널명: AI Engineer
2025년은 평가(Eval)의 해다! 2024년, 2023년과 마찬가지로… 핵심 요약
- 본 강연자는 Mozilla AI CEO이며, 6년간 Arthur AI의 공동 창립자 겸 수석 과학자로서 AI/ML 시스템의 모니터링과 평가, 보안 분야에서 활동해 왔음을 소개
- 평가(evaluation)와 모니터링(monitoring)은 AI 시스템 관점에서 같은 본질적 목적(측정)을 가진 ‘동전의 양면’임을 강조, 이는 기업 시장에서 점점 중요해지고 있음
- 과거에는 ML 평가와 관측이 CIO/CTO에 국한되었으나 ChatGPT의 등장(2022년 11월) 이후 모든 CEO, CFO, CISO 등 비기술 임원층까지 AI에 관심을 품게 된 계기가 마련됨
- 2022년 말 미국 기업들은 경기침체 우려로 IT 예산을 동결하고 있었으나, ChatGPT 공개로 인해 유일하게 예산이 열린 ‘펫 프로젝트’가 바로 생성형 AI였음
- 2023년에는 기업 예산 중 신규 프로젝트가 사실상 ‘생성형 AI 연구’에만 집중되었고, 2024년부터는 그 결과물(예: 내부 챗봇, 채용 시스템 등)이 실제 업무에 적용되기 시작
- 이에 따라 2025년에는 AI가 실제 ‘의사결정’과 ‘행동’을 수행하는 에이전트(Agent) 시스템으로 발전하며, 평가와 관측이 기업 전반의 중요한 논의대상으로 부상
- 이러한 변화는 평가/관측/보안 스타트업(Arthur AI, Arise AI, Galileo 등) 및 빅테크(Snowflake, Databricks, Microsoft 등)의 시장 성장세로 가시화
- 지금까지 “AI 사고로 CEO가 해고될 것”이라는 위기감이 현실화되진 않았지만, 2025년에는 AI 평가가 본격적으로 예산과 경영의 중심에 서게 될 것임을 주장
- 평가의 현실적 난점(도메인 전문성, 데이터셋/환경 구축, LLM Judge의 한계)과 이를 보완하는 인간 전문가의 필요성 및 시장 구조 변화도 상세히 언급
- 오픈소스 커뮤니티 역할, 자가 평가 도구(LLM as a Judge) 실전 도입, 기업 조직 내 각 임원의 역할 변화 등 다양한 사례와 수치가 인용됨
세부 요약 - 주제별 정리
Arthur AI와 Mozilla AI에서 축적한 경험이 AI 평가지형 변화의 흐름을 직접적으로 보여줌
- 발표자 John Dickerson은 6년간 Arthur AI에서 공동 창업자/수석 과학자, 이후 Mozilla AI CEO로 AI 관측 및 평가 생태계 전환을 경험
- Arthur AI 및 경쟁 스타트업들은 ML/AI 시스템의 관측(observability), 평가(evaluation), 보안(security) 분야에서 활동
- 초기에는 ‘전통적 ML’, ‘딥러닝 혁명’, ‘생성형 AI’, 그리고 ‘에이전트 혁명’ 단계로 발전
- 여러 세대에 걸쳐 AI 도구 제공 및 오픈소스 생태계 지원 경험을 기반으로 시장 트렌드 설명을 이끎
평가(evaluation)와 모니터링(monitoring)은 본질적으로 같은 기능(측정)을 수행하며, 엔터프라이즈에 핵심이 됨
- 평가(Eval)와 모니터링은 모두 ‘측정(measurement)‘이라는 핵심적 기능을 공유
- 모니터링/관측이 없다면 시스템 상태 파악과 개선이 불가
- 과거에는 이 기능이 CIO/CTO 등 기술 임원에 한정되었으나, 예산/경영층까지 커버하게 된 것이 최근 트렌드
- 단순한 통계적 모니터링이 아닌, 비즈니스 KPI(수익, 비용 등)와 직접 연결하는 ‘정량 평가’가 중요
ChatGPT 출시와 동시 미국 기업의 예산 동결이 AI 평가 중요성 부각의 결정적 계기로 작용
- 2022년 10~11월: 경기침체 우려로 미국 대부분 엔터프라이즈 IT 예산 동결
- 단, CEO/CFO의 ‘펫 프로젝트’에는 예외적 예산 배정 가능 → ChatGPT 공개가 그 대상이 됨
- 비기술 임원(CEO, CFO, CISO 등)들도 ChatGPT 직접 사용 및 체험 후 AI의 중요성·가능성 인식
- “ML 사고로 CEO가 해고될 것”이라는 위기감은 현실화되지 않았으나, 이제는 실제 예산/책임 소재로 이어질 구도
생성형 AI 붐(2023)과 최신 에이전트 시스템 등장(2024~2025)이 ‘평가’의 경영적 무게를 극적으로 높임
- 2023년 신규 IT 프로젝트의 다수가 생성형 AI에만 예산 집중
- 사내 챗봇, 내부 채용 도구 등 AI 기반 실전 애플리케이션이 2024년부터 실제 운영에 투입
- 2025년 들어 에이전트 시스템이 자율적으로 또는 준자율적으로 복잡한 의사결정과 행동을 수행
- 이로 인해 위험 관리(ROI, 거버넌스, 컴플라이언스, 브랜드 위기 등) 필요성이 C-level 임원 전체로 확대
- 평가, 모니터링, 보안 스타트업과 대기업까지 시장 관심 폭증
과거에는 평가가 상층부 임원에게는 우선순위 이슈가 아니었지만, 2025년에는 경영의 중심이 됨
- 전통적 ML 시스템은 결과가 복잡한 downstream 시스템에 포함되어 최상위 의사결정층(C-suite)이 직접 신경쓰지 않음
- 예산 논의 시, 보안, 지연(latency) 등이 우선과제가 되었고, 평가/관측/AI 내재 이슈는 부차적으로 취급됨
- Ian Diamond(JPMC) 2022년 연차보고서: 2017~2021년 동안 AI 관련 1억 달러 투자(거대 금융사에 비해 매우 소규모)
- ChatGPT 이후 비기술 경영진이 체감하는 AI의 가치와 위험이 상층부에 실질적으로 전달
AI 평가 및 관측 생태계의 스타트업과 주요 빅테크 기업 동향과 성장
- 2012년경: H2O, Algorithmia, Seldon 등 1세대 AI 평가/모니터링 스타트업 등장
- 이후 Ylabs, Aporeia, Arise AI, Galileo, Fiddler, Protect AI, Arthur AI 등 다양한 솔루션 등장
- 최근에는 Snowflake, Databricks, DataDog, AWS SageMaker 등 빅테크 기업도 이 시장에 적극 진출
- 2023~2025년: ChatGPT 효과와 예산 재배분에 힘입어 이 분야의 매출 및 고객 수가 급격히 증가
- 시장 조사(Information, 2024년 4월): 평가 스타트업들의 실매출은 최근 폭발적으로 상승, 향후에도 기대
에이전트(Agent) 시스템의 도입으로 평가/관측/보안의 난이도와 중요도가 동시에 상승함
- 에이전트 시스템은 환경 인식, 학습, 추상화/일반화, 추론/행동 등 복잡한 운영 구조를 가짐(1950년대 개념에서 발전)
- 가상환경, 사이버-피지컬 환경 등 실세계 영향도 증가
- 이로 인해 시스템 내 위험 요소와 복잡성이 대폭 상승하여, 경영 리스크 및 평가 수요 급등
- 단일 모델 단위가 아니라, ‘멀티 에이전트 시스템’ 전체를 관측/평가/보안 조치해야 함
각 기업 내 임원(CEO, CFO, CIO, CTO, CISO 등)의 AI 및 평가 관련 역할과 예산 결정 권한이 변경됨
- CEO: ChatGPT 이후 기술 세부사항은 몰라도, AI 시스템의 실질적 영향과 가능성, 위험을 인식하고 예산 결정에 매우 적극
- CFO: 혁신의 비용/효과(ROI 등) 측정을 위해 정량적 평가 지표 요구, 예산 편성에 반영
- CISO: 보안 위협(환각, 프롬프트 인젝션 등) 부각에 따라 평가/모니터링/보안 툴 도입을 신속 추진 (“실험적 구매자” 역할)
- CIO/CTO: 운영 표준화와 평가 기준 확립에 중점, 실질적 KPI 관리 및 평가/관측 툴 표준 채택에 영향력 행사
- CEO~CISO에 걸쳐 예산 결정을 평가/관측에 집중하는 경향, 전체 조직의 합의도 상승
전문 도메인 지식이 요구되는 AI 평가 과제와 LLM Judge 패러다임 한계, 인간 전문가 병행 방식의 시장 구조
- 피드백: 예를 들어, 금융 도메인의 멀티에이전트 시스템이 DCF(Discounted Cash Flow) 분석을 제대로 수행하는지 판단 시, 정밀한 도메인 전문성이 필요
- 시장 대응 사례: Merkor(인력 서비스)의 누출 문서에 따르면, 구글·메타·대형은행 등에서 도메인 전문가를 $50~$200/시간 수준으로 AI 시스템 평가에 투입
- “AI가 인턴의 역할을 대체하거나 변화시키긴 하지만, 인간 전문가의 병행 검증 역시 중요한 역할”
- human-in-the-loop 방식으로 비싼 인간 검증이 사업 리스크가 높은 미션에 투입되고, 향후에는 그 데이터가 에이전트/모델 개선을 위한 자산이 됨
- 데이터셋·환경 구축(Env Creation), 고품질 경쟁적 평가 환경 확보 등에도 적극적 투자
LLM 기반 평가(LLM as a Judge)가 실제로 널리 도입되나, 인간 대비 편향성·한계도 존재
- 데이터셋 생성 문제의 해법 중 하나로 “LLM에 평가 기준을 제시하면 저렴하게 평가 자동화 가능” 패러다임 부상
- 실제 제품 및 서비스에서 LLM Judge 방식이 채택되고 있지만, 인간과 LLM의 평가 기준(간결성, 유용성 등)에서 편향이 드러남
- 발표자의 논문(iClar, Nature Machine Intelligence 등)에서 LLM Judge 방식의 한계 및 인간과 평가 점수 차이 연구 사례 제시
- 장기적으로는 인간 검증-LLM Judge 결합, 지속적 검증 및 개선이 필수
오픈소스 커뮤니티와 도구의 역할 및 Mozilla AI의 구체적 프로젝트 언급
- Mozilla AI는 상업적 평가 시장과 달리 오픈소스 프레임워크 및 개발 도구 집중 지원
- 예시: 다중 에이전트 시스템 실험을 위한 ‘light LLM for multi-agent system(AnyAgent)‘을 직접 오픈소스 제공, 통합 인터페이스 기반 다양한 프레임워크 지원
- 시장 솔루션 및 수익화와는 별개로, 커뮤니티 생태계 확장을 위한 비상업적 툴 제공 정책 공유
향후 AI 평가 생태계의 주요 이슈와 변화상, 그리고 발전 방향에 대한 정리
- 2025년에는 에이전트 시스템, 정량 평가 수요, 다양한 도구/플레이어의 합류, 임원진 의사결정 구조 변화가 모두 함께 진행
- 주요 평가/관측 스타트업의 매출 및 시장 영향력이 단기 내 대폭 증가할 전망
- 에이전트 시스템으로의 급속한 전환에 따라, 데이터셋/환경 구축, 평가 자동화, 휴먼 밸리데이션 등 전략적 투자가 경쟁력의 핵심
- 평가/관측/보안 기술의 발전과 함께, 안티패턴(예: LLM Judge로 인한 편향성) 및 한계도 병행해 다뤄져야 함
- 시장/조직/기술/오픈소스 생태계가 유기적으로 연결되어 패러다임을 빠르게 전환 중임