AI Engineer World's Fair 2025 - Evals

영상 링크: AI Engineer World’s Fair 2025 - Evals
채널명: AI Engineer

AI 엔지니어 월드 페어 2025 - 에벌(Evals) 핵심 요약

AI Engineer World’s Fair 2025 “Evals” 세션은 AI 제품/에이전트의 평가(Evaluation, “Eval”) 기법, 중요성, 최신 트렌드 및 조직 내 실무 적용 사례를 다룸
AI 시스템의 비결정론적(nondeterministic) 특성 탓에 기존 소프트웨어의 테스트(Pass/Fail Unit Test) 패러다임만으로는 충분하지 않으며, 피드백 루프와 데이터 기반 개선이 필수
‘에벌(평가)’의 핵심 역할: 모델/프롬프트/도구 변경 시 시스템 품질과 신뢰성, 회귀(regression) 유무, 실사용 지표 개선 여부를 신속하게 판단
브레인 트러스트(Brain Trust), 벡터 DB인 크로마(Chroma), Zapier, Verscell 등 다양한 조직들의 실전 적용 사례와 파이프라인(데이터 수집, 추출, 실시간 로깅, 유저 피드백 활용) 소개
오프라인(실험/벤치마크/CI), 온라인(실시간 로그), 휴먼 리뷰, 사용자 피드백 등 다양한 에벌 종류와 각 단계별 베스트 프랙티스 설명
실 사용자의 실제 데이터와 피드백을 즉시 평가 데이터셋(Eval Data Set)에 흡수해, 주기적으로 데이터 및 평가 기준 스펙을 조정하는 것이 중요한 데이터 기반 ‘Flywheel’ 실천법
LLM as a Judge(LLM이 결과를 평가), 코드 기반 점수화, Rubric 기반, Trajectory Eval(전체 행위 경로 평가), A/B Testing 등 구체적 에벌 기법과 각각의 장단점 비교
실제 AI 제품(예: Zapier Agent, Verscell Vzero)의 ‘실패 사연’, 데이터 플라이휠, 사용자 행동 분석, 클러스터링, Eval기반 제품/기능 개선사례까지 다층적이고 구체적으로 설명
최신 프레임워크/도구: Brain Trust, Cura(대화 요약/클러스터링), Bolt Foundry(저널리즘 프롬프트), Chroma FastEval(), etc.의 오픈소스 코드와 실습 노트북(Colab, Jupyter) 공유
기업/조직 수준에서의 에벌 도입 평가(신뢰성, A/B 테스트 반복주기, 데이터셋/스코어링의 지속적 개선 여부)와 에벌이 Enterprise KPI에 미치는 영향 구체적으로 설명
새로운 모델 출시에 즉시 제품 업데이트가 가능한 민첩성을 갖추거나, 사용자 불만→신속한 Eval화→결과적 제품개선 루프의 구축을 ‘Eval 역량’의 핵심 지표로 제시
평가/관측/개선 루프의 자동화, LLM 기반 Auto-Eval, 휴먼 피드백/룰 기반 구분 등 향후 평가 파이프라인 혁신 방향 전망

세부 요약 - 주제별 정리

’비터 레슨’과 프롬프트 엔지니어링 종말론이 에벌 설계에 미치는 영향

Rich Sutton의 ‘비터 레슨’: 도메인 지식의 조기 결합은 확장성·유지보수에 장애가 되며, 일반화 추구 및 규모의 확장이 AI 발전의 핵심임을 강조
프롬프트, 유저 명령어, 도구 사양 등 현행 ‘스트링 기반’ 프로그래밍은 지나치게 불투명하게 얽혀 있어, 비정형적 실험·최적화의 장애 요인으로 작동
‘분리와 추상화’를 강조: 시스템 설계, 값의 정의, Code/Prompt/Eval의 결합-분리(Separation of Concerns) 구조 확립해야
최고의 캔버스(프레임워크)는, 데이터/도구/러닝/에벌/프롬프트/모델들이 유연히 스와핑 가능해야 하고, 검증·최적화·진단이 쉬워야 함
Kar, DSPI 등 “서명(signature) 기반” 프레임워크는 고수준 추상화→낮은 레벨로 필요 시 하강하는 설계(초기 하드코딩 지양, 확장성 확보)

AI 제품 개발 현장의 에벌(평가) 데이터 파이프라인과 플라이휠 구축 논리

Zapier, Verscell, Chroma 등 실제 현장에서는 배포 즉시 ‘데이터 플라이휠’ 작동: 사용자 행동 이력→Eval 데이터화→제품 개선→새 피드백 축적
코드 Instrumentation(모듈별 로깅, Tool Call, 전후처리, 트레이스 동작 등) 필수, 자동화로 실제 데이터→Eval 변환(One-click) 실현
피드백 유형: 명시적(Thumbs up/down, CTA), 암묵적(기능 On, 결과 Copy, 지속적 재질문 등), LLM 기반 사용자 불만 자동 분류도 실전 적용 사례 제시
로그 기반 리트레이스·재현성(Data Replay) 확보, 모의 실행(Mock)과 실제 환경 미러링을 통한 정밀 Fail 모드 집계
LM Ops 도구(Brain Trust 등)와 자체 도구 조합, 단일 실패→Eval 자동 생성, 에벌 집합→문제 유형·사용 시나리오 자동 버킷팅

유닛 테스트형 에벌, 트랙토리 에벌, A/B 테스트 등 다양한 평가 전략과 트레이드오프 구체 비교

Unit Test Eval(행위 단위별, State 예측, 단일 Tool Call 단위): 초기에 도입 쉽고, 분리된 Failure Mode 집중 개선에 강점. 단, 모델·경로 다양성 저해, 과적합 이슈
Trajectory Eval(전체 수행 경로, Multi-step, 에이전트 Complete Run): 복잡성 높으나 실제 시스템 성능을 전체적으로, 루트코즈 추적과 함께 평가할 수 있음. 환경 모의·Side Effect 처리 등 난점 있으나 ROI 큼
LLM as a Judge(모델 평가자): 평가 기준의 추상화, 다수 모델 간 비교, Rubric 기반 가이드 내장 등으로 응용 확대 중. Rubric은 run마다 다르게 생성 가능(핸드크래프트 필요)
A/B Test: 실제 트래픽의 일부 할당, 피드백·Conversion·Retention 등 실사용 지표로 검증. 랩 환경엔 없는 신뢰성·유저반응 확보
단순 지표에 매몰되어 100% Eval 점수에 집착하면 오히려 무의미에 가까우며, 분할 데이터셋(회귀 방지용·도전 과제용 두 풀) 로드맵 운용

실서비스에서 사용자 피드백 및 로그 데이터를 효과적으로 에벌에 통합하는 방안

명시적 피드백은 수집량 자체가 적으므로, 사용자 여정상 ‘핵심 순간’에 집중 어필(에이전트 실행 직후, 테스트 실행 후 등)
암묵적 신호 분석(LMM 활용한 실패·불만 감지, 대화 반복, Follow-up, 욕설 등) 후, 도메인 문맥 학습 필수
기존 비즈니스 핵심 지표(이탈률 등)와 Cross Analysis하여, 마지막 상호작용 분석시 데이터 줄기 채집
내부 슬랙 채널/온콜 엔지니어, 레이블링 파티(여럿이서 한 번에 라벨링) 등 그룹 업무 문화 사례 공유, ‘평가 집합 감’을 개발하는 과정 설명

런타임 관측/플레이그라운드/SaaS 플랫폼 실습: Brain Trust 플랫폼 데모 및 실제 코드 예시

Brain Trust의 IDE 및 Playground: 프롬프트, 도구, 평가 스코어를 연결→데이터셋 반복적 실험→변경(모델/프롬프트/Task/Score) 시점별 정확한 이전 대비 변화 파악 가능
데모 코드(파이썬/타입스크립트): 평가 스코어(분리, 코드/LLM as Judge 모두 지원), 데이터셋 자동화, 로그→데이터셋 반영, CI/CD로 Eval 실행 가능(GitHub Actions 예시)
오프라인(사전 실험, 제품 출시 전 검증), 온라인(실서비스 로그 실시간 평가 및 스코어), 인적 검수(휴먼 리뷰), 실사용자 인터페이스(Thumbs, 코멘트 등) 전 과정 연계
‘루프(Loop)’ 기능(자동 에벌 개선): LLM이 점수, 데이터셋, 프롬프트 동시 최적화 제안

도구 설계(툴/에이전트명세)와 프롬프트 디자인이 LLM 성능을 결정하는 이유 및 실증적 데이터

현대 에이전트 시스템에서 시스템 프롬프트가 차지하는 토큰 비율은 소수, 실제로는 툴 정의·툴 반환 데이터가 대다수(실제 통계: Tool Definition/Response가 대부분)
LLM에 맞는 도구 정의(예: JSON→YAML)만으로도 품질 차이 유의미. API 층 그대로 LLM에 노출만 해서는 최적 성능 불가
신규 모델 등장 시 기존 설계와 도구 추상화의 ‘스와핑’이 즉각 가능하도록 설계(Proxy, Adapter 레이어 활용)
제품 설계 차원에서 툴/프롬프트/데이터셋/스코어의 분할과 독립적 최적화 전략 필수

평가 프레임워크, 오픈소스, 효율적 클러스터링 등 도구/라이브러리 소개

Chroma: FastEval 기반(질의-문서 골든셋), 손쉬운 리콜 측정으로 대규모 실험 지원, 최신 임베딩 모델(BGE, Voyage3 등)과 실제 응용 데모. 실전 회수지표(Recall@10 등)로 신속 모델 대체 판단 가능
합성 질의 LLM 활용법, 실제 데이터에 맞춘 질문 생성을 위한 LLM 튜닝 기법, Clean한 벤치마크 데이터의 위험성 지적
Cura(쿠라): 대화 로그 요약→클러스터링→트리 구조로 제품/사용자 세그멘트별 KPI 분석, 제품 로드맵 우선순위 합리화 안내
Bolt Foundry: 저널리즘적 구조 프롬프트, 팀원 간 샘플 설계 및 스코어 치환이 쉬운 자바스크립트 프레임워크 제공
Brain Trust Autoeval: 코드 기반/LLM as Judge 오픈소스 점수기(Scorer) 패키지 제공, 빠른 도입에 적합

정보 이론, 인간 인지 편향, 미디어·예술 분야 등 에벌 한계와 새로운 척도/지표 문제제기

인간의 인식적 한계(시각, 음성 등)와 JPEG, MP3 등 ‘반복적 정보 손실’이 AI 데이터·모델에까지 연쇄적 제한 작용 가능성 경고
클린 FID, 오브젝티브 리스닝-컬러 인식 등 인간 중심/상대적 지표의 한계: 예술/미학/개인화 등 평가가 객관화 불능한 사례
‘Traffic(2, 3차 파생 영향)’과 ‘Babel의 저주’: 모델간 소통·표현 다양성/창의성에 기초한 새로운 메트릭 및 하이퍼퍼스널라이제이션 필요 제언

기업/엔터프라이즈 조직에서의 에벌 도입 본질적 가치와 책임/거버넌스 논의

엔터프라이즈 구축시 가장 중요한 것은 평가(모델/유저피드백/점수)의 실제 ROI, 보안(CISO), 규제 적합성, 브랜드 신뢰도 등 KPI 연결
실제 수치: Brain Trust 고객 평균 하루 13회 에벌, 상위 조직은 3,000회 이상/일, 데이터 리뷰 2시간/일 투자 조직 사례
에벌 ‘역량 성숙도’ 판단 기준: 신모델 릴리즈 24시간 내 제품 업데이트, 사용자 불만→Eval화→개선의 즉시성, 실세계 문제와 데이터셋 동조화 여부
말단 엔지니어가 아닌 C-level(CEO, CFO, CISO, CTO, CIO 등)에서까지 에벌, 관측, KPI를 중심에 둬야 신규 투자유치/예산반영/상향적 혁신 가능
휴먼 인 더 루프(HITL): 모든 과정의 자동화만으로 충분치 않고, human reviewer의 도메인 직관/판단력 연동 프로세스 필수

오토에벌, 자동화/AI 기반 평가, 미래 전망

최근 LLM급 모델들은 prompt/data/score 동시 최적화가 가능해져, 반복적인 수작업 없이 자동화된 제품개선 루프 가동이 가능
Brain Trust Loop: 데이터셋/평가 기준 결합, “Prompt 최적화” “이 점수 왜 낮지?” “가혹한 점수 제안해 줘” 같은 복합 질의→LLM이 전체 시스템에서 개선점 제안·적용
오프라인/온라인, CI/CD 연계, 사용자 피드백 자동화, 실험군-B실험군 A/B 적용 등 통합 에벌 파이프라인 지향

실제 평가/관측/개선 루프의 시각화와 사례

Verscell: “과일 글자 세기” 앱이 프롬프트/모델 업그레이드만으로 신뢰성 문제(How many “Rs” in strawberry?)를 겪고, 다양한 질문군을 ‘농구코트’ 시각화(테스트 범위, 난이도 등)로 관리
실제 유저 인터랙션 로그 분석, 실시간 대화 재생, 포인트별 성공/실패 타일 분석, 클러스터 결과→제품팀 우선순위 부여 사례
브레인 트러스트: 플랫폼 선상에서 오프라인-온라인-피드백-루프-인적 리뷰의 흐름, 점수/실험군/모델별 대시보드와 코드-UI간 이중화 설명

실전적 질문 및 오픈 질의 응답(Q&A)에서의 실무적 고민과 답변

도메인 전문가의 휴먼 에벌 투입(사례: 금융 DCF 분석 등), 전문성 있는 데이터 생성·검토과정의 Capex 투자와 그 가치론
LLM as Judge의 상대평가와 절대평가 활용, 사용자별 평가 가이드라인/규정 마련, Human Reviewer간 평가 결과 통일성 관리 전략
유저 피드백의 데이터셋 자동 반영시 과적합 대비는, “자동吸수”가 아닌 휴먼 필터/다중 판단 및 issue화 전략 병행 필요
내부 엔지니어의 에벌 리뷰 과정과 평가체계, 다양한 조직 문화 간 차이, 제품 출시 전 평가/테스트 베이스라인 확보와 엔터프라이즈 신뢰성 증명

결론 및 에벌 도입 전략 요약

조직의 ‘에벌 역량 성숙도’ 스스로 점검: 24시간내 모델 교체-출시 가능성, 불만의 즉시 Eval화, 실사용 기준의 데이터셋·실험군 관리 여부
데이터·프롬프트·스코어·도구의 독립적/조합적 개선, 오프라인-온라인-A/B-휴먼리뷰 등 연속 루프 자동화 설계
대부분의 베스트 프랙티스는 ‘구성 요소의 자동화·구조화·가시성·금융지표화·실세계 데이터 기반’ 등의 특징을 갖고 착실히 확장 가능
벤치마크/프롬프트/LLM 버전 업그레이드 시, “나아졌는가? 어떤 부분이 개선/퇴보했나?”에 신속하게 대답할 수 있는 데이터/루프 구축이 곧 ‘현장형 AI 평가 엔지니어링’의 척도임