
영상 링크: AI Engineer World’s Fair 2025 - Evals
채널명: AI Engineer
AI 엔지니어 월드 페어 2025 - 에벌(Evals) 핵심 요약
- AI Engineer World’s Fair 2025 “Evals” 세션은 AI 제품/에이전트의 평가(Evaluation, “Eval”) 기법, 중요성, 최신 트렌드 및 조직 내 실무 적용 사례를 다룸
- AI 시스템의 비결정론적(nondeterministic) 특성 탓에 기존 소프트웨어의 테스트(Pass/Fail Unit Test) 패러다임만으로는 충분하지 않으며, 피드백 루프와 데이터 기반 개선이 필수
- ‘에벌(평가)’의 핵심 역할: 모델/프롬프트/도구 변경 시 시스템 품질과 신뢰성, 회귀(regression) 유무, 실사용 지표 개선 여부를 신속하게 판단
- 브레인 트러스트(Brain Trust), 벡터 DB인 크로마(Chroma), Zapier, Verscell 등 다양한 조직들의 실전 적용 사례와 파이프라인(데이터 수집, 추출, 실시간 로깅, 유저 피드백 활용) 소개
- 오프라인(실험/벤치마크/CI), 온라인(실시간 로그), 휴먼 리뷰, 사용자 피드백 등 다양한 에벌 종류와 각 단계별 베스트 프랙티스 설명
- 실 사용자의 실제 데이터와 피드백을 즉시 평가 데이터셋(Eval Data Set)에 흡수해, 주기적으로 데이터 및 평가 기준 스펙을 조정하는 것이 중요한 데이터 기반 ‘Flywheel’ 실천법
- LLM as a Judge(LLM이 결과를 평가), 코드 기반 점수화, Rubric 기반, Trajectory Eval(전체 행위 경로 평가), A/B Testing 등 구체적 에벌 기법과 각각의 장단점 비교
- 실제 AI 제품(예: Zapier Agent, Verscell Vzero)의 ‘실패 사연’, 데이터 플라이휠, 사용자 행동 분석, 클러스터링, Eval기반 제품/기능 개선사례까지 다층적이고 구체적으로 설명
- 최신 프레임워크/도구: Brain Trust, Cura(대화 요약/클러스터링), Bolt Foundry(저널리즘 프롬프트), Chroma FastEval(), etc.의 오픈소스 코드와 실습 노트북(Colab, Jupyter) 공유
- 기업/조직 수준에서의 에벌 도입 평가(신뢰성, A/B 테스트 반복주기, 데이터셋/스코어링의 지속적 개선 여부)와 에벌이 Enterprise KPI에 미치는 영향 구체적으로 설명
- 새로운 모델 출시에 즉시 제품 업데이트가 가능한 민첩성을 갖추거나, 사용자 불만→신속한 Eval화→결과적 제품개선 루프의 구축을 ‘Eval 역량’의 핵심 지표로 제시
- 평가/관측/개선 루프의 자동화, LLM 기반 Auto-Eval, 휴먼 피드백/룰 기반 구분 등 향후 평가 파이프라인 혁신 방향 전망
세부 요약 - 주제별 정리
’비터 레슨’과 프롬프트 엔지니어링 종말론이 에벌 설계에 미치는 영향
- Rich Sutton의 ‘비터 레슨’: 도메인 지식의 조기 결합은 확장성·유지보수에 장애가 되며, 일반화 추구 및 규모의 확장이 AI 발전의 핵심임을 강조
- 프롬프트, 유저 명령어, 도구 사양 등 현행 ‘스트링 기반’ 프로그래밍은 지나치게 불투명하게 얽혀 있어, 비정형적 실험·최적화의 장애 요인으로 작동
- ‘분리와 추상화’를 강조: 시스템 설계, 값의 정의, Code/Prompt/Eval의 결합-분리(Separation of Concerns) 구조 확립해야
- 최고의 캔버스(프레임워크)는, 데이터/도구/러닝/에벌/프롬프트/모델들이 유연히 스와핑 가능해야 하고, 검증·최적화·진단이 쉬워야 함
- Kar, DSPI 등 “서명(signature) 기반” 프레임워크는 고수준 추상화→낮은 레벨로 필요 시 하강하는 설계(초기 하드코딩 지양, 확장성 확보)
AI 제품 개발 현장의 에벌(평가) 데이터 파이프라인과 플라이휠 구축 논리
- Zapier, Verscell, Chroma 등 실제 현장에서는 배포 즉시 ‘데이터 플라이휠’ 작동: 사용자 행동 이력→Eval 데이터화→제품 개선→새 피드백 축적
- 코드 Instrumentation(모듈별 로깅, Tool Call, 전후처리, 트레이스 동작 등) 필수, 자동화로 실제 데이터→Eval 변환(One-click) 실현
- 피드백 유형: 명시적(Thumbs up/down, CTA), 암묵적(기능 On, 결과 Copy, 지속적 재질문 등), LLM 기반 사용자 불만 자동 분류도 실전 적용 사례 제시
- 로그 기반 리트레이스·재현성(Data Replay) 확보, 모의 실행(Mock)과 실제 환경 미러링을 통한 정밀 Fail 모드 집계
- LM Ops 도구(Brain Trust 등)와 자체 도구 조합, 단일 실패→Eval 자동 생성, 에벌 집합→문제 유형·사용 시나리오 자동 버킷팅
유닛 테스트형 에벌, 트랙토리 에벌, A/B 테스트 등 다양한 평가 전략과 트레이드오프 구체 비교
- Unit Test Eval(행위 단위별, State 예측, 단일 Tool Call 단위): 초기에 도입 쉽고, 분리된 Failure Mode 집중 개선에 강점. 단, 모델·경로 다양성 저해, 과적합 이슈
- Trajectory Eval(전체 수행 경로, Multi-step, 에이전트 Complete Run): 복잡성 높으나 실제 시스템 성능을 전체적으로, 루트코즈 추적과 함께 평가할 수 있음. 환경 모의·Side Effect 처리 등 난점 있으나 ROI 큼
- LLM as a Judge(모델 평가자): 평가 기준의 추상화, 다수 모델 간 비교, Rubric 기반 가이드 내장 등으로 응용 확대 중. Rubric은 run마다 다르게 생성 가능(핸드크래프트 필요)
- A/B Test: 실제 트래픽의 일부 할당, 피드백·Conversion·Retention 등 실사용 지표로 검증. 랩 환경엔 없는 신뢰성·유저반응 확보
- 단순 지표에 매몰되어 100% Eval 점수에 집착하면 오히려 무의미에 가까우며, 분할 데이터셋(회귀 방지용·도전 과제용 두 풀) 로드맵 운용
실서비스에서 사용자 피드백 및 로그 데이터를 효과적으로 에벌에 통합하는 방안
- 명시적 피드백은 수집량 자체가 적으므로, 사용자 여정상 ‘핵심 순간’에 집중 어필(에이전트 실행 직후, 테스트 실행 후 등)
- 암묵적 신호 분석(LMM 활용한 실패·불만 감지, 대화 반복, Follow-up, 욕설 등) 후, 도메인 문맥 학습 필수
- 기존 비즈니스 핵심 지표(이탈률 등)와 Cross Analysis하여, 마지막 상호작용 분석시 데이터 줄기 채집
- 내부 슬랙 채널/온콜 엔지니어, 레이블링 파티(여럿이서 한 번에 라벨링) 등 그룹 업무 문화 사례 공유, ‘평가 집합 감’을 개발하는 과정 설명
런타임 관측/플레이그라운드/SaaS 플랫폼 실습: Brain Trust 플랫폼 데모 및 실제 코드 예시
- Brain Trust의 IDE 및 Playground: 프롬프트, 도구, 평가 스코어를 연결→데이터셋 반복적 실험→변경(모델/프롬프트/Task/Score) 시점별 정확한 이전 대비 변화 파악 가능
- 데모 코드(파이썬/타입스크립트): 평가 스코어(분리, 코드/LLM as Judge 모두 지원), 데이터셋 자동화, 로그→데이터셋 반영, CI/CD로 Eval 실행 가능(GitHub Actions 예시)
- 오프라인(사전 실험, 제품 출시 전 검증), 온라인(실서비스 로그 실시간 평가 및 스코어), 인적 검수(휴먼 리뷰), 실사용자 인터페이스(Thumbs, 코멘트 등) 전 과정 연계
- ‘루프(Loop)’ 기능(자동 에벌 개선): LLM이 점수, 데이터셋, 프롬프트 동시 최적화 제안
도구 설계(툴/에이전트명세)와 프롬프트 디자인이 LLM 성능을 결정하는 이유 및 실증적 데이터
- 현대 에이전트 시스템에서 시스템 프롬프트가 차지하는 토큰 비율은 소수, 실제로는 툴 정의·툴 반환 데이터가 대다수(실제 통계: Tool Definition/Response가 대부분)
- LLM에 맞는 도구 정의(예: JSON→YAML)만으로도 품질 차이 유의미. API 층 그대로 LLM에 노출만 해서는 최적 성능 불가
- 신규 모델 등장 시 기존 설계와 도구 추상화의 ‘스와핑’이 즉각 가능하도록 설계(Proxy, Adapter 레이어 활용)
- 제품 설계 차원에서 툴/프롬프트/데이터셋/스코어의 분할과 독립적 최적화 전략 필수
평가 프레임워크, 오픈소스, 효율적 클러스터링 등 도구/라이브러리 소개
- Chroma: FastEval 기반(질의-문서 골든셋), 손쉬운 리콜 측정으로 대규모 실험 지원, 최신 임베딩 모델(BGE, Voyage3 등)과 실제 응용 데모. 실전 회수지표(Recall@10 등)로 신속 모델 대체 판단 가능
- 합성 질의 LLM 활용법, 실제 데이터에 맞춘 질문 생성을 위한 LLM 튜닝 기법, Clean한 벤치마크 데이터의 위험성 지적
- Cura(쿠라): 대화 로그 요약→클러스터링→트리 구조로 제품/사용자 세그멘트별 KPI 분석, 제품 로드맵 우선순위 합리화 안내
- Bolt Foundry: 저널리즘적 구조 프롬프트, 팀원 간 샘플 설계 및 스코어 치환이 쉬운 자바스크립트 프레임워크 제공
- Brain Trust Autoeval: 코드 기반/LLM as Judge 오픈소스 점수기(Scorer) 패키지 제공, 빠른 도입에 적합
정보 이론, 인간 인지 편향, 미디어·예술 분야 등 에벌 한계와 새로운 척도/지표 문제제기
- 인간의 인식적 한계(시각, 음성 등)와 JPEG, MP3 등 ‘반복적 정보 손실’이 AI 데이터·모델에까지 연쇄적 제한 작용 가능성 경고
- 클린 FID, 오브젝티브 리스닝-컬러 인식 등 인간 중심/상대적 지표의 한계: 예술/미학/개인화 등 평가가 객관화 불능한 사례
- ‘Traffic(2, 3차 파생 영향)’과 ‘Babel의 저주’: 모델간 소통·표현 다양성/창의성에 기초한 새로운 메트릭 및 하이퍼퍼스널라이제이션 필요 제언
기업/엔터프라이즈 조직에서의 에벌 도입 본질적 가치와 책임/거버넌스 논의
- 엔터프라이즈 구축시 가장 중요한 것은 평가(모델/유저피드백/점수)의 실제 ROI, 보안(CISO), 규제 적합성, 브랜드 신뢰도 등 KPI 연결
- 실제 수치: Brain Trust 고객 평균 하루 13회 에벌, 상위 조직은 3,000회 이상/일, 데이터 리뷰 2시간/일 투자 조직 사례
- 에벌 ‘역량 성숙도’ 판단 기준: 신모델 릴리즈 24시간 내 제품 업데이트, 사용자 불만→Eval화→개선의 즉시성, 실세계 문제와 데이터셋 동조화 여부
- 말단 엔지니어가 아닌 C-level(CEO, CFO, CISO, CTO, CIO 등)에서까지 에벌, 관측, KPI를 중심에 둬야 신규 투자유치/예산반영/상향적 혁신 가능
- 휴먼 인 더 루프(HITL): 모든 과정의 자동화만으로 충분치 않고, human reviewer의 도메인 직관/판단력 연동 프로세스 필수
오토에벌, 자동화/AI 기반 평가, 미래 전망
- 최근 LLM급 모델들은 prompt/data/score 동시 최적화가 가능해져, 반복적인 수작업 없이 자동화된 제품개선 루프 가동이 가능
- Brain Trust Loop: 데이터셋/평가 기준 결합, “Prompt 최적화” “이 점수 왜 낮지?” “가혹한 점수 제안해 줘” 같은 복합 질의→LLM이 전체 시스템에서 개선점 제안·적용
- 오프라인/온라인, CI/CD 연계, 사용자 피드백 자동화, 실험군-B실험군 A/B 적용 등 통합 에벌 파이프라인 지향
실제 평가/관측/개선 루프의 시각화와 사례
- Verscell: “과일 글자 세기” 앱이 프롬프트/모델 업그레이드만으로 신뢰성 문제(How many “Rs” in strawberry?)를 겪고, 다양한 질문군을 ‘농구코트’ 시각화(테스트 범위, 난이도 등)로 관리
- 실제 유저 인터랙션 로그 분석, 실시간 대화 재생, 포인트별 성공/실패 타일 분석, 클러스터 결과→제품팀 우선순위 부여 사례
- 브레인 트러스트: 플랫폼 선상에서 오프라인-온라인-피드백-루프-인적 리뷰의 흐름, 점수/실험군/모델별 대시보드와 코드-UI간 이중화 설명
실전적 질문 및 오픈 질의 응답(Q&A)에서의 실무적 고민과 답변
- 도메인 전문가의 휴먼 에벌 투입(사례: 금융 DCF 분석 등), 전문성 있는 데이터 생성·검토과정의 Capex 투자와 그 가치론
- LLM as Judge의 상대평가와 절대평가 활용, 사용자별 평가 가이드라인/규정 마련, Human Reviewer간 평가 결과 통일성 관리 전략
- 유저 피드백의 데이터셋 자동 반영시 과적합 대비는, “자동吸수”가 아닌 휴먼 필터/다중 판단 및 issue화 전략 병행 필요
- 내부 엔지니어의 에벌 리뷰 과정과 평가체계, 다양한 조직 문화 간 차이, 제품 출시 전 평가/테스트 베이스라인 확보와 엔터프라이즈 신뢰성 증명
결론 및 에벌 도입 전략 요약
- 조직의 ‘에벌 역량 성숙도’ 스스로 점검: 24시간내 모델 교체-출시 가능성, 불만의 즉시 Eval화, 실사용 기준의 데이터셋·실험군 관리 여부
- 데이터·프롬프트·스코어·도구의 독립적/조합적 개선, 오프라인-온라인-A/B-휴먼리뷰 등 연속 루프 자동화 설계
- 대부분의 베스트 프랙티스는 ‘구성 요소의 자동화·구조화·가시성·금융지표화·실세계 데이터 기반’ 등의 특징을 갖고 착실히 확장 가능
- 벤치마크/프롬프트/LLM 버전 업그레이드 시, “나아졌는가? 어떤 부분이 개선/퇴보했나?”에 신속하게 대답할 수 있는 데이터/루프 구축이 곧 ‘현장형 AI 평가 엔지니어링’의 척도임