
영상 링크: How to run Evals at Scale: Thinking beyond Accuracy or Similarity — Muktesh Mishra, Adobe
채널명: AI Engineer
정확도 또는 유사성을 넘어서 대규모로 평가(Eval)를 운영하는 방법 핵심 요약
- 이 영상은 대규모 AI 평가(Eval) 구현 시 “정확도나 유사성”에만 집착하지 않고 더 넓은 관점에서 평가 전략을 설계해야 함을 강조함
- Adobe의 Applied AI 개발 플랫폼 리드 엔지니어 Muktesh Mishra가 직접 경험과 사례를 바탕으로 발표함
- LLM(대형 언어 모델) 기반의 AI 애플리케이션에서 출력의 비결정성, 주관적 평가 필요성, 프롬프트/모델 변경 시 품질 테스트 방식 등 실질적 난제를 지적함
- AI 애플리케이션 평가의 근간은 “Evals”로, 이는 테스트 케이스를 통해 각 시스템의 목표 달성도, 신뢰성, 개선 여부 등을 측정함
- 데이터 구성 및 다중 데이터셋 활용, 라벨링, 지속적 데이터셋 정제의 중요성 강조
- 평가 대상과 목표에 따라 테스트 방식(정확도, 유사성, 코드 생성은 기능적 정확성, 에이전트는 경로 평가 등)이 달라져야 함을 예시와 함께 설명
- 단일 데이터셋이나 단일 평가법으론 충분하지 않으며, 다양한 데이터와 경로에 따른 반복적 검증 필요
- 대규모 평가 운영을 위해 캐싱, 병렬 처리, 오케스트레이션, 결과 집계 및 반복 시행(측정-모니터링-분석-반복) 등을 제안
- 자동화와 휴먼 인더 루프(human-in-the-loop) 간의 속도와 정밀도 트레이드오프, 프로세스 중심 설계의 필요성도 논의
- 최근에는 “Eval Development”라는 개념이 대두되고 있으며, 테스트 주도 개발처럼 평가 주도 개발 패러다임이 중요해지고 있음을 시사
세부 요약 - 주제별 정리
발표자는 실제 AI 개발 경험과 다양한 오픈소스 활동을 토대로 대규모 평가(Eval)의 중요성과 배경을 설명함
- 발표자는 Adobe에서 Applied AI 개발 플랫폼 팀의 리드 엔지니어로 활동 중임
- CI/CD 디자인 패턴 책 공동저자이자 커뮤니티 주도 오픈소스 프로젝트 다수 참여
- 최근 AI 컨퍼런스에서 중요 화두인 “Evals”가 등장했음을 언급하며 발표 주제에 연결
LLM 기반 AI 앱 개발에서 출력의 비결정성 및 주관적 평가 필요성이 실질적 문제임을 짚음
- LLM 기반 애플리케이션은 동일 입력값에도 매번 다른 결과를 보이는 “비결정성(nondeterministic)” 특성을 가짐
- 이러한 특성으로 인해 출력의 테스트, 품질 관리 및 주관적 평가의 어려움이 발생함
- 프롬프트와 모델 변경 시 “어떤 부분이 어떻게 깨질지”, 테스트 케이스 운용상의 난점이 있음
- 성능과 정확도 측정을 위한 딱 맞는 툴/메트릭/모델 선정이 점점 더 복잡해지고 있음
애플리케이션 품질 및 신뢰성 유지를 위한 “자동화된 평가(Eval)“의 핵심적 역할을 강조함
- 평가(Evals)는 일종의 테스트 케이스로, 시스템 출력의 목표 달성 여부 및 안정성을 측정하는 가장 기본적 방식임
- 측정 없는 개발은 비즈니스에 다양한 부정적 영향을 미칠 수 있음
- 시스템 출력의 신뢰성과 책임성(accountability)을 높이기 위해 지속적인 평가와 개선이 필요함
- 고객 대상 애플리케이션은 특히 신뢰성, 투명성, 개선 주기와 같은 평가 프로세스의 확립이 중요함
효과적인 평가를 위해 데이터셋 구성과 지속적 개선이 가장 중요한 기반임이 반복 언급됨
- 평가를 시작하려면 “데이터에서 출발”해야 하며, 이를 위해 두 가지 접근법이 소개됨
- 하나는 “소규모 시도”로, 신테틱 데이터(합성 데이터)부터 생성하여 점진적으로 검증 시작
- 또 하나는 반복적 관측과 지속적 데이터셋 정제 과정
- 실환경 데이터 외에도 보조적인 합성 데이터 활용 가능
- 라벨링 기준과 커버리지 설정 등, 데이터셋은 다양한 플로우, 케이스, 사용 시나리오를 반영하도록 구축되어야 함
- “하나의 데이터셋”만으로 충분하지 않으니, 목표 플로우 단위로 별도 데이터셋을 구축하고 활용할 필요가 강조됨
평가 목표를 명확히 정의하고, 각 컴포넌트별 모듈화, 데이터 처리 최적화 등의 설계 원칙 제시
- “무엇을 평가할 것인가?”에 대한 질문에는 “모든 것”이 답이며, 그만큼 구체적 목표를 명확히 해야 함
- 목표, 검증 범위, 평가 방식 등을 미리 규정해 각 컴포넌트별로 평가 모듈을 설계해야 함
- 데이터셋은 플로우별로 다르게 준비되며, 애플리케이션 경로/흐름마다 별도 평가가 필요함
- 복수의 플로우 및 복잡한 경로에 대해 일관성 있게 검증하는 구조가 필요함
평가는 일관적이지 않으며, 애플리케이션 성격에 따라 맞춤형 평가 방식을 설계해야 함
- “보편적인 평가법은 없다”는 것을 강조하며, 각 애플리케이션 특성에 따라 평가 기준이 달라야 함
- 예시:
- RAG(검색증강생성) 앱: 정확도, 유사성, 유용성(metric) 중심 평가
- 코드 생성 모델: 생성된 코드의 기능적 정확성을 실제 코드베이스와 비교
- Q&A: 정답률, 합리성, 정보 제공 여부 등 맞춤형 평가
- 에이전트(Agent): 다양한 경로(trajectory)로 목표 도달 가능하므로, “경로 평가”가 주요 포인트
- 다중 턴 시뮬레이션, 도구 호출(tool calls) 등 복합 행동에 대해선 올바른 경로 및 결과 검증 필요
대규모 평가 운영을 위해 병렬 실행, 오케스트레이션, 캐싱 등 인프라 전략이 필수적임을 설명함
- 중간 결과 캐싱과 회귀 테스트(regression), 평가 병렬화(parallelism), 오케스트레이션(Orchestration) 등 운영 효율화가 중요함
- 평가 결과는 집계(aggregation)하여 일괄적으로 검토
- “측정-모니터링-분석-반복” (measure, monitor, analyze, repeat) 주기로 운영하며, 최근 업계 주요 원칙임
- 평가 실행 빈도를 높이고, 그 결과를 지속적으로 개선해나가는 피드백 루프를 강조
평가의 측정 대상·목표에 따라 다양한 메트릭스 및 방법론을 적용함이 필요함을 실례로 설명함
- 사례별 맞춤 메트릭 및 평가법을 선택할 필요
- 일반적으로 “적합한 도구(tool)“보다 “올바른 프로세스(process)“를 구축하는 것이 더 중요하다고 주장
- 도구로 모든 케이스를 자동화할 수 없으니, 평가 프로세스 자체의 설계와 관리가 핵심임
자동화(evals automation)와 휴먼 인더 루프(human-in-the-loop) 간 트레이드오프를 균형 있게 조정해야 함
- “속도”와 “정확도(정밀도)” 사이의 누가 더 중요한지에 따라 자동화와 인간 개입의 조합을 조율
- 인간이 직접 관여해야 할 영역과, 테스트 자동화를 적용할 케이스의 구분 필요
- 상황과 목적에 맞는 적정 균형점을 설정해야 함
”평가 주도 개발(Eval Development)” 패러다임의 부상과 실천적 메시지로 마무리함
- 최근 “Eval Development”라는 개념이 소프트웨어의 “테스트 주도 개발(TDD)“과 같은 관점에서 대두됨
- 즉, 평가 기준을 먼저 정의하고, 다양한 유즈케이스(Positive/Negative both)에 대응하는 케이스를 만들고, 이를 반복적으로 개선
- 데이터와 평가 루프의 설계·운용 중요성을 마지막까지 반복 강조
발표 마지막에 직접 소통을 위한 안내와 함께 전체 요지 및 실행 포인트를 다시 정리함
- AI 평가(Evals)는 AI 애플리케이션 개발의 가장 근본적이고 중요한 부분임을 거듭 주장
- 올바른 데이터 구축, 반복적 측정·분석·개선 과정 실행, 평가 방법론의 균형적 적용의 중요성 재확인
- 궁금한 사항은 발표자와 연락 가능하다는 안내와 함께 발표를 마침