Skip to content
Go back

Engineering Better Evals: Scalable LLM Evaluation Pipelines That Work - Dat Ngo, Aman Khan, Arize

Published:  at  05:19 PM
YouTube Thumbnail

영상 링크: Engineering Better Evals: Scalable LLM Evaluation Pipelines That Work — Dat Ngo, Aman Khan, Arize
채널명: AI Engineer

더 나은 LLM 평가를 위한 확장 가능한 평가 파이프라인 구축 핵심 요약


세부 요약 - 주제별 정리

관찰성, 평가, Golden Dataset은 LLM 파이프라인의 핵심 세 기둥임을 강조함

LLM as a Judge 방식이 주류지만, 다양한 보조 평가 도구와 병행해야 실효성이 높음

현장에서는 “평가 기준의 주기적 개선”이 필수이며, 2가지 순환적 선순환 구조가 존재함

복잡한 LLM 시스템(특히 에이전트 기반)으로 갈수록 평가 포인트와 복잡성이 기하급수적으로 증가함

산업 현장에서는 평가 방법론 ‘커스터마이징’이 필수이며, ‘Out-of-the-box Eval’은 지양해야 함

최신 AI 트렌드에 맞춘 Arize의 에이전트 평가 아키텍처와 그래프 집계 기능 시연

개별 트레이스가 아닌 “Aggregate View(전체 경로 분포 및 실패 모드)“가 중요하다는 점을 산업 현장 예시로 설명

”트래젝토리(trajectory) 평가” 개념 활용으로 복잡한 에이전트 워크플로우의 평가 효율을 극대화함

인라인(Inline) 평가와 오케스트레이션 외부 평가(Guardrail 등)의 장·단점 및 적용 전략을 심층 분석함

분산/비동기 시스템에서 평가 트레이스 전체 집계는 오픈텔레메트리(OpenTelemetry, OTEL)로 해결 가능함

평가 신뢰도 확보를 위한 Confidence Score 산출 방식 소개 (Logprobs·분류확률 등)

프롬프트 자동 최적화(DSPY, Meta-prompting 등)와 Loop 단축 등 최신 자동화 트렌드 사례 공유


수정 요청하기

Previous Post
To the moon! Navigating deep context in legacy code with Augment Agent - Forrest Brazeal, Matt Ball
Next Post
Why should anyone care about Evals? - Manu Goyal, Braintrust