Five hard earned lessons about Evals - Ankur Goyal, Braintrust

영상 링크: Five hard earned lessons about Evals — Ankur Goyal, Braintrust
채널명: AI Engineer

Evals(평가 시스템)에 대해 어렵게 얻은 5가지 교훈 핵심 요약

발표자는 다양한 조직에서 Evals(모델 평가 시스템)의 도입 및 개선을 통해 얻은 중요한 5가지 교훈을 공유함
성공적인 Evals의 징후로 신모델 출시 24시간 내 제품 업그레이드, 사용자 피드백의 즉각적 평가 반영, 출시 전에 적용 가능성을 정확히 파악할 수 있는 공격형 평가 체계 구축 등을 제시
진정한 평가 시스템은 단순 공개 데이터셋, LLM 판정에만 의존하지 않고 데이터와 스코어러(채점 함수)를 직접 엔지니어링해야 함을 강조
현대 LLM 기반 에이전트에서는 프롬프트의 컨텍스트, 툴 정의 및 출력 설계가 모델 성능에 대단히 큰 영향을 미침 (예: JSON 대신 YAML 출력을 써서 토큰 효율성 및 해석력 극대화)
새 모델이 출시될 때마다 시스템 전체(제품, 팀, 마인드셋)를 즉각적으로 대응·변경 가능하도록 엔지니어링하는 것이 필수적임을 반복 강조
야심찬 평가 벤치마크를 선제적으로 설계하면, 신모델로 바뀔 때 해당 기능을 즉시 시험·출시 가능
**시스템 전체 관점의 최적화(데이터, 프롬프트, 도구, 스코어러 등)**가 부분별 최적화(프롬프트만 개선)에 비해 훨씬 월등한 결과를 가져오는 실제 데이터 예시 공유
발표자는 Braintrust의 신기능 ‘loop’ 등으로 Prompt, 데이터셋, 점수 함수를 LLM이 자동으로 개선·최적화하여 실질적 수작업을 크게 줄일 수 있음을 시연
Q&A를 통해 사용자 피드백 평가 반영의 오버피팅 우려, 평가 시스템 내 툴 토큰의 비중, 신모델 출시 대응 전략 등 실무적 고민을 구체적으로 설명
전체적으로 단순 평가 도구 활용이 아닌, 조직 전체의 데이터·프롬프트·툴·스코어링 엔지니어링과 신속한 업그레이드 체계 구축이 LLM 제품 경쟁력의 핵심임을 강조

세부 요약 - 주제별 정리

성공적인 Evals 구축을 위한 세 가지 핵심 진단법이 업무 효율과 경쟁력을 좌우함

Evals가 조직에 실질적 가치를 주는지 판단하는 3가지 기준을 구체적으로 제시
- 1. 신모델 출시 후 24시간 내 제품 반영: Notion(노션) 사례처럼, 새로운 LLM이 나왔을 때 24시간 이내에 제품에 통합·업데이트 가능하면 평가 시스템이 제대로 작동하는 것
- 1. 사용자 피드백 즉시 평가에 반영: 사용자 이슈/불만이 발생했을 때, 이를 바로 데이터셋과 평가 시스템에 반영할 수 있는 체계가 있는지 점검 필요
- 1. Evals를 공격적으로 활용하여 제품 적용 가능성 사전 진단: 단순히 유닛 테스트처럼 회귀테스트만 하는 것이 아니라, 사전에 Evals로 실제 성능과 적용 한계를 정확히 예측하여야 함
위 세 기준 중 하나라도 충족하지 않으면 조직의 평가 시스템이 미흡하다는 의미로 보고 개선 필요성을 강조
실제 Notion에서는 최근 주요 LLM(모델) 출시 때마다 이 과정을 성공적으로 반복함을 언급

우수한 평가 지표(Scorer)와 데이터셋 구축에는 적극적인 엔지니어링 투자가 필수임

기존에 자주 쓰는 synthetic(합성) 데이터셋, LLM 판정 등 오픈소스 기본 패키지만으로는 실제 서비스 사용성 반영이 불가능함을 강조
대부분의 실제 서비스 use case에서는 미리 만들어 두는 데이터셋이 ‘현실’을 전혀 대변하지 못함
최고 수준의 데이터셋은 실제 사용자 경험을 지속적으로 반영·정제하며 직접 ‘조율(reconcile)’하는 과정에서 만들어짐
채점 함수(scorer) 역시 “off-the-shelf”(범용 공개 함수)만 쓰면 ‘남의 프로젝트 스펙’을 적용하는 것에 불과하다고 비판
우수한 기업들은 반드시 자체 scoring 함수를 제작, 반복적으로 개선함을 경험적으로 확인
Scorer는 제품 스펙의 일부이므로 맞춤 개발이 당연함을 거듭 강조

프롬프트 품질은 시스템 프롬프트보다 전체 컨텍스트·툴 정의의 설계가 더 많은 차이를 만든다

현대 LLM 기반 에이전트 프롬프트 구성 예시를 상세히 설명: 시스템 프롬프트 외에 for 루프로 LLM과 툴 호출, 응답 등을 프롬프트에 반복적으로 결합
내부 분석 결과, 평균적으로 시스템 프롬프트 외의 ‘툴 정의’, ‘툴 응답’, 사용자/어시스턴트 메시지 등 기타 데이터가 전체 토큰 수의 ‘대다수’ 차지(구체적 수치 비율로 설명)
따라서 시스템 프롬프트 자체보다, 툴의 정의와 출력 결과 포맷을 LLM이 최적으로 활용할 수 있게 설계하는 것이 성능 향상에 결정적임
예시: 단순히 현재 서비스의 API 그 자체를 툴로 노출하면 최적의 성능이 나오지 않음 → LLM 중심으로 툴 설계 방식 변화 필요

툴의 출력 포맷 변화 하나로도 LLM 성능이 극적으로 달라질 수 있음을 실증적으로 제시

내부 실험 사례: 툴의 출력 포맷을 JSON에서 YAML로 변경했더니 LLM의 해석 효율과 토큰 효율이 크게 늘어남
LLM과 달리 JS 등 일반 코드·도구에서는 YAML/JSON이 큰 차이가 없으나, LLM에겐 ‘데이터 구조의 컴팩트함, 가독성’이 직접 성능에 영향
조직은 툴의 API 정의/출력 방식을 ‘모델 최적화 관점’에서 재설계해야 함을 강조

조직, 팀, 제품은 신모델 출시 때마다 ‘모두 바뀔 수 있다’는 가정 하에 설계되어야만 한다

Replit 등 선도 기업 사례를 들어, 신모델 출시 → 시스템 전체(제품, 팀, 마인드) 재구축이 곧바로 가능해야 진정한 경쟁력이 된다고 정의
실제 내부 product feature 사례: 몇 개월 간 같은 평가(Eval)를 반복적으로 실행하면서 신모델 등장 시 성능 수치(벤치마크)가 어떻게 한계치(viable 수준)를 넘는지 시계열 그래프·수치로 설명 (예: GPT-4.0 → 4.1 → Claude 4 Sonnet 순으로 성능 급상승)
신모델 통해 기존에는 ‘10% 성공률’로 불가능했던 기능이 ‘즉시 론칭 가능’ 수준(성공률 대폭 상승)으로 변한 실제 예시 제시
조직의 평가(Eval)는 현존 모델로 당장은 불가능한 매우 야심찬 테스트도 계속 준비해뒀다가 새 모델 등장 시 즉시 적용해보는 방식이 권장됨

평가 시스템은 모델 간 마이그레이션(호환성)을 감안해 설계되어야 신속한 실험이 가능함

Braintrust는 Braintrust Proxy라는 툴로 코드 수정 없이 다양한 모델(예: Gemini, Claude, OAI 등)을 빠르게 교체·실험할 수 있도록 제공
Google Gemini의 최신 모델 실측 예시와 같은 결과도 실수치로 제공 (예: Gemini 2.5 Pro0520은 특정 벤치마크에서 1%로 아예 표에 못 들어감)
모델 출시 직후 빠른 A/B 테스트 및 교체가 실질적으로 얼마나 중요한지 사례로 부연

전체 시스템 관점의 최적화가 프롬프트만 개선할 때보다 훨씬 더 큰 성능 차이를 만들어 낸다

단순히 프롬프트만 LLM으로 최적화(‘이 프롬프트를 개선해줘’)한 결과와, 프롬프트·데이터셋·채점함수 전부를 통합적으로 LLM이 개선하게 한 결과치를 직접 벤치마크로 비교
이 방식에서 단순 프롬프트 개선은 여전히 불가능한데, 시스템 전체를 LLM이 최적화할 경우 기능이 ‘불가능(10% 성공)’에서 ‘실제 가능(상당한 성공률)’ 수준으로 개선됨을 실측으로 보여줌
즉 프롬프트, 데이터셋, 채점함수, 툴 정의 등 ‘전체 구조 최적화’가 최우선임을 강조

Braintrust의 신기능 ‘loop’는 Eval 시스템 자체의 반복적 개선을 LLM이 자동화하는 구조를 제공함

‘loop’ 기능은 Braintrust의 feature flag를 켜서 현재 바로 사용 가능함을 안내
prompt, 데이터셋, score를 입력값으로 넣으면 LLM이 해당 요소를 직접 만들고 개선해주며, 반복적으로 best 조합을 찾아간다
“이 프롬프트를 최적화해줘”, “이 데이터셋에 추가로 넣으면 검증에 도움이 될 사례는?”, “왜 내 점수가 낮을까?”, “더 엄격한 scoring 함수 제시해줘” 등 실질적 질문에 대한 LLM 자동 개선 기능을 갖춤
Claude 4 Sonnet, Opus, GPT 등 주요 최신 모델에서의 실제 성능 비교 결과(자세한 수치 포함)를 안내, 다양한 모델 실험 권고

앞으로 LLM 발전으로 평가 시스템 개선의 워크플로우가 근본적으로 혁신될 것을 전망함

컨텍스트 설계, 프롬프트와 데이터셋, 스코어 개선 등 반복 작업의 상당부분이 LLM 자동화로 대체될 것으로 보고 있음
loop 등 자동화 도구로 자동 iterative 개선 구조가 활성화될 것임을 암시

Q&A를 통해 사용자 피드백의 오버피팅 우려, 평가 시스템 내 툴 토큰 비중 등 실무 이슈를 구체적으로 응답

사용자 피드백을 평가(Eval)로 전환 시 오버피팅 우려에 대한 질문: “사용자 피드백 없이 만든 고정 데이터셋이 오히려 더 현실과 괴리된다”라고 답변
- 현 시점에서는 단순히 모든 사용자 피드백을 자동 추가하는 것이 아니라, 사용자가 결국 ‘어떤 피드백을 샘플로 추가할지’에 대한 최소한의 판단·선별이 중요함을 언급
- 예: “이 피드백은 명백히 우리 제품에서 잘 되었어야 하는데 안 된다면, 샘플에 추가해 반드시 개선해야 함”이라는 실무적 설명
평가 내 툴, 프롬프트 토큰 비중 문의에 별도의 데이터 검토 내용(액터별 토큰 분포 및 그 역할) 부연
- 현대 LLM 시스템에서 툴 정의·응답이 전체 토큰 예산에서 차지하는 비중이 매우 높음을 거듭 강조
신모델 출시가 실제로 ‘모든 것을 바꾼다’는 점에 대한 구체적 사례/설명 요청에, 실제 loop 평가 세트의 여러 벤치마크 중 “야심 찬 벤치마크는 최근까지 모델 점수가 계속 낮았으나, 신모델(Model) 출시 직후 단번에 threshold를 넘기며 양상이 바뀐” 경험을 상세히 소개
동시에 어떤 활용(예: 영화 대사 분류 등)은 GPT-3.5 이후 꾸준히 잘 맞지만, ‘야심 찬 업무’는 모델 세대교체 때마다 성능 지형이 급변함을 실제로 보여 줌

발표자는 최종적으로 전체 평가 시스템의 수준향상이 경쟁력임을 정리하며 Q&A를 마무리함

효율적이고 공격적으로 설계된 평가 시스템만이 신모델 출시·피드백 신속 반영·전체 제품 경쟁력 강화로 연결됨을 재강조
조직의 평가 시스템 숙련도, 데이터셋·프롬프트·툴·스코어러의 커스텀 설계, 신모델 대응력, 시스템 전체 최적화의 중요성을 마지막으로 요약