The Future of Evals - Ankur Goyal, Braintrust

영상 링크: The Future of Evals - Ankur Goyal, Braintrust
채널명: AI Engineer

평가(Eval)의 미래 - Ankur Goyal, Braintrust 핵심 요약

이 영상은 Ankur Goyal이 Braintrust에서의 지난 2년간 ‘평가(Eval)’ 분야에서의 경험, 현재 상황, 그리고 향후 전망에 대해 발표한 세션임.
Braintrust는 여러 조직이 AI 제품을 만들 때 핵심적으로 ‘평가’를 사용한다고 강조하며, 평균 고객사가 하루 13건, 많은 고객사는 하루 3,000건 이상의 평가를 실행하고 있다고 설명함.
선도적인 고객사는 하루 2시간 이상을 평가 작업에 할애하는 등, 평가가 AI 품질 개선의 핵심 수단임을 수치로 제시함.
기존 평가(Eval) 프로세스는 대부분 수동적으로 대시보드를 확인하고, 그 결과를 바탕으로 코드나 프롬프트, 데이터셋을 직접 수정해야 한다고 지적함.
최근 Braintrust에서 개발한 ‘Loop’란 에이전트를 소개하며, 이 도구를 통해 평가 과정의 자동화 및 효율화를 실현하고자 함을 밝힘.
‘Loop’는 Claude 4와 같은 최신 프론티어 모델의 등장으로 가능해졌으며, 이전 모델 대비 최대 6배 뛰어난 성능을 보여줌.
Loop는 프롬프트, 데이터셋, 채점 기준(Scorer) 제안 및 자동 최적화를 지원하며, 사용자 UI 내에서 편리하게 그 결과를 비교/채택할 수 있도록 설계됨.
사용자는 Braintrust 내에서 Loop 기능을 활성화할 수 있으며, Claude 4 외에도 OpenAI, Gemini, 자체 LLM 등 다양한 모델을 선택하여 이용 가능함.
평가(Eval) 방식이 근본적으로 변화하고 있는 시점임을 강조하며, Loop와 함께 미래의 평가 혁신에 동참할 것을 독려함.
영상을 마치며 제품에 대한 피드백, 인재 채용 문의, 직접적인 대화 등 적극적인 소통을 요청함.

세부 요약 - 주제별 정리

Braintrust는 AI 제품 개발에서 평가(Eval) 작업이 필수적임을 수치로 입증함

Braintrust의 두 해에 걸친 여정에서 최고의 AI 제품을 만드는 기업들과 협업해옴.
자신들이 지원하는 조직의 평균값을 제시: 하루 평균 13건의 평가(Eval) 실행.
일부 고객사는 하루 3,000건 이상의 평가를 돌리고 있음.
가장 선진화된 고객들의 경우, 하루평균 2시간 이상을 평가에 투자할 정도로 평가가 업무의 핵심임.
이처럼 빈번하고 정교한 평가 활동이 AI 제품·에이전트의 성능을 끌어올리는 기반임을 강조함.

기존의 평가(Eval) 프로세스는 대부분 수동식 대시보드 활용에 그침

데이터, 프롬프트, 코드 등 다양한 구성 요소의 품질을 평가하기 위해 대시보드를 반복적으로 확인해야 함.
“아주 멋진 대시보드이긴 하지만”, 대시보드를 확인한 뒤 개선점(주로 코드, 프롬프트 등)을 별도로 반영해야 하는 번거로움을 언급.
AI 제품 및 에이전트가 아무리 자동화되어 있어도, 평가는 매우 수동적으로 이루어져 왔음을 지적함.
이러한 절차가 AI 개발 현장에서의 리소스 낭비일 수 있음을 시사함.

Loop는 평가 자동화와 고도화를 동시에 실현하는 에이전트 도구임

Braintrust 내부에서 작동하는 신기능 에이전트 ‘Loop’를 소개함.
평가 자동 최적화: 사용자의 프롬프트, 데이터셋, 채점 기준을 자동으로 분석, 수정 제안 혹은 직접 변경해줄 수 있음.
기존 대비 차별점은 Loop가 ‘평가 자체’의 개선을 포괄적으로 지원한다는 점임(프롬프트·데이터·채점 기준을 모두 최적화).
평가 결과와 수정 제안을 UI상에서 나란히 비교, 직접 채택 여부를 판단할 수 있음.
보다 적극적인 사용자를 위해 ‘자동 최적화 토글’을 제공, 완전 자동화도 가능함.

다양한 대형언어모델(LLM)과 호환 가능한 Loop 기능으로 접근성을 높임

Loop는 기본적으로 Claude 4를 사용하지만, 오픈AI, 구글 Gemini 등 다양한 LLM을 직접 선택해 활용할 수 있음.
자체 LLM을 보유한 조직도 Loop를 활용 가능함.
기존 Braintrust 사용자는 단순히 ‘Loop’ 기능 플래그를 켬으로써 즉시 기능을 사용 가능함.
Loop 기능은 UI 내부에서 즉각적으로 작동, 별도의 복잡한 연동 작업 없이 곧바로 실전업무에 투입할 수 있도록 설계됨.

평가(Eval) 작업 방식이 향후 1년 내 근본적으로 변화할 것임을 확신함

최근의 최신 프론티어 모델 등장으로, 평가 자동화의 정확도와 효율성이 크게 향상됨.
Braintrust는 이러한 변화의 조류를 내부 제품에 적극적으로 반영 중임.
전통적인 수동 평가 방식은 점차 사라지고, 평가 자체의 구조가 혁신될 것임을 예견함.
앞으로의 1년이 평가 분야의 혁신기에 본격적으로 진입하는 분기점임을 강조.

사용자 피드백과 적극적인 채용을 통해 제품과 조직의 혁신을 도모함

Braintrust의 평가 혁신과 Loop 기능에 대해 사용자의 다양한 피드백을 받고 싶다는 의사를 밝힘.
UI·AI·인프라 등 다양한 부문에서 함께 일할 인재를 적극 채용 중임을 강조.
영상 말미에 QR 코드 안내와, 모든 논의에 열려 있음을 마지막으로 재차 언급함.

The Future of Evals - Ankur Goyal, Braintrust

평가(Eval)의 미래 - Ankur Goyal, Braintrust 핵심 요약

세부 요약 - 주제별 정리

Braintrust는 AI 제품 개발에서 평가(Eval) 작업이 필수적임을 수치로 입증함

기존의 평가(Eval) 프로세스는 대부분 수동식 대시보드 활용에 그침

최신 모델(특히 Claude 4)의 등장으로 평가 과정 자동화가 가능해짐

Loop는 평가 자동화와 고도화를 동시에 실현하는 에이전트 도구임

다양한 대형언어모델(LLM)과 호환 가능한 Loop 기능으로 접근성을 높임

평가(Eval) 작업 방식이 향후 1년 내 근본적으로 변화할 것임을 확신함

사용자 피드백과 적극적인 채용을 통해 제품과 조직의 혁신을 도모함