Skip to content
Go back

Turning Fails into Features: Zapier’s Hard-Won Eval Lessons - Rafal Willinski, Vitor Balocco, Zapier

Published:  at  08:47 AM
YouTube Thumbnail

영상 링크: Turning Fails into Features: Zapier’s Hard-Won Eval Lessons — Rafal Willinski, Vitor Balocco, Zapier
채널명: AI Engineer

실패를 성공으로 바꾸기: Zapier의 AI 평가(Eval) 시행착오에서 얻은 교훈 핵심 요약


세부 요약 - 주제별 정리

Zapier는 에이전트형 AI 자동화로 비즈니스를 자동화하는데 주안점을 둠

AI 에이전트 구축 초기에는 프로토타입이 쉽게 성공적으로 보일 수 있으나 실제 배포 후가 진짜 시작임

데이터 플라이휠: 실사용 이후 피드백 수집/분석/개선의 반복이 중요함

코드 계측과 Trace 데이터 기록이 실패 분석 및 평가 자동화의 핵심임

명시적 피드백은 높은 신호를 주자마자 실제로는 매우 적으므로, 피드백 유도 방식 개선이 필요함

암묵적 피드백(Implicit Feedback)을 적극적으로 탐지하여 실시간 개선에 활용함

LM Ops 솔루션 구축: 직접 개발과 구매를 병행하며 Trace와 Failure 카탈로그화를 자동화함

대규모 문제 유형 식별과 모델 벤치마킹에는 Reasoning LLM 및 레이블링 자동화가 효과적임

평가는 Unit Test, Trajectory Eval, A/B 테스트(스테이지 롤아웃)로 구분되며 각기 다른 역할과 한계를 가짐

Rubric 기반 자동 채점과 평가방법 다변화로 객관성 및 적용도를 높임

지나친 수치 집착은 오히려 왜곡을 초래하므로, ‘사용자 만족’이 진정한 목표임을 명확히 함

영상 마지막에서는 실전 구조와 궁극적 검증 목표를 AB 테스트, 실사용자 경험에 둔다고 재강조함


수정 요청하기

Previous Post
Your Personal Open-Source Humanoid Robot for $8,999 - Jingxiang Mo, K-Scale Labs
Next Post
Agents, Access, and the Future of Machine Identity - Nick Nisi (WorkOS) + Lizzie Siegle (Cloudflare)