영상 링크: Shipping AI That Works: An Evaluation Framework for PMs – Aman Khan, Arize
채널명: AI Engineer
잘 동작하는 AI 출시: PM을 위한 평가 프레임워크 핵심 요약
- 아라이지(Arize)사의 AI PM 아만 칸이 직접 공유한 평가 시스템 및 실제 실습 기반 워크숍
- 스포티파이, 우버, 인스타카트 등 대형 AI 활용 기업의 실사례를 바탕으로, ‘eval(에발, AI 평가)‘의 필요성과 설계, 운영법을 제시
- LLM 기반 에이전트 시스템의 ‘비결정적·다경로’ 특성 때문에 기존 SW 테스팅과 본질적으로 다름을 강조
- AI 트립 플래너(여행 일정 짜기) 멀티 에이전트 예제를 실습하며 프로토타이핑부터, 프롬프트 플레이그라운드 활용, 데이터셋 구축→평가 실행까지 구체적 절차 시연
- Eval 프레임워크를 설계할 때 ‘LLM as a Judge’ 방식(LLM으로 레이블 생성)이 대규모 확장성과 반복 실행에 적합하다고 강조
- PM(프로덕트 매니저)이 프롬프트 설계 및 평가 기준(acceptance criteria)을 소유 테스트하여, 기존 PRD 문서 대신 ‘평가 데이터셋’ 자체를 요구 명세로 활용할 수 있음을 제안
- Arize 및 오픈소스 Phoenix를 활용해 트레이스·스팬·프롬프트 버전 관리, 프롬프트 체이닝, AB 테스트, 프로그램적 이밸실행 등 고도화된 에이전트 개발·운용 워크플로우를 공개
- 모델의 신뢰성(환각 등) 한계 때문에, LLM 자동 평가(LLM as a Judge)와 휴먼 라벨 대조, 코드 기반 매칭 등 다층 검증이 필수임을 실제 데이터 기반으로 확인
- PM이 기술적 실습까지 직접 해야 하는 시대 도래: 프로토타입 신속 구현, 프롬프트 반복 최적화 권장
- Q&A 세션에서 실무 데이터셋 구축, 휴먼 인더루프, 역량 스택 기반 조직 재편 등 다양한 현장 문제와 모범 사례 공유
세부 요약 - 주제별 정리
발표자는 스포티파이·크루즈 등에서 AI 평가 시스템을 설계하며 실제 대기업의 실전 문제를 해결해 옴
- 아만 칸(Aman Khan)은 크루즈(Cruise)에서 자율주행차 AI 평가 시스템 PM을 역임(2018~2019)하며 ML 시스템 신뢰성 확보 경험 쌓음
- 스포티파이(Spotify)에도 합류하여 ML 플랫폼, 추천/검색(Discover Weekly, Embedding 활용 등) 관련 PM 경험
- 현재는 Arize에서 3년 반째 재직, ‘AI 평가 시스템’ SaaS 상품을 구축하는 동시에, 과거 매니저들에게 플랫폼도 실제로 판매함
- Uber, Instacart, Reddit, Duolingo 등 고도화된 AI/ML 도입 기업의 에이전트·생성AI·랭킹/분류 등 다양한 실제 use case를 긴밀히 지원
- 기존 ML(분류/회귀 등)에서 최신 생성형AI, 멀티에이전트/코드 에이전트 등으로 적용범위 확장
- 고객사 서비스 실제 운영 중에도, AI가 ‘예상대로’ 동작하는지 정량적 신뢰성 확보하는 것이 핵심 과제
- 업계 선도 사례/문제점을 현장에서 받아들여, 제품에 적극적으로 반영 중
LLM 및 에이전트 시스템의 특성상 평가(eval) 및 관측(Observability)는 기존 SW와 전혀 다른 필수 항목임
- LLM/에이전트는 본질적으로 비결정적(nondeterministic) 운영 및 여러 작동 경로(branching, tool-calling) 존재
- SW의 테스팅(1+1=2처럼)과 달리 같은 입력에도 결과가 항상 다를 수 있음
- LLM의 환각(hallucination)은 기본 속성: OpenAI, Anthropic 등 시장 점유율 95%의 CMOs도 “모델은 항상 hallucinate 한다”고 공식 발표
- 신뢰성이 제한적임을 파는 쪽(모델 제공자)도 인정 → 평가 시스템 구축, 다층 검증이 필수
- AI의 진입 장벽 및 고객 신뢰 확보 경쟁에서 eval 시스템이 스타트업의 B2B/엔터프라이즈 진입에 있어 실제적인 무기가 됨(Gary 등 인용)
- ‘Whimo’ 등 실제 자율주행(AI 기반) 서비스 사례가 AI 에이전트 평가·관측 프레임워크 설계에 많은 통찰 제공
Eval(에발)의 정의 및 세부 구성: 효과적 평가 프레임워크 설계법
- Eval은 ‘소프트웨어 테스팅’의 개념을 비슷하게 가져오나, 결정론/문서기반 vs 데이터/텍스트 기반의 구조적 차이가 큼
- 핵심 구성요소 4가지:
- 역할(Role) 설정: 에이전트에 실행할 태스크/목표(ex. “텍스트의 독성 판단”)를 명시적으로 제시
- 컨텍스트(Context): 실제 평가할 텍스트·상황이 들어가는 부분(코드상의 중괄호 표기 예시)
- 목표(Goal): 어떤 논리/비즈니스 기준(독성, 정확도 등)으로 판단할지 구체화
- 용어·레이블 예시(Terminology/Label): 긍·부정/톡식·논톡식 등 구체적 레이블 및 실제 예시 데이터 삽입
- 숫자(1~5 등) 직접 생산보다는, 텍스트 라벨→점수 매핑 방식을 권장(LLM이 숫자를 자체적으로 잘 못 다룸)
- 평가 방식은 LLM as a Judge(LLM 판정), 코드 기반, 사람(휴먼) 기반 등 다양하며, LLM 판정 방식이 확장성·실전 운영에는 유리
AI 트립 플래너: 폼-프롬프트-멀티에이전트-룰 트레이스-AB테스트 전체 워크플로우 실습 공개
- 노트북·깃허브 기반 실습 환경 제공, 실시간 데모로 프로젝트 구조 설명(폼 입력→멀티에이전트 호출→결과 생성)
- Crew AI, Langraph 등 대표 오픈소스 멀티에이전트 프레임워크로 구성
- 예시 폼: 목적지(Tokyo), 기간(7일), 예산($1000), 관심(푸드, 어드벤처)
- 하위 에이전트(예산, 현지 경험, 리서치)가 병렬·동시 호출되어, 상위 itinerary 에이전트가 최종 일정 생성
- 예산 제한 등 실제 비즈니스 속성을 반영(입력값 기반 “합산해 $1000 안에서 일정관리”, 관심사별 일정 추천 등)
- API 로그, 트레이스/스팬 구조, 각 에이전트의 행위/산출물 시각화를 통해 내부 구조 투명하게 드러냄
- Arize와 오픈소스 Phoenix 모두 트레이스 시각화, 프롬프트 필드 자동 매핑 등 제품간 차이 비교
’프롬프트 플레이그라운드’로 입력값, 프롬프트, 모델 버전을 손쉽게 교체/실험 가능함
- 입력값(여행지/기간/스타일 등), 프롬프트 텍스트, 모델 버전을 한 UI에서 언제든지 수정 후 바로 결과 확인
- PM이 직접 다양한 옵션을 반복 실험(500자 이내, 더 친근하고 간결하게 등)하며, 결과의 품질·응답시간 등 체감할 수 있음
- AB테스트, 프롬프트 버전 관리 등 자동화된 지원 기능 탑재
- 프롬프트 최종 산출물이 엔지니어 몫인지, PM이 명확히 제시해야 하는지에 대한 문제 제기 → PM이 제품 품질 직접 책임지는 구조 권장
데이터 수집부터, 데이터셋 생성→평가(실행)→실험 관리까지 실제적 엔드투엔드 실습
- 실제로 예시 데이터를 만들어 데이터셋(tabular, 구글시트 유사)에 저장, 여러 예시 반복 평가(스팸 판별, 친근함 등 레이블링)
- 실무 팀 대부분이 초기에 스프레드시트로 수작업 평가→전문 annotate 팀 도입→확장 자동화가 일반적임을 설명, 휴먼 평가 경험의 필요도 인정
- AB테스트 기반으로 프롬프트/모델 교체 후 전체 데이터셋 대상 반복 실행→수치적 정확도, 다양성, 신뢰성 등 비교
- 프롬프트 체이닝(A→B→C, 곧 지원예정), 각각의 변동/실험영향 분해 평가 등 발전적 워크플로우 가능
’LLM as a Judge’ 평가 자동화와 휴먼 라벨 대조 및 검증은 실제 대규모 운영에 반드시 병행해야 함
- 친근한 레이블, 할인 제공 여부, 컨텍스트 일치/환각(hallucination), 정합성 등 자유롭게 평가 기준(Eval Definition) 생성 가능
- 프롬프트·산출물(친근함, 할인정보 등)을 LLM이 자동 평가→변동(온도/temperature) 파라미터로 결과 일관성 제어 가능
- 휴먼 레이블 큐 직접 제공: 사용자가 직접 각 예시에 친근함/로봇적임 판단 등 레이블 부여, 실제 평가 세트에 즉시 반영됨
- 코드 기반 비교(매칭/불일치 정규식 등)로 LLM 자동라벨과 휴먼 레이블 일치율, 확신도, 신뢰할만한 hard example 추출 및 관리
- 신뢰할 수 없는 프롬프트·평가 프로세스는 직접 문제점 확인 후 기준/레이블/프롬프트 반복 강화
- 팀 규모에 따라 라벨링·평가를 단계적으로 확대(휴먼→LLM as a Judge→hard example 집중 보완)
평가 기준(Eval)을 결국 제품 요구조건(acceptance criteria) 그 자체로 활용하라는 새로운 협업 제안
- 기존 요구명세(PRD) 대신 실제 평가 데이터셋, 평가 기준, pass/fail 판정체계를 엔지니어·PM이 공유함으로써 명확하고 공유된 목표 수립 가능
- 특히 PM이 뭉뚱그린 요구가 아니라, 실제 예시와 평가 기준을 제품명세로 제시→팀 내 오해/재작업 최소화
- 단순 브레인스토밍보다 데이터 기반 반복 실험(이터레이션, 골든셋 구축·확장) 중요성 강조
- 빠른 프로토타입→평가기준(acceptance criteria)→생산 현장 실운영까지 일련의 데이터 중심 워크플로우 제안
실전 조직/인력 구성, PM의 기술 역할, 평가 팀 구축 전략
- AI PM/AIE(엔지니어) 등 신직종 대두: PM이 직접 평가 작성·실험→채용/역량 파악, 관련 질의/면접을 위한 사전 경험 권장
- 초기엔 헤드오브프로덕트도 직접 실습하며, 인력 채용 전 시스템 이해-수립 우선
- 팀 평가체계 미스매치 발생시, 레이블 적합도 기준 강화, 샘플링, 지속적 품질관리, 평가 기준 반복 수정
- 조직문화 변화(300인 규모 회사 기준) 예시: 공공 포럼·AI 데모 등 내부 역량 전파, 기술적 PM의 적극적 역할 교차
- 엔지니어-프로덕트 간 책임·경계 모호화 이후, 역할 스택/개인별 역량조합(스킬스택 vs 고정 직군제)으로의 조직 전환 고민
- 프로덕트→프로토타입→데이터셋 구축→학습/테스트/기준 강화의 르네상스적 역할 기대
프롬프트·에이전트 체인의 고도화, 평가 자동화, 실전 환경 연계(Related API/Infra/Logging)
- OpenTelemetry 기반 표준 logging/tracing 구조 채택하여, Arize·Phoenix 등과 연동시 원활한 계측·분석 지원
- 코드 한 줄(langchain.instrument 등)만으로 다양한 Agent/Framework/언어에 무리 없이 계측 데이터 자동 업데이트 가능
- 메타데이터 확장(user_id, session_id, context 등)으로 기존 로그 대비 AI 평가에 최적화
- 특정 스팬, 함수에 직접 데코레이터 추가하여 시스템 전체/부분별 세밀한 평가 가능
- 데이터셋 추출·로컬 노트북 실험 등 코드베이스 접근이 제한된 조직/PM도 빠른 프로토타입 실험 가능 제공
지속적으로 변화하는 데이터셋, ‘hard example’ 수집, 평가 기준의 점진적 개선 전략
- 데이터셋의 대표성(representativeness) 확보, 환경 변화(시간,트렌드)에 따른 평가 기준 보완, hard example 중심 보강 반복
- 프로덕션/개발 데이터 모두 반복적으로 평가, 불일치/애매함·confident/uncertain 샘플 위주로 골든셋 확장
- 자율주행차 예시: 직진→좌회전→사람 무단횡단 등 실제 도전 상황이 등장할 때마다 new hard-example 데이터셋 확장
- 실무 속도상 초기 소량 데이터/평가로 출발, 프로덕션 진입 후 점진적으로 신뢰 구간 관리, 품질 고도화
실전 Q&A: Model 기반 평가, 연속적 샘플링, 평가 신뢰성, End-to-End 평가 등 현장 문제 답변
- BERT/Alberta 등 어떤 모델로도 평가기준 생성 가능(Arize, 커스텀 엔드포인트 지원)
- 친근함·정확성 등 평가 일치율 낮을 때, 프롬프트·few-shot 예시·strictness 등 반복 보완이 해법
- 평가 대상(로그, 텍스트 등) 구조, 메타데이터 구성, 실제 현장 트레이스와의 연계 등 구체적 쟁점 논의
- 평가-인력-프로덕트 간 동기화, 인더루프(human as a tool), 자동화+확실성 등 첨단 실제 워크플로우 공유
팀/역할 변화, PM의 기술 성숙 필요성, 내부 역량 강화 방법 등 미래 조직에 대한 현실적 조언
- PM의 코드·데이터 직접 실습 기회 확보, Cursor 등 AI 코드 도구로 비권한 접근/빠른 프로토타이핑 추천
- PM이 데이터 일부를 활용해 독립적 데모/평가를 설계→시연하고, 엔지니어를 설득하는 방식 권장
- 기술/프로덕트 경계 최소화: 조직/프로덕트/엔지니어가 역할이 아니라, 원하는 고객 경험·문제를 중심으로 역량을 보완/분배하는 ‘스킬스택’ 개념 도입 주장
- 전체 워크숍 종료 후에도, 팀별/역할별/전문화 현장 문제에 대해 지속적 소통 강조