
영상 링크: [Full Workshop] Building Metrics that actually work — David Karam, Pi Labs (fmr Google Search)
채널명: AI Engineer
실제로 효과적인 평가 지표 만들기 — David Karam, Pi Labs (전 Google Search) 핵심 요약
- 영상은 AI 및 LLM 평가(evaluation, eval)에서 ‘실제로 동작하는’ 평가 지표(metrics)와 시스템 구축에 필요한 구체적 방법론과 사례를 공유함
- 참가자들은 평가 지표 설정의 어려움, 정답 기준의 모호함, 반복적이고 노동집약적인 작업의 한계 등을 토론함
- AI/ML 시스템에서 평가가 단순 품질 보증을 넘어 실제 서비스 개발의 중심이 됨을 강조
- Google Search, Pi Labs 경험을 바탕으로, 우수한 평가 시스템은 수십~수백 개의 신호(signals) 조합이 필요하다고 설명
- 자동화 평가(코드 기반, LLM judge)와 인간 평가의 한계 및 예시(헬프풀니스, 해로움 등) 지표만으론 한계를 언급
- 효과적인 평가 시스템 구축을 위해 단순한 신호에서 시작해, 반복적 개선을 거쳐 다층적, 복합적 신호 체계로 발전시킬 것을 권장
- 실습에서는 미팅 요약 생성기의 평가 기준을 코파일럿과 함께 구축·고도화하고, 색인/가중치/실제 데이터 적용, 구글 시트와 Python Colab 연동 등 워크플로우를 시연
- 데이터셋(120여건)의 thumbs up/down 피드백 활용, 지표와 실제 사용자 반응(정합성/상관관계)을 혼합적 매트릭스와 혼동 행렬(confusion matrix)로 검증
- 스코어러 모델은 바이디렉셔널 어텐션, 리그레션 헤드 등 아키텍처의 차별성을 가지며 높은 일관성, 고정밀 평가 성능 제공
- 대규모, 온라인 환경, 다국어 지원, 모델 비교·프롬프트 A/B 테스트·실시간 reinforce loop 등 다양한 활용 사례 및 실습방법 안내
세부 요약 - 주제별 정리
AI 평가 업무의 현실적 난점과 참가자들의 경험 공유
- 참가자의 대다수는 실제 업무에서 ‘평가(Eval)’가 얼마나 힘들고 반복적이며, 정답 기준을 정하는 일조차 어렵다고 토로함
- ML이 트레이닝 데이터에 의존한다면, 에이전트 AI 개발은 실세계 피드백(평가) 없인 학습 불가함을 강조
- AI 시스템 도입 후 QA/검증에 투입되는 시간(특정 분야에선 전체 개발의 80%)이 기존 SW QA(30%)보다 훨씬 높다는 경험 공유
- 이전 QA 및 테스트 자동화 경험이 평가 업무에 전이되지 않는다는 애로사항 언급
- 자동화 eval, LLM 심사(judge) 방식의 한계(정확도/주관성 등), synthetic data(합성 데이터) 활용에 대한 호기심 확산
Google Search, Pi Labs 실무 경험에서 도출된 평가 시스템 구축 노하우
- 발표자들은 Google Search에서 10여년간 평가 시스템을 총괄, 수백 개 단위의 신호와 다층 평가 메트릭 시스템 운용 경험 공유
- ‘벤치마킹→지표 설정→계속된 보정/인간 calibration→장기적인 피드백 루프’로 단계를 구체화함
- 실제 Search는 단 4개가 아닌 약 300개의 다양한 신호와 평가 지표를 동시에 고려
- 효과적 평가는 단일 방법이 아닌 복수의 도구/방법론의 축적(ROI, 점점 더 정교한 평가의 계층적 도입)이 필요함을 강조
평가 지표 설계에서의 반복적 개선 및 피드백 루프의 핵심성
- 실험, 검증, 개선 등 과학적 방법론을 평가 시스템에도 적용해야 함
- 초기에 간단한 신호(5~10개)를 시작으로, 문제 발견/디버깅/사용자 사례에 따라 점진적으로 메트릭을 추가·보강할 것을 권장
- 평가(Scoring)는 전통적 SW 테스트와 달리 ‘도메인 지식 축적의 근간’임을 강조
- 충분히 신뢰할만한 평가 시스템은 프롬프트 자동 최적화, 합성 데이터 선별/파인튜닝, 리인포스먼트 러닝 등 서비스 품질 고도화의 출발점
- 피드백 루프(계속 측정, 문제 발견, 개선)의 중요성 반복 언급
다양하고 복합적인 평가 지표의 필요성과 실제 설계 예시
- 단순 헬프풀니스, 해로움, 환각(hallucination)만으로는 LLM 기반 응용 서비스의 수준 높은 품질 제어에 한계가 있음을 지적
- 예시: 여행 일정 생성기의 경우, ‘재미있는가’, ‘신선도’, ‘현실적 제약 충족’ 등 미시적 조건까지 쪼개어 복합적으로 평가해야 현장성/정확도 확보 가능
- 기존 LLM 평가 메트릭은 guardrail 역할에 불과, 각 응용 환경(Trip Planner, Meeting summary 등)에 특화된 세부 항목의 필요성을 강조
- ‘크리티컬/메이저/마이너’ 등 가중치 차등화 및 다중 신호의 수학적 조합으로 정확도 향상
실습 워크플로우: 평가 시스템 실제 구축의 단계별 시범
- 워크숍은 hands-on 실습을 중심으로, 참가자가 코파일럿(Co-pilot) 도구, Google Sheet, Python Colab을 활용해 직접 평가 시스템을 설계함
- 1단계: 미팅 요약 생성기를 예시로, 시스템 프롬프트와 샘플 입력/출력에서 평가 차원(dimensions) 및 신호 목록 추출
- 2단계: 각 신호는 자연어 질문·파이썬 코드 등으로 구체화, 예를 들어 ‘아웃풋에 핵심 인사이트가 포함되어 있는가?’ 등 세부 항목 제시
- 3단계: 코파일럿을 통한 신호 차원 추가/수정/삭제, 예시(20자 미만 title 여부) 동적 생성 및 code snippet 자동화
- 4단계: 신호별 가중치, 중요도(critical/major/minor) 설정; 동적 수식, 예제 기반 점수 보정
- 5단계: 평가 기준(신호) 시트로 복사, 실제 데이터셋(최대 120여 개, thumbs up/down)과 매칭
구글 시트 및 Colab을 활용한 실제 데이터 평가 및 검증 방법
- 평가 기준을 Google 시트 내로 복사, 실제 요약 본문/결과와 라벨(thumbs up/down) 데이터로 혼동 행렬 생성
- 확장 프로그램(score extension)을 통해 100개 이상 예시 자동 채점, 결과 confusion matrix(정/오답, 정합률 등)로 출력·수정 개선
- 참가자는 시트 내에서 차원별/조건별 가중치 또는 신호 수정을 즉시 반영 가능; 데이터의 JSON 오류 예시 등으로 robustness 체크
평가 지표의 정합성(상관관계, alignment) 검증과 지속적 개선
- 측정 지표와 실제 사용자 평가(thumbs up/down) 사이의 상관관계를 혼동 행렬, 정합률 등으로 수치화해 즉시 확인
- Google Search 등에서는 데이터 과학자들이 상관 분석, confusion matrix, 보정(calibration) 등을 통해 끊임없이 지표의 성능을 점검
- 정제된 지표의 축적은 시스템 분석·진단·고도화의 핵심 자산임을 구체적으로 설명
대규모/실시간/다채널 환경에서 평가 시스템의 확장 운용 방안
- 실습에서는 소규모(120건) 예제를 다루지만, 실제 Pi Labs의 Scorer 시스템/SDK는 신호 20여개도 20~50ms 내 처리 가능하도록 최적화
- 대규모 실시간 서비스와 온라인 평가, 배치 처리, 모델 비교 등 다양한 방식을 제공하며 huggingface 등 데이터셋 연동
- 실제 업무에선 로그 샘플링 기반 평가 세트(쉬움/어려움/중간) 구성이 효율적임을 라이트하게 안내
차별화된 평가 시스템(Scorer)의 기술적 설계 배경
- Pi Labs의 고속·고정밀 평가 모델은 바이디렉셔널 어텐션, 리그레션 헤드 기반; 디코더 모델 대비 극히 낮은 변동성/일관성 차별화
- 오토리그레시브 토큰 생성은 피하고 입력/출력·코딩·자연어 등 다종 데이터를 대량 학습해 다양한 지표 일반화
- 내부적으로 Sophisticated Generalized Additive Model로 각 신호 가중치 보정, thumbs up/down 데이터 기반 calibration 반복
- 사용자는 프롬프트 튜닝 불요, 자연어 설명/널리 해석 가능한 결과 제시
평가 시스템의 다언어, 온라인, 통합 운용 및 향후 로드맵
- 현재는 영어 + 일부 다언어(곧 확장 예정), 멀티모달 지원은 준비 중임을 언급
- 단일 인터페이스로 시트, Colab, reinforcement 적용, PICORE 등 다양한 플러그인 연계(시연은 제한적)
- 워크숍 자료(google doc, slack 연동, pi.ai/workshop 페이지)로 실습 및 후속 학습을 안내
실습 코드(Colab) 및 다양한 활용(모델/프롬프트 비교, 온라인 강화 등) 실제 예시 안내
- Colab 실습에서는 평가 기준을 자연어 기반 스펙+코드로 복사, 데이터셋(허깅페이스 등)의 thumbs up/down 결과와 자동 비교
- 주요 활용: ① 서로 다른 LLM(모델 1.5, 2.5, Haiku 등) 비교, ② 프롬프트 변경 후 품질 영향 A/B 테스팅, ③ 단일/다중 샘플 생성 후 스코어 최적 응답 선택(온디맨드 강화)
- 각 단계 클릭만으로 confusion matrix, 점수/변동 폭, 품질 변화 등 시각화 확인 가능
- 참가자 개별 실습, 후속 학습, 코드 수정 테스트 등 자유롭게 확장하도록 설명하며 세션을 마무리함