[Full Workshop] Building Metrics that actually work - David Karam, Pi Labs (fmr Google Search)

영상 링크: [Full Workshop] Building Metrics that actually work — David Karam, Pi Labs (fmr Google Search)
채널명: AI Engineer

실제로 효과적인 평가 지표 만들기 — David Karam, Pi Labs (전 Google Search) 핵심 요약

영상은 AI 및 LLM 평가(evaluation, eval)에서 ‘실제로 동작하는’ 평가 지표(metrics)와 시스템 구축에 필요한 구체적 방법론과 사례를 공유함
참가자들은 평가 지표 설정의 어려움, 정답 기준의 모호함, 반복적이고 노동집약적인 작업의 한계 등을 토론함
AI/ML 시스템에서 평가가 단순 품질 보증을 넘어 실제 서비스 개발의 중심이 됨을 강조
Google Search, Pi Labs 경험을 바탕으로, 우수한 평가 시스템은 수십~수백 개의 신호(signals) 조합이 필요하다고 설명
자동화 평가(코드 기반, LLM judge)와 인간 평가의 한계 및 예시(헬프풀니스, 해로움 등) 지표만으론 한계를 언급
효과적인 평가 시스템 구축을 위해 단순한 신호에서 시작해, 반복적 개선을 거쳐 다층적, 복합적 신호 체계로 발전시킬 것을 권장
실습에서는 미팅 요약 생성기의 평가 기준을 코파일럿과 함께 구축·고도화하고, 색인/가중치/실제 데이터 적용, 구글 시트와 Python Colab 연동 등 워크플로우를 시연
데이터셋(120여건)의 thumbs up/down 피드백 활용, 지표와 실제 사용자 반응(정합성/상관관계)을 혼합적 매트릭스와 혼동 행렬(confusion matrix)로 검증
스코어러 모델은 바이디렉셔널 어텐션, 리그레션 헤드 등 아키텍처의 차별성을 가지며 높은 일관성, 고정밀 평가 성능 제공
대규모, 온라인 환경, 다국어 지원, 모델 비교·프롬프트 A/B 테스트·실시간 reinforce loop 등 다양한 활용 사례 및 실습방법 안내

세부 요약 - 주제별 정리

AI 평가 업무의 현실적 난점과 참가자들의 경험 공유

참가자의 대다수는 실제 업무에서 ‘평가(Eval)’가 얼마나 힘들고 반복적이며, 정답 기준을 정하는 일조차 어렵다고 토로함
ML이 트레이닝 데이터에 의존한다면, 에이전트 AI 개발은 실세계 피드백(평가) 없인 학습 불가함을 강조
AI 시스템 도입 후 QA/검증에 투입되는 시간(특정 분야에선 전체 개발의 80%)이 기존 SW QA(30%)보다 훨씬 높다는 경험 공유
이전 QA 및 테스트 자동화 경험이 평가 업무에 전이되지 않는다는 애로사항 언급
자동화 eval, LLM 심사(judge) 방식의 한계(정확도/주관성 등), synthetic data(합성 데이터) 활용에 대한 호기심 확산

Google Search, Pi Labs 실무 경험에서 도출된 평가 시스템 구축 노하우

발표자들은 Google Search에서 10여년간 평가 시스템을 총괄, 수백 개 단위의 신호와 다층 평가 메트릭 시스템 운용 경험 공유
‘벤치마킹→지표 설정→계속된 보정/인간 calibration→장기적인 피드백 루프’로 단계를 구체화함
실제 Search는 단 4개가 아닌 약 300개의 다양한 신호와 평가 지표를 동시에 고려
효과적 평가는 단일 방법이 아닌 복수의 도구/방법론의 축적(ROI, 점점 더 정교한 평가의 계층적 도입)이 필요함을 강조

평가 지표 설계에서의 반복적 개선 및 피드백 루프의 핵심성

실험, 검증, 개선 등 과학적 방법론을 평가 시스템에도 적용해야 함
초기에 간단한 신호(5~10개)를 시작으로, 문제 발견/디버깅/사용자 사례에 따라 점진적으로 메트릭을 추가·보강할 것을 권장
평가(Scoring)는 전통적 SW 테스트와 달리 ‘도메인 지식 축적의 근간’임을 강조
충분히 신뢰할만한 평가 시스템은 프롬프트 자동 최적화, 합성 데이터 선별/파인튜닝, 리인포스먼트 러닝 등 서비스 품질 고도화의 출발점
피드백 루프(계속 측정, 문제 발견, 개선)의 중요성 반복 언급

다양하고 복합적인 평가 지표의 필요성과 실제 설계 예시

단순 헬프풀니스, 해로움, 환각(hallucination)만으로는 LLM 기반 응용 서비스의 수준 높은 품질 제어에 한계가 있음을 지적
예시: 여행 일정 생성기의 경우, ‘재미있는가’, ‘신선도’, ‘현실적 제약 충족’ 등 미시적 조건까지 쪼개어 복합적으로 평가해야 현장성/정확도 확보 가능
기존 LLM 평가 메트릭은 guardrail 역할에 불과, 각 응용 환경(Trip Planner, Meeting summary 등)에 특화된 세부 항목의 필요성을 강조
‘크리티컬/메이저/마이너’ 등 가중치 차등화 및 다중 신호의 수학적 조합으로 정확도 향상

실습 워크플로우: 평가 시스템 실제 구축의 단계별 시범

워크숍은 hands-on 실습을 중심으로, 참가자가 코파일럿(Co-pilot) 도구, Google Sheet, Python Colab을 활용해 직접 평가 시스템을 설계함
1단계: 미팅 요약 생성기를 예시로, 시스템 프롬프트와 샘플 입력/출력에서 평가 차원(dimensions) 및 신호 목록 추출
2단계: 각 신호는 자연어 질문·파이썬 코드 등으로 구체화, 예를 들어 ‘아웃풋에 핵심 인사이트가 포함되어 있는가?’ 등 세부 항목 제시
3단계: 코파일럿을 통한 신호 차원 추가/수정/삭제, 예시(20자 미만 title 여부) 동적 생성 및 code snippet 자동화
4단계: 신호별 가중치, 중요도(critical/major/minor) 설정; 동적 수식, 예제 기반 점수 보정
5단계: 평가 기준(신호) 시트로 복사, 실제 데이터셋(최대 120여 개, thumbs up/down)과 매칭

구글 시트 및 Colab을 활용한 실제 데이터 평가 및 검증 방법

평가 기준을 Google 시트 내로 복사, 실제 요약 본문/결과와 라벨(thumbs up/down) 데이터로 혼동 행렬 생성
확장 프로그램(score extension)을 통해 100개 이상 예시 자동 채점, 결과 confusion matrix(정/오답, 정합률 등)로 출력·수정 개선
참가자는 시트 내에서 차원별/조건별 가중치 또는 신호 수정을 즉시 반영 가능; 데이터의 JSON 오류 예시 등으로 robustness 체크

평가 지표의 정합성(상관관계, alignment) 검증과 지속적 개선

측정 지표와 실제 사용자 평가(thumbs up/down) 사이의 상관관계를 혼동 행렬, 정합률 등으로 수치화해 즉시 확인
Google Search 등에서는 데이터 과학자들이 상관 분석, confusion matrix, 보정(calibration) 등을 통해 끊임없이 지표의 성능을 점검
정제된 지표의 축적은 시스템 분석·진단·고도화의 핵심 자산임을 구체적으로 설명

대규모/실시간/다채널 환경에서 평가 시스템의 확장 운용 방안

실습에서는 소규모(120건) 예제를 다루지만, 실제 Pi Labs의 Scorer 시스템/SDK는 신호 20여개도 20~50ms 내 처리 가능하도록 최적화
대규모 실시간 서비스와 온라인 평가, 배치 처리, 모델 비교 등 다양한 방식을 제공하며 huggingface 등 데이터셋 연동
실제 업무에선 로그 샘플링 기반 평가 세트(쉬움/어려움/중간) 구성이 효율적임을 라이트하게 안내

차별화된 평가 시스템(Scorer)의 기술적 설계 배경

Pi Labs의 고속·고정밀 평가 모델은 바이디렉셔널 어텐션, 리그레션 헤드 기반; 디코더 모델 대비 극히 낮은 변동성/일관성 차별화
오토리그레시브 토큰 생성은 피하고 입력/출력·코딩·자연어 등 다종 데이터를 대량 학습해 다양한 지표 일반화
내부적으로 Sophisticated Generalized Additive Model로 각 신호 가중치 보정, thumbs up/down 데이터 기반 calibration 반복
사용자는 프롬프트 튜닝 불요, 자연어 설명/널리 해석 가능한 결과 제시

평가 시스템의 다언어, 온라인, 통합 운용 및 향후 로드맵

현재는 영어 + 일부 다언어(곧 확장 예정), 멀티모달 지원은 준비 중임을 언급
단일 인터페이스로 시트, Colab, reinforcement 적용, PICORE 등 다양한 플러그인 연계(시연은 제한적)
워크숍 자료(google doc, slack 연동, pi.ai/workshop 페이지)로 실습 및 후속 학습을 안내

실습 코드(Colab) 및 다양한 활용(모델/프롬프트 비교, 온라인 강화 등) 실제 예시 안내

Colab 실습에서는 평가 기준을 자연어 기반 스펙+코드로 복사, 데이터셋(허깅페이스 등)의 thumbs up/down 결과와 자동 비교
주요 활용: ① 서로 다른 LLM(모델 1.5, 2.5, Haiku 등) 비교, ② 프롬프트 변경 후 품질 영향 A/B 테스팅, ③ 단일/다중 샘플 생성 후 스코어 최적 응답 선택(온디맨드 강화)
각 단계 클릭만으로 confusion matrix, 점수/변동 폭, 품질 변화 등 시각화 확인 가능
참가자 개별 실습, 후속 학습, 코드 수정 테스트 등 자유롭게 확장하도록 설명하며 세션을 마무리함