
영상 링크: How to look at your data — Jeff Huber (Choma) + Jason Liu (567)
채널명: AI Engineer
데이터를 제대로 바라보는 방법 — Jeff Huber(Chroma) & Jason Liu(567) 핵심 요약
- 영상 제목의 한국어 번역: 데이터를 제대로 바라보는 방법 — Jeff Huber(Chroma) & Jason Liu(567)
- 발표자들은 AI 실무자들이 데이터 품질을 올리고 시스템을 개선하기 위해 ‘데이터를 직접 바라보는 것’의 중요성을 강조함.
- 입력 데이터(쿼리-문서 페어)에 대해 ‘Fast Eval’ 방식을 활용하면 저렴하고 빠르게 임베딩 모델 등 핵심 요소들을 평가하고 실질적인 성능 개선이 가능함을 설명.
- Fast Eval은 실제 쿼리-문서 페어(골든 데이터셋) 세트를 기반으로 다양한 임베딩을 실험하며 성공률(리콜 등) 지표를 체크하는 접근임.
- 공개 벤치마크나 LLM 기반 비용이 큰 평가 대신, 자신만의 데이터와 골든셋을 활용해 빠르게 반복 실험하는 것이 효율적임을 사례와 수치로 제시.
- 실전 예시로 weights & biases 챗봇 데이터를 활용, 다양한 임베딩 모델(예: text embedding 3 small, Gina v3, voyage 3 large 등)의 실제 성능을 비교함.
- Fast Eval을 통해 트위터 등에서 화제가 된 모델이 내 데이터에서도 효과적인지 직접 검증할 수 있음을 시연.
- 아웃풋 분석(대화 로그, 사용 행태 등)은 대화의 메타데이터 추출, 클러스터링, KPI 세분화로 이어져 제품 개선·도구 개발의 기반이 됨을 강조.
- 사용자 대화에서 불만, 재시도, 피드백 등 의미 있는 정보를 자동 추출해, 개선이 필요한 핵심 도메인과 개선 우선순위를 과학적으로 도출할 수 있음.
- Anthropic Cleo와 같은 사례, 실제 데이터 분석 파이프라인, 오픈소스 코드/노트북 리소스도 안내됨.
- 주요 메시지: 데이터 입출력 모두를 구체적으로 측정·분석해야 반복적이고 체계적인 성능 개선과 제품 로드맵 수립이 가능하다는 것을 입증.
세부 요약 - 주제별 정리
데이터 품질 개선에서 ‘데이터 직접 바라보기’가 근본적으로 중요함을 강조
- 발표자 Jeff Huber(Chroma)는 “측정할 수 없으면 관리할 수 없다”란 피터 드러커의 명언을 인용하며 데이터 관찰의 중요성을 역설.
- AI 시스템을 개선할 때 추측이나 비공식적 방법, 대형모델 평가에만 의존하는 대신 자신의 데이터를 주기적으로(15회 이상) 관찰해야 함을 반복 강조.
- 복잡한 측정이 아닌, 기본적인 관찰이 반복적이고 체계적 개선의 핵심임을 설파.
입력 데이터 평가에서는 Fast Eval 방식이 신속성과 효율성을 모두 달성함
- Fast Eval은 쿼리-문서 쌍의 실제 예시(골든셋)를 기준으로 리트리버의 성공률 등 핵심 지표를 빠르게 측정하는 방법임.
- MTeb 등의 공개 벤치마크는 참고용이지만, 자신의 데이터에 맞게 직접 성능을 측정하는 것이 더 효과적임.
- Fast Eval의 장점: 실험이 매우 저렴(몇 센트 수준)하며, 반복 실험이 쉬워 빠른 의사결정이 가능함.
- 쿼리가 부족할 경우 LLM을 활용해 실제 사용 사례에 유사한 쿼리를 자동 생성하여 데이터셋을 보강할 수 있음.
- 단순한 LLM 쿼리 생성은 실효성이 낮으나, LLM에게 쿼리 작성법을 학습시키는 방법을 적용하면 실제 사용자 쿼리와 유사도를 높일 수 있음.
실제 데이터 실험을 통해 얻은 임베딩 모델의 성능 차이는 공개 벤치마크와 다를 수 있음
- weights & biases 챗봇 프로젝트에서 4종 임베딩 모델 간 리콜@10 성능을 직접 측정.
- 실제 사용자 쿼리(ground truth)와 LLM이 만든 생성 쿼리(generated)의 결과 순서가 거의 비슷해야 신뢰성 높은 평가가 가능함을 확인.
- 사례에서 text embedding 3 small 모델이 성능이 가장 낮았고, MTeb에서 뛰어난 성능을 보인 Gina embedding v3 역시 현장 적용 결과 기대 이하였음.
- 실제 효율적으로 작동한 모델은 voyage 3 large였으며, 이는 Fast Eval 실험을 통해 경험적으로 도출됨.
- 종합 결과: “내 데이터에서 어떤 임베딩이 가장 좋은지”는 직접 Fast Eval을 통해 실험해야만 확실히 판단 가능.
오픈소스 리포트·노트북·코드를 통해 누구나 실험을 재현할 수 있게 개방함
- 발표에서 사용된 모든 코드, 실험 환경, 데이터셋 등은 research.tra.com에 QR코드로 공개.
- 상세한 리포트와 동영상(스크린샷 예시 포함)까지 제공되어 누구든 동일 과정을 자신의 데이터로 재현 가능함.
- 독자적인 실험은 물론, 제품화·서비스 적용까지 적용할 수 있도록 설계되어 있음.
출력 데이터 분석(대화 로그)의 중요성과 실전 적용 방법 체계적으로 소개
- Jason Liu(567)는 시스템 출력을(대화, 에이전트 실행 등) 주의 깊게 관찰해야 제품 방향성과 개선 포인트를 찾을 수 있다고 설명.
- 적은 유저 수일 땐 전수(수동) 검토도 가능하지만, 쿼리/대화 규모가 급증하면 전체 구조 분석이 필요함.
- 긴 대화, 도구 호출, 체인 실행 등 복잡한 출력 데이터에서 중요한 신호(예: 사용자 불만, 재시도, 오류 패턴)가 메타데이터 형태로 존재함을 강조.
대화 로그에서 추출한 메타데이터·클러스터 분석이 실제 제품 개선의 핵심 근거가 됨
- 전통적인 데이터 분석처럼 대화 로그에서 토픽, 사용 도구, 에러, 만족도/불만족 같은 메타데이터를 구조화해서 추출.
- 이 데이터를 임베딩하여 클러스터링, 세분화(세그멘트화)하고, 집단별 패턴/문제 영역을 규명.
- Anthropic Cleo의 사례처럼 클러스터 분석으로 실제로 코드 사용이 많았던 집단을 찾고, 그 도메인에 리소스 투자 계획을 세울 수 있음.
- 이를 위해 오픈소스 라이브러리 ‘cura’를 개발, 요약, 클러스터링, 계층 형성, KPI 간 비교를 일관된 파이프라인으로 제공.
구체적인 분석·클러스터링 파이프라인 예시(실제 데이터 활용)
- 예시 데이터(예: Gemini 대화 데이터)에 cura 파이프라인을 적용하는 절차 소개:
- 대화를 요약(Summary Model: 토픽·에러·불만 등 추출)
- 임베딩-클러스터링(예: 데이터 시각화, SEO, 인증 에러 등 도출)
- 하위/상위 클러스터에서 주요 테마(예: 데이터 분석, 테크 지원 등) 파악
- 이 분석 결과를 바탕으로 도구(예: 데이터 시각화, 인증 문제 해결), 마케팅, 프롬프트 수정보완 등 제품 우선순위 결정 가능.
클러스터별 KPI 비교를 통해 정확한 개선·무시·교육 포인트를 도출할 수 있음을 주장
- 전체 평균 KPI(예: factuality=0.5)는 해석이 모호하나, “특정 클러스터(예: 시간 필터 활용 쿼리)에서는 성능이 낮다”처럼 도메인별로 세분화할 경우 명확한 개선 방향 도출 가능.
- KPI가 낮은 집단, 사용량 많은데 성능 낮은 도구 등에 집행 리소스를 집중.
- KPI가 낮지만 사용자가 거의 없는 집단은 프롬프트 안내나 무시해도 무방.
- 이런 데이터 기반 의사결정은 단순히 모델(LLM)을 ‘좋게’ 만드는 것만이 아니라, 도구·인프라·UX 개선 등 다양한 측면의 조치를 이끌 수 있음.
실제 분석 사례와 제품 전략 수립 절차 구체적으로 안내
- 발표진은 weights and biases 대화 데이터를 오픈소스 Jupyter notebook(3개)으로 정리해 전체 클러스터링 및 데이터 기반 제품 개선 의사결정 사례 제공.
- 신규 고객/기존 고객 간 사용 행태 차이, 주요 사용 목적 변화 등 실전 통계 분석 패턴을 상세히 제시.
- 전체 메시지: 데이터 구조화-세분화-클러스터-KPI 비교 및 모니터링을 통해 반복적 실험→제품 로드맵 수립으로 이어지는 선순환을 실현할 수 있음을 입증.
실전 조언: 자신의 데이터에 맞춰 빠른 실험, 세그멘테이션, KPI 비교를 반복하라
- 처음엔 소규모, 단순 구조로 시작해 나중엔 고도화된 분석·모니터링으로 발전시키라고 권고.
- 입출력 데이터 모두 직접 살펴 KPI별 상태를 상세히 파악함으로써, “무엇을 개선하고, 무엇을 제작하고, 무엇을 무시해야 할지” 데이터로 결정할 수 있음을 재차 강조.
- 마지막에는 오픈소스 코드와 리소스를 QR코드로 안내하며, 적용법 익히기를 추천.