How to build world-class AI products - Sarah Sachs (AI lead @ Notion) & Carlos Esteban (Braintrust)

영상 링크: How to build world-class AI products — Sarah Sachs (AI lead @ Notion) & Carlos Esteban (Braintrust)
채널명: AI Engineer

세계적 수준의 AI 제품을 만드는 법 — Notion AI 리드 Sarah Sachs와 Braintrust 강연 핵심 요약

영상 제목: 세계적 수준의 AI 제품을 만드는 법 — Notion AI 리드 Sarah Sachs와 Braintrust
Notion AI 제품 개발 리드 Sarah Sachs와 Braintrust 솔루션 엔지니어 팀이 Notion AI의 성장, 제품 고도화, 대규모 배포, 우수품질 확보 과정을 구체적으로 소개함
Notion은 1억 명 이상의 사용자를 보유한 글로벌 생산성 플랫폼이며, 다양한 AI 기능(예: AI 미팅 노트, 음성-텍스트 변환, 요약, 기업 검색, 에이전트형 서치 등)을 지속적으로 빠르게 출시
제품 개발에서 가장 핵심적인 원칙은 “관측성(Observability)”과 “철저한 평가(Eval)”임. AI 개발의 10%만 프롬프트 설계에 쓰고, 90%는 평가(Eval) 및 사용로그 분석에 집중하며, 이를 Braintrust 플랫폼으로 자동화·관리
Notion AI의 주요 기능은 대량 사용자를 위한 무료 체험 제공, 멀티랭귀지 지원, 신속한 신규 모델 도입(신규 AI 모델 릴리스 시 1일 이내 서비스 적용), 엔터프라이즈 고객 사례(예: Toyota 등)
데이터셋 구축과 평가는 데이터 스페셜리스트(인공지능 트레이너+PM+주석가)들이 직접 로그·프로토타입 기반으로 작은 규모에서부터 점진적으로 확장, 평가 기준과 함수(스코어링)는 실제 제품 특화 방식으로 개발
LLM as a Judge(대형 언어모델을 평가자로 사용) 방식을 활용해 단일/멀티 기준별 세분화된 프롬프트 캡슐화 및 다수 평가함수 적용, 각 작업·언어별로 커스텀 프롬프트와 golden data를 적극 활용
평가 결과와 제품 개선, 신규 모델 테스트, 사용자 피드백(특히 thumbs down) 등으로 빠른 반복적 개선 주기 형성. Braintrust의 실시간 로그, 실험, 오프라인/온라인 평가 도구로 운영 자동화
Human-in-the-loop(사람 참여) 프로세스를 통한 고품질 데이터 확보 및 의료·법률 등 특수 분야 대응: 데이터라벨러·전문가·실제 사용자 피드백을 데이터셋에 적극 통합
Braintrust 플랫폼의 UI 실습·코드(SDK) 활용 등으로 실제 Product 평가, 스코어 관리, 로그 연동, 온라인 스코어링, 커스텀 모델·멀티턴 대화·멀티 모달 평가까지 모두 시연

세부 요약 - 주제별 정리

Notion AI는 신속한 모델 적용과 대규모 사용자 지원을 위해 평가 자동화 시스템을 정립함

Notion은 1억 명 이상 사용자를 위한 “연결된 워크스페이스”로, Slack, Jira, Google Drive 등 다양한 툴과 연동 가능
AI 미팅 노트, 음성-텍스트 변환, AI 요약, 작업 데이터베이스 연동 등 다양한 AI 기능을 “무료 시험판”으로 누구나 사용하도록 제공
사용량과 확장성 측면에서 체험 사용자, 엔터프라이즈 사용자, 비즈니스 고객 모두를 만족해야 하므로 고확장성·고신뢰성 제품 아키텍처 필요
신모델(예: Nano, Sonnet 등) 출시 시 1일 내 신규 모델을 프로덕션에 배포하며 사용자에게 즉각 제공
파운데이션 모델 제공사와의 빠른 파트너십·자체 파인튜닝 모델을 혼합 적용

AI 제품 품질의 핵심은 관측성과 체계적 평가에 있고, 작업시간의 90%를 여기에 투자함

Sarah Sachs: “훌륭한 AI 제품의 모든 기반은 관측성과 좋은 평가(Eval)에서 시작”
프롬프트 설계는 AI 개발 전체의 약 10%, 나머지 90%는 평가(Eval), 로그 분석, 반복 개선에 집중
평가 자동화 도구를 통해 데모/일회성 성공에서 벗어나 ‘일관된 실사용 만족도’ 확보
Braintrust 플랫폼을 매일 활용(데이터스페셜리스트, 엔지니어, PM 등 직군별로 실제 사용)

Notion AI의 발전 과정은 ‘단순 인라인 생성’에서 ‘멀티에이전트·서치’까지 단계적으로 이뤄짐

ChatGPT 출시 전부터 생성형 AI와 콘텐츠 생성이 Notion의 핵심이라는 비전 보유
1세대: AI Writer (인라인 문장 생성)으로 출발
2세대: Autofill (DB 컬럼 단위로 자동번역 등) 도입. 사용자가 예상치 못한 활용사례 급증
3세대: 자연스러운 RAG 솔루션, 워크스페이스 Q&A 등 무료 사용자 모두 활용 가능하도록 플랫폼 확장
4세대: Braintrust 연동 후 첨부파일 검색, 에이전트 기반 ‘Deep Research’ 등으로 고도화 전환

데이터셋 구축, 평가 기준, 스코어링 함수 개발은 데이터 스페셜리스트가 주도하며 품질 우선 원칙을 고수함

대규모 사용 데이터 세트 생성이 필수: Notion 내부 ‘도그푸딩’(직원 자체 사용)으로 자연스러운 데이터, 평가 로그 확보
초기엔 Google Sheet 등으로 수작업 주석, 후에 전문 데이터스페셜리스트(LMM 트레이너+PM+주석가)가 직접 관리
임의/대량 더미데이터보다 ‘작고 정밀한 데이터셋’부터 시작, 점진적 확장이 효과적(10~20개에서 시작)
스코어링(평가함수)은 OOTB(Out-of-the-box; 기본 제공) 보다는 제품 특화 방식으로 직접 설계
예: Jira 커넥터 실험에서 각 툴콜이 Jira에 대해 적절하게 트리거되는지, 언어 전환(예: 일본어↔영어) 등도 스코어 함수에서 엄격하게 평가
멀티랭귀지 & 고도 사용자 맞춤화 과정에서 Toyota 등 대형 고객의 실제 워크플로 고려

LLM을 평가자로 삼는 “LLM as a Judge” 체계를 다층적으로 활용하여 예측 불가능한 문제까지 철저히 통제함

LLM as a Judge(LLM 평가자) 방식: 전체 데이터셋을 한 프롬프트로 평가하는 1차 버전과, 케이스별 세부 프롬프트를 설계해 평가함수로 삼는 2차 절차 병행
예: “이 답변은 일본어로 출력되어야 하며, 불릿포인트 형식/페이지 A 참조 필요” 등 세부 규칙 기반 프롬프트 운영
변동성이 큰 서치(RAG) 평가에서, 기존 golden data 고착 문제가 아닌 ‘업데이트 가능·동적 골든셋’으로 최신 요구 수용
점수화는 0~1 스케일, 지나치게 정밀한 척도보다는 일정 기준 이하를 “실패(look at them as all equal)”로 분류, 실패 유형은 LLM에 추가 분석 요청해 PM·엔지니어에 전달
AB테스트, Pairwise 비교, 실험군·통제군 활용 등 다양한 실험설계 지원

실사용자 피드백, 특히 thumbs down은 신속한 개선, 신규 데이터셋 생성, 제품 방향성에 강한 영향을 미침

사용자 thumbs up/down은 지도학습보단 기능 오류, 품질 저하 구간 파악에 집중하여 수집·활용
thumbs up은 주로 골든데이터(모범 답안) 생성용이나, 일관성 부족으로 범용은 아님
thumbs down 데이터는 시점(예: 2023년 9월) 반영 및 피쳐혈 체계와 독립적으로 지속 유지
PM, 디자이너, 제품 기획자 역시 Braintrust 플랫폼에서 로그·데이터셋 보고, 제품 방향 결정에 적극 반영(UXR 대체 역할)

워크플로 상 “오프라인 평가”와 “온라인 평가”의 경계와 반복적 개선 사례를 상세히 시연함

오프라인 평가: 미리 정의된 데이터셋·프롬프트로 새 기능/프롬프트/모델 실험 반복(실시간 트래픽과 무관)
온라인 평가: 실사용 트래픽을 모니터링하며, 응답 질 하락 시 즉시 경고·조치 가능. 사용자의 thumbs up/down 등 실제 행동까지 점수화
Braintrust로 실험(evals), 실시간 로그, 집계 결과 확인/비교, 비용 효율성 분석, 실시간 실험 추이 모니터링 등 모든 라이프사이클 자동화

Braintrust 플랫폼은 Playground(빠른 실험), Experiments(누적 관리), SDK·코드 연동을 통해 공동작업·자동화·배포를 완성함

Playground: 신속한 프롬프트·모델·스코어 탐색 실험. 임시실험, 빠른 반복에 적합
Experiments: 저장/관리, 히스토리·성능 추이·모델/프롬프트 버전간 비교에 적합
SDK 연동: TypeScript·Python 등 SDK 지원, 코드 내에서 prompts, scores, dataset push 가능(실제 CI/CD 연동 등에도 사용)
Online Scoring Rule: 설정을 통해 100% 또는 일부 트래픽에 자동 평가 적용, 성능 저하 시 자동 알림/조치, aggregate score 산출 등 지원

실제 실습과정을 통해 프로젝트 생성, 데이터셋·프롬프트·스코어 관리, 평가 자동화 루프를 구현함

신규 프로젝트 생성 및 OpenAI 등 API 키 연동(커스텀 모델/타사모델도 모두 호환)
Node/TypeScript 환경 세팅, 프로젝트에 prompts, scores, datasets 코드로 등록(push)
pnpm install 및 pnpm eval 클릭 한 번으로 전체 실험·평가 루프 실행
Mustache 템플릿 프롬프트, 멀티턴 대화, 다양한 평가 기준(heruristic / LLM as judge), 자동화 실험 모두 지원

멀티턴 대화, 에이전트, 멀티모달, 도구 버전 관리 등 실제 복잡한 워크플로와 엔터프라이즈 요구까지 상세히 연동함

Playground의 멀티 메시지 입력, 에이전트 체인 기능(Beta)으로 프롬프트 체인 평가 가능
실험 분기, 대규모 실험군, 모델별/프롬프트별 결과 비교까지 지원
도구(Tool), 프롬프트, 데이터셋, 스코어 등 오브젝트 모두 버전관리. 긴급 장애·모델교체에도 신속 대응 가능
커스텀 AI Provider, 비주얼·음성모델 등도 자유롭게 연동 및 평가 가능(추가 모듈화 지원)

Human-in-the-loop: 데이터셋 품질 향상, 실제 서비스 신뢰성 강화에 전문가 평가·유저 피드백을 적극 편입

데이터라벨러/전문가/실유저 피드백을 데이터셋·로그에 통합
의료·법률 등 특화분야에서는 사람의 수작업 평가와 LLM 평가를 병렬 운영, critical한 영역 오류 감지·개선
Human Review Scores, 사용자 피드백 로그 등으로 품질보증
관리 도구 제공: 작업당 자동 할당, 주석·코멘트, 실험/데이터셋별 평가자 관리 등 가능

Remote Eval 등 고차원적 활용법으로 ‘복잡한 엔지니어팀–비기술팀’ 협업 및 R&D 생산성 향상

Playground의 한계를 넘어, “remote eval” 기능으로 로컬/사내 커스텀 코드 및 복잡한 R&D 실험 환경을 Playground로 바로 노출
내부 전용 도구, 중간 코딩 스텝, 사내 VPC 내 평가작업까지 모두 노출하여 비개발자(PM, 디자이너)도 직접 실험/파라미터 조정 가능
엔지니어가 복잡한 평가 루프를 설계·비개발자는 Playground에서 반복 실험·개선하는 새 협업 구조 제시