
영상 링크: How to build world-class AI products — Sarah Sachs (AI lead @ Notion) & Carlos Esteban (Braintrust)
채널명: AI Engineer
세계적 수준의 AI 제품을 만드는 법 — Notion AI 리드 Sarah Sachs와 Braintrust 강연 핵심 요약
- 영상 제목: 세계적 수준의 AI 제품을 만드는 법 — Notion AI 리드 Sarah Sachs와 Braintrust
- Notion AI 제품 개발 리드 Sarah Sachs와 Braintrust 솔루션 엔지니어 팀이 Notion AI의 성장, 제품 고도화, 대규모 배포, 우수품질 확보 과정을 구체적으로 소개함
- Notion은 1억 명 이상의 사용자를 보유한 글로벌 생산성 플랫폼이며, 다양한 AI 기능(예: AI 미팅 노트, 음성-텍스트 변환, 요약, 기업 검색, 에이전트형 서치 등)을 지속적으로 빠르게 출시
- 제품 개발에서 가장 핵심적인 원칙은 “관측성(Observability)”과 “철저한 평가(Eval)”임. AI 개발의 10%만 프롬프트 설계에 쓰고, 90%는 평가(Eval) 및 사용로그 분석에 집중하며, 이를 Braintrust 플랫폼으로 자동화·관리
- Notion AI의 주요 기능은 대량 사용자를 위한 무료 체험 제공, 멀티랭귀지 지원, 신속한 신규 모델 도입(신규 AI 모델 릴리스 시 1일 이내 서비스 적용), 엔터프라이즈 고객 사례(예: Toyota 등)
- 데이터셋 구축과 평가는 데이터 스페셜리스트(인공지능 트레이너+PM+주석가)들이 직접 로그·프로토타입 기반으로 작은 규모에서부터 점진적으로 확장, 평가 기준과 함수(스코어링)는 실제 제품 특화 방식으로 개발
- LLM as a Judge(대형 언어모델을 평가자로 사용) 방식을 활용해 단일/멀티 기준별 세분화된 프롬프트 캡슐화 및 다수 평가함수 적용, 각 작업·언어별로 커스텀 프롬프트와 golden data를 적극 활용
- 평가 결과와 제품 개선, 신규 모델 테스트, 사용자 피드백(특히 thumbs down) 등으로 빠른 반복적 개선 주기 형성. Braintrust의 실시간 로그, 실험, 오프라인/온라인 평가 도구로 운영 자동화
- Human-in-the-loop(사람 참여) 프로세스를 통한 고품질 데이터 확보 및 의료·법률 등 특수 분야 대응: 데이터라벨러·전문가·실제 사용자 피드백을 데이터셋에 적극 통합
- Braintrust 플랫폼의 UI 실습·코드(SDK) 활용 등으로 실제 Product 평가, 스코어 관리, 로그 연동, 온라인 스코어링, 커스텀 모델·멀티턴 대화·멀티 모달 평가까지 모두 시연
세부 요약 - 주제별 정리
Notion AI는 신속한 모델 적용과 대규모 사용자 지원을 위해 평가 자동화 시스템을 정립함
- Notion은 1억 명 이상 사용자를 위한 “연결된 워크스페이스”로, Slack, Jira, Google Drive 등 다양한 툴과 연동 가능
- AI 미팅 노트, 음성-텍스트 변환, AI 요약, 작업 데이터베이스 연동 등 다양한 AI 기능을 “무료 시험판”으로 누구나 사용하도록 제공
- 사용량과 확장성 측면에서 체험 사용자, 엔터프라이즈 사용자, 비즈니스 고객 모두를 만족해야 하므로 고확장성·고신뢰성 제품 아키텍처 필요
- 신모델(예: Nano, Sonnet 등) 출시 시 1일 내 신규 모델을 프로덕션에 배포하며 사용자에게 즉각 제공
- 파운데이션 모델 제공사와의 빠른 파트너십·자체 파인튜닝 모델을 혼합 적용
AI 제품 품질의 핵심은 관측성과 체계적 평가에 있고, 작업시간의 90%를 여기에 투자함
- Sarah Sachs: “훌륭한 AI 제품의 모든 기반은 관측성과 좋은 평가(Eval)에서 시작”
- 프롬프트 설계는 AI 개발 전체의 약 10%, 나머지 90%는 평가(Eval), 로그 분석, 반복 개선에 집중
- 평가 자동화 도구를 통해 데모/일회성 성공에서 벗어나 ‘일관된 실사용 만족도’ 확보
- Braintrust 플랫폼을 매일 활용(데이터스페셜리스트, 엔지니어, PM 등 직군별로 실제 사용)
Notion AI의 발전 과정은 ‘단순 인라인 생성’에서 ‘멀티에이전트·서치’까지 단계적으로 이뤄짐
- ChatGPT 출시 전부터 생성형 AI와 콘텐츠 생성이 Notion의 핵심이라는 비전 보유
- 1세대: AI Writer (인라인 문장 생성)으로 출발
- 2세대: Autofill (DB 컬럼 단위로 자동번역 등) 도입. 사용자가 예상치 못한 활용사례 급증
- 3세대: 자연스러운 RAG 솔루션, 워크스페이스 Q&A 등 무료 사용자 모두 활용 가능하도록 플랫폼 확장
- 4세대: Braintrust 연동 후 첨부파일 검색, 에이전트 기반 ‘Deep Research’ 등으로 고도화 전환
데이터셋 구축, 평가 기준, 스코어링 함수 개발은 데이터 스페셜리스트가 주도하며 품질 우선 원칙을 고수함
- 대규모 사용 데이터 세트 생성이 필수: Notion 내부 ‘도그푸딩’(직원 자체 사용)으로 자연스러운 데이터, 평가 로그 확보
- 초기엔 Google Sheet 등으로 수작업 주석, 후에 전문 데이터스페셜리스트(LMM 트레이너+PM+주석가)가 직접 관리
- 임의/대량 더미데이터보다 ‘작고 정밀한 데이터셋’부터 시작, 점진적 확장이 효과적(10~20개에서 시작)
- 스코어링(평가함수)은 OOTB(Out-of-the-box; 기본 제공) 보다는 제품 특화 방식으로 직접 설계
- 예: Jira 커넥터 실험에서 각 툴콜이 Jira에 대해 적절하게 트리거되는지, 언어 전환(예: 일본어↔영어) 등도 스코어 함수에서 엄격하게 평가
- 멀티랭귀지 & 고도 사용자 맞춤화 과정에서 Toyota 등 대형 고객의 실제 워크플로 고려
LLM을 평가자로 삼는 “LLM as a Judge” 체계를 다층적으로 활용하여 예측 불가능한 문제까지 철저히 통제함
- LLM as a Judge(LLM 평가자) 방식: 전체 데이터셋을 한 프롬프트로 평가하는 1차 버전과, 케이스별 세부 프롬프트를 설계해 평가함수로 삼는 2차 절차 병행
- 예: “이 답변은 일본어로 출력되어야 하며, 불릿포인트 형식/페이지 A 참조 필요” 등 세부 규칙 기반 프롬프트 운영
- 변동성이 큰 서치(RAG) 평가에서, 기존 golden data 고착 문제가 아닌 ‘업데이트 가능·동적 골든셋’으로 최신 요구 수용
- 점수화는 0~1 스케일, 지나치게 정밀한 척도보다는 일정 기준 이하를 “실패(look at them as all equal)”로 분류, 실패 유형은 LLM에 추가 분석 요청해 PM·엔지니어에 전달
- AB테스트, Pairwise 비교, 실험군·통제군 활용 등 다양한 실험설계 지원
실사용자 피드백, 특히 thumbs down은 신속한 개선, 신규 데이터셋 생성, 제품 방향성에 강한 영향을 미침
- 사용자 thumbs up/down은 지도학습보단 기능 오류, 품질 저하 구간 파악에 집중하여 수집·활용
- thumbs up은 주로 골든데이터(모범 답안) 생성용이나, 일관성 부족으로 범용은 아님
- thumbs down 데이터는 시점(예: 2023년 9월) 반영 및 피쳐혈 체계와 독립적으로 지속 유지
- PM, 디자이너, 제품 기획자 역시 Braintrust 플랫폼에서 로그·데이터셋 보고, 제품 방향 결정에 적극 반영(UXR 대체 역할)
워크플로 상 “오프라인 평가”와 “온라인 평가”의 경계와 반복적 개선 사례를 상세히 시연함
- 오프라인 평가: 미리 정의된 데이터셋·프롬프트로 새 기능/프롬프트/모델 실험 반복(실시간 트래픽과 무관)
- 온라인 평가: 실사용 트래픽을 모니터링하며, 응답 질 하락 시 즉시 경고·조치 가능. 사용자의 thumbs up/down 등 실제 행동까지 점수화
- Braintrust로 실험(evals), 실시간 로그, 집계 결과 확인/비교, 비용 효율성 분석, 실시간 실험 추이 모니터링 등 모든 라이프사이클 자동화
Braintrust 플랫폼은 Playground(빠른 실험), Experiments(누적 관리), SDK·코드 연동을 통해 공동작업·자동화·배포를 완성함
- Playground: 신속한 프롬프트·모델·스코어 탐색 실험. 임시실험, 빠른 반복에 적합
- Experiments: 저장/관리, 히스토리·성능 추이·모델/프롬프트 버전간 비교에 적합
- SDK 연동: TypeScript·Python 등 SDK 지원, 코드 내에서 prompts, scores, dataset push 가능(실제 CI/CD 연동 등에도 사용)
- Online Scoring Rule: 설정을 통해 100% 또는 일부 트래픽에 자동 평가 적용, 성능 저하 시 자동 알림/조치, aggregate score 산출 등 지원
실제 실습과정을 통해 프로젝트 생성, 데이터셋·프롬프트·스코어 관리, 평가 자동화 루프를 구현함
- 신규 프로젝트 생성 및 OpenAI 등 API 키 연동(커스텀 모델/타사모델도 모두 호환)
- Node/TypeScript 환경 세팅, 프로젝트에 prompts, scores, datasets 코드로 등록(push)
- pnpm install 및 pnpm eval 클릭 한 번으로 전체 실험·평가 루프 실행
- Mustache 템플릿 프롬프트, 멀티턴 대화, 다양한 평가 기준(heruristic / LLM as judge), 자동화 실험 모두 지원
멀티턴 대화, 에이전트, 멀티모달, 도구 버전 관리 등 실제 복잡한 워크플로와 엔터프라이즈 요구까지 상세히 연동함
- Playground의 멀티 메시지 입력, 에이전트 체인 기능(Beta)으로 프롬프트 체인 평가 가능
- 실험 분기, 대규모 실험군, 모델별/프롬프트별 결과 비교까지 지원
- 도구(Tool), 프롬프트, 데이터셋, 스코어 등 오브젝트 모두 버전관리. 긴급 장애·모델교체에도 신속 대응 가능
- 커스텀 AI Provider, 비주얼·음성모델 등도 자유롭게 연동 및 평가 가능(추가 모듈화 지원)
Human-in-the-loop: 데이터셋 품질 향상, 실제 서비스 신뢰성 강화에 전문가 평가·유저 피드백을 적극 편입
- 데이터라벨러/전문가/실유저 피드백을 데이터셋·로그에 통합
- 의료·법률 등 특화분야에서는 사람의 수작업 평가와 LLM 평가를 병렬 운영, critical한 영역 오류 감지·개선
- Human Review Scores, 사용자 피드백 로그 등으로 품질보증
- 관리 도구 제공: 작업당 자동 할당, 주석·코멘트, 실험/데이터셋별 평가자 관리 등 가능
Remote Eval 등 고차원적 활용법으로 ‘복잡한 엔지니어팀–비기술팀’ 협업 및 R&D 생산성 향상
- Playground의 한계를 넘어, “remote eval” 기능으로 로컬/사내 커스텀 코드 및 복잡한 R&D 실험 환경을 Playground로 바로 노출
- 내부 전용 도구, 중간 코딩 스텝, 사내 VPC 내 평가작업까지 모두 노출하여 비개발자(PM, 디자이너)도 직접 실험/파라미터 조정 가능
- 엔지니어가 복잡한 평가 루프를 설계·비개발자는 Playground에서 반복 실험·개선하는 새 협업 구조 제시