Scaling Enterprise-Grade RAG: Lessons from Legal Frontier - Calvin Qi (Harvey), Chang She (Lance)

영상 링크: Scaling Enterprise-Grade RAG: Lessons from Legal Frontier - Calvin Qi (Harvey), Chang She (Lance)
채널명: AI Engineer

엔터프라이즈급 RAG 확장: 법률 AI의 첨단 경험 핵심 요약

영상 제목: 엔터프라이즈급 RAG 확장: 법률 프론티어의 교훈 (Scaling Enterprise-Grade RAG: Lessons from Legal Frontier)
Harvey AI는 대형 로펌에 특화된 법률 AI 어시스턴트로, 복잡한 문서 분석, 초장대 데이터 다루기, 고차원 질의 처리 등 다양한 법률 업무를 지원함
RAG 시스템 설계에서 핵심 난제는 방대한 데이터 스케일, 복잡한 질의, 도메인 지식, 데이터 보안 및 프라이버시, 그리고 정교한 성능 평가임
실제 법률 질의는 특정 날짜 이전/이후 필터, 특수 키워드, 법령/규정 식별자, 여러 규칙 동시 적용, 엄격한 도메인 용어 등 다양한 요소가 결합되므로, 단순 검색으로 해결 불가
평가(이발, eval)에 많은 투자가 이루어지며, 전문가 직접 평가(고비용 고정확도)부터 자동화된 정량 평가(저비용 빠른 반복)까지 여러 층위의 평가 방법 활용
데이터 코퍼스는 수천만 건에 달하며, 국가별/종류별 문서 체계화 및 카테고리화 자동화를 위해 도메인 전문가와 협력, 히유리스틱/LLM 활용 등 복합적 접근을 도입함
인프라는 대규모, 고가용성·신뢰성, 다양한 저장소 정책(프라이버시/보존기간), 성능·유연성(벡터/키워드 검색 등) 등 엔터프라이즈 수준의 요구에 대응해야 함
LANCE DB는 AI 작업 특화 멀티모달 레이크하우스(단일 데이터 저장소)로, 오브젝트 스토어 기반 분산 아키텍처, 오프라인과 실시간 서비스 모두에 강점을 가짐
LANCE DB는 텍스트, 이미지, 비디오, 오디오, 임베딩, 테이블 데이터까지 하나의 테이블에 저장 가능하며, 모든 AI 워크로드(검색, 분석, 학습, 전처리 등)에 활용 가능함
오픈소스 Lance 포맷은 Apache Arrow 기반으로, 대형 파일·블롭 데이터 혼합 저장, 랜덤 액세스, 스키마 진화, 대량 분산 처리(파이토치·스파크·레이 등) 지원
요약 메시지: 도메인별 대규모 RAG 시스템에선 데이터 구조·용례 이해, 반복개발 촉진을 위한 평가 자동화, 멀티모달·대규모로 진화한 AI 데이터 인프라가 관건임

세부 요약 - 주제별 정리

Harvey AI는 대규모 및 복잡한 법률 데이터를 처리하는 RAG 시스템을 제공함

Harvey AI는 법률 전문 AI 어시스턴트로, 다양한 로펌에 제품을 공급하고 있음
주요 기능: 법률 문서 초안 작성, 분석, 워크플로우 자동화 등
다루는 데이터 타입이 매우 다양(업로드 문서, 프로젝트 단위 볼트, 국가별 법령·케이스 등 대규모 데이터 코퍼스)
데이터 규모: 단순 업로드(1~50건), 대형 계약·소송 등 프로젝트별 볼트, 전세계 법률 데이터베이스(코퍼스) 등 세분화
모든 유형의 데이터에 대한 고품질 검색·분석 기능이 필수

법률 데이터의 대규모, 복잡성, 도메인 특수성이 핵심 과제임

처리 대상 데이터는 초장문, 고밀도, 난이도 높은 법률 문서가 다수
데이터는 방대함(수천만 건 이상), 각 문서도 일반적 데이터에 비해 길고, 정보가 조밀하게 배치됨
도메인별 특수성: 복잡한 규제·관할 구역 차이, 자주 쓰이는 법률 용어와 약어 등
도메인 전문가(변호사) 및 AI 엔지니어의 협력이 필수적임
데이터 보안·프라이버시(기밀거래, IPO, 금융공시 등 민감문서) 규제가 까다로움

법률 도메인 질의는 다층적·복합적·도메인 특정적 요소가 결합됨

실제 예시: “2022년 7월 9일 이전 발행된 커버드 본드에 적용되는 EU 2019/2062 지침 및 CR조항 129의 적용 법제는?”
하나의 질의에 여러 요소가 동시에 작동
- 날짜 기반 필터(특정 시점 이전/이후)
- 특정 법률·규칙 식별자(숫자·코드)
- 키워드 매칭과 의미론적(semantic) 검색 동시 요구
- 복수 규정의 동시 비교·적용(지침·조항 등 혼합)
- 강한 도메인 용어(약어, 전문표현 등) 사용
단일 검색 방식(키워드/벡터 등)만으로는 해결 불가, 복수 방식 조합 필요

시스템 평가(이발; Eval)는 고비용·고정확도 대비 자동화·반복성을 위한 다양화가 필요함

법률 RAG 시스템에서 가장 많은 리소스가 투입되는 단계는 평가임
평가 방법층(고비용 고정확도 → 자동화 저비용 빠른 반복):
- 전문가 직접 평가(결과 리뷰 및 리포트 작성) → 가장 신뢰도 높으나 비용 및 시간 요구 큼
- 전문가 라벨링 기준에 따라 자동·반자동 평가(기준 셋 정의 및 자동화 실행; 중간 비용)
- 단순 정량 지표(정밀도, 재현율, 폴더·섹션 일치 등) 기반 자동화 평가(저비용, 빠른 반복)
도메인 불확실성이 높은 엔지니어·연구자에겐 eval-driven development가 필수
다양한 평가 지표를 조합적으로 설계해 개발 효율과 품질을 동시 추구

데이터 코퍼스는 대량·고복잡도로 설계되고, 도메인·카테고리 체계화 자동화가 중요함

Harvey는 전세계 여러 국가·법률 종류별 데이터셋과 연동
각 국가별, 업무별로 데이터 필터링·조직·카테고리화 필요
도메인 전문가(변호사)와 협력해 기준·힐리스틱(휴리스틱) 정의, LLM 및 자동화 기술로 카테고리화 추진
실시간(온라인) 쿼리시엔 낮은 지연시간·고성능 요구, 오프라인(인제스천, 재인제스천, ML 실험) 환경도 고려해야 함
단일 코퍼스에 수천만 건 이상 문서가 존재(대규모 구조), 각 문서 역시 대용량

엔터프라이즈급 서비스에선 신뢰성, 온보딩, 유연성, 세분화된 데이터 정책 등이 필수임

인프라는 항상 높은 가용성·신뢰성 보장
ML/데이터 팀의 더 빠른 출시와 반복 개발(온보딩·스케일링) 지원 필요: 비즈니스 로직 및 품질에 집중할 수 있도록 추상화
데이터 보안: 고객별·용도별 데이터 분리 저장, 보존 주기(legal retention) 준수, 접근제어
데이터 베이스 사용 현황 추적 및 감시(telemetry)
다양한 쿼리 패턴 지원: 벡터·키워드·필터 조합, 리랭킹·에이전트 방식 등 고유연성 요구
대규모 검색 성능(대용량, 쉐어드/오브젝트 스토리지 기반)에 대한 요구 확대

LANCE DB는 AI 네이티브 멀티모달 레이크하우스 아키텍처로 차별화됨

LANCE DB는 단순 벡터 데이터베이스를 넘어, 멀티모달 AI 데이터 처리를 위한 레이크하우스 역할 지향
오브젝트 스토어 기반 분산 아키텍처로 온라인·오프라인 워크로드 모두에 최적화
컴퓨트·메모리·스토리지 완전 분리, 대규모 병렬처리·확장 용이
파이썬·타입스크립트로 친숙한 DataFrame API(사용자 경험: 판다스/polars 유사), 쿼리·집계 편리
GPU 기반 인덱싱 지원 : 최대 30~~40억 벡터를 2~~3시간 내에 인덱싱한 사례 보유
비용 효율성(분리 아키텍처·오브젝트 스토어 이용), 단일 API로 전체 검색·분석·학습 파이프라인 통합

모든 AI 데이터 타입(텍스트, 이미지, 비디오, 오디오, 임베딩, 테이블 등)을 단일 테이블에서 관리 가능함

LANCE DB만이 이미지/비디오/음성/임베딩/텍스트/테이블/시계열 데이터를 하나의 테이블에 집약 저장 가능
데이터 워크로드 전반(검색, 분석, 학습, 전처리 등)의 단일 진실 소스(Single Source of Truth) 역할 수행
오픈소스 Lance 포맷이 주요 혁신: 랜덤 액세스, 대형 블롭·스칼라 혼합 저장, 효율적인 스키마 진화 가능
기존 데이터 레이크/레이크하우스(Batch/Parquet/Iceberg 등)는 대형 블롭·랜덤 액세스·스키마 진화에 한계 있음
Apache Arrow 기반으로 Spark, Ray로 대량 데이터 병렬 쓰기/읽기, PyTorch로 학습 데이터 로딩, 판다스/폴라스를 통한 질의·분석 완비

Lance 포맷은 대용량 검색·학습, 멀티모달 처리, 호환성과 효율성을 동시에 달성함

Lance 포맷 = Parquet + Iceberg + 세컨더리 인덱스(2차 색인): 강력한 랜덤 액세스, 빠른 스캔, 대형 블롭 저장 지원
대용량 데이터도 병렬 분산 환경에서 빠르게 저장/읽기 지원(스파크/레이/파이토치 연계)
대형 파일과 소형 데이터 혼합 저장, 다양한 학습·분석 시나리오 대응 가능
표준 데이터레이크 도구와 완벽 호환으로 기존 인프라 자산 활용 가능

현장 경험에서 강조하는 3대 핵심: 데이터 구조 이해, 반복개발, 차세대 인프라 도입

도메인별 데이터 구조 및 용례(Explicit/Implicit Query Pattern) 깊이 파악이 가장 먼저 수행돼야 함
반복개발(Iteration Speed) 및 기술 변화 대응 유연성 구축 중요: 평가 체계 고도화, 자동화된 기준/지표로 빠른 개선 선순환
멀티모달·벡터·임베딩 중심이 되는 차세대 AI 데이터 인프라 도입 필수
현실적으로 엔터프라이즈급 RAG 및 AI 시스템은 규모, 복잡성, 도메인 특화 요구, 데이터·질의·성능·보안 등 전 범주에서 혁신 필요

결론적으로 법률 영역 RAG의 확장은 대용량 데이터와 복잡 질의, 맞춤형 인프라, 반복적인 정량 평가 체계로 가능함

복잡한 법률 도메인에선 데이터, 질의, 평가, 인프라 어느 한 부분만으로는 높은 품질을 달성할 수 없음
멀티모달 대용량 데이터, 목적별·상황별 맞춤 인프라, 반복 가능한(자동화/지표화된) 평가 체계 3박자가 필수
이는 다른 도메인 대규모 RAG 시스템 구축시에도 동일하게 적용되는 보편적 교훈임