
영상 링크: Scaling Enterprise-Grade RAG: Lessons from Legal Frontier - Calvin Qi (Harvey), Chang She (Lance)
채널명: AI Engineer
엔터프라이즈급 RAG 확장: 법률 AI의 첨단 경험 핵심 요약
- 영상 제목: 엔터프라이즈급 RAG 확장: 법률 프론티어의 교훈 (Scaling Enterprise-Grade RAG: Lessons from Legal Frontier)
- Harvey AI는 대형 로펌에 특화된 법률 AI 어시스턴트로, 복잡한 문서 분석, 초장대 데이터 다루기, 고차원 질의 처리 등 다양한 법률 업무를 지원함
- RAG 시스템 설계에서 핵심 난제는 방대한 데이터 스케일, 복잡한 질의, 도메인 지식, 데이터 보안 및 프라이버시, 그리고 정교한 성능 평가임
- 실제 법률 질의는 특정 날짜 이전/이후 필터, 특수 키워드, 법령/규정 식별자, 여러 규칙 동시 적용, 엄격한 도메인 용어 등 다양한 요소가 결합되므로, 단순 검색으로 해결 불가
- 평가(이발, eval)에 많은 투자가 이루어지며, 전문가 직접 평가(고비용 고정확도)부터 자동화된 정량 평가(저비용 빠른 반복)까지 여러 층위의 평가 방법 활용
- 데이터 코퍼스는 수천만 건에 달하며, 국가별/종류별 문서 체계화 및 카테고리화 자동화를 위해 도메인 전문가와 협력, 히유리스틱/LLM 활용 등 복합적 접근을 도입함
- 인프라는 대규모, 고가용성·신뢰성, 다양한 저장소 정책(프라이버시/보존기간), 성능·유연성(벡터/키워드 검색 등) 등 엔터프라이즈 수준의 요구에 대응해야 함
- LANCE DB는 AI 작업 특화 멀티모달 레이크하우스(단일 데이터 저장소)로, 오브젝트 스토어 기반 분산 아키텍처, 오프라인과 실시간 서비스 모두에 강점을 가짐
- LANCE DB는 텍스트, 이미지, 비디오, 오디오, 임베딩, 테이블 데이터까지 하나의 테이블에 저장 가능하며, 모든 AI 워크로드(검색, 분석, 학습, 전처리 등)에 활용 가능함
- 오픈소스 Lance 포맷은 Apache Arrow 기반으로, 대형 파일·블롭 데이터 혼합 저장, 랜덤 액세스, 스키마 진화, 대량 분산 처리(파이토치·스파크·레이 등) 지원
- 요약 메시지: 도메인별 대규모 RAG 시스템에선 데이터 구조·용례 이해, 반복개발 촉진을 위한 평가 자동화, 멀티모달·대규모로 진화한 AI 데이터 인프라가 관건임
세부 요약 - 주제별 정리
Harvey AI는 대규모 및 복잡한 법률 데이터를 처리하는 RAG 시스템을 제공함
- Harvey AI는 법률 전문 AI 어시스턴트로, 다양한 로펌에 제품을 공급하고 있음
- 주요 기능: 법률 문서 초안 작성, 분석, 워크플로우 자동화 등
- 다루는 데이터 타입이 매우 다양(업로드 문서, 프로젝트 단위 볼트, 국가별 법령·케이스 등 대규모 데이터 코퍼스)
- 데이터 규모: 단순 업로드(1~50건), 대형 계약·소송 등 프로젝트별 볼트, 전세계 법률 데이터베이스(코퍼스) 등 세분화
- 모든 유형의 데이터에 대한 고품질 검색·분석 기능이 필수
법률 데이터의 대규모, 복잡성, 도메인 특수성이 핵심 과제임
- 처리 대상 데이터는 초장문, 고밀도, 난이도 높은 법률 문서가 다수
- 데이터는 방대함(수천만 건 이상), 각 문서도 일반적 데이터에 비해 길고, 정보가 조밀하게 배치됨
- 도메인별 특수성: 복잡한 규제·관할 구역 차이, 자주 쓰이는 법률 용어와 약어 등
- 도메인 전문가(변호사) 및 AI 엔지니어의 협력이 필수적임
- 데이터 보안·프라이버시(기밀거래, IPO, 금융공시 등 민감문서) 규제가 까다로움
법률 도메인 질의는 다층적·복합적·도메인 특정적 요소가 결합됨
- 실제 예시: “2022년 7월 9일 이전 발행된 커버드 본드에 적용되는 EU 2019/2062 지침 및 CR조항 129의 적용 법제는?”
- 하나의 질의에 여러 요소가 동시에 작동
- 날짜 기반 필터(특정 시점 이전/이후)
- 특정 법률·규칙 식별자(숫자·코드)
- 키워드 매칭과 의미론적(semantic) 검색 동시 요구
- 복수 규정의 동시 비교·적용(지침·조항 등 혼합)
- 강한 도메인 용어(약어, 전문표현 등) 사용
- 단일 검색 방식(키워드/벡터 등)만으로는 해결 불가, 복수 방식 조합 필요
시스템 평가(이발; Eval)는 고비용·고정확도 대비 자동화·반복성을 위한 다양화가 필요함
- 법률 RAG 시스템에서 가장 많은 리소스가 투입되는 단계는 평가임
- 평가 방법층(고비용 고정확도 → 자동화 저비용 빠른 반복):
- 전문가 직접 평가(결과 리뷰 및 리포트 작성) → 가장 신뢰도 높으나 비용 및 시간 요구 큼
- 전문가 라벨링 기준에 따라 자동·반자동 평가(기준 셋 정의 및 자동화 실행; 중간 비용)
- 단순 정량 지표(정밀도, 재현율, 폴더·섹션 일치 등) 기반 자동화 평가(저비용, 빠른 반복)
- 도메인 불확실성이 높은 엔지니어·연구자에겐 eval-driven development가 필수
- 다양한 평가 지표를 조합적으로 설계해 개발 효율과 품질을 동시 추구
데이터 코퍼스는 대량·고복잡도로 설계되고, 도메인·카테고리 체계화 자동화가 중요함
- Harvey는 전세계 여러 국가·법률 종류별 데이터셋과 연동
- 각 국가별, 업무별로 데이터 필터링·조직·카테고리화 필요
- 도메인 전문가(변호사)와 협력해 기준·힐리스틱(휴리스틱) 정의, LLM 및 자동화 기술로 카테고리화 추진
- 실시간(온라인) 쿼리시엔 낮은 지연시간·고성능 요구, 오프라인(인제스천, 재인제스천, ML 실험) 환경도 고려해야 함
- 단일 코퍼스에 수천만 건 이상 문서가 존재(대규모 구조), 각 문서 역시 대용량
엔터프라이즈급 서비스에선 신뢰성, 온보딩, 유연성, 세분화된 데이터 정책 등이 필수임
- 인프라는 항상 높은 가용성·신뢰성 보장
- ML/데이터 팀의 더 빠른 출시와 반복 개발(온보딩·스케일링) 지원 필요: 비즈니스 로직 및 품질에 집중할 수 있도록 추상화
- 데이터 보안: 고객별·용도별 데이터 분리 저장, 보존 주기(legal retention) 준수, 접근제어
- 데이터 베이스 사용 현황 추적 및 감시(telemetry)
- 다양한 쿼리 패턴 지원: 벡터·키워드·필터 조합, 리랭킹·에이전트 방식 등 고유연성 요구
- 대규모 검색 성능(대용량, 쉐어드/오브젝트 스토리지 기반)에 대한 요구 확대
LANCE DB는 AI 네이티브 멀티모달 레이크하우스 아키텍처로 차별화됨
- LANCE DB는 단순 벡터 데이터베이스를 넘어, 멀티모달 AI 데이터 처리를 위한 레이크하우스 역할 지향
- 오브젝트 스토어 기반 분산 아키텍처로 온라인·오프라인 워크로드 모두에 최적화
- 컴퓨트·메모리·스토리지 완전 분리, 대규모 병렬처리·확장 용이
- 파이썬·타입스크립트로 친숙한 DataFrame API(사용자 경험: 판다스/polars 유사), 쿼리·집계 편리
- GPU 기반 인덱싱 지원 : 최대 30
40억 벡터를 23시간 내에 인덱싱한 사례 보유 - 비용 효율성(분리 아키텍처·오브젝트 스토어 이용), 단일 API로 전체 검색·분석·학습 파이프라인 통합
모든 AI 데이터 타입(텍스트, 이미지, 비디오, 오디오, 임베딩, 테이블 등)을 단일 테이블에서 관리 가능함
- LANCE DB만이 이미지/비디오/음성/임베딩/텍스트/테이블/시계열 데이터를 하나의 테이블에 집약 저장 가능
- 데이터 워크로드 전반(검색, 분석, 학습, 전처리 등)의 단일 진실 소스(Single Source of Truth) 역할 수행
- 오픈소스 Lance 포맷이 주요 혁신: 랜덤 액세스, 대형 블롭·스칼라 혼합 저장, 효율적인 스키마 진화 가능
- 기존 데이터 레이크/레이크하우스(Batch/Parquet/Iceberg 등)는 대형 블롭·랜덤 액세스·스키마 진화에 한계 있음
- Apache Arrow 기반으로 Spark, Ray로 대량 데이터 병렬 쓰기/읽기, PyTorch로 학습 데이터 로딩, 판다스/폴라스를 통한 질의·분석 완비
Lance 포맷은 대용량 검색·학습, 멀티모달 처리, 호환성과 효율성을 동시에 달성함
- Lance 포맷 = Parquet + Iceberg + 세컨더리 인덱스(2차 색인): 강력한 랜덤 액세스, 빠른 스캔, 대형 블롭 저장 지원
- 대용량 데이터도 병렬 분산 환경에서 빠르게 저장/읽기 지원(스파크/레이/파이토치 연계)
- 대형 파일과 소형 데이터 혼합 저장, 다양한 학습·분석 시나리오 대응 가능
- 표준 데이터레이크 도구와 완벽 호환으로 기존 인프라 자산 활용 가능
현장 경험에서 강조하는 3대 핵심: 데이터 구조 이해, 반복개발, 차세대 인프라 도입
- 도메인별 데이터 구조 및 용례(Explicit/Implicit Query Pattern) 깊이 파악이 가장 먼저 수행돼야 함
- 반복개발(Iteration Speed) 및 기술 변화 대응 유연성 구축 중요: 평가 체계 고도화, 자동화된 기준/지표로 빠른 개선 선순환
- 멀티모달·벡터·임베딩 중심이 되는 차세대 AI 데이터 인프라 도입 필수
- 현실적으로 엔터프라이즈급 RAG 및 AI 시스템은 규모, 복잡성, 도메인 특화 요구, 데이터·질의·성능·보안 등 전 범주에서 혁신 필요
결론적으로 법률 영역 RAG의 확장은 대용량 데이터와 복잡 질의, 맞춤형 인프라, 반복적인 정량 평가 체계로 가능함
- 복잡한 법률 도메인에선 데이터, 질의, 평가, 인프라 어느 한 부분만으로는 높은 품질을 달성할 수 없음
- 멀티모달 대용량 데이터, 목적별·상황별 맞춤 인프라, 반복 가능한(자동화/지표화된) 평가 체계 3박자가 필수
- 이는 다른 도메인 대규모 RAG 시스템 구축시에도 동일하게 적용되는 보편적 교훈임