
영상 링크: Make your LLM app a Domain Expert: How to Build an Expert System — Christopher Lovejoy, Anterior
채널명: AI Engineer
LLM 애플리케이션을 도메인 전문가 시스템으로 만드는 방법 - 전문가 시스템 구축하기 핵심 요약
- 의료인이자 AI 엔지니어인 Christopher Lovejoy는 의료 및 보험 분야에서 도메인 전문성을 실제로 반영한 LLM(대형 언어 모델) 기반 어플리케이션 개발 경험을 공유함
- LLM을 산업별(Vertical)로 성공적으로 적용하는 핵심은 모델 자체의 성능이 아니라, 고객·현장 맥락과 전문성을 담아낼 수 있는 ‘시스템’의 설계에 있음을 강조함
- 현재 한계는 모델의 추론력이 아니라, 산업별 실제 워크플로우에 맞춘 맥락 제공(=‘라스트 마일’ 문제)임
- 실제 예시로, 건강보험 청구 심사에 AI(Floence)가 적용되어, 보수적 치료 문서화 여부 등 복잡한 의료 판정 질문에 직면한 사례를 소개함
- 단일 기준(6주간 보수적 치료 등)도 ‘치료의 정의’, ‘성공/실패의 기준’, ‘문서화 방식’ 등에서 다층적인 모호함과 복잡성을 가짐
- Anterior의 AI는 파이프라인 개선을 통해 의료 심사 업무에서 정확도 95%에서 시작하여, 99% 수준까지 도달함(최근 Light Award 수상)
- 이 성과의 중심에는 ‘측정(Metrics)–실패 원인(Failure mode)–개선제안(Improvement)’으로 이어지는 도메인 전문가 중심의 시스템적 반복(Loop)이 있음
- ‘적응형 도메인 인텔리전스 엔진’을 통해, 도메인 현장 전문가가 실 데이터로 성능지표·실패원인·지식 추가를 실시간 제시하고, 데이터셋-대시보드-엔지니어 간 빠른 수정 사이클을 운영함
- 모든 과정에서 도메인 전문가의 심층 참여와 맞춤형(내재화된) 도구(tooling) 개발이 필수적임
- 최종적으로, 도메인 전문가 PM을 중심으로한 셀프-개선 데이터를 통해, 현장워크플로우의 뉘앙스를 LLM 시스템에 정확하게 전달할 수 있음을 실증함
세부 요약 - 주제별 정리
Christopher Lovejoy는 의료-보험 분야에서 도메인 전문성을 반영한 AI 시스템을 실전에서 개발함
- Christopher Lovejoy는 8년간 의사(의료인)로 일했고, 지난 7년은 AI 엔지니어로서 건강 분야 스타트업에서 AI를 적용함
- 대표 경험으로 Serakare(테크 기반 홈케어, ARR 5억 달러)에서 일하고, 현재는 뉴욕의 Anterior에서 임상 의사가 주도하는 AI 보험 자동화 제품을 개발 중
- Anterior는 보험사 고객사(커버리지 5천만 명)를 대상으로, 임상 추론 도구를 제공해 보험·의료 행정 자동화·가속화를 추구함
- 발표 목적은 “도메인 인사이트가 살아있는 LLM 애플리케이션”에 대한 실전적 플레이북을 공유하는 것임
LLM을 산업별로 성공시킬 때 핵심은 ‘도메인 문맥’ 전달과 그 시스템 설계임
- LLM이 잘 작동하도록 만드는 진짜 난관은, 강력한 모델 자체가 아니라 ‘산업별 맥락’ 전달(‘라스트 마일’ 문제)에 있음
- ‘라스트 마일 문제’란, AI가 해당 산업·고객의 구체적 워크플로우와 맥락을 이해하고 반영하지 못하는 문제를 의미함
- 이 문제의 해결을 위해서는, 모델의 성능 업그레이드가 아니라, 도메인 인사이트를 즉시 ‘시스템’에 녹이고 개선시킬 수 있는 엔진이 필요하다고 강조함
실제 의료 사례에서 단순 규칙도 층위별 모호성과 전문적 해석이 요구됨
- 예시: 78세 여성 환자가 무릎 관절경 시술 권유를 받는 의료 신청에서, 심사 AI(Florence)는 “6주 이상 보수적 치료 실패 문서화 여부”를 판단해야 함
- 표면적으로 단순해 보여도, 실제 판정에는 복합적 해석력 필요
- ‘보수적 치료’ 기준 자체가 상황·환자별로 상이(약물 투여가 보수적일 수도, 아닐 수도 있음)
- ‘실패’의 정의(부분적 증상 개선 vs. 완전 회복)가 애매함 – 어느 수준을 실패라 볼지 명확하지 않음
- 6주간 문서화 기준 역시, 기록 시작만 기록된 경우/명시적 완료 여부 등 해석의 여지가 큼
- 이처럼 도메인 특유의 다층 해석과 전문성 없인, 타당한 ‘자동’ 판단이 어려움
모델 자체의 한계는 이미 기본 성능 수준을 넘어서고, 시스템적 접근이 최종 정확도 향상에 결정적임
- 모델 성능(추론력)이 업계 평준화되며, 95% 수준의 고기본 성능에 도달함(건강심사 AI 기준)
- 나머지 5%의 ‘마지막 도약’을 위해서는 모델 자체가 아닌, 데이터셋·시스템적 맥락 제공과 반복적 개선자가 결정적임
- 실제로 시스템 반복적 개선을 통해 99% 수준의 ‘실업무 적용 정확도’를 실현하며, 이는 ‘Light Award’를 통해 외부에서도 인증받음
Anterior의 ‘적응형 도메인 인텔리전스 엔진’은 두 가지 핵심 축: 측정과 개선으로 구성됨
- 이 엔진은 실제 현장(고객사)에서 도출된 ‘도메인 인사이트’를 모아, 실시간 성능 개선으로 연결하는 핵심 시스템임
- 엔진의 첫 축은 ‘측정’: 현 파이프라인의 실제 성능을, 도메인지표로 진단함
- 두 번째 축은 ‘개선’: 측정 과정에서 드러난 실패 원인을, 실데이터와 전문가의 의견으로 우선순위화하고, 실시간으로 파이프라인을 개선함
- 이 전체 과정이 내부적으로 대시보드·테스트셋 등 다양한 툴로 체계화되어 있음
성능 평가와 주요 지표(메트릭스)는 현업 전문가와의 협업을 통해 정의되어야 함
- 반드시 “사용자가 진짜로 원하는 지표”를 중심으로 평가 설정 필요 (예시: 건강보험에선 false approval 최소화)
- 다양한 산업별로도 최우선 지표가 달라질 수 있음
- 법률 분야: 계약서 주요 조항 누락률
- 사기 탐지: 금전적 손실 방지
- 교육: 시험 성적 향상 등
- 주요 지표 선정에는 도메인 전문가와 고객사의 협업이 반드시 필요
실패 유형(페일러 모드) 온톨로지를 구축해, AI의 실마리별 약점을 정량·구조적으로 추적함
- AI가 실패하는 방식을 상위 카테고리별(예: 진료기록 추출, 임상 추론, 규정 해석) 및 세부 유형으로 체계화
- 이 과정은 반드시 도메인 전문가가 직접 참여해, 실제 맥락·저변을 정확하게 반영해야 함
- 평가 대시보드 상에서, 각 사례에 대해 ‘성공/실패’와 함께 실패 유형을 즉시 선택/기록할 수 있도록 함
- 대표적으로 x축은 false approval 수, y축은 실패 유형으로 시각화해, 실제 개선 우선순위 선정의 데이터로 사용
실패분석-개선제안-테스트 루프가 실시간, 데이터 기반으로 동작 가능한 시스템을 구축함
- 실무 도메인 전문가(임상의, 보험 심사자 등)가 직접 대시보드에서 실패케이스-실패유형-개선 제안을 입력
- 도메인 전문가는 기술 지식 없이도 직접 ‘도메인 지식 추가’ 버튼 등으로, AI 파이프라인에 개선 지식을 즉시 제안/적용 가능
- 테스트셋은 실제 운영 데이터에서 자동 추출되어, 언제든 엔지니어·모델 개선 담당자가 ‘특정 실패 유형’ 대응력을 반복 측정·개선 가능
- 파이프라인 버전별로 성능향상(특정 실패 테스트셋 기준)을 시각화하며, regression 여부도 추적 가능
도메인 전문가의 전문성이 구체적인 개선·테스트 데이터로 쌓여, 시스템 반복개선 속도가 크게 향상됨
- 시스템 상에서 도메인 전문가(임상 의사 등)는 단순 ‘정답’ 평가 이외에도, ‘개선을 위한 도메인 지식 제안’까지 수행
- 예시: 모델이 ‘질환 의심(suspicion)’ 해석에 오해가 있을 때, 도메인 지식을 추가해 잘못된 추론 방지를 제안
- 필요시 ‘스코어링 시스템’ 등 추가 규칙 제공 가능
- 이러한 시스템 내 추가는 즉시, 실제 평가셋에 반영되어 효과 검증 및 배포로 이어질 수 있음
- 그 결과, 도메인 전문가의 리뷰·입력이 곧바로 메트릭스, 실패유형, 개선 knowledge 데이터로 환원됨
도메인 전문가 참여 기준은 현업 응용 분야·목표 성격에 따라 상이함
- 전문성 수준(예: 의사, 간호사, 일반 임상 지원자 등)은 실제 적용 맥락(임상 판정, 보험 서류 심사 등)에 따라 탄력적용
- 단, 워크플로우 특수성과 목표 품질 기준, 현장 경험 등 최대한 반영할 필요
- 도메인 전문가는 내부 스태프 외에, 고객사(실제 사용자)도 함께 참여 가능(향후에는 고객사 검증용 제품으로 확장될 수 있음)
이런 반복개선 사이클을 효율적으로 운영하려면 커스텀화된 전용 툴링(and 대시보드)이 필수임
- 문서상에서 언급된 도구·대시보드는 Anterior가 내재적으로 자체 개발한 맞춤형 툴임
- 도메인 전문가, PM, 엔지니어 모두가 실시간으로 참여 가능한 데이터 입력/분석 환경을 제공
- 외부 상용 솔루션의 한계를 고려할 때, 실제로 제품 시스템과 긴밀히 통합된 bespoke tooling이 가장 효과적임
최종적으로, 도메인 PM을 중심으로 ‘실제 고객의 데이터’와 ‘전문가의 반복적 피드백’을 통한 데이터 주도 자기개선 프로세스가 완성됨
- 사내 PM(도메인 전문가)이 대시보드 상의 메트릭, 실패모드, 개선 권고 정보를 취합·우선순위화
- 엔지니어는 특정 실패 유형, 개선 목표 수치에 따라, 모델·프롬프트·파이프라인을 반복적으로 빠르게 개선
- 개선 성과는 실시간 평가/검증되어, 다시 PM이 배포 여부 결정
- 이처럼 도메인 전문가-엔지니어-PM-고객까지 연결된 반복적, 데이터 기반, 셀프진화 구조가 구현됨
- 궁극적으로, LLM의 도메인 전문성·고정밀성을 끊임없이 강화하는 기반을 마련함