Evaluating Domain Specific LLMs for Real World Finance - Waseem Alshikh, Writer

2 May, 2025 05:18 PM

수정 요청하기

YouTube Thumbnail

영상 링크: Evaluating Domain Specific LLMs for Real World Finance — Waseem Alshikh, Writer
채널명: AI Engineer

실제 금융 분야용 도메인 특화 LLM 평가 핵심 요약

Writer는 2020년에 설립되어 다양한 범용 및 도메인 특화 언어 모델(LLM)을 개발해 왔음
최근 범용 LLM의 정확도가 평균 80~90%에 도달함에 따라, 도메인 특화 모델의 필요성에 의문이 제기됨
도메인 특화 모델의 효용성을 검증하기 위해 실제 시나리오 기반의 ‘Fail’ 평가 데이터셋을 제작함
평가 항목은 쿼리 실패(오타, 불완전, 분야 외 질문)와 컨텍스트 실패(OCR 오류, 무관한 문맥 등)로 구성
결과적으로 대부분의 LLM이 정답을 출력하지만, 컨텍스트 이해 및 근거 기반 응답(grounding)에서는 다양한 한계가 확인됨
특히 ‘사고하는(thinking)’ 대형 모델일수록 잘못된 맥락에서 잘못된 답변을 할 가능성이 더 높았음
도메인 특화 금융 데이터셋 기준, 조건 충족형 응답(grounding) 정확도는 최대 81%에 불과했음
현 시점에서 실전 활용을 위해서는 여전히 도메인 특화 모델과 세심한 시스템 설계가 필요하다는 결론에 도달함

세부 요약 - 주제별 정리

Writer는 범용 모델의 성장에도 여전히 도메인 특화 모델 개발을 이어가야 한다는 질문을 던짐

Writer는 Transformer 기반 모델을 지속적으로 개발하여 현재 16종 이상의 모델을 공개 중
범용 모델(PX, P3, P4 등)뿐 아니라 금융, 의료, 크리에이티브 등 도메인 특화 모델도 다수 개발
범용 LLM이 80~90%의 정확도를 보이면서, 도메인 특화 모델을 만들어야 할 필요성에 사내에서 논의가 일어남

실제 금융 시나리오 기반 평가를 위해 Fail이라는 맞춤형 데이터셋을 구축함

금융 실무를 반영한 실제 시나리오로 구성된 평가 데이터셋 ‘Fail’ 제작
평가 항목은 쿼리 실패(오타·불완전·분야 외 질문)와 컨텍스트 실패(OCR 오류, 맥락 누락 등)로 분류
데이터와 평가 결과, leaderboard 등은 오픈소스로 공개(GitHub, Hugging Face)

쿼리 실패 유형에는 오타, 불완전 입력, 분야 외 질문 등이 포함됨

오타(맞춤법 오류), 세그먼트 오류, 불완전 쿼리 등은 실제 사용자들이 자주 범하는 실수임
전문 지식이 부족하거나, 동떨어진 주제를 묻는 경우에도 LLM의 반응을 측정
모델들은 대부분 이와 같은 입력에도 답을 제시함

컨텍스트 실패는 맥락 오류, OCR 오류, 무관한 문서 등에서 주로 발생함

실제 금융 데이터는 종종 OCR 변환 과정에서 문자가 합쳐지거나 깨지는 오류가 생김
관련 없는 문서를 입력해도 모델이 답을 시도하는 문제를 확인
컨텍스트 오류 상황에서 모델의 해석력이 중요한데, 여기서 취약점이 드러남

범용·사고형 LLM일수록 잘못된 맥락에 기반한 ‘환각’(hallucination) 현상이 도드라짐

대형 reasoning(사고형) 모델들은 질문의 컨텍스트와 무관하게 답변을 생성하는 경향이 강함
grounding(근거 응답) 정확도는 소형 모델들보다 오히려 대형 모델에서 더 낮아지는 경우 다수 확인
정답률과 독립적으로 잘못된 맥락을 따른 답변(환각)이 심각한 문제로 재확인됨

정답률과 컨텍스트 충실성(grounding) 사이에는 큰 격차가 존재함

표면적인 Task(텍스트 생성, 질문 응답) 정확도는 모델 간 큰 차이가 없으나, grounding 기준으로 성능이 급격히 저하
모범적인 모델조차 grounding metric에서 81% 이상 달성하지 못함
실제 사용 환경에서 20%이상은 완전히 잘못된 맥락에서 답변됨을 의미함

현 시점에서는 도메인 특화 모델의 추가 개발 및 복합적 시스템 설계가 필수적임을 시사함

guard-rails, context check 등 다양한 보호장치와 시스템 구성 필요성 강조
단일 LLM의 정확도 상승만으로 복잡·민감한 금융, 의료 현장에 바로 투입하기는 어려움
도메인 특화 모델 개발이 당분간은 반드시 병행되어야 한다는 결론에 도달

수정 요청하기

공유하기

Self Coding Agents - Colin Flaherty, Augment Code

The Devops Engineer Who Never Sleeps - Diamond Bishop, Datadog