
영상 링크: Building AI Agents that actually automate Knowledge Work - Jerry Liu, LlamaIndex
채널명: AI Engineer
지식 업무를 실제로 자동화하는 AI 에이전트 구축 핵심 요약
- 발표자는 LlamaIndex의 공동 창립자이자 CEO인 Jerry Liu로, 주제는 “지식 업무를 실제로 자동화하는 AI 에이전트 구축”임
- AI 에이전트의 주요 약속은 지식 노동자의 효율성 증대로, 단순 RAG(Retrieval Augmented Generation) 챗봇 이상의 자동화가 필요하다고 강조함
- 실제 지식 업무 데이터의 90%는 PDF, 파워포인트, 워드, 엑셀 등 비정형 문서로 존재하여, 인간은 이를 직접 읽고 결론을 내려야 했음
- AI 에이전트가 처음으로 방대한 비정형 문서를 분석·연구하고 결론 도출 및 실제 ‘행동’까지 자동 수행하는 것이 가능해짐
- 에이전트 유형은 크게 ‘보조(Assistive)’ 에이전트(채팅형 인터페이스 중심, 인간의 정보 탐색 지원)와 ‘자동화(Automation)’ 에이전트(일상 반복업무 실행, 인간 개입 최소)로 나뉨
- 이를 위해서는 전문화된 도구(tool)와 효율적인 에이전트 구조가 필수이며, 특히 문서 인터페이스를 위한 전처리-파싱-색인화 레이어의 중요성을 강조함
- LlamaIndex는 LLM/LVM(비전 모델)과 기존 파싱 기술의 결합, 테스트 단계의 에이전트 검증 등을 통해 최고 수준의 문서 이해 및 추출 성능을 확보했다고 설명
- Excel, Google Sheets 등 반정형 데이터에 대한 특화 에이전트도 개발하여 비정형 스프레드시트의 정규화 및 QA에 95% 정확도 달성, 인간(90%)보다 우수한 성능을 입증
- 보조형과 자동화형 에이전트는 데이터 파이프라인에서 ‘백엔드-프론트엔드’ 역할을 나누어, 실제 금융실사나 기술 자료 자동처리 등 실전 기업사례를 제시함
- LlamaIndex는 맞춤화가 가능한 문서 자동화 플랫폼으로, RAG뿐만 아니라 다양한 에이전트 워크플로를 지원하며 다양한 산업 분야에서 실제 업무 자동화를 실현 중임
세부 요약 - 주제별 정리
비정형 문서가 핵심 지식 업무의 대부분을 차지하며, AI가 이 업무 자동화를 현실화함
- 현대 기업의 약 90% 데이터가 PDF, 파워포인트, 워드, 엑셀 등 비정형 문서로 존재함
- 업무 현장(예: 투자은행, 고객지원, 분석팀 등)에서 인간이 직접 문서를 읽고 결정을 내리는 과정이 핵심 지식 업무임
- 이전까지 AI는 대량의 비정형 문서에서 정보를 분석·종합하거나, 실제 ‘행동’(의사결정, 문자 작성 등)을 자동으로 수행하지 못함
- AI 에이전트의 발전으로 방대한 컨텍스트 토큰 내에서 분석, 탐색, 인사이트 도출 및 자동 실행이 가능해짐
- 지식 업무 자동화는 단순 챗봇(RAG) 이상이 되어야 하며, ‘맥락적 분석→종합→실행’의 전 과정을 포괄
AI 에이전트는 보조(Assistive)와 자동화(Automation) 두 유형으로 설계할 수 있음
- 보조 에이전트: 채팅 인터페이스로 작동, 인간 사용자가 빠르게 정보를 탐색하도록 돕는 역할
- 자동화 에이전트: 반복적, 일상적인 업무를 백그라운드에서 자동으로 처리, 인간 개입을 최소화함
- 각 유형에 따라 인터페이스, 컨트롤 플로우(작업 흐름), 인간의 개입 수준, 출력물 형태(예: 레포트, API 연동 등)가 다름
- 복합 상황에서는 두 에이전트가 결합되어, 예를 들어 자동화 에이전트가 전처리·정제한 데이터를 보조 에이전트가 사용자에게 제공하는 구조도 가능
AI 에이전트 개발에는 정교한 문서 도구(toolbox)와 최적의 전처리 구조가 필수적임
- 에이전트는 실제 세계 데이터와 상호작용하는 다양한 ‘도구’를 활용해야 함
- 단순 RAG(문서 검색 및 답변 생성을 한 번에 수행)로 한정되지 않고, 파일 검색, 메타데이터 조회, 파일 조작, 구조질의 등 다양한 기능이 필요
- 데이터를 활용 가능한 형태로 만들기 위해, 데이터 커넥터(SharePoint, Google Drive, S3, Confluence 등), 권한/메타데이터 싱크, 문서 파싱·추출, 색인화(vectordb, SQL, graphdb 등)가 모두 필요
복잡하고 비정형적인 기업 문서 파싱에는 LLM 및 LVM과의 융합이 강력한 성능을 보임
- 복잡한 PDF 문서(내장표, 차트, 이미지, 불규칙 레이아웃 등)는 머신에 불리하게 설계됨
- 기존 전통적 ML 방식(사전 설계된 개별 모델)은 제한적인 반면, LLM/LVM은 포괄적으로 대부분의 문서 형태를 소화 가능
- LlamaIndex는 LLM/LVM을 기존 파싱기법과 결합, 테스트 단계에서 에이전트 검증과추론을 더해 최고 수준의 정확도를 달성
- 오픈소스, 상용 솔루션과의 벤치마크에서 OpenAI의 최신 모델(GPT-3.5, 4.0), Gemini 등과 함께 우수한 성능을 입증
엑셀 및 스프레드시트는 인간보다 AI 전용 에이전트가 더 정확하게 분석 및 정규화 할 수 있음
- Microsoft Excel, Google Sheets, Numbers 등에서 생성되는 반정형 스프레드시트는 비정규화, 누락, 이중 행렬 등 구조적으로 복잡함
- 기존 텍스트-CSV 변환, RAG 방식은 스프레드시트에 부적합하며, LLM이 코드 생성 방식(code interpreter)을 쓰는 게 현실적인 베이스라인임(정확도 약 70~75%)
- LlamaIndex 개발 Excel 에이전트의 정확도는 95%로, 인간의 수작업(90%)을 능가
- 강화학습(RL)과 시멘틱 맵 학습을 적용해 문서 구조를 파악, 전문화된 기능을 통해 AI가 엑셀 데이터를 정규화·질의·인사이트 추출 가능
- 베타 버전이 제공되고 있으며, 공식 블로그 등에 안내 영상 및 추가 자료 공개
문서 도구(toolbox)의 설계는 에이전트의 실제 ‘실행력’과 품질을 결정함
- 도구 인터페이스: 의미적 검색(semantic search), 파일 탐색, 파일 조작, 구조화 질의 등이 모두 꼭 필요
- 잘못 파싱된 문서는 아무리 고성능 LLM을 붙여도 무용지물이기 때문에 전처리, 멀티모달 지원, 권한 관리 등 모든 층을 빈틈없이 설계해야 함
- LlamaIndex 플랫폼은 GI native 환경에서 파싱, 추출, 색인화 등 핵심 작업을 자동화하는 관리형 플랫폼 제공
에이전트 아키텍처 설계 시, UX 유형(보조/자동화)에 따라 컨트롤플로우와 인간 개입 범위가 달라짐
- 보조 에이전트(Front-end UX): 자연어 채팅 입력, 도구 기반 리액트 루프 활용, 인간 개입률 높으며 인포메이션 서퍼싱 중심
- 자동화 에이전트(Back-end): 대량 입력, 사전 정의된 체계적 컨트롤 플로우, 과정 내 인간 개입 최소화, 출력은 API 연동 또는 구조화 결과물
- 자동화 에이전트는 데이터 ETL 등 백엔드 역할, 보조 에이전트는 전방에서 사용자 지원 역할로 최적화할 수 있음
- 일부 파이프라인에서는 자동화 → 보조 에이전트 순으로 데이터가 흐름
- LlamaIndex의 예시 오픈소스: Invoice-Reconciler, 테크니컬 데이터시트 익스트랙터 등
실제 엔터프라이즈 사례를 통해, 자동화·보조 에이전트의 실전 효과를 입증함
- 금융실사(Due Diligence): 대형 투자사 ‘Carl’은 LlamaIndex의 자동화-보조 에이전트로 수백만 건의 공공/사적 금융 데이터 자동 처리, 엑셀/PDF/PPT 등에서 추출→정형화→보고서 자동화까지 구현
- 엔터프라이즈 검색: ‘SEMX’는 다양한 대용량 데이터셋을 대상으로 보조형 에이전트 기반 RAG 챗봇 도입, 과제별 특화형 에이전트화
- 기술데이터시트 자동화: 글로벌 전자제품사와 협업해 데이터시트 자동 파싱, 정보 추출, SQL 정형 저장, 휴먼리뷰 포함, 기존 수작업 수주일 단위 업무를 단시간에 자동화
LlamaIndex는 맞춤화와 정확도를 기반으로 다양한 산업에서 문서 기반 AI 자동화를 이끌고 있음
- LlamaIndex는 자체 클라우드 서비스, 관리형 플랫폼, 문서 도구(toolbox) 제공으로 범용적인 지식 업무 자동화 인프라를 목표로 함
- 핵심 장점으로 높은 커스터마이징(고객별 특화 파이프라인 설계) 및 정밀한 파싱/추출 성능을 강조
- 초기에는 RAG 프레임워크 중심이었으나, 에이전트 워크플로 지원 범위를 넓혀 다양한 문서, 데이터 유형, 업무 시나리오 지원 가능
- 실제 부스(G11)에서 데모 진행 및 사용 사례 공유, 블로그 및 공식 문서에서 사전 공개 기능 안내
정리: 고도화된 도구와 최적화된 에이전트 구조를 통해, 기업 문서 지식 업무의 End-to-End 자동화가 실질적으로 구현되고 있음
- 단순 RAG 챗봇에서 벗어나 문서-도구-에이전트-워크플로우가 유기적으로 통합되어야 ‘진짜 자동화’가 가능
- LlamaIndex의 최신 성과는 LLM/LVM, 강화학습, 정밀 파서 개발, 베타 기능(엑셀 등) 연계 등 다양한 기술 집약 결과임
- 구체적 예시(금융 실사, 데이터시트 추출 등)가 실 환경에서 실제 인간 업무를 대체, 보완하는 사례로 등장
- 향후 AI 에이전트 기반 지식 업무 자동화는 범산업적으로 확장될 것임