
영상 링크: AI Engineer World’s Fair 2025 - Retrieval + Search
채널명: AI Engineer
AI 엔지니어 월드페어 2025 - 검색 및 추론(AI Engineer World’s Fair 2025 - Retrieval + Search) 핵심 요약
- 본 영상은 AI 기반 검색‧추론 시스템, RAG(검색증강생성) 기술, 최신 문서 처리 아키텍처, 실제 적용사례, 챌린지, 평가 방법, 그리고 차세대 엔터프라이즈 RAG 인프라까지 총망라하는 컨퍼런스 현장이다.
- LlamaIndex는 복합적 구조의 PDF·엑셀 등 비정형 문서 분석을 위한 LLM과 LVM 결합 파이프라인과 최신 엑셀 Agent 도구(비정형 시트 자동 2D 변환+QA)에 관해 구체적 성능, 도입법, 실제 활용 예시와 함께 발표했다.
- Harvey.ai(법률AI)와 LanceDB는 초대규모 법률 데이터셋의 RAG 문제(스케일, 쿼리 복잡성, 도메인 특이성, 프라이버시, 성능, 평가 등)를 실제 현장 적용 기준과 구체적 사례, 인프라 및 벡터 DB 설계 노하우로 상세 분석했다.
- Quotient AI와 Tavili는 AI 검색 시스템의 평가 프레임워크(정적/동적 데이터셋·비참조 평가지표), 웹기반 RAG 에이전트의 실시간 도메인 질문 처리, 평가 자동화, 오픈소스 데이터셋 생성 시스템 구축 사례까지 실증 데이터와 방법론을 제시했다.
- MongoDB(전 Voyage)는 RAG, 파인튜닝, 롱컨텍스트의 차이점과 한계, 최신 임베딩·도메인 특화·하이브리드 검색 방식, 자동 트렁킹 등 차세대 RAG 발전 방향을 상세하게 논의했다.
- 11X의 ‘AI 세일즈레프 Alice’의 실제 ‘브레인’(지식베이스) 구축 과정을 통해 문서 파싱, 청킹, 벡터DB, 리트리벌, 딥 리서치 에이전트 등 RAG 파이프라인 전체를 실제 성장스토리와 구체적 결정 포인트로 풀어냈다.
- Exa는 전통적 키워드 검색 및 최신 뉴럴 검색 간의 혁신적 변화, AI 에이전트와의 진정한 결합, 구체적 API·코드·실용 예시까지 세계 최초로 공개하며 ‘AI 기반 웹 검색 플랫폼’의 미래상을 구체적으로 제시했다.
- Pyabs는 엔지니어 현장 관점에서 RAG 품질을 올리는 실질적 테크닉(BM25→벡터→리랭커→도메인 특화 임베딩→랭킹신호+유저 피드백→팬아웃 쿼리 등 전체 아키텍처)을 경험적 사례, 각 단계별 실무 난이도/효과와 함께 체계적으로 정리했다.
- 실제 각 스타트업(Glow, OpenHome 등)의 Lightning Talk 세션에선 AI·에이전트 기술을 활용한 실시간 광고, 스마트 스피커, 웹 개인화, 크리에이티브, 음성 생성, 에너지 인센티브, 데이터 그래프 등 폭넓은 실제 적용 현장이 소개되었다.
- 전반적으로는 “AI 에이전트 + 검색 엔진”의 실전 요구사항, RAG 시스템 완성도, 평가 체계, 인프라, 커뮤니티 동향, 미래 방향까지 총체적으로 체감할 수 있는 현장이었다.
세부 요약 - 주제별 정리
LlamaIndex는 LLM·LVM·전통적 파서 조합으로 복잡 문서 자동처리 정밀도를 비약적으로 향상시켰음을 보여줌
- 엔터프라이즈 문서(특이 레이아웃 PDF·임베디드 테이블·불규칙 시트 등)는 LLM만으로 충분히 해석하기 어렵고, 오픈소스·상용 파싱 툴만 쓸 경우 정확도가 부족함
- LlamaIndex는 LLM, LVM(비전모델), 전통 파서와 ‘Agentic Validation’ 토큰 등 다양한 파서 계층 아키텍처를 실전에 적용해, 자체 클라우드 서비스에서 사내·외부 벤치마크 기준 최고 성능을 기록
- OpenAI의 GPT-3.5, 4.0 및 Gemini 2.5/4.1 등 최신 모델 적응 결과, 기존 오픈소스·상용 파서를 크게 상회
- 문서 파싱 결과는 마크다운 등 구조적 포맷으로 변환, 추출·색인 등에 활용
비정형 엑셀 스프레드시트 자동정규화와 에이전트형 QA 시스템으로 실무 정확도(95%) 및 편의성을 인간보다 뛰어나게 달성함
- 전통적 텍스트 CSV 방식의 한계를 뛰어넘어, 빈 행(로우), 열, 불규칙 구조의 스프레드시트(Excel, Google Sheets 등)를 자동으로 2D 정규화
- 비정규화 원본과 정규화 버전 모두에서 직접적 에이전트 QA 가능
- RL(강화학습) 도입 및 시트 구조 ‘Semantic map’ 동적 적응
- LLM 코드 인터프리터만으로 70~75% 정확도, LlamaIndex 시스템 도입시 95%까지 도달, 이는 사람(휴먼 베이스라인 90%)보다 높은 수치임
- 실제 적용 방식, 동작 과정, 구조적 지도·파이프라인 등 기술적 상세 공개
- 블로그 및 데모 영상 등으로 체험 안내
에이전트 아키텍처는 헬퍼형(Assistant)·자동화형(Automation) 2트랙으로 진화하며 복합 자동화/능동 조율이 핵심이 되어가고 있음
- 헬퍼형(Assistant)은 챗 기반, 인간 ‘in-the-loop’, 멀티툴 기반 리액트 루프 구조로, 사용자가 직접 과정에 개입하여 단위 지식작업 생산을 지원
- 자동화형(Automation)은 입력 배치 처리, 명확한 제어흐름, 최소 인간 개입, 절차별 API/결정 후 자동연계 등 ‘백엔드’형 구조
- 양 태그(builder/admin/consumer-facing) 자동화, 정보 가공, 다수 에이전트 조합이 실제 현장에서 빈번하게 적용
- 대표적 실사용처: 금융 실사(공·사적 데이터 자동처리 후 분석·레포트), 엔터프라이즈 전용 AI 검색(예: SEMX 및 task-specific Rag Bot), 글로벌 전자회사 테크니컬 시트 자동화 등
Harvey.ai와 LanceDB는 초대규모·복합 법률 데이터셋 RAG의 난제(스케일, 쿼리 복잡도, 보안 등)와 인프라 해법을 제시함
- Harvey는 법률 전문 AI 서비스로, On-demand 어시스턴트 업로드, Vault 기반 대형 프로젝트, 글로벌 법률 Corpus 지원 등 다양한 스케일·유형의 데이터 처리
- 도메인 특화 쿼리 복잡성(날짜, 법령 조항, 용어 등 복합필터/암묵필터), 보안·프라이버시(IPO, 계약 등 수준), 도메인 전문가와의 협업 필요성, 품질 평가 핵심(전문가 리뷰, 레이블셋, 자동평가 등 다양한 층위) 등 실무 과제 실증
- 개별 문서가 수십 MB/수십만 건 이상, 각 국별·도메인별 대규모
- 성능(온·오프라인), 확장·포용력(객체 스토어+GPU 인덱싱 등), 성능 모니터링, 유연한 API, 벡터+키워드+Rerank 등 다양한 패턴 융합 필요
- LanceDB는 ‘AI 네이티브 멀티모달 레이크하우스’로, 문서/이미지/비디오/시계열 등 오브젝트/임베딩/벡터/구조화 데이터 전부 동시지원, Apache Arrow 등과 호환, 오픈소스 ‘lance’ 포맷 채택, 단일 테이블 내 초고속(30억
40억 벡터 23시간 이내 인덱싱) 지원
안정적 AI 검색 평가법 구축(정적/동적 데이터셋·비참조 지표) 및 오픈소스 동적 평가체계 실사례를 제시함
- Quotient AI/Tavili: 전통적 모니터링·기준 데이터셋(Simple QA, Hotpot QA 등)은 실시간/즉시변화/주관적 진위 등 웹기반 에이전트 상황에는 한계
- 동적 데이터셋 구축 오픈소스 에이전트(질문/정답 자동생성, 다수 실시간 검색엔진 집계, 증거 기반 QA 페어 생성, 소스 증빙 추적), Langgraph·Langmiss 활용 관측성, 품질·공정성 강화, 주관성/다양한 관점 반영
- Benchmarks의 한계를 보완하는 ‘Reference-free Evaluation’(정답 불필요 완전성, 도큐먼트 적합성, 환각 검출 등 자동화 메트릭): 실제 실험에서 동적 벤치마크에서 정확도 분포가 달라지고, completeness-accuracy·relevance-hallucination 등 다차원 품질지표 상호 해석
- 세 가지 메트릭(완전성, 문서 적합성, 환각률) 조합 분석을 통해 문제 원인 진단 및 개선 전략 방향까지 실증 사례 분석
MongoDB(전 Voyage)는 기존 RAG/파인튜닝/롱컨텍스트의 한계를 체계적으로 비교·진단하고, 최신 임베딩·하이브리드·자동화 기법을 구체적으로 제시함
- 롱컨텍스트: 전체문서를 LM context에 바로 넣는 방식(1M~1B tokens 등), 실제론 비효율적·비용 과다
- 파인튜닝: 사전 학습후 정보 자체를 파라미터화, 지식 삭제/접근통제/유지보수 측면 비효율
- RAG: 쿼리→적합문서 실시간 검색→LMMContext, ‘라이브러리에서 책 찾는’ 인간적 접근과 유사, 효율·신뢰성·접근통제 측면 강점
- 임베딩 모델(도메인 특화 포함)·매트릭스러닝/벡터 양자화 통해 성능+저장비용 최적 Tradeoff 달성
- 하이브리드 서치(Reranker, Lexical 등), 쿼리 디컴포지션, 도큐먼트 Enrichment, 트렁킹 자동화, 멀티모달 임베딩(텍스트·이미지·비디오 동시) 등 구체적 신기술 적용 및 실 성능향상 수치 제시
Alice(11X)의 AI 세일즈 담당자 브레인 구축과정에서 RAG 파이프라인 실제 도입·운용상의 모든 결정포인트가 제시됨
- 기존엔 사용자가 수동으로 ‘라이브러리’에서 제품·사례·가치 제안 등 컨텍스트 직접 입력→실제론 번거롭고 비효율적
- → AI가 역으로 자율적으로 Seller(고객사) 문서·이미지·웹사이트·미디어파일 전체를 수집·파싱→마크다운 변환→청킹(헤더/문장/토큰 단위 혼합, 구조유지, 단위별 의미 보존 전략)→Pinecone(벡터DB)+임베딩 저장→고도화된 Retrieval(Deep research 에이전트, Leta API)→직관적 3D Visualization까지 일원화
- 벤더 선정시 파일타입 지원·마크다운 추출·웹훅·고객지원 등 실질적 편의성과 협업력에 기반
- 지식그래프형 UI로 투명성 제공, 캠페인 설정시 컨텍스트 Q&A 연동
- 파이프라인 전체에서 ‘프로덕션 우선 구축 후 벤치마크’, 벤더 역량 적극활용 등 실무적 인사이트 제시, 향후 그래프 DB 병행, 환각 검출, 벤더 정확도·완성도 평가, 비용절감 등 개선 목표
Exa: 키워드→뉴럴 임베딩 기반 검색 알고리즘 혁신이 AI 시대에 최적화된 검색엔진 패러다임 변화로 이어짐을 실증함
- 1998년대 전통 검색은 키워드 기반 inverted index+Pagerank(링크 그래프 기반 권위점수) 구조, 사용자는 ‘간단한 키워드’ 입력, 검색엔진은 클릭가능성 중심
- 2020년대 AI(예: GPT-3/4)는 긴 문단 수준 의미/명령 입력, 복합적 목적, ‘정보 밀도’와 ‘정확성’이 혁신적으로 요구됨
- 전통 검색 엔진의 한계(‘shirts without stripes’ 조차 해석 실패), AI와 결합한 진정한 의미 기반 검색 필요성 부각
- Exa는 모든 웹문서를 강력한 임베딩으로 표현(문서 의미+웹 상 언급 유연히 반영), 쿼리를 임베딩 후 벡터 비교로 검색
- AI 어시스턴트와 결합할 때, 방대한 컨텍스트/배치/멀티패러그래프 입력, 무한 다층 필터, 대량 결과(1천~1만+ 링크 등) 등 차세대 질의 패턴 수용
- 실제 대규모 데이터셋·API 제공, 뉴럴검색/키워드검색 혼합, 코드 예제/에이전트 구축 실전 데모
- 모든 유형의 질의 지원(키워드·복합의미·구조적·미지 패턴)이 목표, AI 시대의 ‘웹 데이터베이스화’ 실현 비전
- 실시간 딥 리서치 API(멀티 서치+LM 자동 콜) 신규 런칭
Pyabs: 현장 엔지니어가 단계별 RAG 품질을 끌어올리는 실제 솔루션 테크닉과 실전 난이도를 체계적으로 정리함
- RAG 개선 목표 설정시, 실제 나의 ‘품질 바’/서비스 목적에 기반하여 제품/서비스 릴리즈 기준을 명확히 하고 거기에 필요한 쿼리셋·문제분석(Eval/벤치마크)→실질적 테크닉을 ‘복잡도/효과’ 중심으로 선별할 것(‘Stay Lazy’)
- 가장 기초적으로는 인-메모리(롱컨텍스트)→용량 초과/문서 초과 발생시 키워드(BM25)→뉴럴 벡터→Cross-encoder류 Re-ranker 순서로 ‘난이도-효과’를 따져가며 적용
- 도메인 특화 주요 용어·문맥(법률, 쇼핑 등)은 일반 임베딩으론 안되므로 Custom Embedding으로 브렌치, 검색→랭킹→신호(가격 등)→유저 피드백(클릭, Thumbs 등) 롤업
- 복합 질의(LM Fan-out), 엔진-툴 간 적절한 질의 분배, Supplementary Retrieval(백엔드/음식-기업 등 중복 호출·Recall 극대화), 코스트 오버로드→Model Distillation(특화 속도·경량화) 디테일
- 모든 단위는 현황 벤치마크와 Loss 분석을 통해 ‘진짜 필요한 것’만 도입, 제품 설계(UX) 역시 품질 확보/Graceful degrade에 필수
- 현장 렌즈에서 Query별, 도메인별 성격에 따라 ‘Relevance’ 이상 구조(의도→시그널→피드백→조정)의 이해 및 설계 필요
Quotient AI·Tavili: 동적 데이터셋 및 비참조 평가 프레임워크로 AI 검색 신뢰성 제고를 실증함
- 기존 오픈소스 데이터셋(SimpleQA, HotpotQA 등)은 실시간 변동성, 도메인 주관성, 온라인 정보 ‘진위’ 등 한계
- 오픈소스 에이전트로 실시간 도메인별 쿼리인지·다중 AI Search API 결과 집계·증거기반 질문-정답 페어 생성·실사용 데이터 적합도 상시 트래킹 체계 구축
- 평가지표: 정답참조 없는 ‘답변 완전성’, ‘도큐먼트 관련성’, ‘Hallucination 검출’ 등 다차원 메트릭 실험 및 상호작용 결과 공유
- 실제 데이터 기반 수치, 활용 그래프, 구체적 사례(누락 문서, 잘못된 사실, 모델별 환각률/정확도 등)로 평가 방법의 유용성 입증
스타트업 Lightning Talk 세션: AI·에이전트 기술의 실제 소비자·B2B 현장 응용 트렌드를 단시간에 압축적으로 체험하게 함
- Kreative: AI 기반 크리에이티브 콘텐츠 플랫폼, 대규모 이미저리 생산·관리 자동화
- OpenHome: LLM 기반 자연어 스마트 스피커 생태계, 10,000+ 개발자, 오픈소스·L모델·탈옥·맞춤 하드웨어 구현 사례
- Koframe: AI 기반 웹/UX 실시간 개인화, 대기업 매출 증진 직접 사례, OpenAI 공식 파트너십
- Federus AI: 초저비용·고신뢰 에이전트(예: Action R1 Agent) 개발, Scale→Reliability 트렌드로 설계 방향 전환
- Upside: AI로 원천 데이터 완전 구조화·그래프 분석, 세일즈/마케팅 데이터의 통찰 확보
- OpenAudio: 오픈소스·딥러닝 기반 음성합성(Emotion, 인스트럭션 제어 등), TTS 영역 성능 혁신
- Glow: 토큰 경제와 실제 솔라 패널 인센티브 연결, 글로벌 인프라 AI 기반 확대
- OpenRouter: AI LLM 마켓플레이스, API 일원화·모델간 전환비용 최소화, 캡처·랭킹 제공
전반적으로 ‘검색+에이전트+RAG의 미래’는 자동화·복합도메인 도전·품질평가·모듈형 인프라 혁신에 달려 있음을 확인케 함
- 인간 중심 정보 수집 방식→AI·에이전트가 ‘자동 문서 흡입-구조화-배치-추론’ 일관 파이프라인으로 진화
- 품질 평가는 전통적 ground truth 의존→동적 데이터셋·비참조·노후/환각 검출 등 차세대 지표로 넘어감
- 키워드→임베딩(뉴럴)→혼합 모델로 점진적 이행, 도메인 특화 및 시그널 조합, 리랭킹, 피드백 순환 등 엔지니어링 요구도 급상승
- All-in-one 플랫폼(멀티모달 레이크하우스, 검색→애널리틱스→트레이닝 전부 지원), RAG 자동 트렁킹·파인튜닝 API·3D 시각화까지 실무 혁신 속도 가속화