AI Engineer World’s Fair 2025 - Retrieval + Search

영상 링크: AI Engineer World’s Fair 2025 - Retrieval + Search
채널명: AI Engineer

AI 엔지니어 월드페어 2025 - 검색 및 추론(AI Engineer World’s Fair 2025 - Retrieval + Search) 핵심 요약

본 영상은 AI 기반 검색‧추론 시스템, RAG(검색증강생성) 기술, 최신 문서 처리 아키텍처, 실제 적용사례, 챌린지, 평가 방법, 그리고 차세대 엔터프라이즈 RAG 인프라까지 총망라하는 컨퍼런스 현장이다.
LlamaIndex는 복합적 구조의 PDF·엑셀 등 비정형 문서 분석을 위한 LLM과 LVM 결합 파이프라인과 최신 엑셀 Agent 도구(비정형 시트 자동 2D 변환+QA)에 관해 구체적 성능, 도입법, 실제 활용 예시와 함께 발표했다.
Harvey.ai(법률AI)와 LanceDB는 초대규모 법률 데이터셋의 RAG 문제(스케일, 쿼리 복잡성, 도메인 특이성, 프라이버시, 성능, 평가 등)를 실제 현장 적용 기준과 구체적 사례, 인프라 및 벡터 DB 설계 노하우로 상세 분석했다.
Quotient AI와 Tavili는 AI 검색 시스템의 평가 프레임워크(정적/동적 데이터셋·비참조 평가지표), 웹기반 RAG 에이전트의 실시간 도메인 질문 처리, 평가 자동화, 오픈소스 데이터셋 생성 시스템 구축 사례까지 실증 데이터와 방법론을 제시했다.
MongoDB(전 Voyage)는 RAG, 파인튜닝, 롱컨텍스트의 차이점과 한계, 최신 임베딩·도메인 특화·하이브리드 검색 방식, 자동 트렁킹 등 차세대 RAG 발전 방향을 상세하게 논의했다.
11X의 ‘AI 세일즈레프 Alice’의 실제 ‘브레인’(지식베이스) 구축 과정을 통해 문서 파싱, 청킹, 벡터DB, 리트리벌, 딥 리서치 에이전트 등 RAG 파이프라인 전체를 실제 성장스토리와 구체적 결정 포인트로 풀어냈다.
Exa는 전통적 키워드 검색 및 최신 뉴럴 검색 간의 혁신적 변화, AI 에이전트와의 진정한 결합, 구체적 API·코드·실용 예시까지 세계 최초로 공개하며 ‘AI 기반 웹 검색 플랫폼’의 미래상을 구체적으로 제시했다.
Pyabs는 엔지니어 현장 관점에서 RAG 품질을 올리는 실질적 테크닉(BM25→벡터→리랭커→도메인 특화 임베딩→랭킹신호+유저 피드백→팬아웃 쿼리 등 전체 아키텍처)을 경험적 사례, 각 단계별 실무 난이도/효과와 함께 체계적으로 정리했다.
실제 각 스타트업(Glow, OpenHome 등)의 Lightning Talk 세션에선 AI·에이전트 기술을 활용한 실시간 광고, 스마트 스피커, 웹 개인화, 크리에이티브, 음성 생성, 에너지 인센티브, 데이터 그래프 등 폭넓은 실제 적용 현장이 소개되었다.
전반적으로는 “AI 에이전트 + 검색 엔진”의 실전 요구사항, RAG 시스템 완성도, 평가 체계, 인프라, 커뮤니티 동향, 미래 방향까지 총체적으로 체감할 수 있는 현장이었다.

세부 요약 - 주제별 정리

LlamaIndex는 LLM·LVM·전통적 파서 조합으로 복잡 문서 자동처리 정밀도를 비약적으로 향상시켰음을 보여줌

엔터프라이즈 문서(특이 레이아웃 PDF·임베디드 테이블·불규칙 시트 등)는 LLM만으로 충분히 해석하기 어렵고, 오픈소스·상용 파싱 툴만 쓸 경우 정확도가 부족함
LlamaIndex는 LLM, LVM(비전모델), 전통 파서와 ‘Agentic Validation’ 토큰 등 다양한 파서 계층 아키텍처를 실전에 적용해, 자체 클라우드 서비스에서 사내·외부 벤치마크 기준 최고 성능을 기록
OpenAI의 GPT-3.5, 4.0 및 Gemini 2.5/4.1 등 최신 모델 적응 결과, 기존 오픈소스·상용 파서를 크게 상회
문서 파싱 결과는 마크다운 등 구조적 포맷으로 변환, 추출·색인 등에 활용

비정형 엑셀 스프레드시트 자동정규화와 에이전트형 QA 시스템으로 실무 정확도(95%) 및 편의성을 인간보다 뛰어나게 달성함

전통적 텍스트 CSV 방식의 한계를 뛰어넘어, 빈 행(로우), 열, 불규칙 구조의 스프레드시트(Excel, Google Sheets 등)를 자동으로 2D 정규화
비정규화 원본과 정규화 버전 모두에서 직접적 에이전트 QA 가능
RL(강화학습) 도입 및 시트 구조 ‘Semantic map’ 동적 적응
LLM 코드 인터프리터만으로 70~75% 정확도, LlamaIndex 시스템 도입시 95%까지 도달, 이는 사람(휴먼 베이스라인 90%)보다 높은 수치임
실제 적용 방식, 동작 과정, 구조적 지도·파이프라인 등 기술적 상세 공개
블로그 및 데모 영상 등으로 체험 안내

에이전트 아키텍처는 헬퍼형(Assistant)·자동화형(Automation) 2트랙으로 진화하며 복합 자동화/능동 조율이 핵심이 되어가고 있음

헬퍼형(Assistant)은 챗 기반, 인간 ‘in-the-loop’, 멀티툴 기반 리액트 루프 구조로, 사용자가 직접 과정에 개입하여 단위 지식작업 생산을 지원
자동화형(Automation)은 입력 배치 처리, 명확한 제어흐름, 최소 인간 개입, 절차별 API/결정 후 자동연계 등 ‘백엔드’형 구조
양 태그(builder/admin/consumer-facing) 자동화, 정보 가공, 다수 에이전트 조합이 실제 현장에서 빈번하게 적용
대표적 실사용처: 금융 실사(공·사적 데이터 자동처리 후 분석·레포트), 엔터프라이즈 전용 AI 검색(예: SEMX 및 task-specific Rag Bot), 글로벌 전자회사 테크니컬 시트 자동화 등

Harvey.ai와 LanceDB는 초대규모·복합 법률 데이터셋 RAG의 난제(스케일, 쿼리 복잡도, 보안 등)와 인프라 해법을 제시함

Harvey는 법률 전문 AI 서비스로, On-demand 어시스턴트 업로드, Vault 기반 대형 프로젝트, 글로벌 법률 Corpus 지원 등 다양한 스케일·유형의 데이터 처리
도메인 특화 쿼리 복잡성(날짜, 법령 조항, 용어 등 복합필터/암묵필터), 보안·프라이버시(IPO, 계약 등 수준), 도메인 전문가와의 협업 필요성, 품질 평가 핵심(전문가 리뷰, 레이블셋, 자동평가 등 다양한 층위) 등 실무 과제 실증
개별 문서가 수십 MB/수십만 건 이상, 각 국별·도메인별 대규모
성능(온·오프라인), 확장·포용력(객체 스토어+GPU 인덱싱 등), 성능 모니터링, 유연한 API, 벡터+키워드+Rerank 등 다양한 패턴 융합 필요
LanceDB는 ‘AI 네이티브 멀티모달 레이크하우스’로, 문서/이미지/비디오/시계열 등 오브젝트/임베딩/벡터/구조화 데이터 전부 동시지원, Apache Arrow 등과 호환, 오픈소스 ‘lance’ 포맷 채택, 단일 테이블 내 초고속(30억~~40억 벡터 2~~3시간 이내 인덱싱) 지원

안정적 AI 검색 평가법 구축(정적/동적 데이터셋·비참조 지표) 및 오픈소스 동적 평가체계 실사례를 제시함

Quotient AI/Tavili: 전통적 모니터링·기준 데이터셋(Simple QA, Hotpot QA 등)은 실시간/즉시변화/주관적 진위 등 웹기반 에이전트 상황에는 한계
동적 데이터셋 구축 오픈소스 에이전트(질문/정답 자동생성, 다수 실시간 검색엔진 집계, 증거 기반 QA 페어 생성, 소스 증빙 추적), Langgraph·Langmiss 활용 관측성, 품질·공정성 강화, 주관성/다양한 관점 반영
Benchmarks의 한계를 보완하는 ‘Reference-free Evaluation’(정답 불필요 완전성, 도큐먼트 적합성, 환각 검출 등 자동화 메트릭): 실제 실험에서 동적 벤치마크에서 정확도 분포가 달라지고, completeness-accuracy·relevance-hallucination 등 다차원 품질지표 상호 해석
세 가지 메트릭(완전성, 문서 적합성, 환각률) 조합 분석을 통해 문제 원인 진단 및 개선 전략 방향까지 실증 사례 분석

MongoDB(전 Voyage)는 기존 RAG/파인튜닝/롱컨텍스트의 한계를 체계적으로 비교·진단하고, 최신 임베딩·하이브리드·자동화 기법을 구체적으로 제시함

롱컨텍스트: 전체문서를 LM context에 바로 넣는 방식(1M~1B tokens 등), 실제론 비효율적·비용 과다
파인튜닝: 사전 학습후 정보 자체를 파라미터화, 지식 삭제/접근통제/유지보수 측면 비효율
RAG: 쿼리→적합문서 실시간 검색→LMMContext, ‘라이브러리에서 책 찾는’ 인간적 접근과 유사, 효율·신뢰성·접근통제 측면 강점
임베딩 모델(도메인 특화 포함)·매트릭스러닝/벡터 양자화 통해 성능+저장비용 최적 Tradeoff 달성
하이브리드 서치(Reranker, Lexical 등), 쿼리 디컴포지션, 도큐먼트 Enrichment, 트렁킹 자동화, 멀티모달 임베딩(텍스트·이미지·비디오 동시) 등 구체적 신기술 적용 및 실 성능향상 수치 제시

Alice(11X)의 AI 세일즈 담당자 브레인 구축과정에서 RAG 파이프라인 실제 도입·운용상의 모든 결정포인트가 제시됨

기존엔 사용자가 수동으로 ‘라이브러리’에서 제품·사례·가치 제안 등 컨텍스트 직접 입력→실제론 번거롭고 비효율적
→ AI가 역으로 자율적으로 Seller(고객사) 문서·이미지·웹사이트·미디어파일 전체를 수집·파싱→마크다운 변환→청킹(헤더/문장/토큰 단위 혼합, 구조유지, 단위별 의미 보존 전략)→Pinecone(벡터DB)+임베딩 저장→고도화된 Retrieval(Deep research 에이전트, Leta API)→직관적 3D Visualization까지 일원화
벤더 선정시 파일타입 지원·마크다운 추출·웹훅·고객지원 등 실질적 편의성과 협업력에 기반
지식그래프형 UI로 투명성 제공, 캠페인 설정시 컨텍스트 Q&A 연동
파이프라인 전체에서 ‘프로덕션 우선 구축 후 벤치마크’, 벤더 역량 적극활용 등 실무적 인사이트 제시, 향후 그래프 DB 병행, 환각 검출, 벤더 정확도·완성도 평가, 비용절감 등 개선 목표

Exa: 키워드→뉴럴 임베딩 기반 검색 알고리즘 혁신이 AI 시대에 최적화된 검색엔진 패러다임 변화로 이어짐을 실증함

1998년대 전통 검색은 키워드 기반 inverted index+Pagerank(링크 그래프 기반 권위점수) 구조, 사용자는 ‘간단한 키워드’ 입력, 검색엔진은 클릭가능성 중심
2020년대 AI(예: GPT-3/4)는 긴 문단 수준 의미/명령 입력, 복합적 목적, ‘정보 밀도’와 ‘정확성’이 혁신적으로 요구됨
전통 검색 엔진의 한계(‘shirts without stripes’ 조차 해석 실패), AI와 결합한 진정한 의미 기반 검색 필요성 부각
Exa는 모든 웹문서를 강력한 임베딩으로 표현(문서 의미+웹 상 언급 유연히 반영), 쿼리를 임베딩 후 벡터 비교로 검색
AI 어시스턴트와 결합할 때, 방대한 컨텍스트/배치/멀티패러그래프 입력, 무한 다층 필터, 대량 결과(1천~1만+ 링크 등) 등 차세대 질의 패턴 수용
실제 대규모 데이터셋·API 제공, 뉴럴검색/키워드검색 혼합, 코드 예제/에이전트 구축 실전 데모
모든 유형의 질의 지원(키워드·복합의미·구조적·미지 패턴)이 목표, AI 시대의 ‘웹 데이터베이스화’ 실현 비전
실시간 딥 리서치 API(멀티 서치+LM 자동 콜) 신규 런칭

Pyabs: 현장 엔지니어가 단계별 RAG 품질을 끌어올리는 실제 솔루션 테크닉과 실전 난이도를 체계적으로 정리함

RAG 개선 목표 설정시, 실제 나의 ‘품질 바’/서비스 목적에 기반하여 제품/서비스 릴리즈 기준을 명확히 하고 거기에 필요한 쿼리셋·문제분석(Eval/벤치마크)→실질적 테크닉을 ‘복잡도/효과’ 중심으로 선별할 것(‘Stay Lazy’)
가장 기초적으로는 인-메모리(롱컨텍스트)→용량 초과/문서 초과 발생시 키워드(BM25)→뉴럴 벡터→Cross-encoder류 Re-ranker 순서로 ‘난이도-효과’를 따져가며 적용
도메인 특화 주요 용어·문맥(법률, 쇼핑 등)은 일반 임베딩으론 안되므로 Custom Embedding으로 브렌치, 검색→랭킹→신호(가격 등)→유저 피드백(클릭, Thumbs 등) 롤업
복합 질의(LM Fan-out), 엔진-툴 간 적절한 질의 분배, Supplementary Retrieval(백엔드/음식-기업 등 중복 호출·Recall 극대화), 코스트 오버로드→Model Distillation(특화 속도·경량화) 디테일
모든 단위는 현황 벤치마크와 Loss 분석을 통해 ‘진짜 필요한 것’만 도입, 제품 설계(UX) 역시 품질 확보/Graceful degrade에 필수
현장 렌즈에서 Query별, 도메인별 성격에 따라 ‘Relevance’ 이상 구조(의도→시그널→피드백→조정)의 이해 및 설계 필요

Quotient AI·Tavili: 동적 데이터셋 및 비참조 평가 프레임워크로 AI 검색 신뢰성 제고를 실증함

기존 오픈소스 데이터셋(SimpleQA, HotpotQA 등)은 실시간 변동성, 도메인 주관성, 온라인 정보 ‘진위’ 등 한계
오픈소스 에이전트로 실시간 도메인별 쿼리인지·다중 AI Search API 결과 집계·증거기반 질문-정답 페어 생성·실사용 데이터 적합도 상시 트래킹 체계 구축
평가지표: 정답참조 없는 ‘답변 완전성’, ‘도큐먼트 관련성’, ‘Hallucination 검출’ 등 다차원 메트릭 실험 및 상호작용 결과 공유
실제 데이터 기반 수치, 활용 그래프, 구체적 사례(누락 문서, 잘못된 사실, 모델별 환각률/정확도 등)로 평가 방법의 유용성 입증

스타트업 Lightning Talk 세션: AI·에이전트 기술의 실제 소비자·B2B 현장 응용 트렌드를 단시간에 압축적으로 체험하게 함

Kreative: AI 기반 크리에이티브 콘텐츠 플랫폼, 대규모 이미저리 생산·관리 자동화
OpenHome: LLM 기반 자연어 스마트 스피커 생태계, 10,000+ 개발자, 오픈소스·L모델·탈옥·맞춤 하드웨어 구현 사례
Koframe: AI 기반 웹/UX 실시간 개인화, 대기업 매출 증진 직접 사례, OpenAI 공식 파트너십
Federus AI: 초저비용·고신뢰 에이전트(예: Action R1 Agent) 개발, Scale→Reliability 트렌드로 설계 방향 전환
Upside: AI로 원천 데이터 완전 구조화·그래프 분석, 세일즈/마케팅 데이터의 통찰 확보
OpenAudio: 오픈소스·딥러닝 기반 음성합성(Emotion, 인스트럭션 제어 등), TTS 영역 성능 혁신
Glow: 토큰 경제와 실제 솔라 패널 인센티브 연결, 글로벌 인프라 AI 기반 확대
OpenRouter: AI LLM 마켓플레이스, API 일원화·모델간 전환비용 최소화, 캡처·랭킹 제공

전반적으로 ‘검색+에이전트+RAG의 미래’는 자동화·복합도메인 도전·품질평가·모듈형 인프라 혁신에 달려 있음을 확인케 함

인간 중심 정보 수집 방식→AI·에이전트가 ‘자동 문서 흡입-구조화-배치-추론’ 일관 파이프라인으로 진화
품질 평가는 전통적 ground truth 의존→동적 데이터셋·비참조·노후/환각 검출 등 차세대 지표로 넘어감
키워드→임베딩(뉴럴)→혼합 모델로 점진적 이행, 도메인 특화 및 시그널 조합, 리랭킹, 피드백 순환 등 엔지니어링 요구도 급상승
All-in-one 플랫폼(멀티모달 레이크하우스, 검색→애널리틱스→트레이닝 전부 지원), RAG 자동 트렁킹·파인튜닝 API·3D 시각화까지 실무 혁신 속도 가속화