Break It 'Til You Make It: Building the Self-Improving Stack for AI Agents - Aparna Dhinakaran

영상 링크: Break It ‘Til You Make It: Building the Self-Improving Stack for AI Agents - Aparna Dhinakaran
채널명: AI Engineer

스스로 개선되는 AI 에이전트를 위한 평가 및 관찰 스택 구축 방법 핵심 요약

본 영상은 Arise의 공동 창업자 아파르나(Aparna Dhinakaran)가 AI 에이전트 개발 과정에서의 평가(evaluation)와 모니터링, 개선 루프 구축에 대해 심층적으로 논의함
에이전트 개발은 프롬프트·모델·툴콜 정의 등 다양한 측면에서 반복적이고 복잡해, 체계적인 평가 체계 없이는 실제 개선이 매우 어려움
많은 팀이 아직도 단순한 수동 평가(엑셀 기반, 직관 평가, 소수 사례 등)에 의존하고 있어, 실질적이고 재현 가능한 개선 포인트를 찾기 어렵다고 지적
에이전트 행동을 신뢰도 높게 파악·개선하기 위해서는 ‘툴콜 수준’, ‘전체 트레이스/경로 수준(trajectory)’, ‘멀티턴 대화 세션’ 등 다양한 평가 관점이 필요함
Arise의 자사 에이전트(Co-pilot)와 제품에서 실제로 사용하는 평가 지표·분석법(예: 툴콜 및 전달 인자 적합성, 트레이스 단위의 성공률, 병목구간 식별 방법 등)이 상세히 소개됨
실제로 에이전트가 어떤 경로/업무에서 성능 저하(예: 검색 답변의 정답률이 절반 이하) 문제가 발생했는지, 이를 찾고 개선하는 방식을 구체적으로 시연
멀티턴 대화에서는 문맥 유지, 일관된 톤, 중복 질문 유무 등 추가적인 동적 평가 포인트를 설정해야 함을 강조
에이전트 프롬프트 및 코드만큼 ‘평가 프롬프트(평가지표)’도 지속적으로 개선하는 별도의 루프가 필요하며, 이를 통해 전반적 제품 품질 개선이 가능함
Arise Phoenix, AriseEX 등 오픈소스 도구를 통한 실습 기회 제공도 안내
영상은 실제 사례, 제품 인터페이스, 트레이스 예시 등 구체적 데이터와 함께 단계별 평가 및 개선 방법을 체계적으로 제시함

세부 요약 - 주제별 정리

Arise 팀이 체계적 에이전트 평가에 집중하게 된 이유와 기존 방식의 한계

아파르나와 Arise 팀은 에이전트 개발 과정에서 발생하는 반복적 과정과 어려움 때문에 체계적 평가 도구 개발에 착수함
기존 팀들은 주로 엑셀 등으로 프롬프트 변경 비교, 모델 교체 효과 평가, 툴콜 수정 여부 판단 등을 진행했으나 반복적·주관적 평가에 그침
산발적 사례 및 “느낌”에 의존한 평가라 확실한 개선 포인트를 도출하기 어려움
특히 팀 내부의 다른 멤버(프로덕트 매니저, 타 엔지니어 등)와 협업하며 검증하기가 매우 비효율적임
종합적으로, “무엇을 개선하면 에이전트가 실제로 좋아지는가”를 일관되게 파악할 체계가 부재함

단순 프로토타이핑에서 벗어나 프로덕션급 에이전트 평가가 필요한 이유

프로덕션에 배포하면 평가가 더 어려워짐: 특정 서브 에이전트 혹은 툴콜에 병목이 있는지, 지속적으로 잘못된 응답이 어디서 발생하는지 파악이 힘듦
정확히 병목 위치를 식별·수정해야 실질적인 성능 개선이 가능
인프라 수준에서 ‘에이전트의 전체 경로, 결정 포인트, 도구 호출 패턴’까지 포괄적으로 추적·관측해야 함

툴콜 수준에서의 평가가 에이전트 개선의 1차적 출발점임을 시연

대부분의 에이전트는 여러 개의 “툴(도구)”을 호출해 문제를 해결하므로, 올바른 시점에 올바른 툴을 선택했는지 평가 필수
툴콜 평가의 절차:
- 올바른 툴콜을 선택했는가?
- 그 툴콜에 올바른 argument(전달 인자)를 포함했는가?
Arise 제품(인터페이스) 내에서는 각 질의별 트레이스를 추적해 사용자 질문에 대해 어떤 툴콜이 이뤄졌고 파라미터가 적합했는지를 실시간 확인 가능
실제 Co-pilot 예시에서 사용자 질문들에 대한 성공률·실패 사례를 구체적으로 확인하고 분석

전체 트레이스(trajectory)와 경로 분석으로 결함 지점을 체계적으로 도출할 수 있음을 설명

단일 툴콜이 아닌, 여러 툴/서브툴을 거치는 전체 경로(trajectory)를 평가하는 것이 필수
Arise 제품의 DAG(의존성 그래프) 형태 트레이스 뷰에서 에이전트의 다양한 실행 경로와 의사 결정 흐름을 시각적으로 파악
상위 레벨(planner, orchestrator 등)이 어떤 정보에 따라 어떤 툴을 호출하는지, 중간에 라우팅이 어떻게 이뤄지는지 종합적으로 분석해야 함
실제 사례: “검색 관련 Q&A 응답 정확도”에서 올바른 툴콜이 빈번히 실패함(정답률 50%선), 이 구간이 명확한 병목임을 찾아냄
구체적으로 해당 트레이스 내에서 ‘인자는 틀렸으나, 선택 툴은 맞음’ 등 세밀한 문제 유형을 빠르게 파악 가능

멀티턴 대화에서 문맥 유실, 일관성 등 추가 평가 포인트가 필수적임을 제시

실제 에이전트 활용에서는 다수의 턴(예: 사용자 ↔︎ 에이전트 왕복 3회 이상)이 연속적으로 발생
멀티턴 세션에 대해 평가할 주요 질문:
- 에이전트가 대화 톤을 일관성 있게 유지하는가?
- 동일/유사 질문을 중복해 묻지 않는가?
- 이전 턴의 컨텍스트(context)를 제대로 기억·활용해서 응답하는가?
실제 프로젝트 예시에서는 세션 전체를 바라보며 누락된 문맥, 잘못된 답변 등을 체계적으로 검출
‘세션 단위 evaluation’을 반복적으로 수행하고 개선하는 방식을 강력히 권장

성공적 프롬프트 개선을 위해서는 올바른 평가 지표(이밸 프롬프트)부터 지속적으로 개선해야 함을 강조

많은 팀이 에이전트 프롬프트/파라미터 최적화에 집중하나, “이밸 프롬프트(평가지표)” 구축과 개선의 중요성은 간과되는 경우가 많음
실제 전달 인자와 툴콜 평가에서 평가 로직 자체의 오류(오검출/오분류)가 발생할 수 있음
따라서 “평가 프롬프트 자체”도 반복적으로 검토·수정·정제하는 별도의 루프를 운영하여, 원본 데이터셋(골든 데이터), 평가 기준 등도 꾸준히 개선해야 함
결과적으로 두 개의 병렬 루프: (1) 에이전트 프롬프트/로직 개선, (2) 평가 프롬프트/로직 개선이 동시에 진행되어야 전체 품질이 보장됨

Arise Phoenix 및 AriseEX 오픈소스 도구의 실습 활용 안내 및 마무리

본 강연에서 소개한 평가 접근법, 실습 예시는 모두 Arise Phoenix(완전 오픈소스)에서 직접 실험, 활용 가능
AriseEX 등 추가 도구로 자체 데이터에 맞는 다양한 평가 루프 구축 및 테스트 지원
영상을 통해 실제 트레이스 분석, 평가 항목 및 단계별 개선 사이클을 직접 데모하여 실증적 이해를 돕고 있음