영상 링크: Agents are Robots Too: What Self-Driving Taught Me About Building Agents — Jesse Hu, Abundant
채널명: AI Engineer
에이전트도 로봇이다: 자율주행에서 배운 에이전트 개발 원칙 핵심 요약
- 연사 Jesse Hu(Abundant 설립자, 전 유튜브·구글·Waymo ML 엔지니어)는 자율주행과 로보틱스 경험에서 얻은 교훈을 디지털 에이전트 개발에 적용하는 법을 소개함
- 로봇과 에이전트 모두에서 “모델” 개발은 문제의 1%에 불과하고, 나머지 99%는 하드웨어/도구 통합, 배포, 시뮬레이션, 평가, 피드백 등 오프라인 스택의 구성과 운영에 달려 있음
- 로보틱스의 “두뇌-몸(센서/액추에이터)” 구조처럼, 디지털 에이전트도 API·터미널·브라우저·VM 등 다양한 “몸체”를 가져야 하며, 점점 더 고도화된 행동환경을 요구함
- 오픈 루프(결과 피드백 없는 작업)와 클로즈드 루프(실제 반응을 받아 교정하는 구조)의 차이를 설명, 실시간 상호작용이 어려운 디지털 에이전트 특성 지적
- 입력(예: 문자 단위·창 제어·툴 스트림) 및 행동(2D/3D 좌표·연속/불연속 이동·속도 조작 등) 공간 설계가 성능 및 상호작용 방식에 큰 영향을 끼침
- 상태 없는(stateless) 단일 세션 중심 에이전트에서, VM·지속적 파일시스템 등 “상태를 유지”하는(stateful) 복잡한 에이전트로의 전환을 강조함
- RL(강화학습), SFT(지도학습/모방학습)의 훈련방식 차이, 분포 외(out-of-distribution)·오프폴리시 문제, 인간의 예제와 달리 실제 상황에서 발생하는 에이전트 오류의 심각성을 짚음
- 실제 환경의 복잡성과 “행동의 결과”(actions have consequences) 문제를 극복하기 위해 시뮬레이션, 카운터팩추얼(replay·가상상황), 실세계 로그 기반 피드백의 중요성을 강조
- 구체적 성공사례로서 자동차(자율주행)가 전통적으로 잘 정의된 인터페이스·휴먼 컨트롤·텔레메트리 덕분에 높은 생산성이 가능한 영역임을 설명
- 개발 과정에서 눈에 보이는 성능지표만 쫓는 단순 반복이 아닌 “실시간 로그·세분화된 카테고리 분석·실패 원인 진단” 등 Sophisticated Hill Climbing을 통해 효과적인 품질 개선 필요성을 강조
- 현황: 많은 기술적 진보와 데모, 예측성 높은 모델에도 불구하고, 실제 종단(e2e) 업무 자동화에서는 여전히 미완의 단계임을 지적
- 에이전트 개발은 로보틱스와 본질적으로 유사하며, 핵심 원칙·문제의식·기법(루프 설계, 행동공간, 시뮬레이션 등) 공유가 성과로 이어짐을 요약함
세부 요약 - 주제별 정리
연사 소개 및 발표 배경은 자율주행과 로보틱스에서 얻은 교훈을 디지털 에이전트로 확장함
- Jesse Hu는 YouTube, Google(투타워 임베딩 모델, BERT, Mixture of Experts), Waymo(자율주행, ML, 데이터, 보상모델링) 등에서 머신러닝 및 로보틱스 프로젝트를 주도
- 현재는 Abundant에서 Foundation Model Labs의 에이전트 코딩 모델 트레이닝 및 대규모 데이터셋 지원 업무를 진행 중
- Waymo 내부 정보 공개 없이, 로보틱스-자율주행에서 배운 추상적 교훈을 디지털 에이전트 개발에 적용하는 방향으로 발표 구성
인공지능, 로봇, 에이전트 개발에서 모델 지분은 1%에 불과하고 오프라인 스택·인프라가 성공의 핵심임
- 로보틱스에서 모델(두뇌) 개발 외에도 센서·하드웨어, 액추에이터, 통합, 배포, 시뮬레이션, 데이터 수집·관리·평가 등 “나머지 99%”의 작업 필요
- 에이전트 개발 역시 모델만으로는 부족하며, 각종 API, 툴, 개발·운영 환경, 모니터링, 지속적 학습·피드백 인프라 확보가 관건
- 실제 경쟁력은 “최고의 모델/온라인 스택”이 아니라, 개발 속도·재현성·안정성을 보장하는 “최고의 오프라인 스택”에서 나온다고 강조
(자율주행 업계의 공통 교훈)
디지털 에이전트의 “몸체” 설계는 로봇 하드웨어와 유사하며, 터미널·브라우저·VM 등 다양한 형태로 구현됨
- 로봇은 뇌(ML모델)→몸체(센서, 모터, 하드웨어)까지 명확하게 구분
- 디지털 에이전트는 입력·출력·도구(툴/API/MCPS/브라우저/터미널/VM/OS/파일시스템 등)가 “디지털 몸체”에 해당
- 예: 단순 API 호출부터, 텍스트 입력/제어, 마우스/키보드 조작, 파일 시스템 접근, VM 내 OS 조작까지 숙련도·복잡성 확장됨
- 점차 더 정교한 “에이전트의 팔·다리” 역할을 하는 인터페이스와 상태 관리가 필요해짐
오픈 루프-클로즈드 루프 설계 차이와, 실시간 상호작용 한계가 디지털 에이전트의 구조적 약점임
- 오픈 루프: 일방적 명령(예: bash 명령 실행 후 실시간 결과 미관찰, 장기 실행 중단 불가 등), 결과에 대한 즉각 피드백 불가
- 클로즈드 루프: 제어 후 실제 반응 관찰·교정(예: 핸들 왼쪽 돌렸을 때 실제 회전량 측정→보정)
- 에이전트(특히 현재 코드 에이전트)는 회화 기반으로 동작하여 턴-기반 구조 중심, 입력/응답 사이에 실시간 관찰·개입 어려움
- 장점: 프로그래밍과 모델링이 상대적으로 쉽고 직관적임
단점: 실시간 반응 불가, 장기 실행 상태 감지/중단 곤란 등
입력(Observation)과 행동(Action) 공간 설계의 명시적/암묵적 선택이 성능 및 확장에 중요한 영향을 끼침
- 로보틱스: 멀티모달 입력(비전, 라이다, 레이더 등), 입력 시점·주기(1초마다, 50Hz 등) 및 행동(2D/3D, 속도·가속도·위치 등)
- 에이전트: 주로 사용자 입력, 툴 결과, 문자 단위(Command Line), API 등에서 선택
- 예시: Terminal Bench의 Terminus Agent는 텍스트 스트림(TX 스트림) 방식으로 문자 단위 입·출력, Control-C나 윈도우 명령 등 세밀한 제어 가능
- “Dreamer” 논문 예시: 20Hz 프레임 단위로 마우스/키보드 입력하는 방식 등도 가능
- 설계상 trade-off: 직관성과 단순성, 실시간성, 조작의 자유도 간 선택 필요
상태 없는(stateless) 에이전트에서 상태 유지(stateful) VM·지속 파일시스템 기반 에이전트로 진화 중임
- 과거: 매 세션마다 환경 생성-작업-종료, 중간 상태·이전 맥락 고려 필요 없음
- 실제 세계/진화하는 에이전트: 실행 중 파일, VM 상태, Slack 메시지, 윈도우 내 작업 등 지속 상태 관리·변수 추적 필요
- 시뮬레이션/평가/운영 모두에서 “복합적, 상태 중심” 평가/훈련이 요구됨
모방학습과 강화학습의 한계(분포 외·오프폴리시 오류)가 에이전트 오류 및 몰입성을 저해함
- SFT(모방학습) 방식: 인간 시연에 기반해 학습, 실제 운용 중 예외상황(예: 브라우저 팝업) 발생 시 취약
- 강화학습(RL): 시뮬레이션, 실험환경 등에서 정책 개선, 하지만 현실 응용의 벽이 큼
- 실제 문제: 훈련 데이터에서 벗어난 상황(out-of-distribution; OOD)에 직면할 경우 에이전트가 연쇄적으로 에러를 유발(예, 브라우저 팝업 처리 실패)
- 이 문제는 로보틱스/자율주행에서 “Actions have consequences(행동에는 결과가 따른다)”의 원칙으로 인식되어 있음
예측(preductive) 모델에서 행동(action) 모델로의 전환이 단순 분류·생성과는 본질적으로 다르며 성공의 핵심임
- 초기 자율주행(2017~2020): 인지(perception; 사물 감지)만 잘 해도 자율주행 가능하다고 인식
- 실제: ‘인지→행동’ 전환에서 복잡성 폭발(실제 조향·가속 등 물리적 행동 모델링의 난제)
- LLM, 코드 에이전트도 입력문장(자연어) 상 이해 및 플랜 생성까지는 양호
실제 툴 호출, 플랜 실행, 오류 복구 단계에서 실패 잦음 - 성공적 행동모델 확보 및 연동이 남은 과업임
실제 환경은 복잡하고, 시뮬레이션 및 로그기반 카운터팩추얼 분석이 문제 해결의 핵심 도구임
- 실제(물리) 환경의 다양한 조건, 비정형 상황은 데이터로 모두 포착 불가
- 시뮬레이션: 시작 상태 다양화, 경로 분기·카운터팩추얼(실제와 다른 가상 경로 반복 실험)로 복잡성 대응
- MDP(마르코프 결정과정): 상태-행동-보상 순환의 수학적 구조로 에이전트 루프를 정형화하고 소통에 유리
- 시뮬레이션과 실제 환경 로그의 결합(실행 기록 반영)을 통해 훈련·성능 점검 및 개선을 반복
사전정의된 인간-인터페이스 및 텔레메트리가 생산성·실제 응용 확산에 결정적 역할을 함
- 자동차(자율주행)는 수십년 인류가 표준화한 조작(핸들, 페달), 전자제어장치, 텔레메트리(상태 측정 자료) 확보되어 있음
- 따라서 코드·ML로 기계 제어 및 데이터 획득이 용이, 실제 운용 가능성이 높음(그 외 지식노동, 데스크탑 전체 자동화는 진입장벽 더 높음)
- 새로운 도메인 진출 시, 이미 잘 정의된 인터페이스·데이터 접근성이 업무 자동화의 핵심 변수임
“험준한 언덕 오르기(Hill Climbing)” 방식의 성능개선보다 현장 로그·실패 유형 분석이 고도화의 열쇠임
- 단순 웹개발/소프트웨어 개발: 기능 설계 후 배포 과정 상대적으로 명확
- 에이전트 개발: 벤치마크 점수를 달성한다는 모호한 목표, 시행착오 필요
- Hill Climbing: 추측→실험→성과 측정→반복을 통한 성능 증대, 도중에 성능 하락도 빈번
- 자율주행 분야는 “시뮬레이션→배포→실제 로그→시뮬레이션 반영”의 루프를 활용, 상세 분류/실패 사례별 분석·트리아지 통해 근본 문제 진단 및 개선
- 단일 벤치마크 수치(예: 70% 성공률)만으로는 부족하며, 실제 데이터를 다각적으로 해석, 분류, 우선순위화하는 체계 필요
기술적 진보에도 불구하고 에이전트의 실사용 완성도는 아직 미완성 단계에 머물고 있음
- Remote Labor Benchmark 등 기존 평가에서 여전히 최종 종단 간(end-to-end) 업무 자동화 성취율이 미흡
- 다수의 데모·예측모델 발전에도, 실행·오류복구·상황대응 측면에서 실전 적용의 난제가 상존
에이전트 개발의 미래는 로보틱스적 추상화와 기본 원칙의 체계적 적용에 달려 있음을 결론으로 제시함
- 오픈루프·클로즈드루프, MDP, 손실 함수와 RL, 분포 외 학습 등 로보틱스 분야의 핵심 기술 개념을 에이전트 설계에 적극 도입해야 생산성·확장성 확보 가능
- 관련 서적(강화학습, 오프로딩 RL, DAGGER 등) 및 최신 로보틱스 논문에서 주요 기법·이론 습득 권장
- 에이전트란, 실제 세계에 변화(행동)를 끼치며 그 결과를 학습·복구하는 존재라는 점을 반복 강조
- 에이전트 분야 또한 로보틱스처럼 명확한 과학, 실천적 기술 패러다임을 구축하는 시기가 도래했다고 시사함