Agents are Robots Too: What Self-Driving Taught Me About Building Agents - Jesse Hu, Abundant

영상 링크: Agents are Robots Too: What Self-Driving Taught Me About Building Agents — Jesse Hu, Abundant
채널명: AI Engineer

에이전트도 로봇이다: 자율주행에서 배운 에이전트 개발 원칙 핵심 요약

연사 Jesse Hu(Abundant 설립자, 전 유튜브·구글·Waymo ML 엔지니어)는 자율주행과 로보틱스 경험에서 얻은 교훈을 디지털 에이전트 개발에 적용하는 법을 소개함
로봇과 에이전트 모두에서 “모델” 개발은 문제의 1%에 불과하고, 나머지 99%는 하드웨어/도구 통합, 배포, 시뮬레이션, 평가, 피드백 등 오프라인 스택의 구성과 운영에 달려 있음
로보틱스의 “두뇌-몸(센서/액추에이터)” 구조처럼, 디지털 에이전트도 API·터미널·브라우저·VM 등 다양한 “몸체”를 가져야 하며, 점점 더 고도화된 행동환경을 요구함
오픈 루프(결과 피드백 없는 작업)와 클로즈드 루프(실제 반응을 받아 교정하는 구조)의 차이를 설명, 실시간 상호작용이 어려운 디지털 에이전트 특성 지적
입력(예: 문자 단위·창 제어·툴 스트림) 및 행동(2D/3D 좌표·연속/불연속 이동·속도 조작 등) 공간 설계가 성능 및 상호작용 방식에 큰 영향을 끼침
상태 없는(stateless) 단일 세션 중심 에이전트에서, VM·지속적 파일시스템 등 “상태를 유지”하는(stateful) 복잡한 에이전트로의 전환을 강조함
RL(강화학습), SFT(지도학습/모방학습)의 훈련방식 차이, 분포 외(out-of-distribution)·오프폴리시 문제, 인간의 예제와 달리 실제 상황에서 발생하는 에이전트 오류의 심각성을 짚음
실제 환경의 복잡성과 “행동의 결과”(actions have consequences) 문제를 극복하기 위해 시뮬레이션, 카운터팩추얼(replay·가상상황), 실세계 로그 기반 피드백의 중요성을 강조
구체적 성공사례로서 자동차(자율주행)가 전통적으로 잘 정의된 인터페이스·휴먼 컨트롤·텔레메트리 덕분에 높은 생산성이 가능한 영역임을 설명
개발 과정에서 눈에 보이는 성능지표만 쫓는 단순 반복이 아닌 “실시간 로그·세분화된 카테고리 분석·실패 원인 진단” 등 Sophisticated Hill Climbing을 통해 효과적인 품질 개선 필요성을 강조
현황: 많은 기술적 진보와 데모, 예측성 높은 모델에도 불구하고, 실제 종단(e2e) 업무 자동화에서는 여전히 미완의 단계임을 지적
에이전트 개발은 로보틱스와 본질적으로 유사하며, 핵심 원칙·문제의식·기법(루프 설계, 행동공간, 시뮬레이션 등) 공유가 성과로 이어짐을 요약함

세부 요약 - 주제별 정리

연사 소개 및 발표 배경은 자율주행과 로보틱스에서 얻은 교훈을 디지털 에이전트로 확장함

Jesse Hu는 YouTube, Google(투타워 임베딩 모델, BERT, Mixture of Experts), Waymo(자율주행, ML, 데이터, 보상모델링) 등에서 머신러닝 및 로보틱스 프로젝트를 주도
현재는 Abundant에서 Foundation Model Labs의 에이전트 코딩 모델 트레이닝 및 대규모 데이터셋 지원 업무를 진행 중
Waymo 내부 정보 공개 없이, 로보틱스-자율주행에서 배운 추상적 교훈을 디지털 에이전트 개발에 적용하는 방향으로 발표 구성

인공지능, 로봇, 에이전트 개발에서 모델 지분은 1%에 불과하고 오프라인 스택·인프라가 성공의 핵심임

로보틱스에서 모델(두뇌) 개발 외에도 센서·하드웨어, 액추에이터, 통합, 배포, 시뮬레이션, 데이터 수집·관리·평가 등 “나머지 99%”의 작업 필요
에이전트 개발 역시 모델만으로는 부족하며, 각종 API, 툴, 개발·운영 환경, 모니터링, 지속적 학습·피드백 인프라 확보가 관건
실제 경쟁력은 “최고의 모델/온라인 스택”이 아니라, 개발 속도·재현성·안정성을 보장하는 “최고의 오프라인 스택”에서 나온다고 강조
(자율주행 업계의 공통 교훈)

디지털 에이전트의 “몸체” 설계는 로봇 하드웨어와 유사하며, 터미널·브라우저·VM 등 다양한 형태로 구현됨

로봇은 뇌(ML모델)→몸체(센서, 모터, 하드웨어)까지 명확하게 구분
디지털 에이전트는 입력·출력·도구(툴/API/MCPS/브라우저/터미널/VM/OS/파일시스템 등)가 “디지털 몸체”에 해당
예: 단순 API 호출부터, 텍스트 입력/제어, 마우스/키보드 조작, 파일 시스템 접근, VM 내 OS 조작까지 숙련도·복잡성 확장됨
점차 더 정교한 “에이전트의 팔·다리” 역할을 하는 인터페이스와 상태 관리가 필요해짐

오픈 루프-클로즈드 루프 설계 차이와, 실시간 상호작용 한계가 디지털 에이전트의 구조적 약점임

오픈 루프: 일방적 명령(예: bash 명령 실행 후 실시간 결과 미관찰, 장기 실행 중단 불가 등), 결과에 대한 즉각 피드백 불가
클로즈드 루프: 제어 후 실제 반응 관찰·교정(예: 핸들 왼쪽 돌렸을 때 실제 회전량 측정→보정)
에이전트(특히 현재 코드 에이전트)는 회화 기반으로 동작하여 턴-기반 구조 중심, 입력/응답 사이에 실시간 관찰·개입 어려움
장점: 프로그래밍과 모델링이 상대적으로 쉽고 직관적임
단점: 실시간 반응 불가, 장기 실행 상태 감지/중단 곤란 등

입력(Observation)과 행동(Action) 공간 설계의 명시적/암묵적 선택이 성능 및 확장에 중요한 영향을 끼침

로보틱스: 멀티모달 입력(비전, 라이다, 레이더 등), 입력 시점·주기(1초마다, 50Hz 등) 및 행동(2D/3D, 속도·가속도·위치 등)
에이전트: 주로 사용자 입력, 툴 결과, 문자 단위(Command Line), API 등에서 선택
예시: Terminal Bench의 Terminus Agent는 텍스트 스트림(TX 스트림) 방식으로 문자 단위 입·출력, Control-C나 윈도우 명령 등 세밀한 제어 가능
“Dreamer” 논문 예시: 20Hz 프레임 단위로 마우스/키보드 입력하는 방식 등도 가능
설계상 trade-off: 직관성과 단순성, 실시간성, 조작의 자유도 간 선택 필요

상태 없는(stateless) 에이전트에서 상태 유지(stateful) VM·지속 파일시스템 기반 에이전트로 진화 중임

과거: 매 세션마다 환경 생성-작업-종료, 중간 상태·이전 맥락 고려 필요 없음
실제 세계/진화하는 에이전트: 실행 중 파일, VM 상태, Slack 메시지, 윈도우 내 작업 등 지속 상태 관리·변수 추적 필요
시뮬레이션/평가/운영 모두에서 “복합적, 상태 중심” 평가/훈련이 요구됨

모방학습과 강화학습의 한계(분포 외·오프폴리시 오류)가 에이전트 오류 및 몰입성을 저해함

SFT(모방학습) 방식: 인간 시연에 기반해 학습, 실제 운용 중 예외상황(예: 브라우저 팝업) 발생 시 취약
강화학습(RL): 시뮬레이션, 실험환경 등에서 정책 개선, 하지만 현실 응용의 벽이 큼
실제 문제: 훈련 데이터에서 벗어난 상황(out-of-distribution; OOD)에 직면할 경우 에이전트가 연쇄적으로 에러를 유발(예, 브라우저 팝업 처리 실패)
이 문제는 로보틱스/자율주행에서 “Actions have consequences(행동에는 결과가 따른다)”의 원칙으로 인식되어 있음

예측(preductive) 모델에서 행동(action) 모델로의 전환이 단순 분류·생성과는 본질적으로 다르며 성공의 핵심임

초기 자율주행(2017~2020): 인지(perception; 사물 감지)만 잘 해도 자율주행 가능하다고 인식
실제: ‘인지→행동’ 전환에서 복잡성 폭발(실제 조향·가속 등 물리적 행동 모델링의 난제)
LLM, 코드 에이전트도 입력문장(자연어) 상 이해 및 플랜 생성까지는 양호
실제 툴 호출, 플랜 실행, 오류 복구 단계에서 실패 잦음
성공적 행동모델 확보 및 연동이 남은 과업임

실제 환경은 복잡하고, 시뮬레이션 및 로그기반 카운터팩추얼 분석이 문제 해결의 핵심 도구임

실제(물리) 환경의 다양한 조건, 비정형 상황은 데이터로 모두 포착 불가
시뮬레이션: 시작 상태 다양화, 경로 분기·카운터팩추얼(실제와 다른 가상 경로 반복 실험)로 복잡성 대응
MDP(마르코프 결정과정): 상태-행동-보상 순환의 수학적 구조로 에이전트 루프를 정형화하고 소통에 유리
시뮬레이션과 실제 환경 로그의 결합(실행 기록 반영)을 통해 훈련·성능 점검 및 개선을 반복

사전정의된 인간-인터페이스 및 텔레메트리가 생산성·실제 응용 확산에 결정적 역할을 함

자동차(자율주행)는 수십년 인류가 표준화한 조작(핸들, 페달), 전자제어장치, 텔레메트리(상태 측정 자료) 확보되어 있음
따라서 코드·ML로 기계 제어 및 데이터 획득이 용이, 실제 운용 가능성이 높음(그 외 지식노동, 데스크탑 전체 자동화는 진입장벽 더 높음)
새로운 도메인 진출 시, 이미 잘 정의된 인터페이스·데이터 접근성이 업무 자동화의 핵심 변수임

“험준한 언덕 오르기(Hill Climbing)” 방식의 성능개선보다 현장 로그·실패 유형 분석이 고도화의 열쇠임

단순 웹개발/소프트웨어 개발: 기능 설계 후 배포 과정 상대적으로 명확
에이전트 개발: 벤치마크 점수를 달성한다는 모호한 목표, 시행착오 필요
Hill Climbing: 추측→실험→성과 측정→반복을 통한 성능 증대, 도중에 성능 하락도 빈번
자율주행 분야는 “시뮬레이션→배포→실제 로그→시뮬레이션 반영”의 루프를 활용, 상세 분류/실패 사례별 분석·트리아지 통해 근본 문제 진단 및 개선
단일 벤치마크 수치(예: 70% 성공률)만으로는 부족하며, 실제 데이터를 다각적으로 해석, 분류, 우선순위화하는 체계 필요

기술적 진보에도 불구하고 에이전트의 실사용 완성도는 아직 미완성 단계에 머물고 있음

Remote Labor Benchmark 등 기존 평가에서 여전히 최종 종단 간(end-to-end) 업무 자동화 성취율이 미흡
다수의 데모·예측모델 발전에도, 실행·오류복구·상황대응 측면에서 실전 적용의 난제가 상존

에이전트 개발의 미래는 로보틱스적 추상화와 기본 원칙의 체계적 적용에 달려 있음을 결론으로 제시함

오픈루프·클로즈드루프, MDP, 손실 함수와 RL, 분포 외 학습 등 로보틱스 분야의 핵심 기술 개념을 에이전트 설계에 적극 도입해야 생산성·확장성 확보 가능
관련 서적(강화학습, 오프로딩 RL, DAGGER 등) 및 최신 로보틱스 논문에서 주요 기법·이론 습득 권장
에이전트란, 실제 세계에 변화(행동)를 끼치며 그 결과를 학습·복구하는 존재라는 점을 반복 강조
에이전트 분야 또한 로보틱스처럼 명확한 과학, 실천적 기술 패러다임을 구축하는 시기가 도래했다고 시사함