
영상 링크: Robotics: why now? - Quan Vuong and Jost Tobias Springberg, Physical Intelligence
채널명: AI Engineer
왜 지금 로보틱스인가? 핵심 요약
- 본 발표는 Quan Vuong과 Jost Tobias Springberg(PI, Physical Intelligence)가 “모든 로봇에 어떤 작업도 수행할 수 있게 하는 모델” 구축이라는 궁극적 미션을 공유하며 시작됨
- 기존 로봇은 공장 등 ‘제한적, 구조화된 환경’에서 주로 반복적 작업 수행에 강점을 보였으나, 비구조적 현실 세계(예: 빨래 개기, 커피 만들기 등)로의 확장엔 한계가 명확함
- 최근의 변화는 인공지능(AI) 전반의 진보와 Vision-Language-Action(VLA) 모델의 출현이 로보틱스에 의미 있는 도약을 가져온 것임
- VLA 모델은 기존 멀티모달 LLM(텍스트+비전)에 ‘로봇 상태(관절 각도 데이터 등)’를 입력 받아 실제 로봇 제어 액션을 출력하는 점에서 차별화됨
- 로봇 데이터 획득·활용의 특수성이 거대한 산업적·기술적 난제로 부각됨(웹 데이터와 달리 정형화·대량 수집 난이도가 큼)
- PI와 같은 기업은 자체 데이터 엔진 구축, 인간 원격조종(teleoperation)을 통한 정교한 동작 데이터 수집 등으로 난제를 돌파 중
- 6개월간 10,000시간의 성공적 에피소드 데이터 확보 등 데이터량 및 다양성 면에서 업계 리드, PI Zero 모델 등 공개(오픈소스)도 병행
- 대규모·다양한 환경 데이터로 ‘장기적·미지 환경에서도 일반화’ 성능을 보이는 PI O5 모델을 추가 개발, 실제 집 청소 등 복잡한 작업 수행 영상으로 입증
- 단일 모델이 다양·서로 다른 하드웨어 로봇을 별도 커스터마이징 없이 제어 가능한지 검증(원거리 미접촉 하드웨어, 커피머신 작업 시연)
- 아직 미해결된 과학·엔지니어링 문제 및 인재 채용 니즈를 강조하며, 산업 전체의 협력을 촉구하며 발표 종료
세부 요약 - 주제별 정리
로봇 제어의 궁극적 목표는 ‘모든 로봇이 모든 과업을 수행하게 하는 모델’ 구축임
- 발표자는 “모든 로봇, 모든 작업”이 가능한 범용 로봇 제어 모델을 만드는 것이 조직(PI, Physical Intelligence)의 미션이라 천명
- 아직 해당 목표는 현재 완벽히 구현 불가능하며, 다수의 과학적 혁신이 필요함을 인정
- 연구와 결과는 적극적으로 오픈소스, 논문 출판, 공개 발표 등으로 공유함
기존 로봇은 제한적 환경에서 반복 작업에만 강점을 보여왔음
- 전통적 로봇 활용 사례는 주로 공장 등 매우 규격화된 공간에서 반복적 동작 수행에 치중함(예: 조립 라인)
- 갈수록 “비구조적” 환경(일상 생활, 세탁물 정리 등)에서 발생하는 과업에서는 명백한 한계에 봉착함
- 예시 영상: 전신 휴머노이드 로봇이 간단해 보이는 집안 작업에 어려움을 겪는 장면
최근 AI 진보와 VLA(비전-언어-액션) 모델의 출현이 로보틱스 도약의 열쇠가 되고 있음
- AI의 발전, 특히 멀티모달 대형언어모델(LLM, VLM)의 성과가 로봇 분야로 확장
- VLA(vision-language-action) 모델은 기존 VLM에 ‘로봇의 상태 정보(관절 등)’를 추가 입력받아, 실제 로봇 제어 액션을 출력한다는 점에서 진화함
- 예시 영상: 최신 휴머노이드가 정교한 댄스 동작 수행, 세탁물을 꺼내 바구니에 담고 개는 작업 성공 등
VLA 모델 개발 시 데이터 수집·활용 방식이 기존 AI와 확연히 다름
- 텍스트·이미지 위주 VLM(LMM)은 웹이나 공개 데이터셋 등에서 대량의 데이터를 손쉽게 확보, 클라우드 환경에서 파인튜닝 가능
- VLA 모델(로보틱스)은 정형 웹 데이터가 거의 존재하지 않고, 직접 데이터 수집 비용·공정이 막대함(업계적 주요 난제)
- 로봇 제어는 고주파 실시간 액션 추론 필요 등, 모델 아키텍처 엔지니어링 난이도도 높음
- 대규모 인퍼런스 및 배포 라이브러리(클라우드 환경 활용 등)가 산업 전반에 아직 표준화되지 않음
PI의 데이터 엔진은 인간 텔레오퍼레이션(원격조작) 기반 자체 구축 방식을 채택함
- 원시 데이터 없음 → 모델 훈련에 적합한 ‘질 높은’ 데이터 엔진을 제로부터 개발
- 다양한 과업(예: 옷 개기, 장보기 등)을 선정, 인간 오퍼레이터가 텔레오퍼레이션 시스템을 이용해 직접 로봇을 조종하며 훈련 데이터를 실시간 수집
- ‘리더 암(Leader Arm)’ 장치로 조종자의 팔 움직임이 즉시 로봇팔 동작에 반영되는 방식
- 대시보드에서 각 과업별 데이터 수집 현황·에피소드 추적 및 클라우드 기반 주석·정제까지 진행
기존 최대 데이터셋(3,800시간) 대비 PI는 6개월만에 10,000시간의 성공적 에피소드 데이터를 확보함
- 공개 데이터셋(Open X-Embodiment)는 전 세계 여러 랩에서 수집된 정적 환경 데이터 3,800시간 규모에 불과했음
- PI는 6개월 구축·운영만에 1만 시간 이상의 데이터(성공 에피소드, 수십 종 환경, 수백 과업)를 축적, 셔츠 개기 등에서 탁월한 성능의 ‘PI Zero’ 베이스라인 모델 공개
- 추가 6개월간 이동형(manipulation) 로봇에 대한 데이터도 본격 수집 → 장면 다양성·과업 스펙트럼 대폭 확장
대규모·다양한 데이터와 맞춤형 아키텍처로 장기적·복잡한 과업에 일반화 가능한 PI O5 모델을 발표함
- ‘PI O5’는 정적+이동형 로봇 데이터, 웹·객체인식·일반어 주석 등 다양한 멀티모달 데이터로 확장된 분산 파이프라인 활용
- 모델 구조: 사전학습된 비전-언어 트랜스포머(VLM)에 ‘액션 익스퍼트 트랜스포머(고속 동작 추론)’를 분리 탑재
- 예시: “침실 청소” 같은 복합 지시를 하달하면 “베개 줍기” 등 다단계 서브태스크로 쪼개고(분할 계획 수립), 실시간 액션을 생성하여 10분 넘는 장기 작업을 새로운 집에서 연속 수행
- 실제 훈련에 참가하지 않은 환경(집)에서도 복잡한 작업을 계획/수행하는 영상 실증
데이터 다양성이 모델의 환경 일반화 성능을 드라마틱하게 향상시킴이 실증됨
- 동일 학습 데이터 수에서 ‘다양한 환경(집)’에서 수집된 데이터 비중을 늘릴수록, 미지의 장소(테스트 환경)에서의 성공률이 높아짐이 그래프(노란색 곡선)로 제시
- 심지어, 테스트 환경 데이터로 직접 훈련한 것 이상 또는 맞먹는 성능까지 도달(강력한 도메인 범용성 확보)
단일 VLA 모델이 다양한 미접촉 로봇 하드웨어도 별도 현지화 없이 직접 제어 가능한지 실증 시연함
- PI 팀은 실물로 접촉해본 적 없고, 타국 원격지에 위치한 상이한 로봇에서도 PI의 모델이 ‘커피 만들기’와 같은 과업을 끝까지 성공적으로 수행
- 이 과정에서 하드웨어별 별도 커스터마이징 필요성이 거의 없었고, 모델 체크포인트만 전달받은 파트너사가 자체 인퍼런스만으로 작업 수행 성공
- 이는 하드웨어 독립적인 대규모 로봇 배치 시, 소프트웨어 지능이 최대 병목이며, PI가 이를 극복하는 핵심 가설을 실증함
로보틱스의 남은 도전과제(과학·엔지니어링) 및 글로벌 협력, 인재 채용의 중요성이 강조됨
- 여전히 해결되지 않은 과학적, 엔지니어링, 운영상 과제가 많고, 업계 전체의 협력을 통한 발전과 인재 확보가 긴요함을 언급
- 채용 직무에 제한 없이 최고의 인재를 찾고 있으며, 관심 있는 지원자나 협업 제안을 적극적으로 환영
- 조직, 학계, 산업계와 모두 오픈하게 파트너십을 진행하고 있음을 여러 사례로 설명하며, 관심 시 발표자에게 직접 연락 가능함을 강조