
영상 링크: Waymo’s EMMA: Teaching Cars to Think - Jyh Jing Hwang, Waymo
채널명: AI Engineer
Waymo의 EMMA: 자동차에게 사고하는 법을 가르치다 핵심 요약
- 영상은 Waymo의 연구원 Jyh Jing Hwang이 자율주행의 역사, 현황, 그리고 Waymo의 최신 멀티모달 기반 대형 언어모델 EMMA(엠마)의 개발과 성능, 확장에 대해 설명함
- 1980년대 신경망 3계층의 간단한 자동주행 연구에서, 2020년경 NVDIA 등에서 발표된 end-to-end 모델, 그리고 Waymo의 L4(완전 자율주행) 기술의 발전 과정 소개
- Waymo의 시스템은 감지(perception), 예측(prediction), 계획(planning) 모듈로 이루어져 있으며, 샌프란시스코, 피닉스, 오스틴, LA 등에서 성공적으로 완전자율주행 서비스를 제공 중임
- 전국 및 글로벌 10개 도시 확장을 시도 중이며, 새로운 환경에서 발생하는 복잡한 롱테일(long-tail) 상황들이 큰 난제임을 강조
- 길 가에 신호수 등 특이상황, 갑작스럽게 나타나는 새 떼, 오토바이 미끄럼 등 예기치 못한 현실 장면을 AI 모델이 인식·해석하는 예시 공개
- 대형 멀티모달 모델 Gemini에 기반한 EMMA를 개발하여, 카메라 데이터와 경로 텍스트만으로 미래 주행 경로를 예측하는 self-supervised 학습의 강점 설명
- 기존 지도(map) 의존도를 낮춘 카메라 전용, 고차원 지도 불필요 방식이며, 뉴씽스(NuScenes) 벤치마크에서 state-of-the-art 성능 달성
- 자체 데이터셋(100k 규모)과 고도화된 채널화된 추론(channelized reasoning)으로, 기존 특화모델보다 뛰어난 성능 입증
- EMMA는 주행, 3D 감지, 그래프 추론 등 다양한 비전-언어 과제를 동시에 학습함으로써 범용성도 크게 향상됨
- 평가/검증을 위해 생성형 비디오 및 시뮬레이션을 적극 활용, 다양한 환경(날씨, 시간 등)에서 모델 성능을 구체적으로 측정함
- 알파벳(Alphabet) 소속 계열사 장점 활용해 최신 기초모델을 통합하며, Waymo의 글로벌 확장과 안전성 제고에 박차를 가하고 있음
세부 요약 - 주제별 정리
자율주행 연구의 발전은 간단한 신경망에서 End-to-End 모델까지 이어져왔음
- 1980년대 초창기 자율주행 연구는 3계층 신경망(neural network)으로 단순한 형태에서 출발
- 그 후 깊은 신경망 구조, 복잡한 데이터 활용 등 기술이 진화
- 2020년 전후 NVIDIA 등 연구기관에서 End-to-End 자동주행 모델(publication)이 본격적으로 논문으로 발표됨
- 초기 연구에서 보여주는 자율주행차 예시(영상)는 차선 유지조차 불안정하여, 당시엔 L2(운전 보조) 수준에 머물렀음
Waymo의 L4 완전 자율주행 시스템은 실시간 환경에서 높은 안전성을 보장함
- Waymo는 샌프란시스코 내 다양한 지역과 다운타운에서 안전하게 운행하는 영상을 시연
- 차, 보행자, 자전거, 교차로, 신호등 등 거의 모든 도로 관련 객체를 실시간으로 감지하고 이해함
- 시스템은 감지(perception), 예측(prediction), 계획(planning)으로 구성되어 있어, 각각 세계의 이해, 미래 상황 예측, 주행 의사결정을 담당
- 이러한 복잡하면서도 정교한 시스템 덕분에 현재 샌프란시스코 등지에서 실제로 차량이 도로를 운행 중임
Waymo는 미국 주요 도시에서 완전자율주행 상용서비스를 시행하며 확장에 집중하고 있음
- Phoenix, San Francisco, Austin, Los Angeles 4개 도시에서 현재 rider-only(운전자 없는 탑승자 서비스) 운영 중
- 2024년 다양한 조건과 지형 환경의 10개 새로운 도시로의 확장 시도 및 도쿄 진출 계획
- 현장 확장 과정에서 새로운 환경·문화적 요인·도로상황에 대한 적응이 필요
확장 과정에서 롱테일(long-tail) 시나리오가 자율주행 도약의 주요 과제로 대두됨
- 신호등이 빨간색임에도 경찰이나 신호수가 차량을 앞에서 통제하며 수신호를 보내는 특수상황 소개
- 이런 예외 상황들은 자주 발생하지 않더라도, 대규모 운영에서는 빈번히 마주칠 장기 꼬리(long-tail) 현상임
- 자율주행 시스템이 기존에 한 번도 본 적 없는 희귀하고 위험한 상황에 적절히 대응해야 실제 서비스가 가능함
띠(belt)에 새떼 등 예외적 환경에서 멀티모달 모델(Gemini)이 탁월한 일반화 능력을 보임
- 갑작스럽게 새 떼가 차량 앞 도로를 가로지르는 장면에서, 모델은 침착하게 속도를 늦추고 주의를 기울일 것을 “완벽히” 추론
- 야간, 비에 젖은 길에서 오토바이 탑승자가 미끄러지는 안전 위협 상황도 정확하게 시각적 특징(예: 먼 거리 주유소 등)까지 인지함
- Gemini 같은 최신 멀티모달 파운데이션 모델이 이전에 보지 못한 위험한 환경에도 뛰어난 일반화 및 현장 적응 능력을 보여줌
EMMA(엠마)는 Gemini를 활용해 카메라 기반 end-to-end Driving을 실현함
- 8개의 차량 외부 카메라와 주행 경로(구글맵 경로 등) 텍스트 정보를 입력
- 라이다 센서 없이 카메라만으로 주변 시각 정보 취득, 경로는 텍스트로 전달하여 멀티모달 모델의 입력으로 제공
- 단순하게 미래에 차량이 위치해야 할 Waypoint(지점 좌표)를 예측하는 방식
- 주행 로그만 있으면 ‘셀프슈퍼바이즈드 학습’ 가능 → 대규모 데이터로 손쉽게 성능 개선
- 고차원 지도(HD map) 없이도 동작, “카메라 올리”로서 혁신적임
뉴씽스(NuScenes) 벤치마크 등에서 EMMA가 기존 모든 모델을 능가하는 성능을 기록함
- NuScenes는 대표적인 오픈루프 플래너 벤치마크로, EMMA의 단순 구성에서도 동종 최고 성능(state-of-the-art, SOTA) 달성
- “커스텀 모델, 대형 모델, 소형 모델” 등 기존 다양한 특화 알고리즘 성능과 직접 비교
- 지도, 라이다 등 부가 정보 없이 오로지 카메라+경로 텍스트 만으로 이룬 성과임을 강조
설명가능성과 다양한 라벨 활용을 위해 채널화 추론 및 복합적 태스크를 추진함
- End-to-End 모델 단일 출력의 불투명성(black box) 해결을 위해 중간 추론 채널(channelized reasoning) 삽입
- 예) “도로 상의 중요한 객체(자전거, 자동차 등) 식별 → 해당 객체의 향후 행동 예측 → 메타 주행 의사결정(서행, 양보, 경로변경 등) 단계적 진행”
- 이 방식은 Waymo의 자체 오픈모션데이터 10만 건(공개 데이터셋 대비 100배 규모)에서 더욱 강한 베이스라인(예: WaveFormer, MotionLM 등 특화모델)과의 경쟁에서도 선두 유지
파운데이션 모델의 크기·데이터 양이 성능을 계속 향상시킴이 실험적으로 입증됨
- 데이터셋(규모)에 따라 모델의 perplexity(복잡도, 낮을수록 우수)가 꾸준히 감소, 즉 성능이 지속적으로 개선되고 있음을 지표로 확인
- “데이터가 많고 모델이 클수록 품질이 오른다(open accreating laws)” 이론이 실제로 맞음
EMMA는 Vision-Language 멀티태스킹을 통해 범용성 및 확장성을 갖추고 있음
- 주행 플래닝 외에도 3D 객체 감지, 로 그래프 추론, 비전 기반 질의응답(VQA) 등 다양한 과제를 동시 처리
- 예시 프롬프트 입력마다 각각 end-to-end 주행, 3D 탐지, 그래프 예측 결과를 출력 및 시각화 가능
- Waymo Open Dataset에서 타 최신 모델 대비 동등하거나 더 우수한 감지 성능 기록
안정성과 검증을 위하여 시뮬레이션 및 생성 영상 기반 평가체계를 적극적으로 도입함
- 기존 오픈루프(재생 기반) 평가의 한계 → 가상 시뮬레이션, 실제 차량 운행 평가를 병행함
- 생성형 비디오(Google DeepMind의 V2)로 매우 현실적인 가상 도로 환경을 구현하여, 날씨·시간대 등 다양한 조건 변화 속 모델 성능 검증
- 생성 시뮬레이션 결과, “빗길 등 카메라 기반 모델의 취약 환경”에서 품질 저하 경향, 오후·낮 시간에 성능이 특히 우수함을 수치로 제시
최첨단 파운데이션·생성 AI 통합을 통해 Waymo의 글로벌 확장성과 안전성이 한 단계 강화되고 있음
- Google/Alphabet 소속 장점을 통한 Gemini 등 대형 파운데이션 및 생성모델 독점·통합 활용 가능
- 멀티모달, 고차원 시뮬레이션, 자가설명 학습 등 혁신 요소들이 Waymo의 해외(글로벌) 도시 확장, 안전성 고도화, 상용화에 기여
- 연구는 현재 진행 중이며, Waymo가 자율주행 분야에서 차세대 표준으로 자리 잡기 위한 청사진을 구체적으로 제시