
영상 링크: Veo 3 for Developers - Paige Bailey
채널명: AI Engineer
개발자를 위한 Veo 3 – Paige Bailey 핵심 요약
- 구글 딥마인드의 Paige Bailey가 개발자 대상 Veo 3, Imagine 4, LIA 2의 신기능을 소개함
- Veo 3는 영상과 오디오를 동시에 자연스럽게 생성할 수 있는 최첨단 생성 미디어 모델
- Veo 2에서는 참조 기반 영상 생성, 아웃페인팅, 객체 추가/제거, 캐릭터 제어, 카메라 제어 등 고급 기능이 이미 API와 도구로 제공되고 있음
- 기존 생성 모델 대비 Veo 3는 비주얼 및 맥락적 일관성이 크게 강화돼 실제와 같은 스타일 및 연출이 가능
- Veo 3는 오디오 또한 토큰 단위로 영상과 함께 동시 생성(배경음, 효과음, 음악 등)하며, 자연어 프롬프트로 카메라 이동/회전 등 세부 연출까지 손쉽게 조정
- 데이터 워터마킹(SynthID 등)과 아티스트 협업 등 책임 있는 생성 미디어 구현에 중점
- Imagine 모델은 사진 수준의 사실적 이미지·타이포그래피·다양한 스타일 보존, 아티스트 커스텀 콜라보 지원
- LIA 2는 전문가 수준의 음악 생성, 세밀한 스타일·톤 제어, 실시간 협업 및 음악 AI 샌드박스 등으로 혁신적 음악 제작 경험 제공
- 2022
2025년 최근 23년 새 텍스트-비디오 생성 품질이 비약적으로 향상(예: 프롬프트 ‘재킷 입은 라쿤’ 비교 시 Veo 3가 월등) - API 연동, 구글 AI 울트라/프로 요금제, 베르텍스 AI 프라이빗 프리뷰 등 다양하게 접근 가능
- 기존 영상 광고 복제 데모에서 Veo 2는 여러 단계를 거쳐야 했으나, Veo 3는 프롬프트 한 번에 거의 완성도 높은 결과물 생성
- 향후 Veo 3의 기능 확장·접근성 확대·내구성 및 제어 강화에 주력할 것을 약속함
세부 요약 - 주제별 정리
구글 딥마인드의 생성 미디어 팀과 세 모델(Veo 3, Imagine 4, LIA 2) 소개
- 발표자는 구글 딥마인드 생성 미디어팀의 DevRel 리더 Paige Bailey이며 핵심 개발자들의 노고를 강조하며 감사 인사 전달
- 이번 발표에서 중점적으로 다룰 모델: Veo 3(비디오/오디오 생성), Imagine 4(이미지 생성), LIA 2(음악 생성), 각 모델에 더 많은 기능이 곧 추가 예정
- Andrej Karpathy의 “비디오는 인간 커뮤니케이션, 교육, 창작의 탁월한 표면이 될 것”이라는 인용으로 영상 생성 기술의 비전을 소개
Veo 2의 주요 기능과 API 지원 – 크리에이티브 컨트롤 확장을 중심으로
- 최근 1개월 내 참조 기반 비디오(Reference powered videos), 아웃페인팅(Outpainting), 객체 추가 및 제거, 캐릭터 컨트롤·일관성, 첫 프레임-마지막 프레임 프레임 간 보간 기능 등 업데이트
- 참조 기반 비디오는 사용자가 지정한 인물/환경을 자연스럽게 조합하여 제작 가능, API 및 Flow 등 도구로 이미 제공됨
- 다양한 스타일 매칭 지원: 업로드한 이미지를 추출해 영상 내 스타일 적용 가능
- 카메라 제어: 자연어로 이동(후퇴/우측/상하 회전/확대 등) 연출 가능
- 실제 코드 샘플이 아직 많지 않으나, API로 위 기능들 쉽게 구현 가능함
- 아웃페인팅 예시: ‘오즈의 마법사’ 비디오에서 프레임 일부만 있을 때 잔여 영역을 자연스레 확장, 일관성 있게 표현
- 객체를 특정 프레임에서 간편히 삽입·삭제 가능, 즉각적인 결과 모니터링 제공
- 캐릭터 제어 예시: 입 모양 움직임·표정 연출·스크립트와 음성톤 동기화 등 가능, 위치 정보에 맞춰 자연스러운 애니메이션 연출
- 첫 프레임과 마지막 프레임을 기반으로 중간 프레임을 자동 보간, 두 이미지를 자연스럽게 동영상으로 잇는 기능도 구현
Veo 3로의 도약 – 오디오와 비디오의 완전한 통합 및 향상된 일관성
- Veo 3는 영상과 오디오 토큰을 원천적으로 통합 생성(오디오를 사후 덧입히는 방식과 차별화)
- Gemini의 멀티모달 생성 능력과 유사하게, 텍스트·코드·이미지·음성 및 오디오 편집·생성 모두 가능
- Veo 3에서 프롬프트 충실도가 강조됨: 프롬프트 입력만으로 배경음, 효과음, 음악 등 다양한 오디오가 함께 창작됨
- 실제 사례에서는 시각적 등장인물·배경의 일관성, 프레임별 시각적 부조화(캐릭터의 갑작스러운 움직임/배경 변경 등) 문제 크게 개선
- 2022~2024년 축적된 여러 연구(GQN, Walt 등)와 경험을 바탕으로 한 기술적 진일보
- 모든 결과에 사람이 확인할 수 있는 워터마크와 SynthID 마킹을 적용하여 책임 있는 생성미디어 원칙 준수
- 다수 예술가(영화감독 Darren Aronofsky 등) 및 뮤지션, 아티스트와 협업하며 품질 향상
Imagine 4 – 다양성과 세밀함을 겸비한 이미지 생성
- Imagine 4는 인간, 동물(고래 등), 강아지 등 다양한 주제에 사실적이면서 디테일 보존이 높은 이미지를 생성
- 프레젠테이션 예시로 사용된 알라모 광장, 미션지역 모습 등은 타이포그래피, 디자인, 아트 레벨에서 섬세함을 유지
- 아티스트 Ross Lovegrove 등과의 협업방식을 활용해 창작물에 실제 예술적 스타일 반영
- 다양한 스타일 보존, 실제로 노트북 스티커·굿즈로도 활용 가능할 법한 높은 퀄리티 증명
LIA 2 – 전문가 수준의 음악·오디오 생성과 대화형 악기 제공
- LIA 2는 고음질 음악, 프로페셔널 오디오 트랙 생성, 세밀한 크리에이티브 컨트롤(톤, 스타일 등) 지원
- Music AI Sandbox 등 시각적 편집 도구 제공, Ableton 등 음악툴 유저에게 익숙한 UI
- Google Labs의 Music Effects와의 통합으로 자연어로 비트를 조합해 음악 생성 가능
- Jacob Collier, Toro Y Moi 등 유명 뮤지션과 깊은 실시간 협업, 실제 Google I/O 등 행사 연계 시연
- SynthID 워터마크로 생성 음악의 디지털 저작권 및 출처 투명성 확보, 창작자 산업과 밀접하게 공동 개발
텍스트-비디오 생성 품질의 최근 2~3년간 비약적 발전 과정
- 2022~2023년 논문 예시: ‘검은 재킷 입고 피라미드 앞에서 춤추는 라쿤’이라는 텍스트-비디오 생성을 Walt(2023), LTX(2024), Cling 2.0(2025), Veo 2(2024) 등이 차례로 구현
- Walt 영상은 매우 끊기고 자연스럽지 못했으나, Cling, Veo 2~3 순으로 점진적으로 품질이 크게 개선
- 현재 Veo 3는 등장인물 애니메이션/배경/감정 표현 등에서 이전 모델 대비 확연한 스타일 및 디테일 구현 가능
이미지-비디오 변환 및 프롬프트 작성 보조 등 Veo 3의 프리미엄 기능
- 단일 이미지를 입력하여 다양한 스타일의 동적인 영상 컨텐츠로 변환 가능(예: 텍사스 여성+강아지, 총격전 준비 장면 등)
- 자연어 프롬프트를 입력하면 달리는 사람, 트랙터빔에 의해 하늘로 끌려가는 장면 등 장면/연출 자유로이 설정
- 프롬프트 라이팅 지원: 간단한 문장을 상세화하여 모델 이해도 및 결과 품질 대폭 향상(예: 단순 설명 → 세세한 감정·행동 묘사)
- 사운드 생성(음악, 효과음, 배경음 등)까지 통합 지원
- 최신 Paris 팀의 데모 공개 및 “보인다” 의미의 Veo 이름, 유럽 현지화 유머 등 삽입
Veo 3 활용·접근 방법 및 코드 예시 제시
- Google AI Ultra Plan(울트라 요금제): 영국 등 여러 국가에서 Veo 3 사용 가능
- Google AI Pro(프로 요금제): Gemini 모바일 앱에서 제한적 사용
- Vertex AI(베르텍스 AI) 프라이빗 프리뷰에서 Veo 3, Veo 2 모두 제공 중(텍스트 API 포함)
- AI Studio 지원 예정, 조기 접근 원할 경우 신청 폼(QR 코드) 활용
- 코드 샘플: 입력/출력 버킷 지정, 시작 이미지, 종횡비 등 세팅, 모델 지정, 수 줄의 코드로 간편한 비디오 생성 가능
실제 광고 리플리케이션(복제) 데모를 통한 Veo 2 vs Veo 3 제작 과정 비교
- 기존 광고(Chick-fil-A 샌드위치 광고)를 Veo 2로 복제하는 과정:
- Gemini로 비디오 상세 플랜 생성, 8초 제한에 맞게 세분화 프롬프트 설정
- 음악 효과(BGM: 다운홈 팜+슬로우 기타) 생성, Camtasia에서 최종 합성 및 트랜지션 적용
- 전반적으로 많은 수작업 및 고민 필요
- 같은 광고를 Veo 3로 복제: 원본 비디오 설명 프롬프트만 입력, Veo 3가 한 번에 고품질 결과물을 생성(프로세스 시간 대폭 단축)
- 발표자는 Veo 2로 만든 결과가 오리지널보다 낫다고 평가, Veo 3는 프롬프트 기반 자동화의 극대화를 실제로 입증
Veo 3의 책임 있는 확장·제어·내구성 향상 및 향후 로드맵
- Veo 3 팀은 AI·합성미디어의 책임 있는 사용·툴 내구성 강화·정교한 사용자 제어 기능 확장에 집중할 계획
- 실제 발표 종료 인사에서, Paige의 사진 한 장을 Veo 3가 자동 애니메이션하여 자연스러운 손흔듦 장면 연출
- 사용자의 다양한 활용 시나리오 및 고도화된 기능 제공을 위한 적극적 피드백 및 접근성 확대를 약속하면서 마무리