
영상 링크: Google Photos Magic Editor: GenAI Under the Hood of a Billion-User App - Kelvin Ma, Google Photos
채널명: AI Engineer
구글 포토 매직 에디터: 15억 명이 사용하는 앱의 생성형 AI 뒷이야기 핵심 요약
- 구글 포토는 월간 15억 명이 사용하는 사진 관리 서비스로, ML(머신러닝)을 기반으로 사진 백업, 자동 정리, 검색 기능을 제공
- 초창기부터 이미지 검색, OCR, 자동 앨범 생성 등 ML을 적극 활용해 사용자의 사진 정리 수고를 크게 줄임
- 2018년부터 사진 편집 기능을 강화하며, 휴대폰의 컴퓨트 파워를 활용하는 ‘컴퓨테이셔널 포토그래피’를 도입
- 초기 주요 기능에는 단일 인물 사진의 배경 분리(세그멘테이션), 조명 보정, 명암 조절, 매직 이레이저(원치 않는 요소 삭제) 등이 포함
- 모델 크기(10MB 이상)와 기기 제한(APK 용량, 모델 관리 등), IP 보호/평가 체계 구축 등 ML 도입에 따른 다양한 엔지니어링 과제 발생
- ML 도입으로 일관된 결과·낮은 에러율·새로운 편집 기능을 제공했으나, 엣지케이스 및 예측 불가능성이 꾸준한 도전 과제로 존재
- 2021년 매직 이레이저 등 시스템화된 모델 연동과 GL 렌더링, 인페인팅을 접목해 복잡한 편집을 실현
- 생성형 AI(GenAI) 도입으로 대규모 모델 활용, 서버-클라이언트 분산 및 기능 확장, 사용성·안전·성능 문제에 새롭게 직면
- UI/UX 개선에서 편집 도구의 ‘발견성’ 해소를 위해 AI 추천/보조 기능, 프롬프트 기반 인터페이스를 도입
- 대형 모델의 서버 적용에 따른 성능(지연, 비용), 테스트 어려움, 프롬프트의 모호성, 신뢰·안전성 확보 등 현안 집중 해결 중
- 평가 체계(Eval)와 빠른 이터레이션, 작은 모델로의 최적화와 협업적 AI-사용자 경험 강화로 미래 지향점을 삼음
- 구글 포토 10주년을 맞아 AI First 전략 기반의 에디터 전면 재설계, 맞춤형 AI 추천 및 편집 흐름 제공 예정
세부 요약 - 주제별 정리
구글 포토는 ML 기반 자동화로 15억 명의 사용자를 위한 사진 관리 허브로 성장함
- 구글 포토는 사용자의 기억을 안전하게 보관하고 편하게 찾게 해주는 ‘사진의 집’ 역할을 지향
- 월간 활성 사용자 15억 명, 매달 수억 건의 사진/영상 편집이 이뤄짐
- 초기에 자동 백업, OCR(광학 문자 인식), 강력한 이미지 검색 등 ML 기술을 제품의 핵심에 배치
- 사용자는 직접 정리하지 않아도 ‘여행 사진 앨범’ 등 자동 카테고리화, 예: “이 식당에서 받은 영수증” 등 자연어 검색 지원
- 머신러닝이 수동 관리의 번거로움을 대체해 사용성 및 효율성을 극대화함
- 영상 촬영 및 저장이 폭증하는 트렌드에 대응하여, 자동화로 사용자의 시간 부담을 감소시킴
컴퓨테이셔널 포토그래피와 온디바이스 ML이 사진 편집을 혁신적으로 바꿔왔음
- 편집(Editing)팀은 2018년에 설립, 휴대폰의 연산 능력을 활용하는 사진 편집에 초점을 맞춤
- DSLR 카메라의 HDR(다중노출 합성) 같은 고급 기능을, 이미지 한 장만으로 ML 기반으로 자동 구현
- 머신러닝 기반 편집은 예전 기기로 찍은 사진 등, 디바이스 제한 없이 적용 가능
- 픽셀(Pixel) 등 자체 하드웨어 및 Edge TPU 가속기와 통합해 전방위적 연구/개발 환경 구축
- 팀은 구글 내부의 컴퓨터 비전·ML 전문가와 긴밀히 협력하여 새로운 AI 모델을 수년 단위로 공들여 개발
- 2018년 기준 외부 모델 마켓플레이스(예: HuggingFace) 부재, 직접 모델과 앱을 반복적으로 개선
분할·조명·지우개 등 초기 ML 이미지 편집 기능 개발 과정에서 여러 도전을 경험함
- 2018~2021년 구축 기능: 단일 인물 사진의 ‘포스트 캡처 세그멘테이션’(배경 분리), 조명·명암 보정, 매직 이레이저(방해 요소 제거) 등
- 세그멘테이션은 유닛 컨볼루션 신경망(CNN)으로 구현, 전통적 컴퓨터 비전보다 정확도·효율성 우위
- 예시: 인물과 배경을 별도로 분할(마스크 생성), 인물 조명 효과나 배경 블러 등을 추가
- ML 기반 마스킹은 항상 결과를 반환하지만, 긴 머리카락 등 세밀한 부분에서 완벽하지 않아 후처리 필요
- Magic Eraser 도입으로 관광지에서의 군중 등 방해 요소 감지, 자동 선택·분할·인페인팅 후 원래 풍경 복원
- 사용자 친화적이면서도 고급 사진 편집이 실제로 누구나 가능해짐
ML 모델 도입은 성능과 난이도 모두를 증폭시키며 새로운 IT/엔지니어링 과제를 야기함
- 복수 모델·파이프라인 연결, 커스텀 GL 렌더링 등 편집 기능이 복잡해질수록 시스템 난이도 상승
- ML 모델 크기가 점점 커져서(10MB → 수백MB) APK/앱 사이즈 관리, 다운로드, 관리 필요
- 온디바이스 추론(TensorFlow Lite→LightRT)으로 운영하나, 기기 성능 차이가 심함(최신 장치 vs 오래된 장치)
- IP 보호: 사용자 기기 내 모델 배포에 따른 유출 위험 방지(Extract 불가 등) 필요
- 평가체계(Eval, Benchmark)가 필수—전통적 SW의 유닛테스트처럼, 모델 벤치마크가 현실 반영 및 품질 판단 기준
- ML 특성상 예외 상황(엣지케이스)에서 성능이 불안정, 특정 이미지는 탁월하지만 유사해도 다른 이미지는 엉뚱한 결과
- 소프트웨어와 달리 ‘디버그 후 즉시 수정·배포’ 불가, 느린 반복 및 연구 협업 필수
생성형 AI 시대 도래로 대규모 모델, 클라이언트-서버 아키텍처 도입, 새로운 문제와 기회가 열림
- 2022~2023년, DALL·E·ChatGPT 등 대형 생성형 AI 대중화, 모든 논의가 ‘AI’ 중심으로 이동
- Magic Editor 기획: 최신 대형 모델 기반(온디바이스 한계 돌파), 기능의 야심 및 범위를 확장
- 다양한 기능(매직 이레이저, 배경 변형 등)을 사용자 인식 기반이 아닌 AI 추천·보조로 통합
- 대형 모델은 모바일 탑재 곤란, 서버-클라이언트 분산 아키텍처(원격 추론) 도입 불가피
- 서버 운영/확장(예: TPU, GPU), 클라우드 비용, 서버 용량 계획 등 추가 부담
- 네트워크 지연, 데이터센터 부하, 원거리 유저 등 서버 환경별 편집 지연(latency) 문제
- 기존 온디바이스 테스팅 대비, 대형 모델의 테스트 자동화/회귀가 매우 어려워짐
’프롬프트’의 모호성과 신뢰, 안전 문제 해결이 핵심 도전임을 인식함
- 생성형 AI가 가능성을 확대했으나, 실제로 사용자 요구(예: “이미지 편집”)는 구체적·맥락화된 문제임
- 문제 정의와 범위를 줄여야 실제 배포/제품화가 가능 (“프롬프트는 버그다”는 의견 공유)
- 프롬프트 입력은 사용자에게 번거롭고 모호성 위험 내재, ‘의도 파악 후 맞춤’이 지향점
- 다양한 용례와 언어의 중의성(예: “sick”의 해석)으로 인한 결과 예측 불가, 신뢰성 확보가 어려움
- 악의적 사용(딥페이크 등) 방지, 인공지능 신뢰/윤리성 강화, 미디어·내외부 이해관계자 대응 필요
생성형 AI 도입 후, 사용성 강화와 ‘발견성’ 문제 해소를 위해 에디터 경험을 전면 개편함
- 과거엔 사용자가 직접 어떤 편집(예: 매직 이레이저, 배경 블러 등) 기능을 선택해야 했음
- AI가 상황 인식 및 추천(예: “이 경우 매직 이레이저 사용해보세요”)하여 사용자 편의·발견성 증대
- 프롬프트 기반과 인터랙티브 UI 결합: 사용자가 이미지 내 영역을 선택→AI가 적합한 기능 제안·실행
- 사용자는 AI를 공동 편집자(co-editor), 코파일럿처럼 활용
- 생성형 AI의 ‘환상’(hallucination)도 이점: 창의적 공간에선 다양한 결과 제공이 강점(정해진 정답이 없어 유일성 부각)
- 신뢰와 안전에서 ‘100% 정답’ 불가—정확도(precision)/재현율(recall) 목표 및 사용자 기대치 관리가 중요
- 다수의 답변·결과를 제공하여 선택권 보장, 사용성-창의성-신뢰성 균형 추구
모델 평가, 반복개선, 최적화가 안정적 AI 서비스 제공의 핵심임을 깨달음
- AI는 뛰어난 기능(스케일, 새 기능 추가 등)을 제공하지만, 엔지니어 관점에선 시스템 난수(randomness) 증가가 숙제
- 엔지니어는 평가(evals), 벤치마크, QA 자동화 등으로 결과의 결정론(determinism)과 반복 가능성 강화해야 함
- 실사용·프로덕션에서 큰 모델로 기능을 검증한 후, 모델 경량화(지식 증류, 더 빠른 모델, 기존 SW 대체)로 전환해 효율/비용 최적화
- 반복 개선(iteration) 속도가 곧 품질 개선과 혁신의 원동력임을 강조
Google Photos 10주년을 맞아 ‘AI First’ 전략으로 에디터를 전면 재설계 중임
- 에디터의 체계적인 재설계: 직관적으로 이미지를 탭하면 적절한 AI 편집 기능 추천/제공, 필요시 직접 조정 가능
- AI가 선택적으로 전통적(비AI) 도구도 병행해 혼합적 편집 경험 제공함
- 구글 포토의 미션—사용자 상황과 맥락을 AI가 이해해, 필요한 편집을 탐색 및 자동화
- 차세대 에디터는 AI와 사용자의 상호작용 강화, 맞춤형·개인화된 편집의 미래 지향
향후 2년의 AI 발전 방향은 불확실하지만, 빠른 피드백과 평가체계가 핵심이 될 것임
- 업계 연구자마다 AI 발전 속도(예: 온디바이스 대형 모델의 성능개선 등)에 상이한 전망
- 예: ‘Gemma Nano’ 온디바이스 모델은 Gemini Pro의 구버전급 수준까지 도달, 모바일에서도 점차 대규모 AI 활용 가능성 시사
- 미래 방향의 불확실성(기술 발전 정체/가속화 양극화)에 관계없이, 빠른 반복 및 강력한 평가체계가 언제나 필수임을 결론
엔지니어의 본질적 역할은 AI의 불확실성을 효율적으로 통제하여 사용자 가치를 극대화하는 것임
- AI 엔지니어링은 본질적으로 기존 소프트웨어 엔지니어링에 ML의 무작위성·불확실성을 관리하는 역량이 더해짐
- 반복 가능하고 결정적인 결과 도출, 신속한 오류 감지 및 개선, 현실적 제약 내 최적 성능 추구가 필수
- 사용자 가치에 집중하며, AI가 과도한 복잡도/연산을 초래시 경량화·효율화로 신속히 대응할 수 있어야 함
- 빠른 반복개선, 체계적 평가, 실제 문제에 집중하는 것이 AI 기반 제품 성공의 핵심임