
영상 링크: Perceptual Evaluations: Evals for Aesthetics — Diego Rodriguez, Krea.ai
채널명: AI Engineer
지각적 평가: 미적 감각을 위한 AI 평가 방법 핵심 요약
- 발표자 디에고 로드리게스(Diego Rodriguez)는 생성형 미디어 분야 AI 스타트업 Krea의 공동 창업자로, 인간의 지각(Perception)과 미적 감각(Aesthetics)이 AI 평가에서 어떻게 작용하는지를 탐구한다.
- AI가 생성한 이미지(예: 잘못 그려진 손)를 인간은 즉각적으로 “이상하다”고 인식하지만, AI(예: GPT-3)는 미적 평가에 대해 명확하고 적절하게 답하지 못함을 사례로 든다.
- 현대의 AI 모델 및 데이터는 본질적으로 인간 인지의 한계와 인터넷상의 데이터(예: 압축 이미지 등)로부터 비롯된 정보 손실 등의 한계를 그대로 갖게 됨을 지적한다.
- 정보이론의 창시자인 클로드 섀넌(Claude Shannon)의 통신 모델을 바탕으로, 인간의 지각 특성을 활용한 이미지·오디오 압축(JPEG, MP3, MP4)의 원리와 AI의 데이터 활용 간의 관계를 조명한다.
- JPEG 압축은 인간이 밝기(brightness)에 예민하고 색상(color)에 상대적으로 둔감한 점을 이용, 이미지 정보를 절반가량 줄여도 인지상 차이가 작게 느껴짐을 설명한다.
- 생성형 AI 모델 평가에서 널리 쓰이는 FID(Frechet Inception Distance) 등 전통적 지표가 지각적으로 유사한 이미지들에도 아티팩트(압축 노이즈 등)에 민감하게 점수를 낮게 주는 한계를 지적한다.
- AI 평가가 예술성, 의견, 개인 차이 등 인간 특유의 다양하고 주관적인 기준을 포괄하지 않으며 “측정하기 쉬운 것”에만 집중하고 있음을 문제로 삼는다.
- 번역 AI의 발전으로 서로 다른 언어권도 쉽게 소통할 수 있게 되었으나, 정작 평가 지표 등에서는 진정한 의견 전달, 의미, 맥락이 반영되지 않는 현실을 환기한다.
- 다양한 사용자의 의견, 지각 양식, 데이터 특이성(예: JPEG, 아티팩트 등)을 반영하는 ‘지각 인식(perceptually aware)’ 평가 및 개인화가 필요함을 촉구한다.
- Krea팀은 미적 감각 연구, 하이퍼퍼스널라이제이션, 생성형 AI 실시간 스케일링 등 실질적 문제 해결과 글로벌 서비스 확장 경험을 바탕으로 인재 영입 및 연구 협업을 제안한다.
세부 요약 - 주제별 정리
인간 지각·미적 감각 기반의 AI 평가 필요성은 단순 오류 인식에서 출발함
- 발표 시작에서 AI가 생성한 ‘잘못 그려진 손’ 이미지를 예시로 제시, 인간은 즉각적으로 “이상하다”고 판단함을 강조함.
- 반면, GPT-3 등 최신 AI는 해당 이미지 평가 질의에 “거의 자연스럽다” 등 무의미한 답을 내놓아, 미적/지각적 판단에서 결정적으로 부족함을 드러냄.
- 인간은 문화·개인 경험에 기반한 직감적 반응을 하지만, AI는 본질적으로 인간 평가 데이터를 기반으로 학습함에도 그 한계를 탈피하지 못함.
- 이런 현상에 대한 문제의식이 발표의 화두임을 소개함.
정보 이론의 발전이 미디어 압축 및 AI 지각과 평가의 뿌리가 됨을 짚음
- 클로드 섀넌의 정보이론(1940년대)을 언급, 원래는 “통신 이론의 수학적 기초”라는 명칭이었고, 디지털 회로·통신·신경망 등에도 응용됨.
- 섀넌의 통신 모델(정보 제공자, 채널, 수신자, 잡음 등)은 현대 데이터 처리 및 신경망 설계와 유사점이 있음을 시사함.
- ‘압축(Compression)‘의 원리는 인간이 무엇을 인식하는지를 활용하는 과정임을 설명.
JPEG·MP3 등 미디어 압축은 인간 감각의 한계를 활용해 정보 손실을 용인함을 보여줌
- JPEG 압축 과정은 RGB 이미지를 색상(colr)과 밝기(brightness) 채널로 분리, 밝기에만 민감한 인간의 특성상 색상 데이터 샘플을 줄여도 큰 지각 차이가 없음.
- 저자는 “정보를 의도적으로 삭제하는 과정”이지만, 이미지를 보면서 그 차이를 못 느끼는 순간 인간 감각의 제한을 실감했다고 고백.
- 오디오(MP3), 영상(MP4) 등에서도 동일 원리가 적용, 인간이 듣거나 볼 수 없는 정보가 대폭 손실되지만 실제 감각에선 차이가 적다고 설명.
인터넷 데이터의 압축 적용이 AI 데이터셋 품질·학습 결과에도 문화적/지각적 한계를 남깁니다
- 웹에서 수집되는 데이터(특히 이미지)는 대부분 압축 상태이며, 이로 인한 정보 결손이 AI에도 전이되는 ‘결함의 전염성’을 지적함.
- “철학자들이 말하는 인간 감각의 제한”이 AI 데이터셋, 모델, 결과물에 고스란히 반영된다는 점을 경계함.
- 인간의 한계가 AI의 한계로 이어질 수 있음을 강조함.
FID 등 현행 생성형 AI 평가는 지각적 품질 반영에 미흡하며, 예술적·상대적 의미는 놓침
- Clean FID 논문에서 보여준 바와 같이, JPEG 압축 노이즈가 들어간 이미지에 대해 FID 점수가 급격히 악화되는데, 실제로는 지각상 거의 구별되지 않음.
- FID 등 수치가 ‘매우 나쁜 이미지’라고 평가해도 인간은 별 차이 못 느끼는 예를 통해 지표 맹신의 한계를 강조.
- 평가 지표가 정량적 측정이 쉬운 것(예: 객체 수 세기, 색상 식별)에만 치우치고, 예술성·의미 해석 등은 간과됨을 비판함.
AI·연구 분야에서 ‘측정하기 쉬운 부분’만 집중하며 본질적 과제(‘트래픽’)는 놓치기 쉽다는 충고를 전함
- 미드저니(Midjourney) 친구 챙루(Changloo)의 “마차 시대에 자동차는 예견할 수 있지만, 진짜 어려운 건 ‘교통체증(traffic)‘을 예견하는 것”이라는 인용구를 들려줌.
- 엔지니어·창업자들이 “JSON 변환” 등 구체적 기술 과제엔 몰두하지만, 분야의 본질적 변화점이나 잠재적 큰 문제는 간과하는 현실을 비유.
- 진정 우리가 간과하는 ‘트래픽’은 무엇인지 자문하도록 청중을 도전함.
번역 AI 발전은 인간간 언어 장벽을 허물었으나, 진정한 의견·맥락 반영이라는 더 큰 과제를 남김
- ‘바벨탑의 신화’ 비유: 신이 인간의 소통을 방해하려 언어를 흩어, 협업이 어렵게 만든다.
- 오늘날 번역 AI의 발달로 서로 다른 언어로 자유롭게 소통하는 시대가 오지만, 정작 의미·의견·맥락의 진정한 전달은 쉽지 않음을 지적.
- 본인 경험: Krea의 고객 지원을 직접 일본어로 제공 가능하나, 완벽한 감정적 공감·맥락 전달이 가능한지는 별개임을 제시.
- AI 평가(예: “파란색인가, 얘가 진짜 파란색인가, 이 색이 맘에 드는가”)에서도 주관적 차이를 충분히 반영하지 못함.
AI 평가·지표는 개인의 감각·선호·맥락을 적극적으로 반영하는 방향으로 진화해야 함
- “나에게 이 이미지는 나쁘다”는 식의 개인적, 주관적 평가가 지표화되어야 함을 주장.
- 인간의 지각 방식, 데이터셋 특이성(예: JPEG, 아티팩트 등), 학습 정보의 품질 등을 모두 고려한 맞춤형 메트릭 개발 필요성을 역설.
- Eval(평가) 자체도 인간의 주관적 의견, 심미적 기준이 녹아들어야 하며, 이는 AI의 새로운 성장 분야임을 시사.
Krea 팀은 지각·미학 연구부터 실용적 스케일링 서비스까지 다양한 AI 기술 적용 성과를 보유함
- Krea는 8명에서 12명으로 성장하며, 글로벌 다중매체(이미지, 영상, 오디오, 3D 등) 생성형 AI를 실시간 스케일링, 하이퍼퍼스널라이제이션을 실현해 옴.
- 다양한 글로벌 고객 기반 및 실용적 연구(미학, 사용자 맞춤형 AI 등)에 관심 있는 인재 모집을 언급함.
- 고도화된 실시간 서비스, 미적 평가 연구, 개인화 기반 모델 등 다양한 협업·연구 주제를 제시함.
Q&A에서 ‘지각 인식’ 미터릭 및 평가 방식의 가능성과 실제 활용 예시를 공유함
- “지각을 인식하는 평가 지표”의 가능성에 대한 질의에 대해, 압축 노이즈에도 덜 민감한 측정법 등이 전통적 인코딩, 일부 머신러닝 분야에서 이미 활용되고 있다고 설명.
- 머신러닝 기반 분류기(continuous classifier) 훈련으로, 다양한 아티팩트(노이즈, 손상 등)가 있어도 인간이 모두 ‘좋다’고 판단하는 이미지를 구분하는 것이 가능함을 강조.
- “이런 문제는 기계적 정답이 없고, 주관·의견에 따라 정해지는 영역이기에, 오히려 AI가 잘할 수 있다”는 관점을 전함.