
영상 링크: Vision AI in 2025 — Peter Robicheaux, Roboflow
채널명: AI Engineer
2025년의 비전 AI — 피터 로비쇼, 로보플로우 핵심 요약
- 비전 AI의 현주소와 진전에 대해 로보플로우의 ML 리드 피터 로비쇼가 발표함
- 비전 AI가 다른 AI 분야(LMs 등)와 가장 큰 차별점을 갖는 이유와 현실 세계 상호작용에서의 중요성을 강조
- 비전 평가(evaluation) 지표들이 대부분 패턴 일치에 머무르며, 진정한 시각적 지능 측정에는 한계가 있음을 지적
- Language Model(LLM)은 대규모 사전학습을 효과적으로 활용하지만, Vision Model은 그렇지 못하며, 그 결과로 ‘시각적 지능’이 부족
- 클립(CLIP)과 같은 Vision-Language 모델조차 세밀한 시각적 정보 구별에 실패하며, 그 원인이 데이터 라벨링·학습 방식에 있음을 설명
- DinoV2 같은 최신 Vision 모델은 순수 시각적 사전학습으로 더 풍부한 시각적 특징을 학습하는 모습을 시각화하여 제시
- Object Detection 분야에서 Convolutional 모델(YOLO)과 Transformer기반 모델(LWDTER 등)간 대규모 사전학습 활용 효과 차이를 데이터로 분석
- 로보플로우는 DinoV2 백본을 활용한 RF DETER 객체 검출 모델 및 R100VL 데이터셋을 공개, 더 어려운 도메인에 적합한 비전 평가 도구를 제안
- R100VL 데이터셋은 100개의 다양한 고난도 객체 검출 문제로 구성, 여러 시각·언어 모델과 벤치마킹 결과 소개
- 컨텍스트 활용·도메인 적응 측면에서 비전-언어 모델(VLM)은 미흡하며, 실질적인 시각 일반화 능력은 전문 비전 모델에 뒤처짐을 강조
- 로보플로우의 오픈소스 정책, 다양한 논문·연구 커뮤니티와의 협업, 데이터 공유 생태계 활성화 전략 소개
- 비전-언어 모델들이 주어진 어노테이터 지침, 10샷 예시, 클래스 명칭을 효과적으로 조합할 때만 실질적인 성능 향상이 가능함을 실험으로 제시
세부 요약 - 주제별 정리
비전 AI는 현실 세계와의 상호작용에서 필수적이지만 인간과의 격차가 크다고 진단함
- 대부분의 AI 관심이 LLM(대형 언어모델)에 집중되어 있지만, 현실 세계와 상호작용하는 시스템에서 ‘비전(시각)’ 정보는 필수적임을 강조함
- 인간 시각과 컴퓨터 시각(컴퓨터 비전) 사이의 격차가, 인간-컴퓨터 음성간 격차보다 더 큼
- 컴퓨터 비전은 저지연(latency) 요구, 실시간 프레임 처리, 엣지(edge) 컴퓨팅 필요성 등 LLM과는 다른 독특한 기술적 과제가 있음
- 중앙 집중 서버에서 일괄적으로 연산하기 어렵고, 최종 의사결정에 시간적 지연이 치명적임
현재 비전 평가(Eval)은 패턴 매칭에 치우쳐 시각적 지능을 충분히 측정하지 못함
- 대표적 비전 평가 데이터셋인 ImageNet, COCO 등은 ‘패턴(무늬) 매칭’에 능한 모델이면 고득점을 받을 수 있음
- 이로 인해 복잡한 시각적 인지, 맥락 이해 등 본질적 시각 지능 요소를 제대로 평가하지 못함
- 실제로 대형 사전학습(pre-training) 활용이 제한적이고, 평가 성공을 위해 굳이 ‘똑똑한’ 모델 설계가 필요하지 않음
- 이 문제는 다른 AI(특히 LLM)에서는 성능 극대화의 핵심인 ‘사전학습의 힘’이 비전 영역에서는 덜 발휘된다는 점에 직결됨
비전 모델은 대규모 사전학습 활용이 미흡해 LLM 수준의 일반지능을 보여주지 못하고 있음
- LLM은 인터넷 전체를 학습하여 매우 높은 수준의 지능을 보이는데, 비전 모델은 이에 미치지 못함
- 대용량 사전훈련(예: CLIP, Dinov2)은 있지만, 실제로 다운스트림 응용(embedding 활용, 전이학습 등)에선 효과가 제한적임
- LLM처럼 ‘가장 똑똑한 모델’을 바로 활용하기가 어려운 상황
- 발표자는 “비전 모델은 아직 똑똑하지 않다”라는 결론을 내림
실사례를 통한 비전-언어 모델의 한계 명확히 제시(시간/방향 인식 실패 등)
- Claude 3.5/4와 같은 대형 비전-언어 모델에 시계 이미지를 보여주고 현재 시간을 묻는 실험을 했으나, 임의 시간 ‘추측’만 가능
- 모델이 시계/손목시계의 ‘개념적 상징’은 학습했으나, 시계바늘 위치와 숫자 인식 등 구체적 시각 정보 해석에는 극도로 취약함
- 일반적으로 손목시계 시범 이미지에는 10:10 표시가 많은데, 이조차 맞추지 못함을 문제 사례로 제시
- MMVP(멀티모달 비전 평가) 데이터셋 등에서 유사한 한계가 관측됨(예: 스쿨버스 앞/뒤 방향에 대한 질문 오답 및 디테일 환각)
비전-언어 모델(예: CLIP)은 세밀한 시각 정보 구분에 실패하며, 이는 데이터셋과 학습방식의 한계 때문임
- CLIP(Contrastive Language-Image Pretraining)은 인터넷 전체 캡션 이미지에 대해, 문장과 이미지를 효과적으로 매칭하도록 훈련됨
- 그러나 CLIP이 구분하지 못하는 세밀한 차이(예: 강아지가 정면을 보는지, 돌려 서 있는지 등)는 라벨링 한계에서 기인
- 예시 이미지 두 장이 실제로 매우 다르지만, 캡션으로는 애초에 구분 정보가 부족해 Loss function이 이를 구분하도록 만들 수 없음
- 즉, 언어와 시각 특징이 잘 정렬/alignment되지 않은 상태
DinoV2와 같은 순수 비전 모델은 풍부한 시각 특성 학습에 성공하고 있음을 시각화로 증명함
- Dinov2는 대규모 자가 지도학습(self-supervised) 방식으로 인터넷 전체 이미지에서 시각 특징을 스스로 추출/정제
- 시각화(주성분 분석, PCA)를 통해 단순한 개체 경계(open mask) 뿐 아니라, 세분화된 부분(다리, 머리 등)까지 여러 종류의 객체(개, 사람 등)에서 유사하게 인식
- 이는 ‘순수 비전 기반’ 사전학습이 실제로 풍부한 시각 특징을 이해할 수 있음을 보여줌
객체 검출 분야에서는 Transformer 계열 모델만이 대용량 사전학습의 효과를 극대화할 수 있음을 실험으로 보임
- LWDTER(Transformer 기반)와 YOLOv8(Convolutional 기반) 객체 검출 모델의 사전학습 효과를 비교
- 대용량 데이터셋(Object365, 1.66M 이미지)로 사전학습 시, YOLOv8에는 0.2 mAP(정확도) 개선에 불과하나, LWDTER는 5~7 mAP까지 대폭 향상
- 대조적으로, LLM 영역에서는 대규모 사전학습의 효용이 이미 표준화된 반면, 비전 분야는 최근에서야 따라잡는 중임
- 이미지 영역의 ‘대규모’ 사전학습이 LLM에서의 ‘챌린지급’에 불과, 데이터 규모 자체 차이도 큼
로보플로우는 DinoV2 백본 기반 RF DTER 모델 및 R100VL 데이터셋을 통해 비전 평가의 새 지평을 제시함
- RF DTER 모델: LWDTER의 백본(backbone)을 DinoV2으로 교체한 실시간 객체 검출 모델로, COCO 데이터셋 기준 준최고(2nd SOTA) 성능 달성
- COCO 성능 상위권(SOTA)은 거의 달성, 하지만 진짜 중요한 것은 ‘도메인 적응’ 및 어려운 문제 해결 능력임을 주장
- R100VL 데이터셋: 100개의 고난도 객체 검출 과제로 구성, 도메인 및 시점 다양한 모듈(공중 촬영, 현미경 이미지 등) 포함
- Rooflow Universe의 75만 개 이상의 오픈소스 데이터셋에서 커뮤니티 참여도, 난이도를 기준으로 직접 선별
- ‘더욱 어려운 문제=더 높은 시각적 지능 요구’ 원칙에 따라 설계
R100VL은 컨텍스트 이해, 이미지 도메인 다양성, 언어-시각 결합 능력 등에서 모델의 실제 지능을 구체적으로 평가할 수 있음
- COCO 기반의 단순한 ‘개/고양이 검출’에서 벗어나, 실세계 컨텍스트 해석(예: 배구 블록, 전선 결함 등 복잡한 개념)에 도전
- 각 이미지는 클래스명, 설명, “이 동작이 어디서 일어나는가?” 등 컨텍스트를 명시적으로 요구
- VLM이 컨텍스트 없는 ‘번개(Thunderbolt)’ 등 단어만으로는 검출에 실패하지만, ‘케이블 결함’ 등 컨텍스트가 주어지면 성능 개선
- 세포 섬유화, X-ray 등 다양한 의료/과학 도메인을 포함해 광범위한 일반화 능력 필요
- 비전-언어 벤치마크로서, 시각적 설명과 탐색 지침(annotation)이 함께 제공됨
실제 벤치마크 결과, 현 비전-언어 모델은 이미지 일반화에 크게 미흡하며, 전문 비전 모델이 더 우세함
- COCO나 YOLOv8 같은 기존 객체 검출 모델을 10 샷(클래스별 10개 예시)으로만 훈련해도, 최첨단 VLM(Quinn 2.5VL 72B 등)보다 성능 우위
- VLM은 언어 일반화(out-of-distribution)에선 강하지만, 시각 일반화(전혀 본 적 없는 이미지 종류, 각도 등)엔 거의 대응하지 못함
- R100VL에서 ‘강한 임베딩(strong embedding)’ 활용이 중요하며, 이는 DinoV2 백본 등 풍부한 사전학습에 기반할 때 비약적으로 개선됨
오픈소스 전략 및 연구자 협업, 데이터셋 생태계 확대 기조 아래 R100VL과 관련 도구·코드를 공개함
- R100VL 데이터셋 및 관련 코드, 논문은 r100vl.org 또는 Huggingface 등에서 무료로 이용 가능
- Rooflow는 플랫폼을 연구자들에게 무료로 개방, 바이오·의료 등 복잡한 데이터 라벨링을 지원
- 연구자는 데이터를 논문/연구에 사용한 뒤 오픈소스화해 커뮤니티에 환원하는 생태계를 구축
- 데이터셋엔 Nature 등 유수 논문에 인용되는 다양한 모듈이 포함됨
10-Shot 과제에서 어노테이터 지침과 예시·클래스명 3요소를 함께 활용하는 모델만이 실질적 성능 향상을 달성함을 실험적으로 입증함
- 10-Shot 트랙: 클래스명, 탐색 지침(annotation), 10개의 시각 예시 3요소 제공
- 전문화된 객체 검출기(예: fine-tuned GroundingDINO)는 과제별 평균 mAP 25, 제로샷은 19 수준이며, YOLOv8 nano 등을 10샷만으로 훈련시에도 더 우수한 결과 가능
- 현 VLM들은 이 3요소를 모두 조합하지 못하거나, 하나라도 제외시 성능이 급감
- 성능 향상에는 실제 시각-언어 결합(“journalist model”) 형태의 전면적 통합이 필요함
강건한 대규모 사전학습 및 현실세계 적합 벤치마크의 확대가 향후 비전-언어 모델 발전의 필수 관건임을 강조함
- R100VL 및 RF DETER 등은 실질적 시각 지능, 도메인 적응, 컨텍스트 처리 등 미래 비전 AI의 핵심 발전 방향을 제시
- 여전히 비전-언어 통합(Alignment), 대규모 사전학습의 확장, 실제 고난도 과제에서의 성능 증명이 남은 과제임을 데이터와 사례로 입증