
영상 링크: Large Scale AI on Apple Silicon (as mentioned by @AndrejKarpathy ) — Alex Cheema, EXO Labs
채널명: AI Engineer
애플 실리콘에서의 대규모 AI: EXO Labs의 접근법 핵심 요약
- 20세기 초 물리학의 오류사례(플랑크 상수 측정 실패)와 과학적 관성 현상에서 시작해, 혁신적 과학·기술이 기존 패러다임과 하드웨어에 의해 저지된 사례들을 살펴봄
- 과학자들은 대가의 기존 결과에 맞추려 실험 데이터 조작 등 비합리적 관행이 장기적으로 과학 발전을 정체시켰음을 지적
- AI 발전에서도 ‘하드웨어 로터리(Hardware Lottery)’ 현상이 있었음: 이론적으로 우수한 아이디어가 실제 하드웨어 상 한계나 관성 탓에 뒤늦게 채택됨
- 백프로파게이션, 컨볼루션 신경망 등 AI 핵심 알고리즘도 수십 년간 재발견만 반복, 실제 붐은 하드웨어(특히 GPU)가 따라왔을 때 비로소 촉발
- LLM(대형 언어 모델) 등의 급속 발전 역시 기존 언어생태계의 피드백 루프를 만들어 혁신(새 프로그래밍 언어 등) 확산에 제약 요소로 작용
- EXO Labs는 이 하드웨어 제한을 넘는 분산 AI 오케스트레이션 레이어(Exo)를 개발, 다채로운 디바이스 조합에서 일관성·확장성을 확보
- 주요 사례로, Nvidia Spark(메모리·연산 특성 다름)와 Apple Silicon(M1/M2, 높은 메모리 용량 활용) 등 이기종 디바이스 조합 통한 AI 워크로드 분산 실행 가능
- Apple Silicon이 가진 ‘높은 메모리-연산 비’ 장점을 극대화하는 신형 옵티마이저 개발, Adam보다 같은 연산에서 2배 효율 모델 실험·실제 데이터 공개 진행
- 다양한 맥(Mac) 디바이스 클러스터로 대규모 트레이닝 시도, 각종 벤치마크 및 실험 결과를 공개해 과학적 투명성·데이터 공유 문화 촉진
- EXO 오케스트레이션 레이어와 실험 툴(Exo Gym 등) 출시 임박, 누구나 전국에서 분산AI·실험 알고리즘 테스트할 수 있도록 지원 확보
세부 요약 - 주제별 정리
과학 발전에서 관성은 혁신을 방해하는 주요 요인이 됨을 역사적 사례로 설명함
- 20세기 초 물리학에서는 우주의 에너지 총량을 둘러싼 난제가 있었음
- 막스 플랑크는 에너지가 ‘양자화’된다고 가정, H(플랑크 상수)를 이론에 도입함
- 1909년 밀리컨(Millikan)이 간접적 실험(기름 방울 실험)으로 H를 측정, 당시 대단한 성과로 받아들여짐
- 이후 15여 년간 모든 후속 실험 데이터가 밀리컨의 결과에 맞춰짐
- 과학자들은 ‘대가의 결과와 다르면 내가 틀렸다’는 전제로 데이터 조작까지 감행
- 결과적으로 올바른 값은 수십 년이 흐른 뒤에야 인정되어, 과학적 관성이 발전 저해 주요 요인임을 보여줌
실험 설계와 가설 검증에서 전제조건·은연중의 가정을 끊임없이 의심해야 한다고 강조함
- 쥐 미로 실험 사례: 쥐에게 특정 문을 통과해 세 번째 문에서 나오게 훈련
- 연구자는 시각, 후각, 패턴 등 사람이 상상할 수 있는 원인을 차단하려 시도
- 빛, 냄새, 문 도장 모두 일치시켜도 결과 변화 없음 → 결국 쥐가 발소리 등 ‘소리 패턴’을 기억한다는 점을 발견
- 머리로 가정하지 않은 변수, 즉 소리를 제거(모래 사용)함으로써 가설을 검증
- 이처럼 전제를 시스템적으로 하나씩 제거하는 접근이야말로 최상위 과학이지만, 당시 학계는 해당 연구를 외면하고 인용하지 않음
- 리처드 파인만도 “가장 속이기 쉬운 대상이 자기 자신”이라는 원리로 ‘과학적 자기기만’ 비판
AI 연구 역사도 하드웨어·관성에 의해 혁신적 아이디어가 오랫동안 묻혀 있었음을 구체적으로 보여줌
- AI 분야의 대표적 예: 백프로파게이션(1963), 1976·1988년 재발견, 딥 컨볼루션 신경망(1989) 등장
- 그러나 이론 자체는 1960년대부터 존재했음에도 하드웨어 제한·학계 관성 탓에 세간 수용이 30년 가까이 지연
- 2012년 구글 등의 논문에서 16,000개 CPU 코어, 1,000대 머신으로 3일 걸렸던 네트워크 학습이, 불과 1년 후엔 3대의 GPU 서버로 유사 성능 달성
- 하드웨어(특히 GPU) 도입이 비로소 알고리즘 및 네트워크의 잠재력을 폭발시킨 계기가 됨
Best Idea가 꼭 채택되는 게 아니고 ‘하드웨어 로터리’가 대세를 결정한다는 구조적 한계가 AI 발전에 큰 영향 미침
- Sarah Hooker가 2020년 발표한 ‘Hardware Lottery’ 개념 소개
- 연구 아이디어가 뛰어나도, 하드웨어가 맞지 않으면 묻혀버림
- LLM(대형 언어 모델) 분야도 비슷: LLM이 Python 생성에 강하니 Python 생태계가 더 활성화되고, 새로운 언어 도입·확장은 어렵게 됨
- 논문에서 다양한 프로그래밍 언어 별 LLM 성능을 벤치마크한 결과, 전체 실험 문제의 90~97%에서 Python이 최고 성능을 보임
- 이처럼 도구·생태계에 의해 혁신 확산 자체에 제약이 발생
EXO Labs는 분산 AI 오케스트레이션 계층을 통해 이기종 하드웨어 제약 극복을 추구함
- Exo(오케스트레이션 레이어): 여러 종류의 하드웨어를 조합·관리하는 계층(레이어)을 개발
- 분산 디바이스에서 각각의 이벤트를 인과적(causal) 그래프로 관리→ 전체 시스템의 상태·데이터 흐름을 일관되게 추적 관리 가능
- 예: 분산 KV 캐시의 이동 시, 각기 다른 노드간 작업 성공여부·의존성 충돌 등을 보장 가능
다양한 메모리·연산 특성 조합의 하드웨어(Apple, Nvidia)에서 분산AI 워크로드 자동 오케스트레이션이 EXO의 주요 차별점임
- Nvidia Spark(연산력 높으나 메모리 대역폭 제한)와 Apple Silicon(메모리 용량·대역폭 높음, 플롭 저렴하지 않음) 등 각각 다른 장단점의 디바이스 활용
- LLM 워크로드의 프리필(연산 중심)과 제너레이션(메모리 대역폭 중심) 등 각 분산 프로세스를 가장 적합한 하드웨어로 자동 분배 가능
- 현존하는 솔루션이 이처럼 다양한 디바이스 조합을 신뢰성 있게 다루지 못했으나, Exo로 이를 구현
Apple Silicon의 높은 메모리-연산 비율 특성을 활용한 신형 AI 옵티마이저 개발 및 대규모 실험을 수행함
- Apple Silicon(M1/M2 등)은 높은 메모리 용량을 보유, 단위 플롭당 비용은 비싸나 메모리 활용 가능성이 큼
- 대부분의 고효율 트레이닝 기법(2차 최적화 등)은 메모리 요구량 때문에 기각됐으나, Apple Silicon에서 실효성 가능
- EXO Labs가 새로 개발한 옵티마이저는 Adam 대비 플롭당 2배 효율이지만, 많은 메모리를 활용하는 구조
- 메모리-플롭 비율: Apple Silicon 약 20배(장치별 상이), Nvidia와도 비교시 뚜렷한 메모리 이점
- 이를 검증하기 위해 16대 이상의 Apple Silicon 맥을 동원, 대규모 대화형 AI 모델(LLM) 및 기타 실험 진행
투명한 데이터 공유와 실패/하위 성능 결과까지 모두 공개하는 ‘과학적 견실성’을 실천함
- EXO Labs는 모든 실험 벤치마크(좋은 결과·좋지 않은 결과 구분 없이) 공개: https://benchmarks.xlabs.net
- 여러 장비에 대한 CI(지속적 통합) 테스팅 및 데이터 자동 업데이트로 다양한 하드웨어 실험 결과 제공
- 실패와 시행착오까지 공개함으로써 AI 실험 및 정책의 건실성 확보에 기여
EXO 오케스트레이션 레이어, 실험 자동화 도구(Exo Gym 등) 출시 예정 및 누구나 접근 가능한 실험 환경 구축 추진함
- 발표 이후 Exo 오케스트레이션 레이어와 부속 툴(Exo Gym 등) 이달 말 공개 예정
- Exo Gym: 여러 대의 맥을 직접 보유하지 않고도 로컬에서 빠르게 분산AI 실험 가능
- 다양한 알고리즘과 시스템 조합 신속 실험, 새로운 분산AI 디바이스 구조 개발을 현실적으로 지원
ML 프레임워크 별 협업 및 이기종 클러스터/네트워크 환경 등 오픈이슈와 앞으로의 확장 방향을 질의응답에서 다룸
- MLX, DI-MLX 등 최신 분산 프레임워크와 호환·협업 중, 향후 오케스트레이션 계층 위에서 표준적 역할 지향
- MLX DIstributed는 빠르지만 안정성(연결손실시 장애), 특정 구성 고정 등의 한계
- EXO는 예를 들어 사설 클러스터 등 신뢰 가능한 환경 중심으로 우선 지원, 공용/비신뢰 네트워크 특화는 다른 팀(Prime Intellect 등)에서 추진
- AMD 등 다른 하드웨어 대비 Apple Silicon의 네트워크 대 플롭 비율이 상대적으로 우수 -> 향후 다양한 디바이스에 확장 고려 가능
결론적으로, AI 혁신·과학 발전은 ‘가정과 관성 의심’, ‘최신 하드웨어 적극 수용’, ‘투명한 공유와 피드백’을 통해 적극 촉진되어야 함을 사례와 실험으로 실증함
- AI 분야, 특히 분산AI와 대규모 모델 학습은 혁신과 관성 타파가 반드시 병행되어야 함
- 과거처럼 아이디어만 좋고 실제 적용이 어려운 시대가 아니며, 하드웨어 생태계 변화에 맞춘 적극적 시도와 비관습적 접근이 중요
- EXO Labs는 실험적 연구·툴 배포·실험 데이터 개방을 통해 AI 혁신의 실제 동력을 보여줌