
영상 링크: What every AI engineer needs to know about GPUs — Charles Frye, Modal
채널명: AI Engineer
AI 엔지니어라면 반드시 알아야 할 GPU의 핵심 원리 핵심 요약
- AI 엔지니어들이 오픈AI, Anthropic, DeepSeek 등의 모델 API를 활용해 앱을 만드는 현재, 앞으로는 GPU에 대한 이해가 필수적임을 강조함
- 복잡한 시스템 구축에 있어 ‘API 경계’의 중요성을 설명하며, AI 엔지니어가 GPU 하드웨어와 소프트웨어의 필수적 요소를 알아야 함을 역설
- 데이터베이스에 ‘인덱스’를 이해해 효율적으로 쿼리하는 것처럼, AI에서는 ‘텐서 코어’ 활용이 핵심임을 “Use the tensor cores, Luke”라는 문구로 강조
- GPU 특징은 ‘저지연’보다 ‘고대역폭’에 중점을 두며, CPU와 달리 연산 처리 대역폭을 극대화하도록 설계됨
- CPU 대비 GPU는 병렬(16,000+ 스레드, 스레드당 5센트의 에너지 효율) 및 동시처리 능력이 월등하며, H100 GPU 예시로 비교 수치를 제시
- ‘Patterson’s Law’에 따라 현대 컴퓨팅 성능은 ‘대역폭 향상’이 ‘지연시간 감소’보다 훨씬 큰 영향을 미치고 있음을 통계와 함께 설명
- GPU에서 ‘연산 대역폭’(Arithmetic Bandwidth)이 ‘메모리 대역폭’보다 중요한데, 이는 n²번 연산이 n번만 메모리 접근하면 가능함을 의미
- 소형 모델을 1,000회 이상 반복 실행하는 등의 방식으로 하드웨어 효율(한 번 로드 후 다수 샘플 생성)을 극대화할 수 있음을 구체적 실험과 재현 결과로 뒷받침
- 최신 GPU의 ‘텐서 코어(Tensor Core, 저정밀 행렬곱 전용)’는 수천 테라플롭스 연산을 가능하게 하며, 멀티토큰 예측/다중 샘플 추출을 ‘거의 공짜’로 만들어 줌
- Llama, DeepSeek 등 여러 LLM 프레임워크와 병렬 생성 기법에서 이러한 하드웨어 특성을 어떻게 활용하는지 구체적으로 설명
- Modal.com에서 제공하는 GPU 글로서리와 서버리스 Python 환경 등 실무 도구도 직접 안내하며 발표를 마무리함
세부 요약 - 주제별 정리
API 경계와 복잡한 AI 시스템에서 GPU 이해의 필요성이 강조됨
- AI 엔지니어들은 대부분 모델 API(OpenAI, Anthropic, DeepSeek 등)에 의존하여 애플리케이션을 제작해 왔음
- 애플리케이션 복잡성이 증가할수록, 모든 사람이 모든 기술의 세부까지 알 수 없으므로 ‘API 경계’로 복잡성을 분할함
- Swix의 “Rise of the AI Engineer” 다이어그램 및 ‘API 바운더리’ 개념을 참고
- 이제는 더 깊게 하드웨어, 특히 GPU 레벨로까지 이해도를 높여야 할 단계에 진입하고 있다고 주장
- 데이터베이스의 인덱스 구조와 활용법을 알아야 효과적으로 쿼리할 수 있는 것과 동일한 맥락임
- “Use the index, Luke”라는 유명한 데이터베이스 교육 문구를 패러디해 “Use the tensor cores, Luke”라고 언급
데이터베이스와 GPU: ‘사용자’로서 필수 지식을 비교해서 설명함
- 대부분의 개발자는 데이터베이스를 직접 구현하지 않지만, 좋은 쿼리를 작성하려면 인덱스 개념 등 핵심을 알아야 함
- 데이터베이스 인덱스(Primary, Secondary index), B-Tree, Log-structured merge tree 등은 직접 코딩하지 않아도 원리를 알아야 실무에 적용 가능
- AI 엔지니어 역시 GPU의 내부 구조를 모두 개발할 필요는 없으나, 효율적으로 사용할 지식이 필요함
- 요점은 GPU의 핵심 기능(텐서 코어, 저정밀 행렬곱)을 잘 활용해야 한다는 것
최근 오픈웨이트 모델 및 실행 소프트웨어 발전이 ‘셀프 호스팅’을 타당하게 만듦
- 오픈 소스 LLM(예: Llama, DeepSeek 등)과 실행 소프트웨어(Dynamo 등)가 빠르게 발전하고 있음
- 이에 따라 자체적으로 모델을 오는 것이 점차 경제적, 실용적으로 변하고 있음
- Modal 팀의 벤치마크(10
12개 모델, 1012개 워크로드)로 어떤 방식이 경제적인지 테스트 결과도 예고
GPU의 가장 큰 특징은 ‘저지연’이 아닌 ‘고대역폭’ 추구에 있음
- 대부분의 기존 하드웨어는 ‘저지연’에 초점을 맞췄으나, GPU(및 TPU)는 반대로 ‘고대역폭’을 최우선으로 설계됨
- 대역폭은 한 번에 많은 데이터를, 연산을 처리하는 능력을 의미하며, AI 응용에 특히 맞는 특성임
- GPU의 구조와 사상적 기반을 컴퓨터 역사(1930년대 Zuse 1 등)와 비교하며 설명
- 컴퓨터 성능 개선의 주된 원인이었던 ‘클럭 속도 상승(90년대)‘이 2000년대 이후 둔화
- 이 변화로 인해 동시성, 병렬 프로그래밍, 멀티프로세싱 등 소프트웨어 패러다임 전환이 이루어짐
병렬성(Parallelism)과 동시성(Concurrency) 두 축에서 GPU가 CPU를 월등히 능가함을 수치로 설명
- AMD EPYC CPU(2스레드/코어, 스레드당 1W)와 NVIDIA H100 SXM GPU(16,000+ 스레드, 스레드당 0.05W)로 병렬 처리 능력 비교
- GPU의 병렬성: 16,000여 스레드가 매 클럭사이클 동시 수행
- 동시성: CPU는 이론적으로 무한대 스레드를 지원하나, 전환속도(컨텍스트 스위칭)가 느림(수천 클럭사이클 소요)
- GPU는 하드웨어 수준에서 워프 스케줄러가 매 클럭사이클 컨텍스트 스위칭 지원
- 병렬∙동시 실행의 하드웨어/소프트웨어 차이를 구체적으로 설명
Patterson’s Law(‘Latency lags bandwidth’)로 대역폭 중심 성능 진화의 본질 설명
- 데이비드 패터슨(리스크 컴퓨터, TPU 개발자)이 정립: ‘지연 감소’보다 ‘대역폭 증가’가 훨씬 큰 성과
- 여러 컴퓨터 서브시스템(네트워크, 메모리, 디스크 등)의 성능 추이를 보면, latency 10배 줄이는 동안 bandwidth는 100배 증가함
- 물리학적 한계로 인해 latency 개선은 매우 어렵고, bandwidth 증가는 비교적 수월함(동시처리, 확장성)
- 실제로 네트워크 latency는 빛의 속도(70%)가 한계에 가까워 추가 향상이 어렵다고 언급
GPU에서 메모리 대역폭보다 연산 대역폭이 훨씬 중요하며, n² 연산이 n번만 메모리 접근하면 최적임
- GPU는 Hynix HBM(High Bandwidth Memory) 등 고대역폭 메모리를 탑재하지만, 진짜 강점은 연산 성능(Arithmetic bandwidth)에 있음
- 메모리 대역폭(GB/s)에 비해 연산 대역폭(TFLOPS)은 수천까지 높아짐; Blackwell 아키텍처 이후 연산:메모리 비율은 더욱 상승
- n²연산/n메모리 구조(=Arithmetic Intensity)가 GPU에서 효율적임을 수치와 실험 예시로 입증
- LLM Inference에서 ‘프롬프트 처리’구간은 대량의 파라미터(예: 8GB)를 한번 로딩해 60억 번 이상의 floating point 연산 수행
소형 모델을 반복실행하거나 샘플을 모아 처리하는 방식이 하드웨어에 특화되어 있음을 실험으로 입증
- LLM Inference에서 디코딩 구간은 메모리 접근이 많아 비효율이 발생
- 한 번 모델 가중치를 로딩한 뒤 100~1000번 이상 반복해 여러 샘플을 동시에 생성하면 하드웨어 효율이 극대화됨
- Llama 3 8B 모델을 100번 샘플 추출해 성능을 증폭, 선택기를 두어(예: Python 테스트 통과 여부) GPT-4(0) 모델 품질에 근접 가능함을 재현
- 실제 논문 재현(다른 데이터, 모델로 동일 현상) 및 결과 그래프 제시
Tensor Core는 저정밀 행렬 곱셈에 특화되어 멀티샘플·멀티토큰 예측 등의 연산을 거의 공짜로 만들어줌
- NVIDIA GPU 등 최신 하드웨어의 최상위 성능은 텐서 코어에서 발현(수천 테라플롭스)
- 텐서 코어가 지원하는 주요 연산은 ‘저정밀(Float16 등) 행렬-행렬 곱셈’임
- 이 연산을 활용하면 멀티샘플 추출, 멀티토큰 예측(DeepSeek, Llama4 등에서 사용) 등의 연산이 매우 효율적
- Thunderkittens(Hazy Research) 등의 마이크로벤치마크에서 ‘행렬 x 벡터’는 성능 저하, 행렬 x 행렬(빈 컬럼 추가)로 성능 극대화
- 병렬화로 인한 성능 증대 효과를 구체적 수치 예시로 설명
’경량 모델 + 다중 샘플’ 전략이 실무에서 쉽고 경제적임을 데이터로 뒷받침
- 작은 LLM을 로컬 GPU(데스크탑 등)에서 실행, 다수 샘플로 품질 극복 가능
- ChatGPT 초기부터 논의된 연구 방법론이 오픈 모델 성능이 좋아진 현재 다시 현실적으로 부상함
- 실제 실험, 메트릭, 품질 비교(수, 통과율 등) 구체적으로 설명
GPT, DeepSeek, Llama4 등 주요 LLM에서도 멀티토큰/멀티샘플 전략이 채택되고 있음
- 모델 구현과 활용 예시로 DeepSeek의 next-token prediction, Llama4의 멀티샘플 생성 전략 언급
- Tensor Core 특성을 최대한 활용하는 방식임
실무자 참고 리소스를 소개하며 발표를 마무리함
- Modal.com/GPU-glossary(‘CUDA 문서 for human beings’)에서 GPU, CUDA, 워프 스케줄러 등 용어와 개념을 쉽게 풀어 설명
- Modal 플랫폼에서 서버리스(무관리) GPU, Python 환경을 활용해 LLM, 데이터 집약적 컴퓨팅을 쉽게 실행할 수 있음을 안내
- 컨테이너 스택을 재구성해 LLM Inference에 최적화된 Modal 실무 환경(서버리스), 엑스포 홀 오프라인 만남 등도 홍보하며 마침