Skip to content
Go back

What every AI engineer needs to know about GPUs - Charles Frye, Modal

Published:  at  05:19 PM
YouTube Thumbnail

영상 링크: What every AI engineer needs to know about GPUs — Charles Frye, Modal
채널명: AI Engineer

AI 엔지니어라면 반드시 알아야 할 GPU의 핵심 원리 핵심 요약


세부 요약 - 주제별 정리

API 경계와 복잡한 AI 시스템에서 GPU 이해의 필요성이 강조됨

데이터베이스와 GPU: ‘사용자’로서 필수 지식을 비교해서 설명함

최근 오픈웨이트 모델 및 실행 소프트웨어 발전이 ‘셀프 호스팅’을 타당하게 만듦

GPU의 가장 큰 특징은 ‘저지연’이 아닌 ‘고대역폭’ 추구에 있음

병렬성(Parallelism)과 동시성(Concurrency) 두 축에서 GPU가 CPU를 월등히 능가함을 수치로 설명

Patterson’s Law(‘Latency lags bandwidth’)로 대역폭 중심 성능 진화의 본질 설명

GPU에서 메모리 대역폭보다 연산 대역폭이 훨씬 중요하며, n² 연산이 n번만 메모리 접근하면 최적임

소형 모델을 반복실행하거나 샘플을 모아 처리하는 방식이 하드웨어에 특화되어 있음을 실험으로 입증

Tensor Core는 저정밀 행렬 곱셈에 특화되어 멀티샘플·멀티토큰 예측 등의 연산을 거의 공짜로 만들어줌

’경량 모델 + 다중 샘플’ 전략이 실무에서 쉽고 경제적임을 데이터로 뒷받침

GPT, DeepSeek, Llama4 등 주요 LLM에서도 멀티토큰/멀티샘플 전략이 채택되고 있음

실무자 참고 리소스를 소개하며 발표를 마무리함


수정 요청하기

Previous Post
Robots as professional Chefs - Nikhil Abraham, CloudChef
Next Post
How to Train Your Agent: Building Reliable Agents with RL - Kyle Corbitt, OpenPipe