
영상 링크: From Mixture of Experts to Mixture of Agents with Super Fast Inference - Daniel Kim & Daria Soboleva
채널명: AI Engineer
전문가 혼합(Mixture of Experts)에서 초고속 추론을 갖춘 에이전트 혼합(Mixture of Agents)까지 핵심 요약
- 본 워크숍은 전문가 혼합(Mixture of Experts, MoE) 모델 구조의 개념과 의의, 그리고 이를 확장한 “에이전트 혼합(Mixture of Agents, MoA)” 아키텍처 실습으로 구성됨
- Cerebras의 연구진들과 팀원들이 발표하며, 자사의 독자적인 AI 칩셋(900,000개 코어 탑재)과 초고속 추론 경쟁력을 강조
- MoE는 단일 대형 신경망의 한계를 극복하고, 여러 ‘전문가 레이어’를 도입하여 대규모 모델을 효율적으로 확장하는 현대 LLM(대형 언어 모델) 업계의 표준 아키텍처임
- MoA는 다수의 LLM 에이전트를 결합, 각각을 특화된 역할(예: 버그 수정, 성능 최적화, 요약)로 배치하여 협동적으로 복잡 문제를 효율적으로 처리함
- Cerebras 하드웨어는 Llama-3 70B에서 GPU 대비 15.5배 빠른 추론 속도를 기록하며, 메모리/코어 직접연결 방식을 통해 기존 GPU(H100 등) 메모리 병목문제 극복
- 실제 사례로, 여러 LLM을 병렬·순차적으로 호출하여 상호 협동하게 설계된 챗봇(ninjate.ai)이 기존 방법 대비 40배 이상 빠르게 정답 도출(7.4초, 32회 Model Call, 50만 토큰 소모)
- 워크숍 실습에서는 Streamlit 환경에서 에이전트와 요약자 세팅, 프롬프트 편집, 다양한 LLM 모델 조합을 실시간 실험할 수 있는 MoA 챗봇 앱을 직접 구축함
- 실습 중 자동 채점 챌린지가 진행, 참가자들은 현업 수준의 Python 함수 최적화를 MoA 시스템만으로 해결하고, 주어진 기준(120점 만점) 달성을 목표로 함
- Q&A 세션에서는 Cerebras 하드웨어의 확장성, 전력효율성(기존 GPU 대비 약 1/3), 멀티모달·실시간 연산 지원 현황, 커스텀/파인튜닝 모델 온보딩 절차, MoA 성능 최적화 팁 등 심도 깊은 논의 진행
- 발표를 통해 MoE/MoA의 AI 산업 내 위상과 동시에 Cerebras만의 초고속 추론 HW·SW 생태계 경쟁력이 구체적 수치 및 엔지니어링 관점에서 상세히 소개됨
세부 요약 - 주제별 정리
워크숍의 전체 흐름과 발표자 소개로 초점이 맞추어짐
- 워크숍은 전문가 혼합 아키텍처(MoE) 개념 도입, MoA(에이전트 혼합) 응용 실습, 실시간 챗봇 앱 빌드, Q&A 세션 등으로 구성됨
- Daria Soboleva(Cerebras 수석 연구자)는 MoE 구조 LLM 연구 및 하드웨어 효율화 연구 경험을 설명(예시: Slim Pajama 데이터셋 제작)
- Daniel Kim(Head of Growth)은 개발자·스타트업 지원 및 마케팅, 토큰 할당 담당자로서의 역할 소개, 99%의 실습 코드를 제작한 고등학생 인턴 Kevin도 직접 소개
- Cerebras의 하드웨어, API 환경, 홍보 채널(Slack, Twitter), 사내 문화 등이 유머러스하게 공유됨
대형 언어 모델 발전사와 MoE의 등장 이유가 구체적으로 논의됨
- GPT-3(수십억 파라미터)–Llama 3(수백억)–DeepSeek 3(6천억) 등 LLM 경량/초대형화 역사 ‘모델 규모 확장이 곧 성능 향상’ 공식 설명
- 단순히 모델 파라미터 수만 늘릴 경우, 데이터 품질·훈련 토큰 수 확장이 선행되어야 했으나, 그 다음 한계 극복책으로 구조적 혁신 필요 대두
- ‘피드포워드 레이어’가 LLM 구조에서 병목을 일으키는 부분임을 언급하며, MoE는 이를 다수의 ‘전문가 네트워크’로 분산시켜 문제 해결
- 각 전문가(Expert)는 예컨대 수학, 생물학 등 특정 역량을 특화; 입력 토큰당 라우터(Router)가 가장 적합한 전문가만 선택·활성화하여 효율적이고 확장성 좋은 대형 모델 구현 가능
- MoE는 최종적으로 전체 추론 지연시간 증가 없이, 모델 품질(스킬셋)을 극대화하는 현대 AI 산업의 표준 구조(사례: OpenAI GPT-4, Anthropic 등)
MoE 구조의 구체적 내부 동작(피드포워드, 라우팅 등)이 그림과 함께 설명됨
- Transformer의 각 레이어(임베딩, 어텐션, 피드포워드)의 역할, 그 중 피드포워드 레이어의 결정적 병목 현상 논의
- 피드포워드 레이어를 다수로 분리, 각각을 Expert로 독립시킴; 예를 들어, 하나는 수학, 다른 하나는 생물 등 각기 다른 역할
- 네트워크 내 라우터(Router)가 각 입력 토큰별로 최적의 전문 네트워크만 활성화; 즉, 전체 Expert를 모두 구동하지 않으면서도 대형화 가능
- 모델의 병렬 처리 효율 증대, 규모 확대(파라미터 수 증설)가 inference time 증가 없이 달성됨
- 실제로 여러 산업 리더 업체의 대형 모델 구현표준화(각종 Frontier Model 사례)
추론시간 컴퓨트 및 ‘에이전트 혼합(MoA)’ 구조로의 확장이 산업적으로 제안됨
- Elia Ciscover(NeurIPS 2023)의 “추론시간 컴퓨트 시대” 발언을 인용하며, 훈련 데이터 한계(Unique Data Scarcity) 이후, 추론(서빙) 단계에서 추가적 연산과 아키텍처 혁신명이 강조됨
- 수학 문제 유형(예: AMC 대회 문제)에서 단일 모델은 비합리적 시간이 소요(예: GPT-4o·45초/오답, GPT-3·293초/정답)됨을 실증 예시로 제시
- MoA 구조는 여러 특화 LLM을 동시에 호출, 결과를 결합하고, 추론시간을 수초대로 획기적으로 단축시킴(ninjate.ai 실제 운영 사례: 7.4초, 32번 모델 호출, 50만 토큰 소모)
- 에이전트의 역할을 설계(예: 기획자–비평가–요약자 순서로 협력)하며, 병렬·순차적 LLM 워크플로우와 결합할 때 기존 ‘Frontier Model’ 단독 수행 대비 뛰어난 퍼포먼스 기록(수치, 과정 상세히 제시)
Cerebras 하드웨어 구조 및 초고속 추론 인프라 차별성이 수치/도표와 함께 정리됨
- 기존 GPU(H100)의 경우, 17,000코어/외부 메모리로 인해 대형 모델 추론 시 대용량 가중치·캐시(KV cache) 전송에 따른 병목 발생
- Cerebras는 단일 칩에 900,000개 코어 및 각 코어 전용 메모리(=900,000개 분산 메모리)를 탑재, 모든 연산 데이터가 on-chip에서 해결
- 각 코어가 독립적으로 메모리 접근, 가중치·중간 계산 결과 외부 전송이 거의 없어 ‘실시간 추론’이 가능
- 칩간 연산 데이터 전송량(activations)만 최소화; 대형 GPU 클러스터의 복잡한 네트워킹 병목을 본질적으로 제거하며, 단일 이더넷 수준 데이터 전송량임
- Llama3 70B 모델 기준, 기존 GPU 대비 15.5배(세계 기록) 빠른 추론 실측 데이터 제공
사용자 실습(Hands-on Workshop) 세션 안내 및 실습환경 준비가 상세하게 안내됨
- 참가자 각자 Cerebras 무료 API Key 발급, 공식 GitHub 저장소(MOA workshop) 포크, 앱 배포 방법(Streamlit 권장, 로컬 실행도 허용) 지시
- 슬랙 채널/QR코드/55번까지 슬라이드 등, 단계별 안내 및 실습 지원
- ‘수트로 나무’ 같은 UI 살펴보기 등 재미 요소를 강조하며, 실시간 질문 응대와 실습 오류(예: API키 rate limit) 해결 등 라이브워크숍 분위기를 안내
MoA 챗봇 앱 실전 빌딩 과정이 구체적으로 묘사됨
- Summarization Agent(최종 요약자), 개별 Agent(프롬프트, 모델, 온도 등 파라미터 자유 설정 가능) 등 세부 구조 설명
- 최대 3개 이상 에이전트·여러 레이어(층) 설정 가능, 각 레이어 결과를 다음 레이어 입력으로 순차 연결(병렬+순차 구성)
- 예시 입력(“샌프란시스코 여행 일정 추천” 등) 및 앱 동작 흐름(각 층별 에이전트 프로세스, 결합후 최종 결과 산출)
- 사용자들은 직접 다양한 프롬프트/모델/온도·레이어 수를 조합, 즉시 결과 비교 실습
자동 채점 챌린지 – 실제 코드 생성·최적화 태스크를 MoA로 해결하는 대회 운영 방식
- 참가자들은 calculate_user_matrix라는 Python 함수의 오류 수정/최적화 타스크를 MoA 시스템만 이용해 완수(120점 만점 자동 채점기)
- 각 에이전트 역할별로 버그 처리, 성능 개선, 통합 요약 등 세분화 과업 담당
- Baseline 채점점수(C 등급)에서 시작, 프롬프트·모델 조합을 자체 실험하며 코드 품질 상향(예: 모델 변경, 인터레이어 프롬프트 조율 등)
- 필요시 힌트 제공, 실습 결과에 따라 소정의 상품(실제 상품 아이디어는 참가자가 제안)도 수여
MoA 구조의 실제 문제해결 방식 및 반복 프롬프트의 대체 논의
- 기존 LLM으로 복잡한 문제를 풀 때 반복 프롬프트-수정-토큰 제한-초기화 등의 불편함 발생(예시: 수술 기획)
- MoA는 각 에이전트에게 문제의 특정 부분을 분담, 여러 전문 영역의 답변을 결합·최종해결책을 한 번에 제시(zero-shot 문제해결), 반복 프롬프트 불필요
- Prompt Engineering을 통해 각 에이전트 특화를 자유롭게 세팅, 병렬적 문제분할 및 결합이 실질적 효율로 이어짐
Q&A를 통해 Cerebras HW, MoA, 산업 적용, 운영상 난제 등 전문가 수준 질의응답 진행
- AutoML: 점차 더 어려운 문제에 대해 수작업 대신 자동화된 MoA·prompt 탐색 알고리즘 필요성, 실제 Devon(코드 생성 스타트업)의 사례와 대규모 서빙 병렬화로 인한 시간 단축 구조 논의
- 글로벌 하드웨어 배치: 미국 내 6개 데이터센터, 프랑스·캐나다 등 해외 진출/증설 계획 공유
- 신모델 온보딩 속도: 신규 모델(Kernel 준비)이 빨라질수록 온보딩 빨라짐, 유사 아키텍처(Llama류)는 수일, 비표준 모델은 더 소요
- 전력효율: 동일 workload 기준 Nvidia GPU 대비 1/3 수준, 코어/메모리 직접연결 구조 덕분에 성능/효율 모두 우수
- MoA vs. Ensemble/Boosting: Out-of-the-box 성능보다는 prompt/model tune이 품질 결정, 다수 agent가 균질하면 역효과도 가능; Feature importance/Redundancy 설명
- Fine-tuning 및 커스텀 모델 온보딩: 엔터프라이즈 한정으로 지원(Lora 기반 세부 지원 예정), 신규 아키텍처는 고객사와 커널 협업 필요
- Diffusion 모델: 연구 단계, 내부 데모 존재, 곧 실 운영목표(멀티모달–실시간 확대 중)
- 하드웨어 ‘파티셔닝’ 및 대형 모델 분산: SOC 파티셔닝은 현재 미지원, 서버 규모 무한 확장 가능, 퍼블릭 API는 rate limit 방식
- Cerebras 하드웨어 적합 특화 모델: Unstructured sparsity 알고리즘에 특히 유리함, 추론 오퍼링은 출시 9개월로 확장 초기 단계, 향후 Frontier 모델과 공동 개발 협력 예정
Cerebras HW 및 MoA의 실사용/생산환경 적용에 관한 구체적 사례 및 팁 제공
- “엔지니어가 코딩하지 않고도 시스템 아키텍처, prompt engineering만으로 production 수준 최적화가 가능”함을 실습 및 사례로 확인
- 인퍼런스를 위한 시스템 사이즈 무제한 확장, 퍼블릭 API에서는 사용자에 맞는 rate limit적용, 내부적으로 세분화된 인스턴스 관리
- Diffusion, 멀티모달, 커스텀 아키텍처까지 HW 차원에서 효율적인 지원/확장 가능성 실증
마무리 및 네트워킹 – 실제 운영 지원 및 실습 결과 인정 절차 안내
- 120점 만점 달성자 확인, 이메일·상품 아이디어 접수
- 추가 질문·비즈니스 제안은 발표자들(특히 Cerebras 스타트업 지원 담당자)에게 별도 상담 안내
- 전체적으로 ‘초고속 추론+아키텍처 혁신’이 실질적 AI 생산성과 산업적 효용에 어떻게 연결되는지 구체적 사례로 증명하며 마무리