From Mixture of Experts to Mixture of Agents with Super Fast Inference - Daniel Kim & Daria Soboleva

영상 링크: From Mixture of Experts to Mixture of Agents with Super Fast Inference - Daniel Kim & Daria Soboleva
채널명: AI Engineer

전문가 혼합(Mixture of Experts)에서 초고속 추론을 갖춘 에이전트 혼합(Mixture of Agents)까지 핵심 요약

본 워크숍은 전문가 혼합(Mixture of Experts, MoE) 모델 구조의 개념과 의의, 그리고 이를 확장한 “에이전트 혼합(Mixture of Agents, MoA)” 아키텍처 실습으로 구성됨
Cerebras의 연구진들과 팀원들이 발표하며, 자사의 독자적인 AI 칩셋(900,000개 코어 탑재)과 초고속 추론 경쟁력을 강조
MoE는 단일 대형 신경망의 한계를 극복하고, 여러 ‘전문가 레이어’를 도입하여 대규모 모델을 효율적으로 확장하는 현대 LLM(대형 언어 모델) 업계의 표준 아키텍처임
MoA는 다수의 LLM 에이전트를 결합, 각각을 특화된 역할(예: 버그 수정, 성능 최적화, 요약)로 배치하여 협동적으로 복잡 문제를 효율적으로 처리함
Cerebras 하드웨어는 Llama-3 70B에서 GPU 대비 15.5배 빠른 추론 속도를 기록하며, 메모리/코어 직접연결 방식을 통해 기존 GPU(H100 등) 메모리 병목문제 극복
실제 사례로, 여러 LLM을 병렬·순차적으로 호출하여 상호 협동하게 설계된 챗봇(ninjate.ai)이 기존 방법 대비 40배 이상 빠르게 정답 도출(7.4초, 32회 Model Call, 50만 토큰 소모)
워크숍 실습에서는 Streamlit 환경에서 에이전트와 요약자 세팅, 프롬프트 편집, 다양한 LLM 모델 조합을 실시간 실험할 수 있는 MoA 챗봇 앱을 직접 구축함
실습 중 자동 채점 챌린지가 진행, 참가자들은 현업 수준의 Python 함수 최적화를 MoA 시스템만으로 해결하고, 주어진 기준(120점 만점) 달성을 목표로 함
Q&A 세션에서는 Cerebras 하드웨어의 확장성, 전력효율성(기존 GPU 대비 약 1/3), 멀티모달·실시간 연산 지원 현황, 커스텀/파인튜닝 모델 온보딩 절차, MoA 성능 최적화 팁 등 심도 깊은 논의 진행
발표를 통해 MoE/MoA의 AI 산업 내 위상과 동시에 Cerebras만의 초고속 추론 HW·SW 생태계 경쟁력이 구체적 수치 및 엔지니어링 관점에서 상세히 소개됨

세부 요약 - 주제별 정리

워크숍의 전체 흐름과 발표자 소개로 초점이 맞추어짐

워크숍은 전문가 혼합 아키텍처(MoE) 개념 도입, MoA(에이전트 혼합) 응용 실습, 실시간 챗봇 앱 빌드, Q&A 세션 등으로 구성됨
Daria Soboleva(Cerebras 수석 연구자)는 MoE 구조 LLM 연구 및 하드웨어 효율화 연구 경험을 설명(예시: Slim Pajama 데이터셋 제작)
Daniel Kim(Head of Growth)은 개발자·스타트업 지원 및 마케팅, 토큰 할당 담당자로서의 역할 소개, 99%의 실습 코드를 제작한 고등학생 인턴 Kevin도 직접 소개
Cerebras의 하드웨어, API 환경, 홍보 채널(Slack, Twitter), 사내 문화 등이 유머러스하게 공유됨

대형 언어 모델 발전사와 MoE의 등장 이유가 구체적으로 논의됨

GPT-3(수십억 파라미터)–Llama 3(수백억)–DeepSeek 3(6천억) 등 LLM 경량/초대형화 역사 ‘모델 규모 확장이 곧 성능 향상’ 공식 설명
단순히 모델 파라미터 수만 늘릴 경우, 데이터 품질·훈련 토큰 수 확장이 선행되어야 했으나, 그 다음 한계 극복책으로 구조적 혁신 필요 대두
‘피드포워드 레이어’가 LLM 구조에서 병목을 일으키는 부분임을 언급하며, MoE는 이를 다수의 ‘전문가 네트워크’로 분산시켜 문제 해결
각 전문가(Expert)는 예컨대 수학, 생물학 등 특정 역량을 특화; 입력 토큰당 라우터(Router)가 가장 적합한 전문가만 선택·활성화하여 효율적이고 확장성 좋은 대형 모델 구현 가능
MoE는 최종적으로 전체 추론 지연시간 증가 없이, 모델 품질(스킬셋)을 극대화하는 현대 AI 산업의 표준 구조(사례: OpenAI GPT-4, Anthropic 등)

MoE 구조의 구체적 내부 동작(피드포워드, 라우팅 등)이 그림과 함께 설명됨

Transformer의 각 레이어(임베딩, 어텐션, 피드포워드)의 역할, 그 중 피드포워드 레이어의 결정적 병목 현상 논의
피드포워드 레이어를 다수로 분리, 각각을 Expert로 독립시킴; 예를 들어, 하나는 수학, 다른 하나는 생물 등 각기 다른 역할
네트워크 내 라우터(Router)가 각 입력 토큰별로 최적의 전문 네트워크만 활성화; 즉, 전체 Expert를 모두 구동하지 않으면서도 대형화 가능
모델의 병렬 처리 효율 증대, 규모 확대(파라미터 수 증설)가 inference time 증가 없이 달성됨
실제로 여러 산업 리더 업체의 대형 모델 구현표준화(각종 Frontier Model 사례)

추론시간 컴퓨트 및 ‘에이전트 혼합(MoA)’ 구조로의 확장이 산업적으로 제안됨

Elia Ciscover(NeurIPS 2023)의 “추론시간 컴퓨트 시대” 발언을 인용하며, 훈련 데이터 한계(Unique Data Scarcity) 이후, 추론(서빙) 단계에서 추가적 연산과 아키텍처 혁신명이 강조됨
수학 문제 유형(예: AMC 대회 문제)에서 단일 모델은 비합리적 시간이 소요(예: GPT-4o·45초/오답, GPT-3·293초/정답)됨을 실증 예시로 제시
MoA 구조는 여러 특화 LLM을 동시에 호출, 결과를 결합하고, 추론시간을 수초대로 획기적으로 단축시킴(ninjate.ai 실제 운영 사례: 7.4초, 32번 모델 호출, 50만 토큰 소모)
에이전트의 역할을 설계(예: 기획자–비평가–요약자 순서로 협력)하며, 병렬·순차적 LLM 워크플로우와 결합할 때 기존 ‘Frontier Model’ 단독 수행 대비 뛰어난 퍼포먼스 기록(수치, 과정 상세히 제시)

Cerebras 하드웨어 구조 및 초고속 추론 인프라 차별성이 수치/도표와 함께 정리됨

기존 GPU(H100)의 경우, 17,000코어/외부 메모리로 인해 대형 모델 추론 시 대용량 가중치·캐시(KV cache) 전송에 따른 병목 발생
Cerebras는 단일 칩에 900,000개 코어 및 각 코어 전용 메모리(=900,000개 분산 메모리)를 탑재, 모든 연산 데이터가 on-chip에서 해결
각 코어가 독립적으로 메모리 접근, 가중치·중간 계산 결과 외부 전송이 거의 없어 ‘실시간 추론’이 가능
칩간 연산 데이터 전송량(activations)만 최소화; 대형 GPU 클러스터의 복잡한 네트워킹 병목을 본질적으로 제거하며, 단일 이더넷 수준 데이터 전송량임
Llama3 70B 모델 기준, 기존 GPU 대비 15.5배(세계 기록) 빠른 추론 실측 데이터 제공

사용자 실습(Hands-on Workshop) 세션 안내 및 실습환경 준비가 상세하게 안내됨

참가자 각자 Cerebras 무료 API Key 발급, 공식 GitHub 저장소(MOA workshop) 포크, 앱 배포 방법(Streamlit 권장, 로컬 실행도 허용) 지시
슬랙 채널/QR코드/55번까지 슬라이드 등, 단계별 안내 및 실습 지원
‘수트로 나무’ 같은 UI 살펴보기 등 재미 요소를 강조하며, 실시간 질문 응대와 실습 오류(예: API키 rate limit) 해결 등 라이브워크숍 분위기를 안내

MoA 챗봇 앱 실전 빌딩 과정이 구체적으로 묘사됨

Summarization Agent(최종 요약자), 개별 Agent(프롬프트, 모델, 온도 등 파라미터 자유 설정 가능) 등 세부 구조 설명
최대 3개 이상 에이전트·여러 레이어(층) 설정 가능, 각 레이어 결과를 다음 레이어 입력으로 순차 연결(병렬+순차 구성)
예시 입력(“샌프란시스코 여행 일정 추천” 등) 및 앱 동작 흐름(각 층별 에이전트 프로세스, 결합후 최종 결과 산출)
사용자들은 직접 다양한 프롬프트/모델/온도·레이어 수를 조합, 즉시 결과 비교 실습

자동 채점 챌린지 – 실제 코드 생성·최적화 태스크를 MoA로 해결하는 대회 운영 방식

참가자들은 calculate_user_matrix라는 Python 함수의 오류 수정/최적화 타스크를 MoA 시스템만 이용해 완수(120점 만점 자동 채점기)
각 에이전트 역할별로 버그 처리, 성능 개선, 통합 요약 등 세분화 과업 담당
Baseline 채점점수(C 등급)에서 시작, 프롬프트·모델 조합을 자체 실험하며 코드 품질 상향(예: 모델 변경, 인터레이어 프롬프트 조율 등)
필요시 힌트 제공, 실습 결과에 따라 소정의 상품(실제 상품 아이디어는 참가자가 제안)도 수여

MoA 구조의 실제 문제해결 방식 및 반복 프롬프트의 대체 논의

기존 LLM으로 복잡한 문제를 풀 때 반복 프롬프트-수정-토큰 제한-초기화 등의 불편함 발생(예시: 수술 기획)
MoA는 각 에이전트에게 문제의 특정 부분을 분담, 여러 전문 영역의 답변을 결합·최종해결책을 한 번에 제시(zero-shot 문제해결), 반복 프롬프트 불필요
Prompt Engineering을 통해 각 에이전트 특화를 자유롭게 세팅, 병렬적 문제분할 및 결합이 실질적 효율로 이어짐

Q&A를 통해 Cerebras HW, MoA, 산업 적용, 운영상 난제 등 전문가 수준 질의응답 진행

AutoML: 점차 더 어려운 문제에 대해 수작업 대신 자동화된 MoA·prompt 탐색 알고리즘 필요성, 실제 Devon(코드 생성 스타트업)의 사례와 대규모 서빙 병렬화로 인한 시간 단축 구조 논의
글로벌 하드웨어 배치: 미국 내 6개 데이터센터, 프랑스·캐나다 등 해외 진출/증설 계획 공유
신모델 온보딩 속도: 신규 모델(Kernel 준비)이 빨라질수록 온보딩 빨라짐, 유사 아키텍처(Llama류)는 수일, 비표준 모델은 더 소요
전력효율: 동일 workload 기준 Nvidia GPU 대비 1/3 수준, 코어/메모리 직접연결 구조 덕분에 성능/효율 모두 우수
MoA vs. Ensemble/Boosting: Out-of-the-box 성능보다는 prompt/model tune이 품질 결정, 다수 agent가 균질하면 역효과도 가능; Feature importance/Redundancy 설명
Fine-tuning 및 커스텀 모델 온보딩: 엔터프라이즈 한정으로 지원(Lora 기반 세부 지원 예정), 신규 아키텍처는 고객사와 커널 협업 필요
Diffusion 모델: 연구 단계, 내부 데모 존재, 곧 실 운영목표(멀티모달–실시간 확대 중)
하드웨어 ‘파티셔닝’ 및 대형 모델 분산: SOC 파티셔닝은 현재 미지원, 서버 규모 무한 확장 가능, 퍼블릭 API는 rate limit 방식
Cerebras 하드웨어 적합 특화 모델: Unstructured sparsity 알고리즘에 특히 유리함, 추론 오퍼링은 출시 9개월로 확장 초기 단계, 향후 Frontier 모델과 공동 개발 협력 예정

Cerebras HW 및 MoA의 실사용/생산환경 적용에 관한 구체적 사례 및 팁 제공

“엔지니어가 코딩하지 않고도 시스템 아키텍처, prompt engineering만으로 production 수준 최적화가 가능”함을 실습 및 사례로 확인
인퍼런스를 위한 시스템 사이즈 무제한 확장, 퍼블릭 API에서는 사용자에 맞는 rate limit적용, 내부적으로 세분화된 인스턴스 관리
Diffusion, 멀티모달, 커스텀 아키텍처까지 HW 차원에서 효율적인 지원/확장 가능성 실증

마무리 및 네트워킹 – 실제 운영 지원 및 실습 결과 인정 절차 안내

120점 만점 달성자 확인, 이메일·상품 아이디어 접수
추가 질문·비즈니스 제안은 발표자들(특히 Cerebras 스타트업 지원 담당자)에게 별도 상담 안내
전체적으로 ‘초고속 추론+아키텍처 혁신’이 실질적 AI 생산성과 산업적 효용에 어떻게 연결되는지 구체적 사례로 증명하며 마무리