Z.ai GLM 4.6: What We Learned From 100 Million Open Source Downloads - Yuxuan Zhang, Z.ai

영상 링크: Z.ai GLM 4.6: What We Learned From 100 Million Open Source Downloads — Yuxuan Zhang, Z.ai
채널명: AI Engineer

Z.ai GLM 4.6: 1억 건 오픈소스 다운로드에서 얻은 교훈 핵심 요약

Z.ai는 2022년부터 오픈소스를 꾸준히 실천하며, 언어 모델, 이미지 생성, 비디오 생성 등 다양한 도메인의 모델을 65종 이상 공개함
Open source 플랫폼(예: Hugging Face 등)에서 Z.ai 전체 모델 다운로드 수 1억 회 돌파, GitHub에는 1,500개가 넘는 커뮤니티 프로젝트가 생성됨
최신 플래그십 언어모델 GLM 4.6은 주요 퍼블릭 벤치마크에서 수학, 코딩 능력 등에서 GLM 4.5 및 동시기 타 오픈소스 모델 대비 뚜렷한 성능 향상을 달성
Arena(실사용자 선호 벤치마크)에서는 GPT-5, Claude 4.5와 공동 1위 기록, 리스트 내 유일한 오픈소스 모델로 등재
자체 개발한 ‘CC Bench’ 데이터셋을 통해 실제 프론트엔드, 데이터 분석 등 다양한 코딩 과제 74개에서 68.6% 우승률로 평가됨
15조 토큰의 대규모 사전학습, 7조 토큰 추가 코드·추론 데이터, 3.2만 토큰 맥락 학습 등 복잡한 학습 커리큘럼과 자신들만의 RL 방식 적용
RL 최적화 프레임워크(‘SLIDE’ 등)를 자체 개발하여, 긴 문맥·코딩·에이전트 작업에서 효율성 극대화
고품질 소규모 데이터가 과학적 추론 능력 향상에 큰 기여, 데이터양보다 데이터 질의 중요성 강조
GLM 4.5V 이후 이미지·비디오 이해 및 GUI 에이전트 제어 기능 추가
오픈소스 프레임워크를 통한 직접 모델 배포 또는 Z.ai 웹사이트에서 클라우드로 활용 가능, 활발한 커뮤니티 운영과 다양한 활용 리소스 제공

세부 요약 - 주제별 정리

Z.ai는 다양한 AI 모델을 오픈소스로 공개하며 커뮤니티 기반 생태계를 구축함

2022년 G30B 첫 오픈소스 공개 이후, 언어모델(GLM 시리즈), 비전(이미지 생성), 비디오 생성, 멀티모달 이해 등 다양한 모델을 개발 및 배포함
백서에 등장하는 모델 지도에서, 언어모델(하양), 멀티모달 이해(분홍), 이미지 생성(초록), 비디오 생성(노랑) 등 각 도메인별로 구분
2025년을 ‘오픈소스의 해’로 삼고, GM4 0414 dense(9B, 32B), GM4.5, GM4.6 MO 시리즈 등 더욱 다양한 모델을 연이어 공개
지금까지 65개 이상의 모델을 출시했으며, Hugging Face, ModelScope 등 주요 플랫폼에서 1억 건 이상의 다운로드 달성
GitHub에는 GLM 혹은 video 키워드로 1,500개 이상의 커뮤니티 프로젝트가 오픈되어 활발한 협업과 생태계 발전 추구

GLM 4.6은 공개 벤치마크 및 실사용자 평가에서 동급 최고 수준의 성능을 보여줌

GLM 4.6은 주력 플래그십 모델로 언어/수학/코딩 벤치마크에서 전작 GLM 4.5 및 동시기 오픈소스·상업용 모델(예: Deepseek v3.2, Claude 4)보다 우수한 성적 기록
실사용자 선호도를 평가하는 Arena 벤치마크에서는 오픈소스 모델 중 유일하게, GPT-5, Claude 4.5와 함께 공동 1위로 선정
GLM 4.6의 Arena 벤치마크 결과는 실사용자 관점의 성능 측정에서 오픈소스 진영의 경쟁력을 보여주는 성과로 언급됨
코드 추론 특화 자체 개발 벤치(CityBench)에서는 프론트엔드/내부툴/데이터분석/알고리즘까지 74개 실제 과제에서 약 68.6%의 승률로 타 오픈소스 대비 높은 수준
GLM 4.6은 대형 상업용 모델에 비해 미세한 성능 차이가 남아 있으나, 빠른 속도로 격차를 줄여가고 있음

GLM 4.6의 뛰어난 성능은 방대한 데이터와 단계별 학습 전략에서 비롯됨

1단계: 15조 토큰(웹, 북, 위키피디아, 다국어 등)의 대규모 사전학습으로 범용성 확보, 컨텍스트 4,000 토큰 지원
2단계: 7조 토큰 추가 코딩·추론 데이터(고품질 오픈소스 리포트, 수학·과학·프로그래밍 with step-by-step reasoning)로 특화능력 강화
3단계: ‘Mid-training’ 단계에서 여러 파일, 이슈, PR 기록 등 실제 리포의 흐름을 길게 넣어, 3.2만 토큰까지 문맥 처리 가능하도록訓련 (중형 리포의 핵심 파일을 한 번에 입력 가능)
4단계: 5000억 토큰의 합성(synthetic) 추론 데이터(수학, 과학, 알고리즘 문제 풀이)의 실시간 사고 트레이스 추가로 에이전트 행동 기반 마련
5단계: 1000억 토큰의 장문 컨텐츠·에이전트 데이터 투입, 최대 20만(200K) 토큰 컨텍스트 지원
여러 단계에서 멀티 스텝 작업, 코드 실행, tool call 등 실환경 작업을 염두에 둔 학습 수행

Z.ai는 RL(Animation: SLIDE 등)을 통해 에이전트 및 긴 문맥 처리 최적화에 성공함

강화학습(RL) 프레임워크 ‘SLIDE’를 자체 개발, 다양한 태스크 환경(짧은 수학부터 긴 에이전트 작업)별로 최적 학습 파이프라인 설계
단거리 추론(수학, 코드 완성)에는 훈련과 추론을 동일 GPU 상에서 실시간 업데이트 방식으로 처리하여 효율 극대화
장거리 에이전트 환경(브라우저 제어, API 호출 등명)에서는 트레이닝과 환경 수행을 분리 → 느린 태스크가 전체 속도를 저해하지 않음
데이터 생성/동기화를 효율적으로 운영해, 고가의 자원(데이터 생성)이 발생하는 RL 환경에서 훈련 성능 및 효율성 극대화

단계별 커리큘럼과 데이터 질적·양적 전략이 성능 향상에 중요한 역할을 함

학습 커리큘럼: 난이도별 2단계 방식(1단계: 중간 난이도, 2단계: 최상 난이도) 적용 → 점진적 성능 향상 유도
RL 세션에서 토큰 길이(64,000) 별 단일 스테이지 훈련이 다단계보다 긴 문맥 유지에 효과적임을 실험적으로 검증
코딩 학습 시, 시퀀스 평균 loss 대신 토큰 평균 loss를 사용하면 더욱 빠르고 안정적으로 수렴함을 확인
과학/수학형 데이터에서는 ‘데이터 양’보다 ‘질 좋은 전문가 소량 데이터’가 실제 성능 향상에 더 효과적임을 시각화 데이터로 제시

GLM 4.6 및 4.5V는 이미지, 비디오, GUI 등 멀티모달 능력도 크게 향상됨

GLM 4.5V는 이미지와 비디오 이해(grounding), 시계열(temporal) 파악 등 멀티모달 벤치마크에서 동시기 오픈소스 대비 경쟁력 확보
아키텍처: Vision Transformer(backbone), MLP projector, GLM 4.5 기반
이미지 입력은 해상도·비율을 최대한 보존(정사각형 입력 고정 X) → 스크린샷, 롱 vertical 이미지 활용에 강점
비디오의 경우, 프레임별 time index 토큰 삽입으로, 액션의 시퀀스와 시간적 흐름 파악 능력 강화
GUI 에이전트(GUI Agent) 기능 지원: 모델이 키보드, 마우스 제어로 실제 브라우저, 컴퓨터, 모바일 환경상 조작 가능

GLM 4.6은 누구나 다양한 방법으로 직접 활용할 수 있음

오픈소스 웨이트(weights)로 직접 배포: Helon, VLM, Llama Factory, MS Swift 등 다수 프레임워크와 연동
공식 클라우드 데모(Web: Z.ai)에서 별도 세팅 없이 모델 사용 가능
코딩 중심 특화 서비스를 위해 GM Coding Plan 제공 → 클라우드 코드 등 다양한 개발툴과 플러그인 연동
간단한 명령어로 프레임워크 내 즉시 deploy 가능

GLM 모델군은 커뮤니티 중심의 활발한 개발, 공식 이벤트, 자료공개로 생태계 확장 중임

모델 신규 릴리즈 시, 커뮤니티 AMA, 오프라인/온라인 기술 공유 세션 등 활발한 커뮤니티 이벤트 개최
공식 웹사이트(z.ai)에서 바로 체험 가능, REST API, 기술/연구 리포트도 전면 공개
디스코드, GitHub 등에서 커뮤니티 상시 개방, 오픈소스 모델 배포 및 활용 방법(README 등) 자세히 안내

실제 예시와 사용법 안내를 통해 실질적 도입 장벽을 낮춤

Helon, VLM 등 프레임워크 배포 활용법 단계별 안내
z.ai 웹사이트에서 검색/파워포인트 작성, 코드 생성 등 실제 시연 영상 소개
GM Coding Plan 기능으로 다른 모델(Yodi 등)과의 실질적 대체 및 활용법 데모 영상 안내

효율 최적화(정밀도, 속도) 및 공유 인프라 구축으로 확장성 강화함

float16 정밀도 기반 안정적인 메인체인 운영, 정책 업데이트마다 blockwise FDA 동기화 후 최신가중치 전송
비싼 연산(데이터 생성/FDA)은 고정 발전 output, 실제 훈련은 BF16 정밀도 운영으로 accuracy와 속도 동시 달성
다양한 인프라와 오픈소스 프레임으로 누구나 손쉽게 대형 언어/비전 모델을 활용 및 기여할 수 있는 환경 구축

GLM 4.6, 4.5 모델 관련 공식 자료와 커뮤니티 진입 출처를 모두 투명하게 공개함

공식 웹사이트, API 접속 정보, GLM 4.6 및 4.5V 기술 리포트, 논문 등 모두 링크 및 경로 안내
디스코드 채널, GitHub(실제 오픈소스 코드, Readme, 배포 방법) 모든 커뮤니티 자원 공개
누구나 자유롭게 체험·기여·활용 가능한 열린 구조를 강조