영상 링크: Z.ai GLM 4.6: What We Learned From 100 Million Open Source Downloads — Yuxuan Zhang, Z.ai
채널명: AI Engineer
Z.ai GLM 4.6: 1억 건 오픈소스 다운로드에서 얻은 교훈 핵심 요약
- Z.ai는 2022년부터 오픈소스를 꾸준히 실천하며, 언어 모델, 이미지 생성, 비디오 생성 등 다양한 도메인의 모델을 65종 이상 공개함
- Open source 플랫폼(예: Hugging Face 등)에서 Z.ai 전체 모델 다운로드 수 1억 회 돌파, GitHub에는 1,500개가 넘는 커뮤니티 프로젝트가 생성됨
- 최신 플래그십 언어모델 GLM 4.6은 주요 퍼블릭 벤치마크에서 수학, 코딩 능력 등에서 GLM 4.5 및 동시기 타 오픈소스 모델 대비 뚜렷한 성능 향상을 달성
- Arena(실사용자 선호 벤치마크)에서는 GPT-5, Claude 4.5와 공동 1위 기록, 리스트 내 유일한 오픈소스 모델로 등재
- 자체 개발한 ‘CC Bench’ 데이터셋을 통해 실제 프론트엔드, 데이터 분석 등 다양한 코딩 과제 74개에서 68.6% 우승률로 평가됨
- 15조 토큰의 대규모 사전학습, 7조 토큰 추가 코드·추론 데이터, 3.2만 토큰 맥락 학습 등 복잡한 학습 커리큘럼과 자신들만의 RL 방식 적용
- RL 최적화 프레임워크(‘SLIDE’ 등)를 자체 개발하여, 긴 문맥·코딩·에이전트 작업에서 효율성 극대화
- 고품질 소규모 데이터가 과학적 추론 능력 향상에 큰 기여, 데이터양보다 데이터 질의 중요성 강조
- GLM 4.5V 이후 이미지·비디오 이해 및 GUI 에이전트 제어 기능 추가
- 오픈소스 프레임워크를 통한 직접 모델 배포 또는 Z.ai 웹사이트에서 클라우드로 활용 가능, 활발한 커뮤니티 운영과 다양한 활용 리소스 제공
세부 요약 - 주제별 정리
Z.ai는 다양한 AI 모델을 오픈소스로 공개하며 커뮤니티 기반 생태계를 구축함
- 2022년 G30B 첫 오픈소스 공개 이후, 언어모델(GLM 시리즈), 비전(이미지 생성), 비디오 생성, 멀티모달 이해 등 다양한 모델을 개발 및 배포함
- 백서에 등장하는 모델 지도에서, 언어모델(하양), 멀티모달 이해(분홍), 이미지 생성(초록), 비디오 생성(노랑) 등 각 도메인별로 구분
- 2025년을 ‘오픈소스의 해’로 삼고, GM4 0414 dense(9B, 32B), GM4.5, GM4.6 MO 시리즈 등 더욱 다양한 모델을 연이어 공개
- 지금까지 65개 이상의 모델을 출시했으며, Hugging Face, ModelScope 등 주요 플랫폼에서 1억 건 이상의 다운로드 달성
- GitHub에는 GLM 혹은 video 키워드로 1,500개 이상의 커뮤니티 프로젝트가 오픈되어 활발한 협업과 생태계 발전 추구
GLM 4.6은 공개 벤치마크 및 실사용자 평가에서 동급 최고 수준의 성능을 보여줌
- GLM 4.6은 주력 플래그십 모델로 언어/수학/코딩 벤치마크에서 전작 GLM 4.5 및 동시기 오픈소스·상업용 모델(예: Deepseek v3.2, Claude 4)보다 우수한 성적 기록
- 실사용자 선호도를 평가하는 Arena 벤치마크에서는 오픈소스 모델 중 유일하게, GPT-5, Claude 4.5와 함께 공동 1위로 선정
- GLM 4.6의 Arena 벤치마크 결과는 실사용자 관점의 성능 측정에서 오픈소스 진영의 경쟁력을 보여주는 성과로 언급됨
- 코드 추론 특화 자체 개발 벤치(CityBench)에서는 프론트엔드/내부툴/데이터분석/알고리즘까지 74개 실제 과제에서 약 68.6%의 승률로 타 오픈소스 대비 높은 수준
- GLM 4.6은 대형 상업용 모델에 비해 미세한 성능 차이가 남아 있으나, 빠른 속도로 격차를 줄여가고 있음
GLM 4.6의 뛰어난 성능은 방대한 데이터와 단계별 학습 전략에서 비롯됨
- 1단계: 15조 토큰(웹, 북, 위키피디아, 다국어 등)의 대규모 사전학습으로 범용성 확보, 컨텍스트 4,000 토큰 지원
- 2단계: 7조 토큰 추가 코딩·추론 데이터(고품질 오픈소스 리포트, 수학·과학·프로그래밍 with step-by-step reasoning)로 특화능력 강화
- 3단계: ‘Mid-training’ 단계에서 여러 파일, 이슈, PR 기록 등 실제 리포의 흐름을 길게 넣어, 3.2만 토큰까지 문맥 처리 가능하도록訓련 (중형 리포의 핵심 파일을 한 번에 입력 가능)
- 4단계: 5000억 토큰의 합성(synthetic) 추론 데이터(수학, 과학, 알고리즘 문제 풀이)의 실시간 사고 트레이스 추가로 에이전트 행동 기반 마련
- 5단계: 1000억 토큰의 장문 컨텐츠·에이전트 데이터 투입, 최대 20만(200K) 토큰 컨텍스트 지원
- 여러 단계에서 멀티 스텝 작업, 코드 실행, tool call 등 실환경 작업을 염두에 둔 학습 수행
Z.ai는 RL(Animation: SLIDE 등)을 통해 에이전트 및 긴 문맥 처리 최적화에 성공함
- 강화학습(RL) 프레임워크 ‘SLIDE’를 자체 개발, 다양한 태스크 환경(짧은 수학부터 긴 에이전트 작업)별로 최적 학습 파이프라인 설계
- 단거리 추론(수학, 코드 완성)에는 훈련과 추론을 동일 GPU 상에서 실시간 업데이트 방식으로 처리하여 효율 극대화
- 장거리 에이전트 환경(브라우저 제어, API 호출 등명)에서는 트레이닝과 환경 수행을 분리 → 느린 태스크가 전체 속도를 저해하지 않음
- 데이터 생성/동기화를 효율적으로 운영해, 고가의 자원(데이터 생성)이 발생하는 RL 환경에서 훈련 성능 및 효율성 극대화
단계별 커리큘럼과 데이터 질적·양적 전략이 성능 향상에 중요한 역할을 함
- 학습 커리큘럼: 난이도별 2단계 방식(1단계: 중간 난이도, 2단계: 최상 난이도) 적용 → 점진적 성능 향상 유도
- RL 세션에서 토큰 길이(64,000) 별 단일 스테이지 훈련이 다단계보다 긴 문맥 유지에 효과적임을 실험적으로 검증
- 코딩 학습 시, 시퀀스 평균 loss 대신 토큰 평균 loss를 사용하면 더욱 빠르고 안정적으로 수렴함을 확인
- 과학/수학형 데이터에서는 ‘데이터 양’보다 ‘질 좋은 전문가 소량 데이터’가 실제 성능 향상에 더 효과적임을 시각화 데이터로 제시
GLM 4.6 및 4.5V는 이미지, 비디오, GUI 등 멀티모달 능력도 크게 향상됨
- GLM 4.5V는 이미지와 비디오 이해(grounding), 시계열(temporal) 파악 등 멀티모달 벤치마크에서 동시기 오픈소스 대비 경쟁력 확보
- 아키텍처: Vision Transformer(backbone), MLP projector, GLM 4.5 기반
- 이미지 입력은 해상도·비율을 최대한 보존(정사각형 입력 고정 X) → 스크린샷, 롱 vertical 이미지 활용에 강점
- 비디오의 경우, 프레임별 time index 토큰 삽입으로, 액션의 시퀀스와 시간적 흐름 파악 능력 강화
- GUI 에이전트(GUI Agent) 기능 지원: 모델이 키보드, 마우스 제어로 실제 브라우저, 컴퓨터, 모바일 환경상 조작 가능
GLM 4.6은 누구나 다양한 방법으로 직접 활용할 수 있음
- 오픈소스 웨이트(weights)로 직접 배포: Helon, VLM, Llama Factory, MS Swift 등 다수 프레임워크와 연동
- 공식 클라우드 데모(Web: Z.ai)에서 별도 세팅 없이 모델 사용 가능
- 코딩 중심 특화 서비스를 위해 GM Coding Plan 제공 → 클라우드 코드 등 다양한 개발툴과 플러그인 연동
- 간단한 명령어로 프레임워크 내 즉시 deploy 가능
GLM 모델군은 커뮤니티 중심의 활발한 개발, 공식 이벤트, 자료공개로 생태계 확장 중임
- 모델 신규 릴리즈 시, 커뮤니티 AMA, 오프라인/온라인 기술 공유 세션 등 활발한 커뮤니티 이벤트 개최
- 공식 웹사이트(z.ai)에서 바로 체험 가능, REST API, 기술/연구 리포트도 전면 공개
- 디스코드, GitHub 등에서 커뮤니티 상시 개방, 오픈소스 모델 배포 및 활용 방법(README 등) 자세히 안내
실제 예시와 사용법 안내를 통해 실질적 도입 장벽을 낮춤
- Helon, VLM 등 프레임워크 배포 활용법 단계별 안내
- z.ai 웹사이트에서 검색/파워포인트 작성, 코드 생성 등 실제 시연 영상 소개
- GM Coding Plan 기능으로 다른 모델(Yodi 등)과의 실질적 대체 및 활용법 데모 영상 안내
효율 최적화(정밀도, 속도) 및 공유 인프라 구축으로 확장성 강화함
- float16 정밀도 기반 안정적인 메인체인 운영, 정책 업데이트마다 blockwise FDA 동기화 후 최신가중치 전송
- 비싼 연산(데이터 생성/FDA)은 고정 발전 output, 실제 훈련은 BF16 정밀도 운영으로 accuracy와 속도 동시 달성
- 다양한 인프라와 오픈소스 프레임으로 누구나 손쉽게 대형 언어/비전 모델을 활용 및 기여할 수 있는 환경 구축
GLM 4.6, 4.5 모델 관련 공식 자료와 커뮤니티 진입 출처를 모두 투명하게 공개함
- 공식 웹사이트, API 접속 정보, GLM 4.6 및 4.5V 기술 리포트, 논문 등 모두 링크 및 경로 안내
- 디스코드 채널, GitHub(실제 오픈소스 코드, Readme, 배포 방법) 모든 커뮤니티 자원 공개
- 누구나 자유롭게 체험·기여·활용 가능한 열린 구조를 강조