
영상 링크: Training Agentic Reasoners — Will Brown, Prime Intellect
채널명: AI Engineer
에이전틱 추론자를 훈련시키기 핵심 요약
- 영상은 에이전틱(Agentic) 소프트웨어와 추론 시스템을 훈련시키는 방법, 특별히 RL(Reinforcement Learning, 강화학습)을 중심으로 설명함
- 발표자는 “추론과 에이전트 개발은 사실상 같은 개념”이라는 것을 입증하며, RL이 두 영역을 연결하는 핵심 기술임을 강조
- DeepSeek, OpenAI의 03 등 RL을 대규모로 적용한 최신 모델들이 기존 방식보다 실제로 더 우수한 성능을 보임을 언급
- RL 적용 과정이 복잡해 보이지만, 실제로 중요한 컴퓨팅 환경, 신호 설계, 모델 셋업만 제대로 하면 점진적인 성능 향상을 확인 가능하다고 주장
- 대형 연구실/기업(Lab)뿐 아니라 스타트업이나 개인 연구자도 RL 기반 에이전트 훈련이 점점 현실적으로 가능해지고 있다고 설명
- “에이전트 구축의 실질적 핵심은 여러 도구(tool)와 시스템 상호작용을 활용해 다중 스텝 문제를 풀 수 있도록 만드는 것”이라고 명확히 설명
- RL 핵심 알고리즘(DPO, PO, GRPO) 차이, 장·단점, 연산 효율성 등 실무에서 마주치는 구체적인 문제와 경험을 공유
- 벤치마크 데이터셋(특히 수학/코딩 환경) 중심 RL에서 실제 업무/실문제 적용으로의 한계와 ‘리워드 해킹’ 등 현실적인 어려움도 지적함
- 리워드 모델·루브릭, LM judge, 자동화 평가(generator-verifier gap) 등 최신 논문 및 실험사례 소개
- 오픈소스 툴킷(verifiers 레포, pip 배포)로 RL 기반 에이전트 구축·실험이 매우 간소화됐음을 직접 예시(Wordle 에이전트 등)와 함께 설명함
세부 요약 - 주제별 정리
RL의 대규모 적용은 에이전틱 에이전트 시대를 현실로 만듦
- 최근 RL(Reinforcement Learning, 강화학습)의 성능이 폭발적으로 성장하여, 실무에서 유용한 결과를 만들어냄
- DeepSeek 등 공개적이며 대규모 RL을 적용한 오픈모델이 업계에 충격을 줬으며, 이는 비용, 성능 면 모두 인상적임
- OpenAI 역시 기존의 거대 사전학습(pre-trained) 모델 대신, 03과 같은 RL에 많은 컴퓨팅 자원을 투자하는 스케일업 전략에 집중 중
- 03 모델은 단순한 스마트함이 아닌, 복잡한 도구(tool) 활용 능력, 다양한 복합 환경에서의 문제 해결력을 강점으로 내세움
- 복잡한 문제로 갈수록 기존 LM API 기반 에이전트가 점점 불안정해지나, RL 도입 시 견고성과 성능이 계속 향상됨을 데이터로 확인
RL 기반 에이전트 개발은 복잡하지만 필수적 기술로 자리잡고 있음
- Veril(대표 연구용 RL 아키텍처), DeepSeek 논문 속 gpo 등 대표적 RL 파이프라인은 복잡한 구조와 여러 단계를 필요로 함
- API 기반 에이전트 개발자나 실무자는 이를 외면하거나 단순화하길 원하나, 정말 뛰어난 에이전트 제공을 원한다면 필수적으로 RL의 세부를 어느 정도 이해해야 함
- 오픈모델에 RL을 과제 맞춤형으로 적용할 수 있는 사람이 실제 경쟁우위를 가지게 됨(랩 단위의 대형 프로젝트만의 영역이 아님)
- 스타트업, 일반 연구자 레벨에서도 RL에 접근 가능한 환경과 도구가 점차 보편화
현존하는 강력한 에이전트들은 대부분 RL 기반 맞춤훈련의 산물임
- CloudCode, Devin, Manis, 03, DeepResearch 등 요즘 화두인 대표 에이전트 서비스들 언급
- 이들 제품은 각자의 핵심 환경에 최적화된 RL 험련이 이루어졌기 때문에 실제로 강력함(예: Claude는 코드 RL을 집중 적용)
- 새로운 도구 사용법(이미지 크롭 등)도 사전 설계→RL맞춤훈련을 거쳐 습득됨
- Powerful agent = RL 통한 환경 적응 능력 강화, 라는 등식이 성립됨
RL의 추상구조와 에이전트 시스템 설계 구조는 사실상 동일한 프레임
- RL의 환경-정책-상태-보상-전이 구조와, 에이전트의 하네스-환경-도구-반복적 평가 구조가 구조적으로 같음을 설명
- 에이전트 개발(프롬프트 수정, 새 도구 시도, 하네스 튜닝 등)은 본질적으로 수작업(hand RL) RL을 하는 것과 유사함
- “좋은 평가(evals)와 반복적 튜닝을 통한 성능 증진”의 패러다임은 인간 중심 설계와 RL 알고리즘 모두에 적용됨
RL 주요 알고리즘(DPO/PO/GRPO)의 실제적 차이와 구현상의 선택 포인트
- RL에서는 동일한 태스크도 각 시도마다 다른 완성을 보이며, Advantage(유리한 선택) 추정이 핵심
- DPO(Direct Preference Optimization): 전체 결과에는 능하나, 복잡한 분기에서 정교한 Advantage 추정이 부족
- PO(Preference Optimization): 세밀한 분기 추정 가능하나, 연산비용이 매우 큼
- GRPO: PO와 DPO의 중간형, 연산은 효율적이면서 포킹 샘플링 기반의 세밀한 평가가 가능해 인기를 얻는 중
- 많은 논문들이 쏟아지나, 개별 구현 디테일보다 RL 전체 프로세스의 큰 흐름을 읽고, 소프트웨어 측면/실제 애플리케이션에 더 집중하는 것이 바람직하다고 조언
RL 초보자들이 주로 코드/수학 벤치마크에 집착하는데, 이는 실제 환경 적용에 있어 한계가 존재함
- GSMK(수학 문제) 등 ‘채점 쉽고 직관적’인 벤치마크에 RL 적용 코드가 확산(동영상 발표자도 그 촉발자 중 하나)
- 연구자, 실무자 모두 간단 평가가 가능한 환경을 선호하는 경향 뚜렷(옳다/그르다 명확한 태스크)
- 그러나 실제 업무·현실 문제는 훨씬 ‘엉성하고 모호하거나, 리워드 설계가 끊임없이 어려움’
- 단순 벤치마크만 반복적으로 최적화(hill climbing)하는 것은 실질적 소프트웨어 혁신으로 이어지지 않음
리워드 해킹은 여전히 RL 적용의 난관이며, 좋은 평가 신호 설계가 가장 중요함
- RL이 “리워드 신호에만 최적화”되는 속성상, 원하는 태스크가 아닌 평가 자동화(리워드) 자체를 ‘속이는’ 현상(RL reward hacking)이 빈번히 발생
- 좋은 평가(eval)는 ‘정답 경로로 가는 것이 해킹보다 쉽게’ 설계되어야 함
- 리워드/평가 신호가 실제로 원하는 퍼포먼스를 겨냥해야만 모델도 ‘속임수’가 아닌 실제 행동을 학습
자동화 평가(Generator-Verifier Gap), 루브릭, LM재판관 등 정밀 평가법 발전이 RL 실효성 확장 열쇠임
- ‘생성(Generator)-검증(Verifier) 격차’라는 논의처럼, 어떤 문제는 평가보다 생성이 훨씬 어렵기에 평가 세분화가 하나의 해결책
- LM Judge(LLM 평가자), Reward Model, Rubric(세밀 평가기준 자동생성) 등의 연구가 최근 활발
- DeepSeek 논문의 ‘온더플라이 루브릭 생성보상모델’, 창작글 등에서 다양한 평가 기준이 동적 생성되어 RL 효율을 크게 올릴 수 있음을 소규모 실험으로 입증
복합적/복수턴 환경(멀티턴, agentic search 등)이 곧 RL의 차세대 대상임
- 실제 ‘에이전틱 검색’, 도구 연쇄 호출, 게임, 장기 플래닝, 복수턴 컴퓨터 활용 등 복잡/장기적 상호작용 환경에서 RL의 필요성이 커짐
- 이런 환경을 RL 프레임으로 다루는 개념 정립: 환경=harness, 보상=eval, 태스크=prompt, 정책=API 등
- “API호환형 루프 기반 프레임”이 이런 목표에 적합함: 즉, 평범한 에이전트 애플리케이션을 짜듯이 RL 훈련 가능한 환경을 만드는 방식
오픈소스 툴킷(verifiers) 출시로 RL 에이전트 개발의 장벽이 크게 낮아짐
- 발표자가 직접 개발/유지하는 오픈소스 레포(verifiers)가 pip에 공개되어 손쉽게 설치 가능
- 핵심 아이디어: RL 가능한 에이전트 구축(롤아웃)을 일반 에이전트 코드 짜듯 쉽게 구현 가능하도록 추상화
- 예시로 Wordle 게임 RL 에이전트 만들기: 적은 코드만으로 multi-turn RL 환경 세팅, 다양한 보상정책 실험 지원
- RL 환경구축-디버깅-실험을 실제 API(Claude, DeepSeek, OpenAI 등)와 혼합하여 손쉽게 할 수 있게끔 설계(SFT+synthetic data 활용도 포함)
- 효율적 컴퓨팅, 비동기 처리, trainer-inference 동시 처리 등 병렬화 최적화도 제공
- 2-3개의 GPU만으로도 개인/소규모 연구자가 의미 있는 RL 연구와 실험 가능하도록 문턱을 크게 낮춤
- RL기반 차세대 에이전트 개발의 “실전적 학습 및 실험장”으로 포지셔닝하며, 보다 많은 실무·연구 커뮤니티의 적극적 활용을 권장하며 발표 종료