영상 링크: Agent Reinforcement Fine Tuning – Will Hang & Cathy Zhou, OpenAI
채널명: AI Engineer
에이전트 강화 학습 파인튜닝(Agent Reinforcement Fine-Tuning, Agent RFT) – 성능을 극대화하는 최신 기법 핵심 요약
- 에이전트 RFT(Agent Reinforcement Fine-Tuning)는 도구 호출 및 외부 세계와 상호작용하는 모델의 멀티스텝 추론 능력을 대폭 향상시키는 훈련 기법임
- 에이전트란 일반 모델과 달리, 자체적으로 외부 환경에 도구를 활용해 복합적인 태스크를 완결하는 실사용자를 위한 AI임 (예: 코드 작성, 테스트, 코드베이스 수정)
- 성능 개선을 위해 프롬프트 엔지니어링, 태스크 최적화 등 기존 방법을 쓰다 한계에 봉착하면 파인튜닝이 필요하며, 이때 강화학습 기반 RFT가 권장됨
- OpenAI는 실제 훈련 과정에서 에이전트가 인터넷을 통해 실시간 도구를 호출하고, 사용자 제공 리워드 신호를 받아 학습하도록 하는 기능을 최초로 제공
- 에이전트 RFT는 도메인 쉬프트(도메인 간 차이) 문제 해결, 도구 사용 패턴 최적화, 레이턴시 감소(속도 개선) 등 다양한 효익이 입증됨
- 10개 미만의 예시로도 효과적인 학습이 가능할 정도로 샘플 효율성이 높음
- 고객 사례(코그니션, Codto, Cosign, 마코 등)에서 RFT로 도구 병렬 호출, 코드 리뷰, 딥리서치, 고성능 GPU 커널 작성 등 어려운 과제에서 정확도와 속도 동시에 대폭 개선
- 훈련 데이터 품질·일관성, 비해킹 리워드 함수, 베이스라인 실험 및 점진적 최적화 등 실무 적용을 위한 네 가지 핵심 원칙이 강조됨
세부 요약 – 주제별 정리
에이전트란 스스로 외부 도구를 호출해 복합 태스크를 완결하는 능동형 모델임
- 일반 LLM과 달리, 에이전트는 실제 도구(터미널, 코드 인터프리터, 맞춤형 함수 등)에 직접 접근할 수 있어야 함
- 예시로 OpenAI의 플래그십 코딩 에이전트 ‘Codex’는 단위 테스트 생성, 코드베이스 대량 수정 등 코딩 업무 전체를 독립적으로 수행함
- 에이전트는 외부 도구 호출(logical tool call) 과정과 내부 추론(reasoning trace)이 컨텍스트 창 내에 함께 기록됨
- 도구와의 상호작용 과정에서 끊임없이 스스로 계획하고 판단하는 멀티스텝 추론이 핵심 특징임
기존 성능 개선법은 프롬프팅·태스크 최적화 등 단계별로 진행되며, 한계점 이후는 파인튜닝이 필요함
- 에이전트 기본 성능 개선법: 프롬프트 엔지니어링(문장 개선 등), 태스크 자체 간소화 또는 구조화, 도구 셋 재구성, 개별 도구 행동 변경
- 이러한 ‘프론트라인’ 방법으로도 성능 한계에 봉착할 수 있음
- 보다 높은 목표 달성(“추가적인 성능 향상”이 필요할 때), 에이전트 파인튜닝(Agent Fine-Tuning)으로 모델 가중치를 실제 태스크별로 조정함
강화학습 기반 에이전트 파인튜닝(RFT)은 리워드 신호를 기준으로 모델을 현업 환경에 맞게 맞춤 적응시킴
- RFT는 사용자가 직접 정의한 리워드 신호(좋은 행동 vs 나쁜 행동)를 기준으로, 학습 중 에이전트가 다양한 도구 호출 방식을 실험
- 실제 훈련 과정에서 에이전트가 인터넷상의 사용자 엔드포인트 통해 실시간 도구 호출 가능
- 각 실행(rollout)별로 고유 식별자가 부여되어, 도구 호출 흐름·추론 과정·최종 답안을 일괄적으로 평가 및 추적 가능
- 최종적으로 모델은 도메인 특성에 적응해 도구 사용 방법과 결과 해석 성능 모두 개선
도메인 쉬프트 문제를 해결하고, 업무 환경에 맞는 최적 동작을 학습함
- 기업 실무 환경은 OpenAI의 사내 훈련 환경과 도메인·도구 사용법이 다를 수 있음(도메인 쉬프트)
- 결과적으로 도구 호출 횟수 과다, 잘못된 입력 등 비효율 발생 가능
- RFT로 환경 특유의 규칙·특성을 모델이 유기적으로 학습, 도구 사용 패턴·추론 체계까지 맞춤 적응
- 도구 호출 예산(예: 몇 번까지 호출 가능) 초과 시 패널티 부여 등으로 목표 내 효율적 행동 가능
시스템 차원에서 각 에이전트 실행을 추적·등급화함으로써 정밀한 학습 및 평가가 가능함
- 각 실행별(rollout)로 고유 식별자(UUID) 부여
- 실행 이후 호출한 모든 도구, 도출 맥락, 최종 답안을 묶어 전체 trajectory로 저장
- 이 trajectory 전체를 학습 과정 내 grader(채점기)에 전달해, 정량적이고 맥락을 반영한 평가 가능
실전 도입 전, 철저한 데이터 정합성·베이스라인·점진적 최적화 과정이 필수임
- 훈련 데이터셋과 평가 데이터셋은 반드시 실제 배포 환경(프로덕션 트래픽) 특성과 일치해야 함
- 최초 베이스라인 모델 성능 측정은 필수
- 프롬프트 및 태스크 최적화 등 표준 기법을 충분히 시도한 후 RFT 적용 권장
- 도메인 쉬프트, 데이터 드리프트 등 학습 편향 문제 사전 방지 조치 필요
Cognition 사례: 태스크별 고품질 데이터 확보와 병렬 도구 호출 능력 대폭 개선
- Cognition사는 코드 수정 플래너(Devon) 모듈의 셸 도구 호출 최적화에 RFT 활용
- 사용자 쿼리와 실제 수정된 파일 쌍으로 이뤄진 데이터세트와 F1 점수를 리워드로 적용(정밀도·재현율 균형)
- VM(가상머신) 기반 격리 환경 구축, 각 도구 호출·평가 전 과정 안전하게 관리
- 100개 샘플로 5점, 1000개로 10점의 성능 향상(데이터 볼륨·품질이 직접 성능 결정)
- 초기에는 모델이 도구 호출/추론을 번갈아가며 8~10스텝 걸렸으나, RFT 후 4스텝 이내로 병렬화되어 속도 급증
Codto 사례: 코드 리뷰 및 대규모 코드베이스 딥 리서치 에이전트를 효과적으로 최적화
- Codto는 개발자 질문에 대한 답변을 위해 GPT-5 모델에 ‘검색(retrieve)’ 등 도구 호출을 결합
- 8개 리포지터리에서 1000쌍의 실제 질문-답변 세트 수집, ‘리콜’(검색 결과 중 실제 정답 반환 비율) 기반 리워드 부여
- RFT 적용 후 에이전트 성능 6% 향상, 도구 호출 횟수 및 출력 토큰 수도 감소
- 기존에는 한 샘플에 15번 이상 도구 호출하는 장기화된 비효율 케이스가 있었으나, RFT로 2~4회로 안정화(P95 롱테일 제거)
- 레이턴시에 민감한 프로덕션 환경에서 일관성·속도 모두 개선
Cosign 사례: 복잡한 엔터프라이즈 코드 환경에서 다양한 도구와 엄격한 평가 체계로 최적화 달성
- Cosign은 30여 개 도구(fry, 키워드검색, 터미널, 브라우저 등)와 엄격한 채점기 기반 RFT 진행
- 부분점수, 스타일 점수 등 주면 오히려 비효율(스타일, 톤에만 최적화) → 최종 코드가 테스트 통과해야만 리워드, 채점은 최대한 엄정하게 구현
- 보상 희소성 문제 해결 위해 배치 사이즈 및 샘플수 증대
- 문법, 축약, 이모지 등 비전문적 결과 스타일도 LLM 채점기로 감점
- 코드 유효성(테스트, 터미널 출력, 린트 검사 등)이 확인될 경우만 가산점
- 100회 이상 메시지 소요되던 비효율 경로가, RFT 후엔 훨씬 짧게 수렴해 속도와 품질 모두 대폭 개선
Maccro 사례: 기존에 어렵던 고성능 GPU 커널 생성도 적은 데이터와 리워드 함수 설계로 뛰어난 결과 달성
- 커널 코드(SOTA 고속 GPU 커널) 생성은 예시데이터 부족, 참조 코드 복붙 등 리워드 해킹 리스크가 높음
- 마코(Macco)는 100개의 파이토치 프롬프트, 커스텀 리워드(속도, 정합성 평가 등)로 GPD5 모델을 활용해 학습
- 리워드 해킹 사례(헛짓: 참조코드 복붙, 비어있는 커널, 무의미 코드 등) 7가지 발견해, Judge LM이 모두 제로점수 처리
- 코드 존재, 실제 커널 실행 여부는 AST기반 정적분석 도구로 검증
- 옳은 보상이 이루어지자, 단 100개 내외 데이터셋으로도 기존 SOTA 대비 72% 성능 향상
- 3개 샘플 생성 후 최고값만 선택하는 베스트 오브 N(best-of-n) 전략 병행해 추가 향상
성공적인 RFT 적용을 위한 네 가지 핵심 원칙이 엄격하게 제시됨
- 첫째, 태스크 정의가 명확하고 기준이 주관적이지 않아야 함(테스트·취향·스타일에 의존 X)
- 둘째, 실제 환경과 동일한 트래픽, 데이터 유형의 학습·평가 세트가 필수(도메인 쉬프트 없음)
- 셋째, 모델이 다양한 샘플 생성을 통해 직접 최적 추론(rollout variance) 발견·학습 가능해야 함(샘플수 증가 시 성능 향상)
- 넷째, 리워드 함수가 해킹 불가하고, 연속적 보상(부분점수) 체계일 때 점진적 성능 개선 가능
OpenAI는 에이전트 RFT 도입을 위해 전문가 컨설팅 체계를 안내하며, 폭넓은 생태계 확대를 독려함
- 실제 RFT 적용을 원할 경우, OpenAI의 담당자(어카운트 디렉터)에게 문의해 협력 가능
- 여러 성공사례(코그니션, Codto, Cosign, Maccro)에서 입증된 바와 같이, 에이전트 RFT는 점진적·체계적 최적화를 통해 실사용 환경에서 최고의 에이전트 성능을 달성하는 방법임