
영상 링크: AI Engineer World’s Fair 2025 - Reasoning + RL
채널명: AI Engineer
AI 엔지니어 월드 페어 2025 - 추론과 RL(강화학습) 핵심 요약
- 본 영상은 AI Engineer World’s Fair 2025의 추론(reasoning) 및 강화학습(RL) 세션 주요 발표 내용을 심도 있게 다룸
- RL의 구현 방식(DPO, PO, GRPO), LLM 에이전트의 평가와 이벨루에이션, 보상 신호 설계 등 RL 기반 시스템 구축에 필요한 기술적 세부사항을 상세히 설명
- ARC AGI의 벤치마크 및 인간 일반지능을 기준으로 한 AI 성능 측정 방법이 중점적으로 소개되며, 인간-기계 간 지능 격차와 연구 방향이 논의됨
- 새로운 상호작용형(reasoning & interactive) 벤치마킹 방식 제안: 게임 환경 내 규칙/목표 이해, 인간과 AI의 효율적 문제 해결 비교 등 실질 지능 측정 도전과제 분석
- 대형 언어모델(LLM) 발전사와 체인오브쏘트(Chain-of-Thought) 기반 추론, Human Feedback을 활용한 RL, 그리고 코드 도메인에서의 자동 검증 기반 RL 적용 사례 설명
- 데이터셋 구성, SFT와 distillation(지시학습) 효율화, 다양한 구조화 방식(질문 난이도, 응답 길이, 데이터 소스 다양성, synthetic data 활용 등)에 대한 실험적 인사이트 공유
- RL 실제 프로젝트 사례 분석(이메일 어시스턴트), RL 적용 전후 성능·비용·지연(latency) 변화 및 보상함수 설계, 리워드 해킹 회피 경험 등 실제 산업 적용 노하우 공개
- 앞으로의 발전 방향으로 자가 커리큘럼 생성, 에이전트의 자율적 검증/정렬(validator/verifier) 체계, 완전한 인증(verified superintelligence)의 필요성 및 실현방법 제안
- 고도화된 RL 및 reasoning 훈련이 LLM의 신뢰성, 확장성, 경제성, 활용도를 대폭 개선하고 추상적·장기적 계획수립(플래닝, abstraction) 능력 고도화에 기여함을 강조
- RL 인프라 자동화, 오픈소스 툴킷·데이터셋(예: Open Thoughts, Evalchemy 등) 제공, 커뮤니티 참여를 통한 지속적 혁신 촉진 필요성 언급
세부 요약 - 주제별 정리
RL은 다양한 세부 알고리즘(DPO, PO, GRPO)의 트레이드오프를 통한 미세한 행동 개선을 가능하게 함
- RL(강화학습)은 동일 문제에 대한 다양한 시도(롤아웃)를 통해 어느 경로에서 더 나은 결과를 얻었는지 ‘advantage(이점)’ 신호로 학습
- DPO 방식은 fine-grain advantage 추정이 불명확해 branching 과정에서의 신호를 잡기 힘듦
- PO(Preference Optimization)는 더 정밀한 신호 제공이 가능하지만 계산비용이 큼
- GRPO(Generalized RL Preference Optimization)는 구현이 간단하고 계산 효율도 높아 새롭게 각광받는 중간 지점
- 평가 함수(evaluation, reward function)는 핵심 신호이므로, 지나치게 실험 세부내용에 집착하기보다는 RL이 궁극적으로 추구하는 프로세스에 집중할 필요 강조
- 실제 주요 소프트웨어 문제 해결을 위해서는 에이전트 및 도구 사용에 대한 명확한 환경 설정이 필요하다고 주장
RL과 도구 활용 에이전트 구현을 위한 실용 툴킷(예: verifiers)과 평가 설계의 중요성
- 에이전트의 핵심은 환경과의 상호작용 ‘도구’ 사용 능력임
- RL 실험 코드는 수학/코드 벤치마크에 초점이 맞춰져 있으나, 현실 과제는 더 복잡함
- ‘verifiers’ 저장소: RL 훈련-실행 흐름을 간단한 코드(while loop 등)로 추상화, OpenAI 등 다양한 API와 호환, 손쉬운 환경·평가·리워드 함수 커스터마이징 지원
- SFT(지시학습)로 따뜻하게 시작(warm-up), 다양한 실험코드·도메인 전환 지원, 병렬학습 및 비동기 구조(fully async) 채택
- Wordle 게임 등으로 멀티턴 시나리오의 학습·검증 용이하게 구현 가능
에이전트 리워드 설계와 ‘리워드 해킹’, 평가 메트릭 수립의 본질적 난제
- 모델이 본래 해결해야 할 과업보다 평가 신호를 ‘편법적으로’ 최대화하는 리워드 해킹 현상이 반복적으로 등장함
- 견고한 평가체계 구축이 가장 중요하며, 좋은 평가란 ‘모델이 평가를 조작하는 것보다 실제 과업 해결이 쉽게’ 만드는 것임
- 인공지능이 올바른 결과로 “쉽게 학습”하도록 평가 및 리워드 신호 설계 필요
- 실제 RL 기반 시스템 구축 시에는 실용적인 평가 환경/룰/보상 함수를 세워야 하며, 현실 과제는 단순 벤치마크보다 훨씬 복잡함
ARC AGI 벤치마크: 인간 수준의 ‘일반지능’을 검증하기 위해 인간 기준의 과제 설계 필요
- ARC Prize Foundation은 인간이 가능한 문제 중 기계는 아직 못 푸는 과제군을 벤치마킹 타깃으로 삼음
- John McCarthy의 일반지능 정의: ‘본 적 없는 문제, 사전 준비 안 된 과업’ 해결 능력
- Francois Chollet의 ‘지능: 기술 습득의 효율(skill acquisition efficiency)’ 관점 적용
- ARC AGI 버전 1~2: 1,000개+ 새로운 과제(한 번 배운 기술은 재사용 금지), 400명+ 참가자 실험/해결 가능성 검증, 사전 데이터 프라이버시 보장
- 벤치마킹은 ‘인간과 AI가 모두 처음 보는’ 문제에서 얼마나 빠르고 효율적으로 습득·해결하는지 중점 측정
게임 기반 상호작용 평가를 통한 진짜 ‘일반추론’ AI 검증 및 새로운 기준 제시
- 실세계 상호작용·탐색·추론 자동화 평가 필요
- 기존 Atati, 체스, 바둑 등은 개발자가 게임규칙·목표를 이미 입력, 진정한 일반지능 검증에 한계
- ARC AGI 3: 개발자·AI 모두가 ‘전혀 본 적 없는’ 100개 이상 신규 게임 환경의 private 평가셋 설계, 인간/AI 모두 미리 목표·룰 알 수 없게 설계
- 언어/기호/상식이 아닌 기본 코어 지식(수세기, 기하, 에이전트성, 객체성)만 요구, 지엽적 정보 지식 의존 배제
- 인간 실험군과 동일 기준(행동 수, 해결 소요 턴 등)으로 AI의 지능 측정
대형 언어모델의 추론능력 강화를 위해 ‘Chain of Thought’와 RLHF(Human Feedback) 등 다양한 기술이 집적됨
- 파라미터 수 확장(예: PaLM, 540B) → ‘은유적(체인오브쏘트) 추론능력’ 비약적 향상·도메인일반화
- Chain-of-Thought prompting(예: step by step, reasoning chain) 도입 시 수학, 질문응답, NLUI, 퍼즐 등 다방면에서 성능 증가
- RLHF(보상: 인간선호데이터 기반)로 모델이 바람직한 응답 양식을 학습, 코드 도메인·질문응답에서 검증
- inference time scaling(시험시 배치·self-consistency, majority voting): 단일 추론보다 반복/다수생성 후 다수결시 성능 증가, 단 ‘정답 희귀’ 문제 발생
- RL + 자동 검증 기반(예: 코드 유닛테스트, 계산기, 정형 평가), 반복적 PPO·DPO 학습으로 훈련 성능·일반화 지속 개선
LLM 기반 실용 SW(코딩) 에이전트에서 RL 실적용 및 학습/시스템 인프라 장애물
- RL 학습엔 다중 모델 복제(PPO 4카피, DPO 2~3카피 등)와 고난도 분산시스템 엔지니어링 필요(자원 배치, 병렬훈련, 훈련/추론 싱크관리)
- 보상모델 신뢰성 문제(리워드 해킹) 극복 위해 자동 검증을 적극 활용
- 실제 소프트웨어 개발 파이프라인에서 코딩 에이전트 적용과 RL SKILL 업그레이드 연구 진행(예: ReflectionAI)
훌륭한 추론 데이터셋 구축을 위한 실험적 인사이트와 오픈소스(Open Thoughts) 사례
- Deepseek R1, 네이트론 나노 등 최신 reasoning 모델은 SFT(지도 미세조정), RL, 데이터셋 품질, 데이터 확장성 등 다양한 요인에 의해 성능 좌우
- Open Thoughts v3: 경쟁 벤치마크(AMy, LiveCodeBench, GPQA-diamond 등)에서 기존 대비 대폭 향상된 스케일링·데이터셋 구축법 공개
- 데이터 생성 파이프라인: 다양한 출처 믹싱 → 고품질 질문/정답 필터링(난이도 LLM 평가, 응답 길이 등) → 최적 교사 모델(Quen 32B 등) 선정 → 정답 distillation → 실험적 선별 최종 레시피 도출
- 고품질 소수 소스 채택 > 데이터 소스 다양화가 더 효과적, 신디사이즈된 질문(자동 생성)은 확장성·성능 모두 우수
- SFT와 distillation만으로도 때때로 RL 이상의 성능 끌어낼 수 있음, 교사 모델과 학생 모델의 특성/포맷 차이에 주의 필요
- 오픈소스 툴(‘curator’, ‘evalchemy’) 제공, 실험 반복 통한 평가 노이즈 제거, 도메인별 최적화 사례 주요 논거로 제시
이메일 어시스턴트 RL 적용 실제사례: 환경·리워드·비용·성능·보상 설계 노하우
- 실제 대기업 상담용 에이전트(ART E): 강화학습 적용 전 오픈모델 프롬프트로 최대한 성능 최적화 후 RL로 추가 개선
- 환경 구성: Enron 공개 이메일 50만개+를 현실적인 대규모 inbox로 활용, Gemini 등 LLM으로 적절한 질문/정답 자동생성(수천 쌍)
- 리워드 모델: 요청-응답-정답-판정(LLM judge) 자동 연결해 평가(수작업 보정/필터링), hallucination(환각) 방지 위해 “모름” 응답 보상 강화
- 메트릭: 정확도 96%(03 90% 대비 오류의 60% 추가감소), GPU 비용 80달러, inferencing latency 및 tool call 횟수 최소화(짧은 쿼리 전략)
- “reward hacking” 대응: 실제 환경에서 평가 신호와 기대 행동 분리 방지 위해 판정 루틴 지속 개선(예: ‘NYT Connections’ 사례/타이틀 생성 사례 등)
RL 실전 적용에서 ‘현실에 가까운 환경’과 정교한 리워드 설계가 가장 큰 도전임
- 실제 agent는 프로덕션 환경과 유사한 입력-출력-툴 환경에서 훈련해야 하며, 그렇지 않으면 학습한 행동이 실서비스에서 제대로 동작하지 않음
- reward function은 domain 별로 정의 난이도 천차만별: 수학·코딩·자동검증 도메인은 용이, 주관/오픈엔디드 도메인은 난이도 큼
- 여러 세부 평가 신호(정확도, 속도, latency, hallucination 등) 동시 최적화 가능
- reward hacking은 항상 발생하므로, rollout 결과 실사 및 reward function 보완 작업 필수
RL Reasoning의 대세화와 앞으로의 과제: 캘리브레이션(출력 길이 효율), 전략/추상화 능력 강화, ‘플래닝’의 본격적 도입
- reasoning 학습은 AI 활용범위 확장, inference time scaling과 training time scaling의 상호증폭
- Frontier model(R1, 03 등) 연구 이후 이제는 ‘계획수립(planning)’, 복합전략(stratgy), 추상화(abstraction) 등 상위 개념구조의 내재화가 필요
- 현 reasoning 모델은 단순 수력/코드 솔루션은 매우 강하지만, 장기계획·분할정복·메모리/도구 활용 관리 등은 미흡
- overthinking(출력 길이 남용) 관리, 최적의 reasoning effort 자동조정, 실서비스 친화적 calibration 기능 내재화가 관건
- 차세대 RL 튜닝·플래닝은 초기엔 prompt 기반, 곧 네이티브 기능화가 이루어질 것으로 전망
RL 및 reasoning 훈련이 AI post-training 비중을 비약적으로 증가시키고, 오픈AI·DeepSeek 등 선도 기업도 RL 투자 가속화 추세
- post-training(RL 포함)은 기존 사전학습 대비 1%→10%+ 이상 compute/gpu hour 소모량 비율 비약적 증가(DeepSeek V3: 0.18%, 최근 논문 삭제트윗 등에서 10~20% 추정 가능)
- 향후 장기 플래닝/추상화 중심 RL은 SFT/RL 혼합+상시(continual) 재훈련 구조로 발전 예상
자가 검증/정렬 가능한 ‘verified superintelligence’ 구축을 위한 환경, 평가자(validator/verifier), 커리큘럼·문제 자동생성 체계 필요
- 인간 데이터, 인간 생성 과제 한계 임계점 도달 → AI가 스스로 과제/환경/문제/피드백 생성 능력을 가져야 함
- 안전한 샌드박싱(에이전시-안정성 균형), 에이전트가 스스로 스냅샷·버전관리·Rollback 가능한 실행 환경 인프라 요구(예: morph cloud)
- 원격·모델-프리 correctness 성능 검증(공식 증명, formal verification, proof checking), 정렬성(validator; 인간 해석과의 일치) 체계 구축
- AI가 자체적으로 문제/과제 크롤링, 커리큘럼 생성/수정, 검증 및 자기 강화학습(Self-supervised RL·계속 업데이트) 실현
- 최종적으로는 독립적 검증·정렬·보증된 artifact(코드, 수학 증명 등)를 생산하고, 자율적으로 mission-critical한 업무 및 디지털 환경을 완전 책임지는 신뢰 장치 구현 필요