Skip to content
Go back

AI Engineer World’s Fair 2025 - Reasoning + RL

Published:  at  08:47 AM
YouTube Thumbnail

영상 링크: AI Engineer World’s Fair 2025 - Reasoning + RL
채널명: AI Engineer

AI 엔지니어 월드 페어 2025 - 추론과 RL(강화학습) 핵심 요약


세부 요약 - 주제별 정리

RL은 다양한 세부 알고리즘(DPO, PO, GRPO)의 트레이드오프를 통한 미세한 행동 개선을 가능하게 함


RL과 도구 활용 에이전트 구현을 위한 실용 툴킷(예: verifiers)과 평가 설계의 중요성


에이전트 리워드 설계와 ‘리워드 해킹’, 평가 메트릭 수립의 본질적 난제


ARC AGI 벤치마크: 인간 수준의 ‘일반지능’을 검증하기 위해 인간 기준의 과제 설계 필요


게임 기반 상호작용 평가를 통한 진짜 ‘일반추론’ AI 검증 및 새로운 기준 제시


대형 언어모델의 추론능력 강화를 위해 ‘Chain of Thought’와 RLHF(Human Feedback) 등 다양한 기술이 집적됨


LLM 기반 실용 SW(코딩) 에이전트에서 RL 실적용 및 학습/시스템 인프라 장애물


훌륭한 추론 데이터셋 구축을 위한 실험적 인사이트와 오픈소스(Open Thoughts) 사례


이메일 어시스턴트 RL 적용 실제사례: 환경·리워드·비용·성능·보상 설계 노하우


RL 실전 적용에서 ‘현실에 가까운 환경’과 정교한 리워드 설계가 가장 큰 도전임


RL Reasoning의 대세화와 앞으로의 과제: 캘리브레이션(출력 길이 효율), 전략/추상화 능력 강화, ‘플래닝’의 본격적 도입


RL 및 reasoning 훈련이 AI post-training 비중을 비약적으로 증가시키고, 오픈AI·DeepSeek 등 선도 기업도 RL 투자 가속화 추세


자가 검증/정렬 가능한 ‘verified superintelligence’ 구축을 위한 환경, 평가자(validator/verifier), 커리큘럼·문제 자동생성 체계 필요


수정 요청하기

Previous Post
AI Engineer World’s Fair 2025 - Day 2 Keynotes & SWE Agents track
Next Post
AI Engineer World's Fair 2025 - Evals