
영상 링크: RL for Autonomous Coding — Aakanksha Chowdhery, Reflection.ai
채널명: AI Engineer
강화학습을 통한 자율 코딩 시대의 도래 핵심 요약
- 연사 아칸샤 차우더리는 구글에서 Palm, Gemini 등 대형 언어 모델 개발을 이끌었으며, 현재는 Reflection.ai에서 강화학습 기반 자율 코딩에 집중하고 있음
- 2020년 발표된 대형 언어 모델의 스케일링 법칙 논문은 파라미터, 연산 자원, 데이터가 늘수록 성능이 자연스럽게 향상됨을 밝혀냄
- 모델 크기 증가와 함께 ‘emergent behavior’(창발적 특성)과 reasoning chains(추론 사슬) 출력 기능이 등장, 성능이 기존 도메인을 넘어 일반화됨
- Chain-of-Thought(추론 사슬) 프롬프트를 사용하면 수학 문제 등 다양한 도메인에서 해결 능력이 높아졌으며, 대화형(챗봇) 및 코드 생성 등으로 응용 확대
- 대형 언어모델의 성능 한계(포화) 논란과 비용 문제에 대응해, 저렴한 추론 단계에서 연산을 반복(다중 샘플링·다수결·자기 일관성)해 정확도를 올리는 전략 등장
- ‘자동 검증’(예: 수학=계산식 검증, 코딩=유닛 테스트/컴파일) 가능 영역에서는 추론 단계 연산 확장이 큰 효과, 대표적으로 코딩이 핵심 적용 분야로 부상
- 다만, 다수결 샘플링은 정답 예측 빈도가 낮을 경우 비효율적, 따라서 ‘정확히 생성하도록 학습 단계(훈련)에서 강화학습 도입’이 중요 과제로 부상
- 챗봇·코딩 영역 모두에서 RLHF(RL with Human Feedback)가 성능 향상 입증, 이제는 자동 검증 가능한 문제(코딩 등)에서 RL 기반 학습의 중요성이 부각
- 하지만 강화학습은 시스템 아키텍처(모델 복사본 다수 운용)와 보상 설계(리워드 해킹 방지) 등 현실적 확장에 어려움 존재, 최신 RL 알고리즘(GPO 등)도 여전히 도전 과제
- Reflection.ai는 ‘자율 코딩’을 출발점으로 슈퍼 인텔리전스 구축을 목표로 하며, 35명 규모의 선구자적 연구팀이 이에 도전 중임
세부 요약 - 주제별 정리
대형 언어 모델은 스케일링 법칙을 통해 능력과 일반화 범위가 기하급수적으로 확장됨
- 2020년에 발표된 “Scaling Laws for Large Language Models” 논문은 LLM(대형 언어 모델)의 테스트 손실과 파라미터/연산량/데이터 사이에 거듭제곱 법칙(power law) 관계가 있음을 밝힘
- 트랜스포머 모델에 더 많은 파라미터, 더 많은 데이터, 더 많은 연산을 투입하면 다양한 벤치마크에서 성능이 상승
- 이 성능 개선은 학습 도메인만이 아니라 전혀 다른 도메인까지 일반화되는 것이 두드러진 특징임
- 모델 크기가 커지면서 emergent behavior(창발적 특성)가 나타남: 작은 모델에서는 볼 수 없었던 새로운 기능들이 등장
- 대표 사례로 구글의 Lambda와 Palm 모델이 있음. 특히 Palm은 파라미터 수가 5400억 개까지 확장됨
- 최근에는 공개적으로 파라미터 수를 밝히지 않는 추세이나 3년 전 공개 그래프, 오픈소스(DeepSeek, Qwen) 등의 자료로 유추 가능
- 수학 문제(중학생 수준 단어 문제)와 같은 벤치마크에서 파라미터 수 증가에 따라 문제 해결률이 꾸준히 상승하였음
‘추론 사슬’ 방식(Chain-of-Thought)이 문제 해결 능력 극적으로 향상시킴
- 기존에는 모델에게 예시 문제와 정답을 주면 비슷한 문제에서 답을 잘 내지 못함
- Palm 및 후속 연구에서 ‘문제 풀이 과정을 단계별로 서술(chain of thought)’하게 프롬프트를 주면, 정답률이 획기적으로 상승함을 발견
- 이 아이디어는 2021년경(약 4년 전)에 등장했으며 현재는 매우 보편화됨
- 사슬 추론 프롬프트 방식은 수학뿐만 아니라, 다양한 자연어 추론, 퍼즐, 질의응답 등으로 빠르게 확장
- 이에 따라 ‘step by step’, ‘think out loud’와 같은 프롬프트 전략, 다양한 바리에이션 프롬프트들이 유행하게 됨
대화형 응용(챗봇)·코드 생성 등에서 LLM의 잠재력이 현실화됨
- LLM이 추론 능력 갖추자, 사용자가 구체적인 지시(instruction)를 내리면 실제로 이를 실행할 수 있게 됨
- 챗GPT, Gemini 등 다양한 챗봇·대화형 AI가 광범위하게 사용되는 계기가 됨
- 이러한 지시 따르기 능력은 RLHF(인간 피드백 기반 강화학습)에서 비롯됨
- RLHF에서는 두 가지 답변을 놓고 어떤 것을 사람이 선호하는지 라벨링한 데이터셋으로 모델을 학습하여, 실제 사용자가 더 선호할 만한 답변을 생성함
- RLHF의 성과는 챗봇뿐 아니라 코드 생성(all code-related applications)에도 적용되어 성능 개선에 기여함
LLM 훈련 비용은 막대하지만, 추론 단계에서는 연산 확장(샘플링·다수결 등)으로 성능 개선이 가능함
- LLM의 전처리 및 훈련(Training)에는 수십억~수백억 원대의 막대한 자금, 연산 자원이 소요(공개된 수치 기반)
- 그런데 추론(Inference) 단계에서는 상대적으로 매우 저렴한 비용으로 다양한 시도를 할 수 있음
- 이런 특성을 활용해, 추론 시 모델로부터 여러 답변을 독립적으로 생성한 뒤 ‘다수결(majority voting)’로 최종 답을 결정하는 방식이 사용됨
- 예: 수학 문제를 모델에 3회 반복 시켜 나온 답 중 2개 이상 일치하면 그걸 정답으로 간주
- 이 방식은 ‘self-consistency’ 혹은 ‘majority voting’이라고도 하며, 추론 단계 연산 확장으로 일정 이상의 성능 개선이 가능함
‘연속적 답변 수정’·‘자기 수정보완’ 등 인간과 유사한 반복적 개선 전략이 고도화되고 있음
- 사람도 답을 내고, 다시 검토·수정하는 방식으로 사고함
- LLM에서도 초기 답변을 내고, ‘스스로 평가→수정’하는 일련의 과정을 반복적으로 수행하게 하면 정답률이 높아짐
- 이 방식을 위해 추천되는 테크닉: 더 긴 reasoning chain, 반복적 self-critique, 수정 루프 등
- 특히 수학이나 코딩처럼 ‘정답 검증’(예: 유닛 테스트, 컴파일, 수식 자동 검증)이 가능한 분야에서 매우 큰 효과가 입증됨
자동 검증 가능한 분야(수학, 코딩 등)에서는 추론 단계 연산 확장이 효율적으로 적용됨
- 수학: 계산식 검증(계산기로 답 재확인), 정형 증명 등 통해 자동 검증 가능
- 코딩: 유닛 테스트, 컴파일(예: PyTorch 컴파일러 활용) 등으로 결과물 검증 가능
- 자동 검증이 어려운 영역에서는, 여러 샘플을 뽑아 다수결해도 정답 빈도수가 낮아 실제로는 효과가 제한(샘플 1만 번 뽑아야 정답 찾는 식)
- 결론: 자동 검증이 가능한 도메인에서는 inference 연산 확장이 매우 유효하나, 그렇지 않은 영역에선 덜 효과적
향후 LLM 발전을 위해선 ‘훈련 단계에서 정확한 생성학습(RL 기반)’이 필수적임
- 다수결·추론 사슬 방식은 추론 단계 반복을 필요로 하므로 실사용(실행)에서는 한계
- 모델이 ‘정확한 답’을 바로 내도록 학습 단계(훈련과정)에서 supervised fine-tuning이나 RL 도입이 필수
- 챗봇은 RLHF(인간 피드백 강화학습)로 비약적 성능 도약을 했음. 이제 코딩(자동 검증 가능한 영역)에도 동일한 접근이 화두가 됨
RLHF 등 강화학습은 실제 벤치마크에서 성능이 증명되고 있으나, 자동 검증 도메인에서 진가를 발휘함
- 벤치마크(예: GSM8K, MATH, AMY 등)에서 RL, 특히 RLHF 활용시 예측 정확도가 훈련 시 연산 투입량에 따라 선형적으로 상승
- DeepSeek(open source LLM) 등 다양한 최첨단 모델이 RL과 자동 검증을 결합하여 높은 공개 벤치 점수를 획득
- 2024년 기준 자동 검증 가능한 대부분 벤치마크는 이미 80% 안팎의 정확도로 ‘포화(saturation)’ 상태에 근접함
- RL은 자동 검증(수학, 코딩 등) 사용시, 벤치마크 성능 향상과 더불어 AI의 ‘지능 실제화’에 결정적 역할 기대
RL 시스템은 복잡한 시스템 설계와 리워드 설정 등 실용화에 어려움이 많음
- RLHF 등 RL 도입 시, 모델 복제본을 3~4개 동시 운용해야 하므로(예: PPO, DPO 등 알고리즘) GPU 클러스터 아키텍처 설계 복잡성↑
- 예: PPO(정책 경사하강법)는 기본 4개 복제본, DeepSeek Math의 GPO는 3개 복제본 필요
- 실제로 대규모 모델(cloud/enterprise)에서 이 복제본들을 효율적으로 배치·운용하는 데 상당한 난이도와 최적화 과제 있음
- RL의 보상 함수(Reward Model)가 신경망일 경우 ‘리워드 해킹’(잘못된 학습)이 빈번
- 하지만 코딩 등은 실행검증, 유닛테스트 등 명확한 리워드 신호를 정의할 수 있기에 RL 적용에 적합
자율 코딩은 RL 덕분에 ‘슈퍼 인텔리전스’ 실현의 출발점으로 주목받음
- Reflection.ai의 비전: ‘자율 코딩’을 시작점(root node)으로 삼아 슈퍼 인텔리전스 실현 목표
- 코딩은 출력 검증 자동화가 가능, RL 확장에 매우 적합한 현실 세계 적용 분야
- 코딩 에이전트 구축에는 여러 능력이 총합적으로 필요하며, 범용 단일 모델/다중 특화 모델 중 어느 쪽이 우월할지는 아직 업계 비법(“secret sauce”)
- 현재 약 35명의 LLM 및 RL 분야 선구자급 연구진이 Reflection.ai에서 새로운 패러다임 구축에 도전하고 있음
‘경험의 시대(era of experience)’ 도래와 시뮬레이션, 실제 경험 데이터의 차이
- RL 분야(Google DeepMind의 David Silver 등)에서는 ‘시뮬레이션’(알파고, 알파제로) 이후 ‘경험 기반 RL’에 초점 이동 중
- 알파제로 종류는 MCTS(몬테카를로 트리 탐색) 등 시뮬레이션 데이터로 훈련, 게임·로보틱스 등 모델 가능한 세상에서 용이
- 그러나 실제 세계(코딩, 소프트웨어 엔지니어링 등)는 불완전한 rollout, 미지 시나리오가 많아 시뮬레이션에 제한
- 앞으로는 ‘실제 데이터(경험)’ 수집이 RL의 핵심 원천이 될 전망
- 실제 세계의 경험은 불완전하며, 완벽하게 모든 경우의 수를 탐색(검색)할 수 없다는 차이점 명확히 존재