RL for Autonomous Coding - Aakanksha Chowdhery, Reflection.ai

영상 링크: RL for Autonomous Coding — Aakanksha Chowdhery, Reflection.ai
채널명: AI Engineer

강화학습을 통한 자율 코딩 시대의 도래 핵심 요약

연사 아칸샤 차우더리는 구글에서 Palm, Gemini 등 대형 언어 모델 개발을 이끌었으며, 현재는 Reflection.ai에서 강화학습 기반 자율 코딩에 집중하고 있음
2020년 발표된 대형 언어 모델의 스케일링 법칙 논문은 파라미터, 연산 자원, 데이터가 늘수록 성능이 자연스럽게 향상됨을 밝혀냄
모델 크기 증가와 함께 ‘emergent behavior’(창발적 특성)과 reasoning chains(추론 사슬) 출력 기능이 등장, 성능이 기존 도메인을 넘어 일반화됨
Chain-of-Thought(추론 사슬) 프롬프트를 사용하면 수학 문제 등 다양한 도메인에서 해결 능력이 높아졌으며, 대화형(챗봇) 및 코드 생성 등으로 응용 확대
대형 언어모델의 성능 한계(포화) 논란과 비용 문제에 대응해, 저렴한 추론 단계에서 연산을 반복(다중 샘플링·다수결·자기 일관성)해 정확도를 올리는 전략 등장
‘자동 검증’(예: 수학=계산식 검증, 코딩=유닛 테스트/컴파일) 가능 영역에서는 추론 단계 연산 확장이 큰 효과, 대표적으로 코딩이 핵심 적용 분야로 부상
다만, 다수결 샘플링은 정답 예측 빈도가 낮을 경우 비효율적, 따라서 ‘정확히 생성하도록 학습 단계(훈련)에서 강화학습 도입’이 중요 과제로 부상
챗봇·코딩 영역 모두에서 RLHF(RL with Human Feedback)가 성능 향상 입증, 이제는 자동 검증 가능한 문제(코딩 등)에서 RL 기반 학습의 중요성이 부각
하지만 강화학습은 시스템 아키텍처(모델 복사본 다수 운용)와 보상 설계(리워드 해킹 방지) 등 현실적 확장에 어려움 존재, 최신 RL 알고리즘(GPO 등)도 여전히 도전 과제
Reflection.ai는 ‘자율 코딩’을 출발점으로 슈퍼 인텔리전스 구축을 목표로 하며, 35명 규모의 선구자적 연구팀이 이에 도전 중임

세부 요약 - 주제별 정리

대형 언어 모델은 스케일링 법칙을 통해 능력과 일반화 범위가 기하급수적으로 확장됨

2020년에 발표된 “Scaling Laws for Large Language Models” 논문은 LLM(대형 언어 모델)의 테스트 손실과 파라미터/연산량/데이터 사이에 거듭제곱 법칙(power law) 관계가 있음을 밝힘
트랜스포머 모델에 더 많은 파라미터, 더 많은 데이터, 더 많은 연산을 투입하면 다양한 벤치마크에서 성능이 상승
이 성능 개선은 학습 도메인만이 아니라 전혀 다른 도메인까지 일반화되는 것이 두드러진 특징임
모델 크기가 커지면서 emergent behavior(창발적 특성)가 나타남: 작은 모델에서는 볼 수 없었던 새로운 기능들이 등장
대표 사례로 구글의 Lambda와 Palm 모델이 있음. 특히 Palm은 파라미터 수가 5400억 개까지 확장됨
최근에는 공개적으로 파라미터 수를 밝히지 않는 추세이나 3년 전 공개 그래프, 오픈소스(DeepSeek, Qwen) 등의 자료로 유추 가능
수학 문제(중학생 수준 단어 문제)와 같은 벤치마크에서 파라미터 수 증가에 따라 문제 해결률이 꾸준히 상승하였음

‘추론 사슬’ 방식(Chain-of-Thought)이 문제 해결 능력 극적으로 향상시킴

기존에는 모델에게 예시 문제와 정답을 주면 비슷한 문제에서 답을 잘 내지 못함
Palm 및 후속 연구에서 ‘문제 풀이 과정을 단계별로 서술(chain of thought)’하게 프롬프트를 주면, 정답률이 획기적으로 상승함을 발견
이 아이디어는 2021년경(약 4년 전)에 등장했으며 현재는 매우 보편화됨
사슬 추론 프롬프트 방식은 수학뿐만 아니라, 다양한 자연어 추론, 퍼즐, 질의응답 등으로 빠르게 확장
이에 따라 ‘step by step’, ‘think out loud’와 같은 프롬프트 전략, 다양한 바리에이션 프롬프트들이 유행하게 됨

대화형 응용(챗봇)·코드 생성 등에서 LLM의 잠재력이 현실화됨

LLM이 추론 능력 갖추자, 사용자가 구체적인 지시(instruction)를 내리면 실제로 이를 실행할 수 있게 됨
챗GPT, Gemini 등 다양한 챗봇·대화형 AI가 광범위하게 사용되는 계기가 됨
이러한 지시 따르기 능력은 RLHF(인간 피드백 기반 강화학습)에서 비롯됨
RLHF에서는 두 가지 답변을 놓고 어떤 것을 사람이 선호하는지 라벨링한 데이터셋으로 모델을 학습하여, 실제 사용자가 더 선호할 만한 답변을 생성함
RLHF의 성과는 챗봇뿐 아니라 코드 생성(all code-related applications)에도 적용되어 성능 개선에 기여함

LLM 훈련 비용은 막대하지만, 추론 단계에서는 연산 확장(샘플링·다수결 등)으로 성능 개선이 가능함

LLM의 전처리 및 훈련(Training)에는 수십억~수백억 원대의 막대한 자금, 연산 자원이 소요(공개된 수치 기반)
그런데 추론(Inference) 단계에서는 상대적으로 매우 저렴한 비용으로 다양한 시도를 할 수 있음
이런 특성을 활용해, 추론 시 모델로부터 여러 답변을 독립적으로 생성한 뒤 ‘다수결(majority voting)’로 최종 답을 결정하는 방식이 사용됨
예: 수학 문제를 모델에 3회 반복 시켜 나온 답 중 2개 이상 일치하면 그걸 정답으로 간주
이 방식은 ‘self-consistency’ 혹은 ‘majority voting’이라고도 하며, 추론 단계 연산 확장으로 일정 이상의 성능 개선이 가능함

‘연속적 답변 수정’·‘자기 수정보완’ 등 인간과 유사한 반복적 개선 전략이 고도화되고 있음

사람도 답을 내고, 다시 검토·수정하는 방식으로 사고함
LLM에서도 초기 답변을 내고, ‘스스로 평가→수정’하는 일련의 과정을 반복적으로 수행하게 하면 정답률이 높아짐
이 방식을 위해 추천되는 테크닉: 더 긴 reasoning chain, 반복적 self-critique, 수정 루프 등
특히 수학이나 코딩처럼 ‘정답 검증’(예: 유닛 테스트, 컴파일, 수식 자동 검증)이 가능한 분야에서 매우 큰 효과가 입증됨

자동 검증 가능한 분야(수학, 코딩 등)에서는 추론 단계 연산 확장이 효율적으로 적용됨

수학: 계산식 검증(계산기로 답 재확인), 정형 증명 등 통해 자동 검증 가능
코딩: 유닛 테스트, 컴파일(예: PyTorch 컴파일러 활용) 등으로 결과물 검증 가능
자동 검증이 어려운 영역에서는, 여러 샘플을 뽑아 다수결해도 정답 빈도수가 낮아 실제로는 효과가 제한(샘플 1만 번 뽑아야 정답 찾는 식)
결론: 자동 검증이 가능한 도메인에서는 inference 연산 확장이 매우 유효하나, 그렇지 않은 영역에선 덜 효과적

향후 LLM 발전을 위해선 ‘훈련 단계에서 정확한 생성학습(RL 기반)’이 필수적임

다수결·추론 사슬 방식은 추론 단계 반복을 필요로 하므로 실사용(실행)에서는 한계
모델이 ‘정확한 답’을 바로 내도록 학습 단계(훈련과정)에서 supervised fine-tuning이나 RL 도입이 필수
챗봇은 RLHF(인간 피드백 강화학습)로 비약적 성능 도약을 했음. 이제 코딩(자동 검증 가능한 영역)에도 동일한 접근이 화두가 됨

RLHF 등 강화학습은 실제 벤치마크에서 성능이 증명되고 있으나, 자동 검증 도메인에서 진가를 발휘함

벤치마크(예: GSM8K, MATH, AMY 등)에서 RL, 특히 RLHF 활용시 예측 정확도가 훈련 시 연산 투입량에 따라 선형적으로 상승
DeepSeek(open source LLM) 등 다양한 최첨단 모델이 RL과 자동 검증을 결합하여 높은 공개 벤치 점수를 획득
2024년 기준 자동 검증 가능한 대부분 벤치마크는 이미 80% 안팎의 정확도로 ‘포화(saturation)’ 상태에 근접함
RL은 자동 검증(수학, 코딩 등) 사용시, 벤치마크 성능 향상과 더불어 AI의 ‘지능 실제화’에 결정적 역할 기대

RL 시스템은 복잡한 시스템 설계와 리워드 설정 등 실용화에 어려움이 많음

RLHF 등 RL 도입 시, 모델 복제본을 3~4개 동시 운용해야 하므로(예: PPO, DPO 등 알고리즘) GPU 클러스터 아키텍처 설계 복잡성↑
예: PPO(정책 경사하강법)는 기본 4개 복제본, DeepSeek Math의 GPO는 3개 복제본 필요
실제로 대규모 모델(cloud/enterprise)에서 이 복제본들을 효율적으로 배치·운용하는 데 상당한 난이도와 최적화 과제 있음
RL의 보상 함수(Reward Model)가 신경망일 경우 ‘리워드 해킹’(잘못된 학습)이 빈번
하지만 코딩 등은 실행검증, 유닛테스트 등 명확한 리워드 신호를 정의할 수 있기에 RL 적용에 적합

자율 코딩은 RL 덕분에 ‘슈퍼 인텔리전스’ 실현의 출발점으로 주목받음

Reflection.ai의 비전: ‘자율 코딩’을 시작점(root node)으로 삼아 슈퍼 인텔리전스 실현 목표
코딩은 출력 검증 자동화가 가능, RL 확장에 매우 적합한 현실 세계 적용 분야
코딩 에이전트 구축에는 여러 능력이 총합적으로 필요하며, 범용 단일 모델/다중 특화 모델 중 어느 쪽이 우월할지는 아직 업계 비법(“secret sauce”)
현재 약 35명의 LLM 및 RL 분야 선구자급 연구진이 Reflection.ai에서 새로운 패러다임 구축에 도전하고 있음

‘경험의 시대(era of experience)’ 도래와 시뮬레이션, 실제 경험 데이터의 차이

RL 분야(Google DeepMind의 David Silver 등)에서는 ‘시뮬레이션’(알파고, 알파제로) 이후 ‘경험 기반 RL’에 초점 이동 중
알파제로 종류는 MCTS(몬테카를로 트리 탐색) 등 시뮬레이션 데이터로 훈련, 게임·로보틱스 등 모델 가능한 세상에서 용이
그러나 실제 세계(코딩, 소프트웨어 엔지니어링 등)는 불완전한 rollout, 미지 시나리오가 많아 시뮬레이션에 제한
앞으로는 ‘실제 데이터(경험)’ 수집이 RL의 핵심 원천이 될 전망
실제 세계의 경험은 불완전하며, 완벽하게 모든 경우의 수를 탐색(검색)할 수 없다는 차이점 명확히 존재