영상 링크: No Vibes Allowed: Solving Hard Problems in Complex Codebases – Dex Horthy, HumanLayer
채널명: AI Engineer
진정한 바이브 없이: 복잡한 코드베이스에서 어려운 문제 해결하기 핵심 요약
- 본 발표는 Dex Horthy(HumanLayer)가 복잡한(brownfield) 코드베이스에서 AI 코딩 에이전트의 실질적 한계를 극복하기 위한 “컨텍스트 엔지니어링” 기법을 상세히 다룸
- 10만 명 이상의 개발자 대상 조사 결과, AI 활용은 간단한(greenfield) 프로젝트(새로운 소형 대시보드 등)에서는 효과적이나, 레거시·복잡한 코드베이스에서는 재작업(sloppy code) 비율이 높아 실질적인 생산성 저하 문제 발생
- Dex 팀은 3명, 8주에 걸쳐 컨텍스트 최적화에 집중, 코드 재작업 없이 2~3배 높은 산출물을 달성하며 업무 방식·협업 방식 전환을 강제받음
- 그 결과 “연구→계획→구현(Research→Plan→Implement, RPI)” 프롬프트 시스템을 개발하여, 전 세계 수천 명이 GitHub에서 활용
- 기본적 AI 에이전트 활용(반복적 수정·혼합된 컨텍스트 사용)의 한계를 인식하고, ‘의도적 압축(compaction)’ 기법, ‘서브에이전트(sub-agent)’, ‘점진적 컨텍스트 샤딩’, 등으로 효율 극대화 시도
- LLM의 출력은 컨텍스트 품질에 절대적으로 좌우되므로, 컨텍스트 윈도우 크기 및 내용 품질 관리가 필수(특히 40% 수준 이상 시 ‘멍청이 구간(dumb zone)’ 돌입)
- ‘멘탈 얼라인먼트(mental alignment, 팀의 코드 이해 동기화)’ 유지를 위해, 플랜 파일에 구체적 코드 스니핏·프로세스 추가, 코드 리뷰 효율화
- 실전 예시(30만 라인 Rust 코드베이스 일발 수정, BAML에 3.5만 라인 PR), 실패 사례(파켓자바에서 하둡 의존성 제거 실패) 등을 공유하며 한계·과제도 언급
- ‘스펙 드리븐 개발’ 용어 및 프랙티스의 의미 희석화, 지나친 자동 문서화의 문제도 강조
- 조직 내 AI 활용도 향상을 위한 리더십의 문화적 변화 및 컨텍스트 엔지니어링 최적화의 필요성 강조
세부 요약 - 주제별 정리
대규모 개발자 설문에서 복잡한 코드베이스 AI 활용은 재작업 비중이 매우 높게 나타남
- 10만 명 개발자 설문 결과, AI 코딩 도구 활용 시 단순하고 신규인(greenfield) 프로젝트에서는 성과가 좋으나
- 복잡하거나 레거시(brownfield) 코드베이스에서는 대부분 시간과 리소스를 재작업(slop)과 코드 변경(churn)에 사용
- “우리가 저번 주에 배포한 허접 코드를 다시 뜯어고치는 경우가 많다”는 표현
- Vercel 등 신규 서비스 코드에선 AI가 잘 동작하지만, 10년된 자바 레거시에서는 효과 미미
- Dex 본인 및 다수 엔지니어 경험치와 완전히 일치
컨텍스트 엔지니어링 기법으로 단기간 내 협업 및 생산성 비약적 상승 경험
- Dex 팀(3인, 8주) 내에서 ‘콘텍스트 최적화’에 집중
- 처음 접한 클라우드 기반 코드 에디터 UX에는 큰 감흥 없었으나, 컨텍스트 관리 방식 전환 후 2~3배 생산성 상승
- 폭증하는 산출물로 인해 내부 협업 방식도 전면 재설계 필요
- 계량적·논리적 절차(Research → Plan → Implement)로 접근, 깃허브에서 수천 명이 해당 프롬프트 활용
- 해커뉴스 등에서 큰 반향(바이럴화) 기록
AI가 복잡한 레거시 코드베이스에서 실질적으로 작동하기 위한 전제조건이 강조됨
- 목표는 ‘노 슬롭(No Slop)’: 재작업 없는 건실한 코드 품질 유지
- 컨텍스트 윈도우 관리, 컴팩션, 작업 통합을 통한 높은 토큰 활용도 달성
- 멘탈 얼라인먼트(팀원 간 코드·변경 의도 동기화) 확보 필수, 아닌 경우 생산성 저하 및 누적 부실 발생
- 원천적으로 인간이 의미있는 업무만 AI에게 오프로드(offload)해야 효과적
반복적 프롬프트 이용에서 벗어나 ‘의도적 압축’이 에이전트 활용 효율을 극대화함
- “틀렸다→수정 지시→재요청”의 단순 반복이 아닌, 특정 단계에서 전체 컨텍스트를 마크다운 파일로 압축
- 새 AI 세션에 압축된 문맥 제공시, 초기 정보 탐색 불필요, 곧바로 업무에 착수
- 압축 내용: 실제로 작업에 필요한 파일명·라인넘버·최소한의 문맥 정보
- 컨텍스트 윈도우 내 용량(168,000 토큰 내외)을 적절히 분할해 활용(약 40% 이상 진입 시 품질 저하)
컨텍스트 윈도우의 품질·양·궤적(trajectory)이 LLM 결과에 결정적임
- LLM은 논디터미니즘이지만 ‘stateless(상태비저장)’하며, 입력 컨텍스트 품질이 결과 결정
- 잘못된 컨텍스트가 반복 입력될 경우, ‘실패→인간의 지적→재실패’ 패턴이 누적
- 바람직한 방향성(trajectory) 유지를 위한 정보 선별, 잘못된 정보→누락 정보→노이즈 순으로 위험성 판단
- Jeff Huntley 연구 등도, 컨텍스트 윈도우 과다 사용 시 결과 품질 저하 ‘멍청이 구간’(dumb zone) 개념 제시
서브에이전트는 역할 분업이 아니라 컨텍스트 조절·단편화에 중점적으로 활용해야 효과적임
- 프런트엔드·백엔드·QA·데이터 사이언스 역할별 anthropomorphizing은 비효율적
- 서브에이전트는 대규모 코드베이스 내 특정 정보 탐색·이해를 위한 별도 컨텍스트 윈도우 생성/반환 용도
- 메인 에이전트는 요약된 결과물(필요한 파일 등)만 받아, ‘스마트 존(smart zone)’ 유지
‘연구→계획→구현’(RPI) 워크플로우로 컨텍스트 윈도우 최소화 및 성과 최적화 가능
- Research(연구): 시스템 구조·관련 파일·목표·기존 동작 탐색 및 객관적 정보 수집, 오픈소스 프롬프트와 샘플 결과 활용
- Plan(계획): 명확한 작업 순서·파일명·코드 스니핏·테스트 방식 등 상세기획, 계획안에 실제 코드 예시 포함 권장
- Implement(구현): 계획안을 참조해 구현, dumbest model조차도 실수 가능성 minimal
- 전체 작업 과정에서 의도적으로 context를 최소화하며, 작업 반복 및 버퍼현상 방지
실전 대형 코드베이스 적용 성공 및 실패 사례에서 한계와 개선점을 도출함
- 30만 라인 Rust 기반 Boundary ML 코드베이스 일괄 수정(one-shot fix) 성공
- 한 밤 동안 구현, CTO 승인 후 곧바로 릴리즈 포함
- 35,000줄의 대규모 코드 PR 및 약 7시간 작업 후 1~2주 예상 분량 완료, 일부 codegen 포함
- Hadoop 의존성 제거(파켓자바) 시도는 복잡성, 계획 부정확 등으로 실패, 화이트보드 재기획 필요
- 결국 AI가 ‘사고(thinking)’ㅡ자체를 대체하는 것은 불가능하며, 고차원 통찰 및 설계는 인간 몫
스펙 드리븐 개발(Spec-driven Development) 용어가 의미 확산·희석을 겪으면서 한계 도달함
- 업계에서 ‘스펙’이 의미하는 범위가 너무 넓어져, 실질적으로 구체성 상실(semantic diffusion)
- 단순 프롬프트, 제품 요구 명세서, 피드백 루프, 마크다운 일기장 등 다양하게 혼용
- 오픈소스 문서화와 동의어로 쓰이기도 함
- “에이전트” 용어처럼, 스펙드리븐도 결국 실체가 무의미해짐
실질적이고 검증된 4단계 실천 전략을 통해 높은 생산성과 협업 품질 도달
- (1) 연구: 코드베이스 구조 파악(순간 캡처·온디맨드 샤딩), 거짓(슬롭)이 적은 정보만 재가공
- (2) 계획: 의도 압축, 실제 작업 단위·코드 스니핏 등 최대한 구체화
- (3) 멘탈 얼라인먼트: 코드 리뷰 시 ‘왜/무엇을/어떻게’에 대한 팀 간 이해 통일
- PR에 연구·계획·빌드 결과 첨부, 깃허브 메시지보다 효과적으로 작업 흐름 전달
- (4) 구현 및 피드백: 사람 주도 계획 검토 필수, 나쁜 계획 한 문장이 수백 줄의 나쁜 코드 유발 가능
- 주기적 반복과 숙련이 필요하며, 여러 도구 최적화보다 한 도구를 집중적으로 활용 권고
조직 차원의 문화 변화와 지속적 학습이 AI 기반 업무 혁신의 성공 열쇠임
- 조직 내 기술 리더가 변화 선도 필요, 99% AI 제작 코드 시대 대비해 SDLC 자체 혁신 필요
- 미드레벨 개발자는 생산성 향상 효과 크나 품질 문제도 동반, 시니어·스태프 엔지니어는 정제되지 않은 결과물에 피로도 증가
- ‘슬롭’ 발생은 AI나 주니어의 책임이 아니라 조직 문화와 워크플로우 문제
- 컨텍스트 엔지니어링이 실제로 작동할 수 있게 기획·활용 경험 축적이 관건, HumanLayer 등에서는 Aentic IDE 등 도구화 진행
결론: 완벽한 프롬프트, 은탄환 없는 현실 인식이 필요하며, 컨텍스트 엔지니어링 역량·프로세스 적응이 가장 본질적인 과제임
- RPI(Research Plan Implement) 워크플로 자체보다 ‘의도적 컴팩션’과 ‘스마트존 유지’가 핵심
- “사고(Thinking)”는 AI에게 외주화 불가, 사람이 컨텍스트·계획·판단에 적극 개입해야 함
- 하이픈(hype) 없이 실천 가능한 컨텍스트 관리·엔지니어링 역량 구축에 집중 필요