I Forced Claude to Code for 24 Hours NONSTOP, Here's What Happened

영상 링크: I Forced Claude to Code for 24 Hours NONSTOP, Here’s What Happened
채널명: Cole Medin

클로드에게 24시간 내내 코딩을 시켰더니 벌어진 일 핵심 요약

Anthropic에서 오픈 소스화한 장시간 동작 에이전트 하네스(harness)를 활용, 24시간 논스톱으로 Claude 코드 에이전트를 동작시켜 성능과 결과를 실험함
장시간 에이전트 하네스는 매우 큰 작업을 여러 에이전트와 컨텍스트 윈도우로 분산시켜 수 시간 혹은 수십 시간 동안 지속적으로 코딩하도록 조율함
실험 목표는 claw.ai(클로드 웹 인터페이스)를 24시간 안에 자동으로 완성해보는 것임
하네스 설계는 테스트 주도 개발(TDD) 개념을 차용, 모든 기능과 테스트 케이스를 최초부터 명확하게 기술 후 이를 기준으로 지속적으로 자동 검증함
프로젝트 핵심 구조는 ‘앱 사양(app spec)’, ‘기능 리스트(feature list)’, ‘초기화 스크립트’, ‘git 저장소’, ‘진행 요약(claude progress)’ 등 4~5개의 주요 아티팩트 파일을 바탕으로 이루어짐
각 세션마다 완전히 새로운 컨텍스트 윈도우에서 작업하지만, 아티팩트와 요약 파일로 에이전트간 상태와 진척도를 신속하게 파악 가능
보안 강화를 위해 에이전트 작업 디렉터리 제한, 커맨드 종류 제한, Bash 커맨드 훅 등 다양한 가드레일이 구성됨
Puppeteer MCP 서버를 통해 브라우저 수준의 자동화 검사 및 시각적 검증까지 자동으로 수행함
24시간 만에 54번째 코딩 에이전트 세션에 도달, 전체 테스트의 54%를 통과해 실제로 기능이 상당히 구현된 claw.ai 클론 인터페이스를 완성함(100여개 테스트 통과)
남은 미완성 항목은 매우 디테일한 UI/UX 레벨로 이미 실사용 수준의 결과물이 생성됨

세부 요약 - 주제별 정리

Anthropic의 장시간 동작 에이전트 하네스가 코딩 에이전트의 새로운 실험 환경을 제공함

최근 Anthropic이 오픈 소스화한 장시간 동작 에이전트 하네스(harness)는 수 시간~수십 시간 연속 작업을 필요로 하는 대규모 코딩에이전트 시스템의 조합/관리를 용이하게 함
하네스는 코딩 에이전트 위에 얹히는 ‘조율/분할 계층’으로, 같은 큰 작업을 여러 에이전트와 여러 컨텍스트 세션에 분배하여 컨텍스트 윈도우 한계를 극복함
예를 들어 claw.ai 와 유사한 규모의 대규모 애플리케이션도 분할된 세션과 다양한 관리 파일(아티팩트)로 연속 자동 코딩이 가능
설계의 핵심 철학은 코딩 보조 에이전트를 서비스로 활용하는 “장시간 백그라운드 에이전트”의 미래를 선취하고자 함

테스트 주도 개발 기반의 자동화 하네스 구조가 신뢰성과 반복성을 담보함

하네스의 모든 세션은 명확한 테스트 케이스 기반으로 진행되어 안정성과 정확성을 담보
앱 사양(APP SPEC) 작성 → 기능 리스트(JSON, 200개 이상의 세부 테스트), 초기화 스크립트, git 저장소, 진행 요약(claude progress) 순서로 구조화
기능 리스트의 각 항목은 카테고리, 설명, 검증 절차, 현재 통과 여부(pass) 등 매우 상세하게 분류됨
새 에이전트 세션마다 초반에 PRD, 기능 리스트, 진행 요약, git log 등 주요 파일 자료를 읽고 이미 구현된 내용과 다음 작업을 명확히 파악함

에이전트 세션별 핵심 동작 시나리오가 체계적으로 반복됨

세션 1: Initializer agent가 PRD(앱 사양)를 읽고 전체 기능 리스트(200개 이상), 초기화 스크립트, git 저장소, 앱 골격 및 claude progress 파일을 생성
이어지는 각 코딩 에이전트 세션은 claude progress 파일로 직전 진행 상황을 파악, 기능 리스트에서 아직 미구현(pass=false) 항목을 선택해 구현 시작
작업 전후 회귀(regression) 테스트를 자동 수행, 실패 시 재수정 후 검증 및 통과 여부 반영
각 세션 종료시 git 커밋과 claude progress 요약 자동 업데이트, 다음 세션 진입시 이 파일 기반으로 빠르게 상태 파악 가능

하네스의 아티팩트 파일 및 프롬프트 체계가 컨텍스트 한계를 극복함

각 세션별 아티팩트 파일(기능 리스트, 진행 요약, git log 등) 및 구조화된 마크다운 프롬프트를 통해 매번 새로운 컨텍스트 윈도우에서도 빠른 연속 작업/상태 동기화가 가능
initializer prompt, coding prompt의 마크다운 파일이 각각 역할을 담당, 내부적으로는 규칙, 명령(command), 보안 권한 등 세밀한 지침이 기술
기능 리스트의 pass 필드만 수정 허용 등, 반복 코딩 중 실수·오류 방지를 위한 제한 규칙도 명시

Claude 에이전트 SDK의 직접 활용이 CLI 방식보다 더 높은 유연성과 통제를 제공함

단순 CLI가 아닌 Python 직접 코드에서 Claude 코드 클라이언트를 SDK로 다루어 하네스 전체 동작을 프로그래밍적으로 완벽하게 제어 가능
특정 API 키 대신 Claude 개인 구독 토큰 활용 가능(비용 최소화), 환경 변수 CLA_TOKEN 설정으로 활성화
주요 명령은 파일 읽기/쓰기, Bash 실행, Puppeteer MCP 서버 통한 브라우저 자동화 검증 등 허가 명령만 제한적으로 실행 가능
Bash 명령도 화이트리스트 기반으로 제한, 디렉터리 삭제 등 치명적 작업 방지
프로젝트 디렉터리 실행 제한, 샌드박스 환경 구성 등 보안 가드레일이 코드 내 구현됨

Puppeteer MCP 서버 통합으로 브라우저 수준의 시각적 회귀 테스트와 실제 동작 검증이 가능함

각 코딩 세션에서 Puppeteer MCP 서버를 활용, 프론트엔드 결과에 대해 실제 브라우저에서 버튼 클릭, 화면 로딩, 스크린샷 촬영 등 자동화 동작 구현
에이전트가 서버단에서만이 아닌 실제 UI 결과까지 검증, 실질적인 제품 수준의 신뢰도 달성
자동화 검증이 느려져도(대기 시간 발생) 전체 토큰 소모는 완만하게 진행됨

프로젝트 실행 및 실습 환경이 간단하게 구성됨

공식 오픈소스 레포를 clone한 뒤, 토큰 세팅 등 소규모 사전 작업만으로 하네스 실행 가능
프로젝트 디렉터리 및 detailed app spec 제공되어 claw.ai 클론 사양에 맞게 세팅됨
autonomous-agent-demo 명령 실행, 필수 파라미터(디렉터리, 모델 등) 세팅 후 코드 전 영역 자동 암시적 코딩 진행

하네스 자동화 과정에서의 프롬프트 로드 및 실행 방식이 명확히 분리됨

initializer 세션: appspec(PRD) 및 명확한 구조화로 initializer prompt를 활용, 전체 스켈레톤 세팅
coding agent 세션: coding prompt 활용해 각 기능별 이해→검증→구현→테스트→업데이트 루프 진행
각 마크다운 프롬프트 내 역할(파일, 검증, 상태 동기화 등) 명확히 분리, CLI와 달리 직접 프롬프트 삽입 혹은 명령 입력 불필요

24시간 실험 결과, 실사용 단계 수준의 claw.ai 클론을 상당 부분 완성함

54회차 코딩 에이전트 세션 도달(세션 54), 총 테스트의 54%(100여 개) 통과, 현재 기준 브라우저에서 실제 동작하는 claw.ai 클론 구현
프로젝트 내 대화방, 파일업로드, 프로젝트/대화 관리, 마크다운/HTML 렌더링, 테마 및 토큰 슬라이더 등 다양한 고급 기능 자동화 구현
UI상 약간 미흡(세부 레이아웃, 스크롤, 모바일 최적화 미완료)하나, 이미 실사용에 무리 없는 수준
향후 추가 반복만으로 완성도 및 커버리지 극대화 가능성 확인

세션별 진행과정 및 하네스/에이전트 신뢰성이 지속적으로 유지됨

세션 로그 상 “세션 34” 등 표기가 실제(54)와 불일치하는 등 사소한 state mismatch 있었으나, 전체 흐름/진행 정합성 문제없이 작업 지속
회차 증가해도 기능 구현 과정에서 심각한 헛점이나 잦은 오류(환각 등) 없이, 일관성/정합성이 높은 결과물 산출
수십번 반복에도 기능 리스트 진척도 및 진행 요약이 정확히 관리되어, 장시간 자동화의 유효성 입증

오픈소스 하네스의 범용성으로 다양한 프로젝트에 즉시 적용 가능함

claw.ai 클론 외에도 동일 구조의 하네스를 다양한 프론트엔드·백엔드, 웹·클라이언트 프로젝트에 적용 가능
앱 스펙(app spec)만 상세히 작성하면 자동화 대상/구조가 자동으로 반영됨
Puppeteer MCP서버 등 UI 자동 검증 연동을 통한 다양한 제품 개발 자동화 실험 가능
오픈소스 레포 및 상세 수업(Dynamus Agentic Coding Course) 안내로 누구나 동일 방식 실습·확장 가능