영상 링크: Live AI Coding with Ray Fernando - Exploring NEW Workflows
채널명: Cole Medin
Ray Fernando와 함께하는 라이브 AI 코딩 – 최신 장기 실행 에이전트 워크플로우 탐험 핵심 요약
- 본 영상은 Cole Medin과 Ray Fernando가 직접 라이브 방송을 진행하며, AI 코딩 에이전트 워크플로우와 Anthropic의 ‘장기 실행 에이전트(harness)’ 오픈소스 프레임워크를 심층적으로 탐구하는 자리임
- 방송의 주요 포커스는 Anthropic이 발표한 “long-running agents harness”의 구조와 원리를 파헤치고, 이를 실제 프로그래밍/코딩 작업에 접목하는 방법을 구체적으로 시연하는 것임
- 기존에는 harness가 로컬 JSON 파일에 작업을 기록했으나, Cole은 이 구조를 업무용 협업툴인 Linear와 연동하여 실시간 협업·관찰이 가능하도록 리팩터링함
- 라이브 데모를 통해 Claude Opus 4.5 모델이 24시간 동안 자율적으로 웹앱을 설계·개발·테스트·배포하는 과정을 Linear에서 단계별로 트래킹하며 시각적으로 보여줌
- 전체 설계 과정은 에이전트 프롬프트 구조, 초기화 에이전트 역할(사양/기능목록 자동 생성), 코딩 에이전트의 순차적 구현 및 리그레션 테스트, 주고받는 context의 효율적 공유 등으로 체계적으로 구성
- Linear와의 연동(Linear MCP Server 도입)으로 실시간 작업 관리, 진행상황 확인, 인간 피드백 삽입 등의 중간 인터랙션이 대폭 향상되었음을 구체적으로 보여줌
- 다양한 코딩 어시스턴트(Claude Code, CodeX, OpenCode, AMP 등)로의 확장성 및 프롬프트 커스터마이징, 그리고 도메인 독립적 적용 가능성을 강조
- 실험 결과, Claude 에이전트는 24시간 내 54% 작업 완료(200여개의 granular task) 및 각 단계별 깃 커밋 등, 자동화 수준/품질이 높은 것으로 평가됨
- 영상은 실제 시연과 함께 각종 코드, 프롬프트, 실시간 질문·토론, 실무 예시, 개선 아이디어(예: 비개발 업무, 로컬 AI, 커스텀 에이전트 적용)까지 풍부하게 다뤄, AI 기반 장기 실행 개발의 ‘현주소와 미래’에 대한 구체적인 인사이트를 제공함
세부 요약 - 주제별 정리
Cole과 Ray가 ‘장기 실행 에이전트 워크플로우’ 라이브 스트림을 공동으로 진행하며 시너지를 창출함
- Cole Medin은 AI 코딩, 에이전트적 개발 경험, 실험적 확산에 주력하는 유튜버이자 커뮤니티 리더임
- Ray Fernando는 Apple에서 12년 넘게 근무한 엔지니어로, 최근 AI 툴과 에이전트 라이브 코딩 실험에 집중하며 실시간 라이브 스트리밍 경험을 쌓음
- 두 사람은 각자의 실험·워크플로우 사례와 개선점을 함께 공유·통합하여 상호 보완적 혁신 아이디어를 즉석에서 창출함
- 방송은 두 채널(각자 스트림)에서 릴레이 형식으로 진행, 초반 기술적 세팅(오디오 싱크 등)도 오픈하게 언급
- 시청자들과의 즉각적인 소통(채팅 창 피드백 반영, 실시간 Q&A)도 적극적으로 반영함
Anthropic의 공식 ‘long-running agent harness’ 블로그·오픈소스 구조와 주요 원리를 Cole이 심층 해설함
- Anthropic 블로그(검색 키워드: ‘Anthropic effective harness for longrunning agents’)의 설계 구조부터 공개된 GitHub 레포 링크까지 체계적으로 안내
- harness는 ‘오차가 적고 효율적인 문맥 관리’를 위해 설계된 오픈소스 에이전트 프레임워크
- 주된 컨셉은 코딩 에이전트가 엄청나게 긴 컨텍스트(수십~수백만 토큰)를 효율적으로 계승할 수 있도록 ‘작업 분할’, ‘코어 아티팩트 공유’, ‘검증 피드백 루프’ 등 다양한 구조적 디딤돌 마련에 있음
기존 harness의 핵심 워크플로우(로컬 JSON 기반), 그리고 Linear 연동 전후 차이를 구체적으로 해부함
- 종전에는 ‘feature_list.json’에 기능/테스트케이스/상태 등을 기록하며, 각 세션에서 이 파일을 읽고 다음 컨텍스트로 계승
- ‘initializer agent’가 최초에 ‘apps spec’을 보고 전체 기능목록·테스트 및 코드 프로젝트 초기화까지 자동화
- 이후 각 ‘coding agent’가 기능별로 표준화된 프롬프트(10단계 안내)에 따라 기능 구현, 테스트, 리그레션 체크, 깃 커밋(안전 복구 대비) 까지 반복 루프
- Puppeteer MCP 서버를 통해 백엔드/프론트엔드/브라우저 자동화 및 사용자 UI 피드백까지 포함
- 기존은 로컬 파일(진행상황, 테스트 등) 위주, 새로운 리니어 연동 버전에서는 모든 context/상태가 Linear 내 서브이슈/댓글/프로젝트로 관리됨
Cole이 Linea 통합을 통해 협업성과 유저 관찰성, HI-LOOP 피드백까지 획기적으로 강화함
- Linear는 전 세계 대기업 및 스타트업에서 널리 쓰는 과업관리 플랫폼(Asana, Jira와 유사)
- Linear MCP Server를 harness에 추가해, 각 에이전트가 feature-list, 프로젝트, 진행상황, 회고(메타 이슈)까지 모두 Linear 내 생성
- 사용자는 Linear에서 각 작업 설명 및 피드백을 직접 수정, 사양변경 요청, 코멘트 추가 등으로 human-in-the-loop 개입 가능
- Linear의 실시간 보드/이슈/알림 기능 등을 통해, 에이전트 자동화 결과를 실시간 모니터링 가능한 구조
- 외부(모바일 등)에서도 언제든지 진척 확인 및 커뮤니케이션 가능, 대규모 프로젝트/다중 에이전트 병렬 운영도 수월해짐
실제 데모에서 Opus 4.5로 24시간 실행, granularity 높은 작업 분할, 자동 커밋, 실시간 UI/UX 구현까지 시연함
- Clad Opus 4.5 모델로 base harness를 기반으로 앱스펙(API, 프론트, DB 등 포함), 기능별 granular 작업 50개(일부는 200개까지 지원), 테스트 자동 생성
- 구현마다 브라우저 자동화(Puppeteer)와 리그레션 테스트, UI 체크, 기능별 커밋 등 완전 자동화 루프
- 24시간 내 54%의 granularity 작업 완성(128회 커밋 등), Human-in-the-loop 없이 대부분의 구현 검증
- 실제 화면에서 Linear 이슈 보드가 실시간 이동(진행/완료), 메타이슈에는 각 세션의 Progress가 커멘트 형태로 남겨져 context 공유가 극대화
- 프롬프트 디자인, 세션 구조, 리니어 연동 등의 세부 코드 및 아키텍처도 상세 공개
prompt 구조 커스터마이징 및 다양한 Coding Assistant SDK로의 확장/이식 가능성을 강조함
- harness는 핵심적으로 ‘2개의 프롬프트’(initializer, coding agent) 구조와 간단한 파이썬 코드(Cloud Agent SDK)로 구현됨
- CodeX, OpenCode, AMP, Cursor 등 타사 SDK에도 구조적 이식/확장 가능(다만 일부 SDK는 TypeScript 기반이므로 언어 변환 필요)
- Gemini 3, Llama 등 다른 LLM API도 주요 Harness 구조에는 쉽게 적용 가능(모델만 교체/설정 변경)
- API Key 등 인증 방법, 툴 사용 권한, 보안 훅(bash 명령 차단/허용 등) 등도 유연하게 설정 가능한 구조
- 오픈소스 레포(readme)에 상세한 사용법과 설정 방법(환경변수, Linear 연동 등) 공유
실제 적용 시 context 윈도우 문제, 상태 분할/이양, 행동 검증, 롤백/분기 등 기술적 이슈와 해결 전략도 상세 설명
- LLM의 context 윈도우(100K~200K 토큰)의 한계로, 중간마다 세션 리셋 및 핵심 컨텍스트(피처리스트, 프로그레스 등) 계승이 필수
- 각 세션/에이전트는 이전 상태 요약(cloud_progress), 작업 리스트(sync), 신규 세션 self-priming 방안을 프롬프트에 명시
- 작업 단위마다 안전 커밋으로 롤백 가능, 대규모 리팩토링(예: typescript 메이저 버전 업그레이드 등)에도 성공적으로 적용됨
- 테스트 자동화(유닛, 통합, 브라우저 자동 상호작용), 인간의 직접 검증 및 iterative feedback 병행 가능
- 실험 코드베이스 외 실제 SaaS, 게임, 리서치, IoT 등 비코딩 분야까지 적용 아이디어 제시
다양한 커뮤니티 피드백(리미트, 비용, 지역 차이, 각종 SDK/모델 특성, 기타 실무 활용 팁)도 실시간으로 흡수 및 공유
- Opus 유료 플랜(월 $200) 사용 시 개인별 쿼터/리미트 지역별/계정별 차이가 다수 목격됨(이슈 발생 시 커뮤니티 정보 공유)
- 각 코딩 어시스턴트별 API 사용량, temperature 등 파라미터에 따른 품질차 및 세부 설정법 팁 공유
- 다양한 개발자들의 실험 후기(Archon, RAG 에이전트, Django 등) 및 문제점/정책 FAQ 실시간 소통
- 실제 업무 현장에서의 생산성 향상, 요금 전략, 대규모 워크플로우 병행 운영 팁 등 다각적 노하우도 아낌없이 개방
harness 워크플로우의 조직/팀 협업 및 리서치/자동화/엔트로픽스 연구와의 접목 가능성을 제안함
- Linear 통합으로 실제 Fortune500 대기업 워크플로우와 hook이 쉬워져 조직 도입 실험 가능성 언급
- 예. ‘딥 리서치 자동화’, ‘실험실/로봇/IoT 품질관리’, ‘교육·문서화’, ‘비즈니스 R&D’ 등 도메인 확장 가능
- MCP Server는 문자 기반뿐 아니라, 영상·로보틱스·모바일 등 다양한 ‘외부 센서/디바이스/시스템’ 연결 역할도 기대
- 실시간 오브저버빌리티, 공동 작업, 피드백 반영 등 ‘실제 사람과 AI가 오버랩되는 업무’에 강점
프롬프트, 워크플로우, MCP 구조 등 ‘에이전트 엔지니어링’의 미래와 핵심 통찰을 제시함
- 장기 실행형 에이전트(harness)는 프롬프트 즉 ‘행동을 명시하는 언어·룰셋’을 통한 상위 레이어 설계의 중요성을 실증함
- 실제 실험에서 프롬프트만 바꿔도 업무/도메인/모델/플랫폼 불문 적용 가능성이 입증됨
- JSON→Linear, CLI→웹/모바일 등 각종 context 관리의 패러다임 변화를 제시
- 향후 개별 개발자의 맞춤형 언어, 협업형 프로토콜, API·IDE·프롬프트의 통합적 진화 방향 논의
- 현존 다양한 AI 코딩 도구(Cloud Code, Factory, CodeX, AMP, Gemini, Cursor 등) 및 오픈소스/상용/자체 개발 워크플로우까지 유연하게 호환·확장 가능
AI 코딩 에이전트/워크플로우 분야의 커뮤니티 활성화 및 학습·실험 플랫폼의 역할을 강조함
- Cole의 Dynamis 커뮤니티(강의, 워크숍, 실험, AGI 관련 토론 등)와 Ray의 공개 라이브 스트림의 상호 협업
- 해당 밋업을 반복 진행하며, 차후 마라톤 스트림(24시간 자동화 시연, 게임개발 실험 등)·메타버스/실시간 협업 아이디어까지 논의
- 시청자의 다양한 피드백, 질문·제안 등 실시간 반영 → 커뮤니티 기반 집단지성/정보 공유의 장으로 활용
- 요약, 자료, 코드 등 모든 리소스를 공개하여 누구나 실험·확장·적용 가능하도록 설계된 오픈 커뮤니티 성향 강화
실제 데모 실행 결과 및 차후 실험 아이디어, 적용 예시, 발전 방향까지 구체적으로 공유하며 방송을 마무리함
- 방송 중 실제 Linear에 수십개의 granular 작업 자동 생성, 각 단계별 실시간 이동, 결과/에러 처리 등 전체 프로세스를 투명하게 시연
- 실시간 질문(리미트/모델 교체/현장 활용 등)에 대해 구체적으로 코멘트·가이드
- 장기 실행 에이전트를 요리·게임·제조·리서치 등 모든 실세계 업무 자동화·확장 가능성에 대한 창의적 아이디어 제시
- Edge 기술(AGI, 특화 언어, MCP 확장 등)과 조직적 협업 모델의 미래상까지 함께 전망
- 클로징에서는 자료 링크, 오픈소스 레포, 커뮤니티 가입 안내 등 실질적 참여/확장 방법까지 체계적으로 정리함