
영상 링크: Devin 2.0 and the Future of SWE - Scott Wu, Cognition
채널명: AI Engineer
Devin 2.0와 소프트웨어 엔지니어의 미래 핵심 요약
- Devin의 개발 여정과 소프트웨어 엔지니어링 AI 에이전트의 발전 단계를 구체적으로 조명함
- AI 에이전트의 처리 능력은 약 70일(2
3개월)마다 2배씩 증가하고 있음—코드 작업량 관점에서는 연간 1664배 성장 - 18개월 전까지만 해도 코드 자동완성(탭 컴플리션)이 주된 상용 AI 기능이었으나, 현재는 대형 프로젝트도 수행할 수 있음
- 초기 AI 에이전트는 JavaScript→TypeScript 등 명확한 반복적 마이그레이션에 특화되어 있었고, 명확한 지시(Instruction Following)와 단계 실행이 핵심 능력이었음
- 반복 작업의 효율성과 피드백 반영을 위해 playbook 시스템과 에이전트의 학습/기억 기능을 개발함
- 이후 리포지토리 셋업·테스트·CI 자동화 등 “더 넓은” 업무로 확장, 여러 파일에 걸친 버그 수정이나 신규 기능 구현까지 가능해짐
- 코드베이스 전체 구조 이해, 의존성 파악, cross-file 변경, 이슈 관리(예: Slack 연동) 등 고차원 맥락 처리 능력을 적용
- Deep Wiki와 검색, 인간-AI의 협업적 탐색 과정 등 코드 베이스 지능 강화 및 반복적 토의-수행 워크플로우를 제공
- 대규모 병렬 업무 처리, 과제 범위 결정, 적합한 리포 식별, 자율적 테스트 및 검증 지원 등 Devin 2.0의 최신 기능 소개
- 미래엔 전체 프로젝트 자동화 등 완전 자율적 소프트웨어 개발로 진화할 것으로 전망, 향후 1년간 또다시 16~64배 성장 예상
세부 요약 - 주제별 정리
AI 에이전트의 처리 능력은 코드 작업에서 70일마다 2배씩 폭발적으로 증가함
- AI 에이전트의 진화에 있어 “얼마나 개입 없이 연속으로 작업을 수행할 수 있는지”가 주요 지표임
- 언어 모델 전체(예: GPT-3/3.5/4)의 작업능력은 7
8개월에 두 배씩 늘지만, 코드 작업 영역에서는 이 추세가 70일(23개월)마다 두 배씩 증가 - 연산하면 1년에 4
6회 더블링 → 연평균 1664배 성장률 - 18개월 전까지만 해도 코드 자동완성(탭 컴플리션)이 유일한 신뢰 가능한 AI 기반 생산성 도구였음
- 최근에는 코드 작성, 리포지토리 셋업, 버그 수정, 테스트 등 포괄적 업무 수행이 화두임
AI 소프트웨어 에이전트의 주류 활용은 반복적 마이그레이션 업무에서 시작되었음
- 1년 전 첫 AI Engineer 컨퍼런스 당시 가장 현실적인 대량 실사용 분야는 “반복적 코드 마이그레이션”
- 예: JavaScript → TypeScript 변환, Angular/Java 버전 업그레이드 등
- 대용량 코드베이스에서 파일별로 명확한 절차를 반복 수행해야 하는 경우가 주요 타깃
- 예시: Angular 공식문서에서 안내하는 단계적 작업을 여러 파일에 반복 적용
- 완벽히 결정적이지는 않으나, 명확한 단계적 작업에는 매우 강력한 성능 발휘
- 이 시기의 Devin은 Playbooks 시스템을 통해 정확한 Step by Step 명령 이행 기능에 집중
반복적 업무의 자동화 신뢰성과 피드백 학습을 위한 시스템적 보완이 필요했음
- 반복 작업이라 하더라도 인간 사용자로부터 지속적인 피드백이 발생함
- “이 케이스에서는 항상 X를 해라”, “이런 상황에서는 Y를 잊지 마라” 등
- Devin은 내부적으로 피드백 기반의 메모리, 학습 시스템(knowledge/memory system)을 구축하여 누적 지식 반영
- 이런 장치는 유사 작업의 정확성 및 신뢰성 강화에 필수적이었음
작업 영역이 다변화하면서 리포지토리 관리와 자동화 인프라가 중요해졌음
- 반복 마이그레이션 단계를 넘어서면서, 다양한 종류의 버그 고치기/작은 기능 추가 등에도 Devin의 활용도가 커짐
- 이러한 작업은 한두 개 파일 수정에 그치는 경향이 있으나, 리포지토리 세팅, 빌드, 린트, CI 등 환경 구성이 선행돼야 함
- 이에 따라 Devin은 원격 VM 기반 리포지토리 스냅샷, 되돌리기/롤백 등 다양한 작업 프리미티브 제공 필요가 대두됨
- 이를 통해 “버그·피처 요청을 바로 실행 가능한” junior buddy 같은 활용이 가능해짐
신규 기능 요청 및 복잡한 버그 수정에는 다중 파일·맥락 이해와 협업 처리가 필수임
- 단일 파일 대신, 수십~수백 줄에 걸쳐 여러 파일을 동시에 수정해야 하는 작업 빈도가 증가
- 전체 코드베이스 계층 구조(호출관계, 언어 서버, Git 커밋 히스토리 등)와 연관성을 파악해야 정확한 수정을 할 수 있음
- Slack 태깅 등 협업 툴 연동과 함께, 실제 운영 환경에서 다양한 태스크 요청을 자연스럽게 소화할 수 있도록끔 발전
- Devin이 여러 작업을 병렬적으로 처리하고, 사용자의 맥락을 즉각 반영할 수 있는 시스템 자질을 강화함
초기 온보딩 및 코드베이스 지식 습득 단계에서도 Devin의 자율성과 적응력이 요구됨
- 초보자가 코드를 이해하며 점차 작업 수행 능력이 향상되는 것처럼, Devin 역시 코드베이스 전반에 대한 자체 학습 필요
- “작업별 계획 수립→필요 파일 식별→일관성 있는 차이점(diff) 생성”의 단계별 수행 능력 고도화
- 사용자가 “이 이슈 해결해줘”, “이 부분 기능 만들어줘”처럼 구체적이지 않은 지시를 내려도, Devin이 상세 작업을 스스로 분해·계획 가능해야 함
복잡한 작업에서는 인간-에이전트 간 반복적 질의응답과 맥락 탐색이 중심이 됨
- 더 진행된 업무(예: 아키텍처 개선, 성능 프로파일링, 예외 처리 등)는 사용자가 처음부터 정확히 원하는 바를 파악하기 어려움
- Devin은 Deep Wiki 및 코드 검색 기능을 제공, 인간 사용자가 코드베이스 전체 구조·맥락을 빠르게 탐색 가능케 함
- L2(상위 레벨) 경험 제공: 사용자가 코드베이스 이해→이슈 정의→에이전트 실행의 순차적, 협업적 워크플로우
- Devin 2.0 도입 이후, IDE 연동 환경 등에서 “작업의 10
20%는 사용자가 직접 관찰·지도, 나머지 8090%는 Devin이 자율 수행” 구조 구현
Devin 2.0은 다중 과제 병렬 처리와 자율적 과제 스코핑 및 검증까지 지원함
- 최근(2024년 6월 기준) Devin은 대규모 백로그 한 번에 투입·병렬처리, 여러 리포와 시스템(Linear, Jira 등)과 연동 가능
- 과제별 필요 범위(스코프) 자동 결정, 적합한 코드베이스/리포 식별, 중간 평가 및 인간 개입 요청 등 고차원 자율성 확보
- 여러 파일 및 모듈에 걸친 대체·수정·확장까지 자체적으로 처리
- 테스트 자동화 및 비동기적 자가 검증 기능 탑재—완성된 PR 단위로 결과물 제출 전 자체셀이 반복적으로 코드를 시험·판정함
- “정확히 이해됐다고 판단되면 실행, 이해가 부족하면 인간에 질문” 등 자신감 기반 자율 판단 루프 적용
소프트웨어 개발의 완전 자동화와 프로젝트 단위 자율화가 미래의 주요 목표임
- Devin팀은 “단일 태스크를 넘어서 전체 프로젝트(혹은 그 이상의 규모)까지 자동화”라는 비전을 제시
- 지금까지의 업무 단위 2배 증가는 always-different bottleneck과 직결 — 각 단계에서 풀어야 할 핵심 난제 및 인터페이스가 매번 새로 등장함
- 예전의 자동완성(탭 컴플리션)은 텍스트 스트림 문제에 가까웠으나, 지금은 협업, 피드백, 긴 맥락 처리, 자율 테스트·디버깅 등 본질적으로 어려운 문제에 도전 중
- Devin이 테스트, 평가, 장기 전략적 의사결정, 셸 명령 자동 실행, 결과 기반 반복 등 다양한 자율 실행력을 갖추고 있음
- 1년 후에도 연간 16~64배씩 진화할 것으로 강하게 전망하며, 소프트웨어 엔지니어링 자동화 혁신의 방향성 제시