Devin 2.0 and the Future of SWE - Scott Wu, Cognition

영상 링크: Devin 2.0 and the Future of SWE - Scott Wu, Cognition
채널명: AI Engineer

Devin 2.0와 소프트웨어 엔지니어의 미래 핵심 요약

Devin의 개발 여정과 소프트웨어 엔지니어링 AI 에이전트의 발전 단계를 구체적으로 조명함
AI 에이전트의 처리 능력은 약 70일(2~~3개월)마다 2배씩 증가하고 있음—코드 작업량 관점에서는 연간 16~~64배 성장
18개월 전까지만 해도 코드 자동완성(탭 컴플리션)이 주된 상용 AI 기능이었으나, 현재는 대형 프로젝트도 수행할 수 있음
초기 AI 에이전트는 JavaScript→TypeScript 등 명확한 반복적 마이그레이션에 특화되어 있었고, 명확한 지시(Instruction Following)와 단계 실행이 핵심 능력이었음
반복 작업의 효율성과 피드백 반영을 위해 playbook 시스템과 에이전트의 학습/기억 기능을 개발함
이후 리포지토리 셋업·테스트·CI 자동화 등 “더 넓은” 업무로 확장, 여러 파일에 걸친 버그 수정이나 신규 기능 구현까지 가능해짐
코드베이스 전체 구조 이해, 의존성 파악, cross-file 변경, 이슈 관리(예: Slack 연동) 등 고차원 맥락 처리 능력을 적용
Deep Wiki와 검색, 인간-AI의 협업적 탐색 과정 등 코드 베이스 지능 강화 및 반복적 토의-수행 워크플로우를 제공
대규모 병렬 업무 처리, 과제 범위 결정, 적합한 리포 식별, 자율적 테스트 및 검증 지원 등 Devin 2.0의 최신 기능 소개
미래엔 전체 프로젝트 자동화 등 완전 자율적 소프트웨어 개발로 진화할 것으로 전망, 향후 1년간 또다시 16~64배 성장 예상

세부 요약 - 주제별 정리

AI 에이전트의 처리 능력은 코드 작업에서 70일마다 2배씩 폭발적으로 증가함

AI 에이전트의 진화에 있어 “얼마나 개입 없이 연속으로 작업을 수행할 수 있는지”가 주요 지표임
언어 모델 전체(예: GPT-3/3.5/4)의 작업능력은 7~~8개월에 두 배씩 늘지만, 코드 작업 영역에서는 이 추세가 70일(2~~3개월)마다 두 배씩 증가
연산하면 1년에 4~~6회 더블링 → 연평균 16~~64배 성장률
18개월 전까지만 해도 코드 자동완성(탭 컴플리션)이 유일한 신뢰 가능한 AI 기반 생산성 도구였음
최근에는 코드 작성, 리포지토리 셋업, 버그 수정, 테스트 등 포괄적 업무 수행이 화두임

AI 소프트웨어 에이전트의 주류 활용은 반복적 마이그레이션 업무에서 시작되었음

1년 전 첫 AI Engineer 컨퍼런스 당시 가장 현실적인 대량 실사용 분야는 “반복적 코드 마이그레이션”
- 예: JavaScript → TypeScript 변환, Angular/Java 버전 업그레이드 등
대용량 코드베이스에서 파일별로 명확한 절차를 반복 수행해야 하는 경우가 주요 타깃
예시: Angular 공식문서에서 안내하는 단계적 작업을 여러 파일에 반복 적용
완벽히 결정적이지는 않으나, 명확한 단계적 작업에는 매우 강력한 성능 발휘
이 시기의 Devin은 Playbooks 시스템을 통해 정확한 Step by Step 명령 이행 기능에 집중

반복적 업무의 자동화 신뢰성과 피드백 학습을 위한 시스템적 보완이 필요했음

반복 작업이라 하더라도 인간 사용자로부터 지속적인 피드백이 발생함
- “이 케이스에서는 항상 X를 해라”, “이런 상황에서는 Y를 잊지 마라” 등
Devin은 내부적으로 피드백 기반의 메모리, 학습 시스템(knowledge/memory system)을 구축하여 누적 지식 반영
이런 장치는 유사 작업의 정확성 및 신뢰성 강화에 필수적이었음

작업 영역이 다변화하면서 리포지토리 관리와 자동화 인프라가 중요해졌음

반복 마이그레이션 단계를 넘어서면서, 다양한 종류의 버그 고치기/작은 기능 추가 등에도 Devin의 활용도가 커짐
이러한 작업은 한두 개 파일 수정에 그치는 경향이 있으나, 리포지토리 세팅, 빌드, 린트, CI 등 환경 구성이 선행돼야 함
이에 따라 Devin은 원격 VM 기반 리포지토리 스냅샷, 되돌리기/롤백 등 다양한 작업 프리미티브 제공 필요가 대두됨
이를 통해 “버그·피처 요청을 바로 실행 가능한” junior buddy 같은 활용이 가능해짐

신규 기능 요청 및 복잡한 버그 수정에는 다중 파일·맥락 이해와 협업 처리가 필수임

단일 파일 대신, 수십~수백 줄에 걸쳐 여러 파일을 동시에 수정해야 하는 작업 빈도가 증가
전체 코드베이스 계층 구조(호출관계, 언어 서버, Git 커밋 히스토리 등)와 연관성을 파악해야 정확한 수정을 할 수 있음
Slack 태깅 등 협업 툴 연동과 함께, 실제 운영 환경에서 다양한 태스크 요청을 자연스럽게 소화할 수 있도록끔 발전
Devin이 여러 작업을 병렬적으로 처리하고, 사용자의 맥락을 즉각 반영할 수 있는 시스템 자질을 강화함

초기 온보딩 및 코드베이스 지식 습득 단계에서도 Devin의 자율성과 적응력이 요구됨

초보자가 코드를 이해하며 점차 작업 수행 능력이 향상되는 것처럼, Devin 역시 코드베이스 전반에 대한 자체 학습 필요
“작업별 계획 수립→필요 파일 식별→일관성 있는 차이점(diff) 생성”의 단계별 수행 능력 고도화
사용자가 “이 이슈 해결해줘”, “이 부분 기능 만들어줘”처럼 구체적이지 않은 지시를 내려도, Devin이 상세 작업을 스스로 분해·계획 가능해야 함

복잡한 작업에서는 인간-에이전트 간 반복적 질의응답과 맥락 탐색이 중심이 됨

더 진행된 업무(예: 아키텍처 개선, 성능 프로파일링, 예외 처리 등)는 사용자가 처음부터 정확히 원하는 바를 파악하기 어려움
Devin은 Deep Wiki 및 코드 검색 기능을 제공, 인간 사용자가 코드베이스 전체 구조·맥락을 빠르게 탐색 가능케 함
L2(상위 레벨) 경험 제공: 사용자가 코드베이스 이해→이슈 정의→에이전트 실행의 순차적, 협업적 워크플로우
Devin 2.0 도입 이후, IDE 연동 환경 등에서 “작업의 10~~20%는 사용자가 직접 관찰·지도, 나머지 80~~90%는 Devin이 자율 수행” 구조 구현

Devin 2.0은 다중 과제 병렬 처리와 자율적 과제 스코핑 및 검증까지 지원함

최근(2024년 6월 기준) Devin은 대규모 백로그 한 번에 투입·병렬처리, 여러 리포와 시스템(Linear, Jira 등)과 연동 가능
과제별 필요 범위(스코프) 자동 결정, 적합한 코드베이스/리포 식별, 중간 평가 및 인간 개입 요청 등 고차원 자율성 확보
여러 파일 및 모듈에 걸친 대체·수정·확장까지 자체적으로 처리
테스트 자동화 및 비동기적 자가 검증 기능 탑재—완성된 PR 단위로 결과물 제출 전 자체셀이 반복적으로 코드를 시험·판정함
“정확히 이해됐다고 판단되면 실행, 이해가 부족하면 인간에 질문” 등 자신감 기반 자율 판단 루프 적용

소프트웨어 개발의 완전 자동화와 프로젝트 단위 자율화가 미래의 주요 목표임

Devin팀은 “단일 태스크를 넘어서 전체 프로젝트(혹은 그 이상의 규모)까지 자동화”라는 비전을 제시
지금까지의 업무 단위 2배 증가는 always-different bottleneck과 직결 — 각 단계에서 풀어야 할 핵심 난제 및 인터페이스가 매번 새로 등장함
예전의 자동완성(탭 컴플리션)은 텍스트 스트림 문제에 가까웠으나, 지금은 협업, 피드백, 긴 맥락 처리, 자율 테스트·디버깅 등 본질적으로 어려운 문제에 도전 중
Devin이 테스트, 평가, 장기 전략적 의사결정, 셸 명령 자동 실행, 결과 기반 반복 등 다양한 자율 실행력을 갖추고 있음
1년 후에도 연간 16~64배씩 진화할 것으로 강하게 전망하며, 소프트웨어 엔지니어링 자동화 혁신의 방향성 제시