영상 링크: What Data from 20m Pull Requests Reveal About AI Transformation — Nick Arcolano, Jellyfish
채널명: AI Engineer
2천만 건의 풀리퀘스트 데이터를 통해 본 AI 전환의 실제 변화 핵심 요약
- Jellyfish가 200,000명의 개발자, 약 1,000개 회사, 2천만 건의 PR(풀리퀘스트) 데이터를 분석하여 AI 도구 도입 현황과 생산성 변화를 추적함
- 2023년 6월, 전체 코드 중 50% 이상을 AI로 생성한 기업은 2%에 불과했으나, 2024년 현재 동일 집단 중 약 절반이 50% 이상 AI 코드 생성
- 개발자 AI 도구 채택률은 2023년 중위값 22%에서 2024년에는 90%에 근접한 수준까지 급등
- 완전 자율 에이전트(Devon, Codeex 등)의 실제 도입률은 여전히 낮아, 최근 3개월간 기업의 44%만이 도입 경험 보유·실 사용 PR은 전체의 2% 미만
- AI 도구 채택률이 높을수록 개발자 1인당 PR 병합 횟수가 두 배 수준(2x)으로 증가하며, AI 미사용 대비 PR 생성·병합 속도가 빨라짐
- PR 사이클 타임(코드 커밋→병합까지 소요 시간)도 채택률 0→100%에 따라 24% 감소해 빠른 배포 실현
- AI 도입 후 PR 크기는 평균 18% 증가(추가 코드 증가 주도, 삭제는 미미), 파일 변경 수는 불변
- 코드 품질(버그 생성률, PR 롤백률)은 AI 도입과 유의미한 상관관계 없음. 오히려 AI 덕분에 버그 해결량이 증가
- 생산성 향상이 기대와 달리 미미한 경우, 코드를 여러 저장소에 분산(Highly distributed architecture)시킨 조직에서 그런 경향 뚜렷
- 중앙집중·균형형 아키텍처는 AI 도구 효과가 평균 대비 커(4x 성과), 분산 아키텍처는 효과 저조
- 분산형 조직은 컨텍스트 통합의 어려움이 생산성 병목의 주요 원인
세부 요약 - 주제별 정리
데이터 분석 범위와 방법이 실제 소프트웨어 개발 현장에서의 AI 변화를 검증함
- Jellyfish는 소프트웨어 엔지니어링 리더를 위한 분석 플랫폼을 제공하며, 다양한 데이터 소스(코딩 툴 사용 데이터, PR 리뷰 봇, 소스 제어 저장소, 업무 관리 도구 등)를 결합해 통합 분석
- 분석 데이터는 약 1,000개 기업, 20만 명 개발자, 2천만 건의 PR에 해당
- 분석 기간은 2023년 6월~2024년 6월(이후 최근 시점까지)
- AI 도구 사용 데이터는 Copilot, Cursor, Claude Code 등 인터랙티브형, Devon, Codeex 등 자율형 에이전트, 그리고 PR 리뷰 봇의 사용 패턴까지 총망라
- 소스 제어(GitHub 등)와 태스크 관리(Linear, Jira 등) 데이터 조합으로 개발 행태, 목표, 코드 변화의 전 과정을 추적
AI 도구 사용률이 단기간 내 급증하며 산업 전반에 보편화되고 있음
- 2023년 6월, 코드의 50% 이상을 AI로 생성한 기업은 단 2%에 불과
- 이후 성장세가 가팔라져, 1년 뒤 동일 집단의 거의 절반이 코드의 50% 이상을 AI가 생성함
- 개발자 차원의 AI 도구 사용률(Adoption Rate)은 “코딩 시간 중 AI 도구 사용 비중”으로 측정
- 2023년 여름, 중위값 22%→ 2024년 최근엔 90% 언저리까지 상승
- 기업 전체의 ‘완전 사용’(100% 채택률)은 전 개발자가 코딩 때마다 AI 도구를 쓴다는 의미
자율형 AI 에이전트 도입은 여전히 초기 단계로, 실제 적용률이 매우 낮음
- 인터랙티브 도구(Copilot, Cursor, Claude Code 등) 외에 완전 자율형 에이전트(Devon, Codeex) 사용 데이터도 수집
- 최근 3개월 기준, 자율형 에이전트를 사용해 본 적이 있는 기업은 44%로 조사
- 이들 중 대부분은 실험·테스트 목적에 그쳤으며, 실사용은 전체 PR 중 2% 미만에 불과
- 기업 다수가 도입에 느리게 접근 중이며, 현재는 업계 전체가 초기 진입 단계임을 확인
AI 도입이 생산성(특히 PR 처리량)에 확실한 긍정적 효과를 내고 있음
- “생산성”을 PR 처리량(1주일간 개발자 1인당 병합 PR 수) 변화로 측정
- AI 도구 채택률이 높을수록 PR 처리량이 뚜렷이 증가하는 추세
- AI 미사용(0%)→최대사용(100%) 시 PR 처리량이 평균 두 배(2x)로 팽창
- 기업에 따라, 도구 사용률이 늘어날수록 곧바로 생산성에 효과가 나타남
- 자율형 에이전트가 본격적으로 확산되지 않은 현재도, 인터랙티브 도구만으로 충분한 성과 달성
- 기업 내 여러 툴을 결합해 동시 사용 시 효과 최대화가 가능함
PR 사이클 타임(배포 속도)도 AI 활용에 따라 확실히 빨라지고 있음
- PR 사이클 타임: 첫 커밋~병합까지 소요된 시간으로 정의
- 도구 채택률 상승에 따라, 사이클 타임이 평균 24% 감소
- AI 도입 시 단순 PR 처리량 증가뿐 아니라, 개발→배포 전환 속도 전반이 향상
- 사이클 타임 분포상, “하루 미만”, “이틀 안팎”, 그리고 긴 꼬리 구간(복잡/느림)이 뚜렷이 구분됨
- PR 병합이 빨라지는 경향은 모든 그룹에서 유사하게 관측됨
AI 도입 후 PR 크기(코드량)는 커지지만, 코드 구조나 변경 범위에는 큰 변화 없음
- AI 도구 사용률 높은 팀은 PR 평균 크기가 18% 증가(넷 추가 코드 기준)
- 이는 삭제보다는 신규 코드 추가에 의해 주로 설명됨
- PR당 수정한 파일 수에는 의미 있는 변화 없음: 즉, PR의 덩치만 커졌지, 코드베이스 내 폭넓은 변동은 드물다
- 코드 변경 양상은, “보다 철저하거나 자세해진 코드”가 많아지는 식임
AI 도입 급속 확산에도 불구하고 코드 품질 저하는 아직 드러나지 않음
- 버그 티켓 생성량, PR 롤백(되돌림) 비율 등 모든 품질 지표와 AI 도구 채택률 간에 통계적으로 유의한 상관관계 없음
- 오히려 기존에 쌓여 있던 “버그 티켓(결함 이슈)”을 AI가 적극적으로 해결하는 비중이 높아진 현상 관찰
- “버그 수정”은 잘 정의된 과제이기 때문에 AI 도구가 높은 성과를 내는 영역으로 평가
- 품질 저하에 대한 과도한 우려는 데이터상 근거 희박(단, 자율형 에이전트 완전 도입 후는 지속적으로 평가 필요)
코드 아키텍처 구조에 따라 AI 도입 효과가 극적으로 달라짐
- 생산성이 기대보다 오르지 않는 기업·팀 다수 존재
- 코드를 여러 Repo(저장소)로 분산할수록(Highly distributed architecture) AI 도구 효과가 미미하거나, 무의미한 수준으로 약화
- 중앙집중/균형(centralized, balanced) 구조는 평균 4배(4x)까지 도구 생산성 효과가 극대화
- 분산형(distributed) 구조는 대략 2배, 가장 분산된(highly distributed) 경우는 효과 거의 없음(상관관계 부재 혹은 약간 마이너스)
- 이 경향은 조직/팀 규모와 무관하게 “개발자당 활성 Repo 수”로 측정해 확인
분산형(codebase가 여러 저장소로 흩어진) 조직의 생산성 병목은 ‘컨텍스트 부족’에서 비롯됨
- 대부분 AI 도구(현행 Copilot, Cursor 등)·에이전트는 ‘단일 리포(repo)’ 컨텍스트에서 동작하도록 설계
- 여러 저장소 정보를 통합 파악하는 것 자체가 도구뿐 아니라 인간 엔지니어에게도 매우 어려운 일
- 저장소 간 시스템 관계, 제품 구조 등의 맥락 정보가 문서화되지 않고 팀 내 경험자(수석 엔지니어) 머릿속에만 존재하는 현상이 병목 유발
- 컨텍스트 엔지니어링 등 추가 투자가 병행되어야만 AI 생산성 극대화 가능
- 마이크로서비스·분산화가 무조건 AI 전환에 최적이라는 통념을 비판적으로 재검토할 필요 제기
절대적 PR 수보다는 ‘PR 처리량 변화율’을 생산성 지표로 삼아야 함
- 분산 아키텍처 조직은 필연적으로 PR 수가 많아지므로, ‘개별 PR 양’ 자체로 생산성 비교는 왜곡 발생
- 따라서, ‘변화율’(AI 도구 도입 전후 차이)을 기준으로 효과를 파악할 것을 권장
- 이로써 아키텍처 등 외부적 요인에 영향받지 않는 순수 AI 효과 측정 가능
결론적으로 AI 코딩 도구의 대중적 확산, 생산성 개선, 품질 안정성 등은 데이터로 입증되며, 조직별 아키텍처에 따라 도입 전략을 조정해야 함
- 업계 전반에서 인터랙티브형 AI 코딩 도구의 대중화와 생산성 이득이 확실히 관찰됨
- 자율형 에이전트는 여전히 보편적이지 않아, 도입 시기나 규모를 고민하고 있는 조직이 대부분
- 생산성 지표(2x PR/24% 빠른 사이클 등)는 누구든 달성 가능하지만 PR 크기 증가 등 부수적 변화에 유의 필요
- 품질 저하는 발견되지 않으며, 오히려 결함 수정 의존도가 늘어남
- 효과가 미미하다면, 자신의 코드 아키텍처(중앙집중↔분산 등) 구조를 점검·보완하는 전략이 필요
- 컨텍스트 부족/분산화가 AI 생산성 극대화의 장애가 되고 있으며, 향후 이 문제 해결이 업계 과제로 부상