What Data from 20m Pull Requests Reveal About AI Transformation - Nick Arcolano, Jellyfish

영상 링크: What Data from 20m Pull Requests Reveal About AI Transformation — Nick Arcolano, Jellyfish
채널명: AI Engineer

2천만 건의 풀리퀘스트 데이터를 통해 본 AI 전환의 실제 변화 핵심 요약

Jellyfish가 200,000명의 개발자, 약 1,000개 회사, 2천만 건의 PR(풀리퀘스트) 데이터를 분석하여 AI 도구 도입 현황과 생산성 변화를 추적함
2023년 6월, 전체 코드 중 50% 이상을 AI로 생성한 기업은 2%에 불과했으나, 2024년 현재 동일 집단 중 약 절반이 50% 이상 AI 코드 생성
개발자 AI 도구 채택률은 2023년 중위값 22%에서 2024년에는 90%에 근접한 수준까지 급등
완전 자율 에이전트(Devon, Codeex 등)의 실제 도입률은 여전히 낮아, 최근 3개월간 기업의 44%만이 도입 경험 보유·실 사용 PR은 전체의 2% 미만
AI 도구 채택률이 높을수록 개발자 1인당 PR 병합 횟수가 두 배 수준(2x)으로 증가하며, AI 미사용 대비 PR 생성·병합 속도가 빨라짐
PR 사이클 타임(코드 커밋→병합까지 소요 시간)도 채택률 0→100%에 따라 24% 감소해 빠른 배포 실현
AI 도입 후 PR 크기는 평균 18% 증가(추가 코드 증가 주도, 삭제는 미미), 파일 변경 수는 불변
코드 품질(버그 생성률, PR 롤백률)은 AI 도입과 유의미한 상관관계 없음. 오히려 AI 덕분에 버그 해결량이 증가
생산성 향상이 기대와 달리 미미한 경우, 코드를 여러 저장소에 분산(Highly distributed architecture)시킨 조직에서 그런 경향 뚜렷
중앙집중·균형형 아키텍처는 AI 도구 효과가 평균 대비 커(4x 성과), 분산 아키텍처는 효과 저조
분산형 조직은 컨텍스트 통합의 어려움이 생산성 병목의 주요 원인

세부 요약 - 주제별 정리

데이터 분석 범위와 방법이 실제 소프트웨어 개발 현장에서의 AI 변화를 검증함

Jellyfish는 소프트웨어 엔지니어링 리더를 위한 분석 플랫폼을 제공하며, 다양한 데이터 소스(코딩 툴 사용 데이터, PR 리뷰 봇, 소스 제어 저장소, 업무 관리 도구 등)를 결합해 통합 분석
분석 데이터는 약 1,000개 기업, 20만 명 개발자, 2천만 건의 PR에 해당
분석 기간은 2023년 6월~2024년 6월(이후 최근 시점까지)
AI 도구 사용 데이터는 Copilot, Cursor, Claude Code 등 인터랙티브형, Devon, Codeex 등 자율형 에이전트, 그리고 PR 리뷰 봇의 사용 패턴까지 총망라
소스 제어(GitHub 등)와 태스크 관리(Linear, Jira 등) 데이터 조합으로 개발 행태, 목표, 코드 변화의 전 과정을 추적

AI 도구 사용률이 단기간 내 급증하며 산업 전반에 보편화되고 있음

2023년 6월, 코드의 50% 이상을 AI로 생성한 기업은 단 2%에 불과
이후 성장세가 가팔라져, 1년 뒤 동일 집단의 거의 절반이 코드의 50% 이상을 AI가 생성함
개발자 차원의 AI 도구 사용률(Adoption Rate)은 “코딩 시간 중 AI 도구 사용 비중”으로 측정
- 2023년 여름, 중위값 22%→ 2024년 최근엔 90% 언저리까지 상승
기업 전체의 ‘완전 사용’(100% 채택률)은 전 개발자가 코딩 때마다 AI 도구를 쓴다는 의미

자율형 AI 에이전트 도입은 여전히 초기 단계로, 실제 적용률이 매우 낮음

인터랙티브 도구(Copilot, Cursor, Claude Code 등) 외에 완전 자율형 에이전트(Devon, Codeex) 사용 데이터도 수집
최근 3개월 기준, 자율형 에이전트를 사용해 본 적이 있는 기업은 44%로 조사
이들 중 대부분은 실험·테스트 목적에 그쳤으며, 실사용은 전체 PR 중 2% 미만에 불과
기업 다수가 도입에 느리게 접근 중이며, 현재는 업계 전체가 초기 진입 단계임을 확인

AI 도입이 생산성(특히 PR 처리량)에 확실한 긍정적 효과를 내고 있음

“생산성”을 PR 처리량(1주일간 개발자 1인당 병합 PR 수) 변화로 측정
AI 도구 채택률이 높을수록 PR 처리량이 뚜렷이 증가하는 추세
AI 미사용(0%)→최대사용(100%) 시 PR 처리량이 평균 두 배(2x)로 팽창
기업에 따라, 도구 사용률이 늘어날수록 곧바로 생산성에 효과가 나타남
자율형 에이전트가 본격적으로 확산되지 않은 현재도, 인터랙티브 도구만으로 충분한 성과 달성
기업 내 여러 툴을 결합해 동시 사용 시 효과 최대화가 가능함

PR 사이클 타임(배포 속도)도 AI 활용에 따라 확실히 빨라지고 있음

PR 사이클 타임: 첫 커밋~병합까지 소요된 시간으로 정의
도구 채택률 상승에 따라, 사이클 타임이 평균 24% 감소
AI 도입 시 단순 PR 처리량 증가뿐 아니라, 개발→배포 전환 속도 전반이 향상
사이클 타임 분포상, “하루 미만”, “이틀 안팎”, 그리고 긴 꼬리 구간(복잡/느림)이 뚜렷이 구분됨
PR 병합이 빨라지는 경향은 모든 그룹에서 유사하게 관측됨

AI 도입 후 PR 크기(코드량)는 커지지만, 코드 구조나 변경 범위에는 큰 변화 없음

AI 도구 사용률 높은 팀은 PR 평균 크기가 18% 증가(넷 추가 코드 기준)
이는 삭제보다는 신규 코드 추가에 의해 주로 설명됨
PR당 수정한 파일 수에는 의미 있는 변화 없음: 즉, PR의 덩치만 커졌지, 코드베이스 내 폭넓은 변동은 드물다
코드 변경 양상은, “보다 철저하거나 자세해진 코드”가 많아지는 식임

AI 도입 급속 확산에도 불구하고 코드 품질 저하는 아직 드러나지 않음

버그 티켓 생성량, PR 롤백(되돌림) 비율 등 모든 품질 지표와 AI 도구 채택률 간에 통계적으로 유의한 상관관계 없음
오히려 기존에 쌓여 있던 “버그 티켓(결함 이슈)”을 AI가 적극적으로 해결하는 비중이 높아진 현상 관찰
“버그 수정”은 잘 정의된 과제이기 때문에 AI 도구가 높은 성과를 내는 영역으로 평가
품질 저하에 대한 과도한 우려는 데이터상 근거 희박(단, 자율형 에이전트 완전 도입 후는 지속적으로 평가 필요)

코드 아키텍처 구조에 따라 AI 도입 효과가 극적으로 달라짐

생산성이 기대보다 오르지 않는 기업·팀 다수 존재
코드를 여러 Repo(저장소)로 분산할수록(Highly distributed architecture) AI 도구 효과가 미미하거나, 무의미한 수준으로 약화
중앙집중/균형(centralized, balanced) 구조는 평균 4배(4x)까지 도구 생산성 효과가 극대화
분산형(distributed) 구조는 대략 2배, 가장 분산된(highly distributed) 경우는 효과 거의 없음(상관관계 부재 혹은 약간 마이너스)
이 경향은 조직/팀 규모와 무관하게 “개발자당 활성 Repo 수”로 측정해 확인

분산형(codebase가 여러 저장소로 흩어진) 조직의 생산성 병목은 ‘컨텍스트 부족’에서 비롯됨

대부분 AI 도구(현행 Copilot, Cursor 등)·에이전트는 ‘단일 리포(repo)’ 컨텍스트에서 동작하도록 설계
여러 저장소 정보를 통합 파악하는 것 자체가 도구뿐 아니라 인간 엔지니어에게도 매우 어려운 일
저장소 간 시스템 관계, 제품 구조 등의 맥락 정보가 문서화되지 않고 팀 내 경험자(수석 엔지니어) 머릿속에만 존재하는 현상이 병목 유발
컨텍스트 엔지니어링 등 추가 투자가 병행되어야만 AI 생산성 극대화 가능
마이크로서비스·분산화가 무조건 AI 전환에 최적이라는 통념을 비판적으로 재검토할 필요 제기

절대적 PR 수보다는 ‘PR 처리량 변화율’을 생산성 지표로 삼아야 함

분산 아키텍처 조직은 필연적으로 PR 수가 많아지므로, ‘개별 PR 양’ 자체로 생산성 비교는 왜곡 발생
따라서, ‘변화율’(AI 도구 도입 전후 차이)을 기준으로 효과를 파악할 것을 권장
이로써 아키텍처 등 외부적 요인에 영향받지 않는 순수 AI 효과 측정 가능

결론적으로 AI 코딩 도구의 대중적 확산, 생산성 개선, 품질 안정성 등은 데이터로 입증되며, 조직별 아키텍처에 따라 도입 전략을 조정해야 함

업계 전반에서 인터랙티브형 AI 코딩 도구의 대중화와 생산성 이득이 확실히 관찰됨
자율형 에이전트는 여전히 보편적이지 않아, 도입 시기나 규모를 고민하고 있는 조직이 대부분
생산성 지표(2x PR/24% 빠른 사이클 등)는 누구든 달성 가능하지만 PR 크기 증가 등 부수적 변화에 유의 필요
품질 저하는 발견되지 않으며, 오히려 결함 수정 의존도가 늘어남
효과가 미미하다면, 자신의 코드 아키텍처(중앙집중↔분산 등) 구조를 점검·보완하는 전략이 필요
컨텍스트 부족/분산화가 AI 생산성 극대화의 장애가 되고 있으며, 향후 이 문제 해결이 업계 과제로 부상