Production software keeps breaking and it will only get worse - Anish Agarwal, Traversal.ai

영상 링크: Production software keeps breaking and it will only get worse — Anish Agarwal, Traversal.ai
채널명: AI Engineer

프로덕션 소프트웨어는 계속 망가지고 있으며 앞으로 더 악화될 것이다 — Anish Agarwal, Traversal.ai 핵심 요약

본 영상은 Traversal.ai의 CEO 아니시 아가왈과 매트가 프로덕션 소프트웨어의 신뢰성과 장애 대응의 문제, 그리고 AI를 활용한 혁신적 해결방안을 소개함
소프트웨어 엔지니어링의 세 가지 핵심 과정(시스템 설계, 개발, 프로덕션 트러블슈팅) 중 AI 도구 발전으로 개발 단계는 급격히 자동화되고 있으나, 시스템 설계와 트러블슈팅은 여전히 난제로 남아 있음
AI가 코드 작성과 장애 대응까지 완전 자동화하기를 기대하지만, 실제로는 AI가 작성한 복잡한 코드에 대한 인간의 맥락 이해가 약화되어 트러블슈팅 난이도와 빈도가 오히려 증가하는 현상을 지적
기존 트러블슈팅 워크플로우(다수의 대시보드/로그/팀 탐색)가 이미 비효율적이며, AI 및 기계학습(AIOps, LLM, 에이전트 기반 접근법 등)의 단독 적용이 실질적 한계(노이즈, 컨텍스트 부족, 비정상 탐색 속도 등)를 가짐
Traversal.ai는 통계적 접근(인과관계 기계학습), 시맨틱 추론, 멀티에이전트 제어기법의 결합을 통해 근본적 원인 규명과 자동화된 장애대응을 실현하는 솔루션을 제시함
Digital Ocean 등의 실제 사례에서 Traversal.ai 도입 후 평균 장애 해결 시간(MTR)이 40% 단축되는 등, 엔지니어의 수고와 기업의 손실이 크게 감소
Traversal의 AI는 ‘스웜 에이전트’를 통해 지도 없이 페타바이트급 데이터에서 자동으로 문제를 진단하고, 인간 엔지니어에게 직접적이고 근거가 명확한 결과를 제공
이 접근법은 관측(Observability) 뿐만 아니라 네트워크, 보안 등 데이터 ‘희소 정보 탐색(needle-in-the-haystack)’이 필요한 여러 분야에 적용 가능함을 강조
Traversal.ai 팀은 AI 연구, 개발 도구, 금융 등 다양한 산업 전문가로 구성되어 있으며, 상호 성장과 협력의 팀 문화를 자랑함

세부 요약 - 주제별 정리

AI가 소프트웨어 개발 과정을 자동화하고 있으나 트러블슈팅 역량 부족은 더 큰 문제를 야기할 것임

소프트웨어 엔지니어링의 과정은 시스템 설계, 비즈니스 로직 개발 및 배포, 프로덕션 장애 대응(트러블슈팅)으로 구분됨
최근 커서(Cursor), Winds, GitHub Copilot 등 AI 개발 도구가 등장하면서 개발 단계는 빠르게 자동화되고 있음
가까운 미래에는 시스템 설계와 장애 대응만이 인간 엔지니어의 주요 업무가 될 것으로 기대됐지만, 실제로는 트러블슈팅에 더 많은 시간이 소모되고 있음
AI가 작성한 코드에 대한 맥락 부족 및 프로젝트 복잡성 증대가 주요 원인임
장애 발생 시, 엔지니어가 전체 시스템의 맥락을 이해하지 못해 장애 해결이 더 어려워지는 문제 발생
AI 발전에도 불구하고 “개발자는 QA와 온콜(On-call) 지원에 대부분의 시간을 보낼 수도 있다”는 우울한 시나리오가 현실이 될 수 있음을 우려함

기존 장애 대응 및 모니터링 워크플로우는 비효율적이며 스케일 문제를 심화시킴

장애 발생 시, Sentry, Grafana, Data Dog, Splunk, Elastic 등 다양한 관측 도구를 활용하나, 각종 대시보드를 인간이 수작업으로 탐색해야 함
“대시보드 덤스터 다이빙(Dashboard dumpster diving)“이란 표현 그대로, 수천 개의 대시보드에서 근원을 찾기 위한 비효율적 탐색 반복
근본 원인 분석(RCA) 과정에서는 로그, 코드, 구성 파일 변경(PR, config change 등)과의 연결이 핵심이지만 탐색 방법이 체계적이지 않음
장애가 복잡할수록 더 많은 팀이 동원돼 슬랙 채널에 수십 명이 투입, 비효율적으로 원인을 찾는 현상 발생
이와 같은 방식은 개별 엔지니어의 피로도와 비효율을 누적시키고, 엔지니어링 자원의 낭비로 이어짐

전통적 AI/ML 기반 트러블슈팅(AIOps, LLM, 에이전트)의 단일 접근은 심각한 한계에 봉착함

AIOps: 통계적 이상탐지 등 기존 기계학습 방식은 시스템 동적 변화에 취약해 무의미한 알림·오탐이 남발됨
- 실제 프로덕션 환경 적용 시 ‘노이즈가 신호보다 많다’는 문제가 심각함
대형 언어모델(LLM): 일부 로그만 분석 시 국소적으로는 유용할 수 있지만, 프로덕션급 시스템은 테라·페타바이트급 로그를 생성
- 컨텍스트 윈도우나 메모리 한계로 대량 데이터 처리 불가
- LLM이 로그의 수치·통계 구조를 잘 이해하지 못함
에이전트 기반(React 등): 룬북(runbook) 기반 자동화는 실환경 변화에 따라 곧바로 구식(deprecate)화됨
- 도구 조합을 통한 브로드 서치 시 속도 미달(수 분 내 문제 해결 요구 vs. 탐색 소요 시간)

Traversal.ai는 인과관계 기계학습, 시맨틱 추론, 멀티에이전트 제어를 결합한 혁신적 접근을 제시함

Traversal.ai의 핵심은 “out-of-sample autonomous troubleshooting”으로, 이전에 관측되지 않은 신규 장애에도 일관되게 자동 대처
통계적 요소: 인과관계 기계학습(causal ML) 적용 — 상관관계와 인과관계를 구분, 시스템 내 불필요한 연쇄적 오동작 대신 근본 원인 원천 차단
시맨틱 요소: 로그·메타데이터·코드 등 의미 정보에 대한 LLM/추론 모델 활용 — 엔지니어 작업 맥락을 정교하게 반영
제어 플로우: 수천~수만 개의 AI 에이전트가 병렬적으로 시스템 내 각종 관측데이터를 ‘스웜’ 구조로 탐색, 실제로 실시간성/효율성을 확보

여러 AI 접근의 장점을 유기적으로 결합해 근본적 장애 자동 트러블슈팅을 실행함

대량의 관측 정보에서 유의미한 리드(lead) 도출 → 인과 기계학습+에이전트 스웜 구조로 자동 실행
리드와 실제 시스템 변경(PR, config change 등) 연결에는 코드 에이전트와 벡터 검색(Vector Search) 등 최신 AI 기법 활용
각 장애상황마다 적합한 팀과 전문가, 데이터를 적시에 연결 — 필요한 인력만 정확히 동원, 슬랙 채널의 불필요한 동원이 사라짐
반자동·자동화 콘텍스트 빌딩으로 트러블슈팅 속도와 품질 동시 향상

Digital Ocean 실제 사례에서 Traversal.ai 도입 후 40%의 장애 해결 시간 단축 효과 확인

Digital Ocean(수십만 고객을 서비스하는 클라우드 인프라 기업)의 사례를 상세히 설명
기존에는 수십명의 엔지니어가 텍스트 경보와 기본 콘텍스트만으로 엄청난 양의 로그와 대시보드를 반복적으로 샅샅이 뒤져 근본 원인 찾음
Traversal.ai 도입 후에는 소량 콘텍스트만으로 AI가 장애를 자동 분석, 문제 시작 5분 내 슬랙 채널에 복구/대응 방안을 제시
- 자동 생성된 보고서에는 구체적 증거, 신뢰도 점수, 원인 설명 등이 포함됨
Digital Ocean 엔지니어로부터 Traversal이 제시한 조치가 실제 이슈 해결에 직접적 기여했다는 평가 획득
전사적 차원에서 MTR(Mean Time to Resolution, 평균 장애 해결 시간)이 약 40% 감축
장애 대응 신속화는 엔지니어 정신적 부담 완화, 회사 입장에선 수천 달러 단위 손실 감소로 직결

Traversal AI는 대규모 멀티소스 관측 도구와의 연동 능력과 대용량 데이터 탐색 구조를 확보

Digital Ocean 뿐 아니라 다양한 엔터프라이즈 고객사에 적용 중
모든 주요 관측 도구(Grafana, DataDog, Splunk 등) 연동, 하루 수조(logs) 단위 데이터 처리 가능
‘건초 더미 속 바늘 찾기(needle-in-the-haystack)’ 문제에 특화된 탐색 구조 — 관측 데이터뿐 아니라 네트워크, 보안 등 다양한 도메인에 확장 가능성을 언급

단순히 AI 에이전트 개발이 아닌, AI 인프라스트럭처 차원의 복합적 과제가 핵심임

표면적으로는 AI 에이전트 기반 문제처럼 보이나, 실제론 대규모 데이터 인프라·분산처리·복수 툴 연동 등 AI 인프라 과제도 매우 크며 이를 함께 해결 중임
엔터프라이즈 환경에서는 거대한 데이터 밀도를 효율적으로 다루는 것이 혁신의 핵심 요소임

Traversal.ai의 연구진과 실무팀은 AI, 개발, 금융, 인프라 등 다양한 출신 전문가로 구성되어 있음

최고 수준 AI 연구소 출신 연구원, 유명 개발도구 기업 실무자, AI 제품 엔지니어, 고빈도 금융 트레이더 등 다채로운 배경의 인재들이 한 팀을 이루고 있음
엔지니어링 역량 뿐만 아니라, 팀워크/상호 성장 지향의 컬처를 강조 — “모두가 서로를 위해 일한다”는 팀 정신이 Traversal을 특별하게 만듬

Traversal의 에이전트 스웜 및 자동화 전략은 보안, 네트워크 등 다양한 산업에도 확장 적용 가능함

네트워크 관측, 사이버 보안 등에서도 관측 데이터의 방대함과 근본 원인 분석의 어려움이 동일하게 나타난다는 점을 강조
Traversal의 “에이전트 스웜 및 철저한 탐색(Exhaustive Search)” 전략이 이들 도메인에도 직접적으로 적용 가능함을 시사
실제로 적용을 희망하는 여러 산업 분야의 청중에게 이 방식을 가치 있게 활용할 수 있음을 암시

Traversal.ai의 혁신적 접근과 팀 문화는 엔지니어링 업계에 새로운 모델을 제시하고 있음

기존 손쉬운 장애 대응이 어려운 한계를 깨는 AI 기반 방법론의 사례로서 업계 큰 주목
장애 자동 분석 및 근거 중심 결과, 신속 발표, 책임 분산의 자동화가 실제로 현장에서 작동하는 모습을 입증
팀적으로는 ‘함께 성장, 상호 협력’을 중시하는 기업 문화가 조직 역량의 원동력임을 마지막에 강조