
영상 링크: Production software keeps breaking and it will only get worse — Anish Agarwal, Traversal.ai
채널명: AI Engineer
프로덕션 소프트웨어는 계속 망가지고 있으며 앞으로 더 악화될 것이다 — Anish Agarwal, Traversal.ai 핵심 요약
- 본 영상은 Traversal.ai의 CEO 아니시 아가왈과 매트가 프로덕션 소프트웨어의 신뢰성과 장애 대응의 문제, 그리고 AI를 활용한 혁신적 해결방안을 소개함
- 소프트웨어 엔지니어링의 세 가지 핵심 과정(시스템 설계, 개발, 프로덕션 트러블슈팅) 중 AI 도구 발전으로 개발 단계는 급격히 자동화되고 있으나, 시스템 설계와 트러블슈팅은 여전히 난제로 남아 있음
- AI가 코드 작성과 장애 대응까지 완전 자동화하기를 기대하지만, 실제로는 AI가 작성한 복잡한 코드에 대한 인간의 맥락 이해가 약화되어 트러블슈팅 난이도와 빈도가 오히려 증가하는 현상을 지적
- 기존 트러블슈팅 워크플로우(다수의 대시보드/로그/팀 탐색)가 이미 비효율적이며, AI 및 기계학습(AIOps, LLM, 에이전트 기반 접근법 등)의 단독 적용이 실질적 한계(노이즈, 컨텍스트 부족, 비정상 탐색 속도 등)를 가짐
- Traversal.ai는 통계적 접근(인과관계 기계학습), 시맨틱 추론, 멀티에이전트 제어기법의 결합을 통해 근본적 원인 규명과 자동화된 장애대응을 실현하는 솔루션을 제시함
- Digital Ocean 등의 실제 사례에서 Traversal.ai 도입 후 평균 장애 해결 시간(MTR)이 40% 단축되는 등, 엔지니어의 수고와 기업의 손실이 크게 감소
- Traversal의 AI는 ‘스웜 에이전트’를 통해 지도 없이 페타바이트급 데이터에서 자동으로 문제를 진단하고, 인간 엔지니어에게 직접적이고 근거가 명확한 결과를 제공
- 이 접근법은 관측(Observability) 뿐만 아니라 네트워크, 보안 등 데이터 ‘희소 정보 탐색(needle-in-the-haystack)’이 필요한 여러 분야에 적용 가능함을 강조
- Traversal.ai 팀은 AI 연구, 개발 도구, 금융 등 다양한 산업 전문가로 구성되어 있으며, 상호 성장과 협력의 팀 문화를 자랑함
세부 요약 - 주제별 정리
AI가 소프트웨어 개발 과정을 자동화하고 있으나 트러블슈팅 역량 부족은 더 큰 문제를 야기할 것임
- 소프트웨어 엔지니어링의 과정은 시스템 설계, 비즈니스 로직 개발 및 배포, 프로덕션 장애 대응(트러블슈팅)으로 구분됨
- 최근 커서(Cursor), Winds, GitHub Copilot 등 AI 개발 도구가 등장하면서 개발 단계는 빠르게 자동화되고 있음
- 가까운 미래에는 시스템 설계와 장애 대응만이 인간 엔지니어의 주요 업무가 될 것으로 기대됐지만, 실제로는 트러블슈팅에 더 많은 시간이 소모되고 있음
- AI가 작성한 코드에 대한 맥락 부족 및 프로젝트 복잡성 증대가 주요 원인임
- 장애 발생 시, 엔지니어가 전체 시스템의 맥락을 이해하지 못해 장애 해결이 더 어려워지는 문제 발생
- AI 발전에도 불구하고 “개발자는 QA와 온콜(On-call) 지원에 대부분의 시간을 보낼 수도 있다”는 우울한 시나리오가 현실이 될 수 있음을 우려함
기존 장애 대응 및 모니터링 워크플로우는 비효율적이며 스케일 문제를 심화시킴
- 장애 발생 시, Sentry, Grafana, Data Dog, Splunk, Elastic 등 다양한 관측 도구를 활용하나, 각종 대시보드를 인간이 수작업으로 탐색해야 함
- “대시보드 덤스터 다이빙(Dashboard dumpster diving)“이란 표현 그대로, 수천 개의 대시보드에서 근원을 찾기 위한 비효율적 탐색 반복
- 근본 원인 분석(RCA) 과정에서는 로그, 코드, 구성 파일 변경(PR, config change 등)과의 연결이 핵심이지만 탐색 방법이 체계적이지 않음
- 장애가 복잡할수록 더 많은 팀이 동원돼 슬랙 채널에 수십 명이 투입, 비효율적으로 원인을 찾는 현상 발생
- 이와 같은 방식은 개별 엔지니어의 피로도와 비효율을 누적시키고, 엔지니어링 자원의 낭비로 이어짐
전통적 AI/ML 기반 트러블슈팅(AIOps, LLM, 에이전트)의 단일 접근은 심각한 한계에 봉착함
- AIOps: 통계적 이상탐지 등 기존 기계학습 방식은 시스템 동적 변화에 취약해 무의미한 알림·오탐이 남발됨
- 실제 프로덕션 환경 적용 시 ‘노이즈가 신호보다 많다’는 문제가 심각함
- 대형 언어모델(LLM): 일부 로그만 분석 시 국소적으로는 유용할 수 있지만, 프로덕션급 시스템은 테라·페타바이트급 로그를 생성
- 컨텍스트 윈도우나 메모리 한계로 대량 데이터 처리 불가
- LLM이 로그의 수치·통계 구조를 잘 이해하지 못함
- 에이전트 기반(React 등): 룬북(runbook) 기반 자동화는 실환경 변화에 따라 곧바로 구식(deprecate)화됨
- 도구 조합을 통한 브로드 서치 시 속도 미달(수 분 내 문제 해결 요구 vs. 탐색 소요 시간)
Traversal.ai는 인과관계 기계학습, 시맨틱 추론, 멀티에이전트 제어를 결합한 혁신적 접근을 제시함
- Traversal.ai의 핵심은 “out-of-sample autonomous troubleshooting”으로, 이전에 관측되지 않은 신규 장애에도 일관되게 자동 대처
- 통계적 요소: 인과관계 기계학습(causal ML) 적용 — 상관관계와 인과관계를 구분, 시스템 내 불필요한 연쇄적 오동작 대신 근본 원인 원천 차단
- 시맨틱 요소: 로그·메타데이터·코드 등 의미 정보에 대한 LLM/추론 모델 활용 — 엔지니어 작업 맥락을 정교하게 반영
- 제어 플로우: 수천~수만 개의 AI 에이전트가 병렬적으로 시스템 내 각종 관측데이터를 ‘스웜’ 구조로 탐색, 실제로 실시간성/효율성을 확보
여러 AI 접근의 장점을 유기적으로 결합해 근본적 장애 자동 트러블슈팅을 실행함
- 대량의 관측 정보에서 유의미한 리드(lead) 도출 → 인과 기계학습+에이전트 스웜 구조로 자동 실행
- 리드와 실제 시스템 변경(PR, config change 등) 연결에는 코드 에이전트와 벡터 검색(Vector Search) 등 최신 AI 기법 활용
- 각 장애상황마다 적합한 팀과 전문가, 데이터를 적시에 연결 — 필요한 인력만 정확히 동원, 슬랙 채널의 불필요한 동원이 사라짐
- 반자동·자동화 콘텍스트 빌딩으로 트러블슈팅 속도와 품질 동시 향상
Digital Ocean 실제 사례에서 Traversal.ai 도입 후 40%의 장애 해결 시간 단축 효과 확인
- Digital Ocean(수십만 고객을 서비스하는 클라우드 인프라 기업)의 사례를 상세히 설명
- 기존에는 수십명의 엔지니어가 텍스트 경보와 기본 콘텍스트만으로 엄청난 양의 로그와 대시보드를 반복적으로 샅샅이 뒤져 근본 원인 찾음
- Traversal.ai 도입 후에는 소량 콘텍스트만으로 AI가 장애를 자동 분석, 문제 시작 5분 내 슬랙 채널에 복구/대응 방안을 제시
- 자동 생성된 보고서에는 구체적 증거, 신뢰도 점수, 원인 설명 등이 포함됨
- Digital Ocean 엔지니어로부터 Traversal이 제시한 조치가 실제 이슈 해결에 직접적 기여했다는 평가 획득
- 전사적 차원에서 MTR(Mean Time to Resolution, 평균 장애 해결 시간)이 약 40% 감축
- 장애 대응 신속화는 엔지니어 정신적 부담 완화, 회사 입장에선 수천 달러 단위 손실 감소로 직결
Traversal AI는 대규모 멀티소스 관측 도구와의 연동 능력과 대용량 데이터 탐색 구조를 확보
- Digital Ocean 뿐 아니라 다양한 엔터프라이즈 고객사에 적용 중
- 모든 주요 관측 도구(Grafana, DataDog, Splunk 등) 연동, 하루 수조(logs) 단위 데이터 처리 가능
- ‘건초 더미 속 바늘 찾기(needle-in-the-haystack)’ 문제에 특화된 탐색 구조 — 관측 데이터뿐 아니라 네트워크, 보안 등 다양한 도메인에 확장 가능성을 언급
단순히 AI 에이전트 개발이 아닌, AI 인프라스트럭처 차원의 복합적 과제가 핵심임
- 표면적으로는 AI 에이전트 기반 문제처럼 보이나, 실제론 대규모 데이터 인프라·분산처리·복수 툴 연동 등 AI 인프라 과제도 매우 크며 이를 함께 해결 중임
- 엔터프라이즈 환경에서는 거대한 데이터 밀도를 효율적으로 다루는 것이 혁신의 핵심 요소임
Traversal.ai의 연구진과 실무팀은 AI, 개발, 금융, 인프라 등 다양한 출신 전문가로 구성되어 있음
- 최고 수준 AI 연구소 출신 연구원, 유명 개발도구 기업 실무자, AI 제품 엔지니어, 고빈도 금융 트레이더 등 다채로운 배경의 인재들이 한 팀을 이루고 있음
- 엔지니어링 역량 뿐만 아니라, 팀워크/상호 성장 지향의 컬처를 강조 — “모두가 서로를 위해 일한다”는 팀 정신이 Traversal을 특별하게 만듬
Traversal의 에이전트 스웜 및 자동화 전략은 보안, 네트워크 등 다양한 산업에도 확장 적용 가능함
- 네트워크 관측, 사이버 보안 등에서도 관측 데이터의 방대함과 근본 원인 분석의 어려움이 동일하게 나타난다는 점을 강조
- Traversal의 “에이전트 스웜 및 철저한 탐색(Exhaustive Search)” 전략이 이들 도메인에도 직접적으로 적용 가능함을 시사
- 실제로 적용을 희망하는 여러 산업 분야의 청중에게 이 방식을 가치 있게 활용할 수 있음을 암시
Traversal.ai의 혁신적 접근과 팀 문화는 엔지니어링 업계에 새로운 모델을 제시하고 있음
- 기존 손쉬운 장애 대응이 어려운 한계를 깨는 AI 기반 방법론의 사례로서 업계 큰 주목
- 장애 자동 분석 및 근거 중심 결과, 신속 발표, 책임 분산의 자동화가 실제로 현장에서 작동하는 모습을 입증
- 팀적으로는 ‘함께 성장, 상호 협력’을 중시하는 기업 문화가 조직 역량의 원동력임을 마지막에 강조