Claude Sonnet 4.5 - The New Coding King? (Sonnet 4.5 vs. GPT 5 Codex)

영상 링크: Claude Sonnet 4.5 - The New Coding King? (Sonnet 4.5 vs. GPT 5 Codex)
채널명: Cole Medin

Claude Sonnet 4.5 - 새로운 코딩 왕? (Sonnet 4.5 vs. GPT 5 Codex) 핵심 요약

엔트로픽(Anthropic)이 출시한 클로드 소넷 4.5(Claude Sonnet 4.5)는 기존 Opus 4.1 및 최근 강세를 보인 OpenAI의 GPT 5 Codex(코덱스)까지 벤치마크에서 압도하며 새로운 코딩 AI의 강자로 부상
공식적으로 소넷 4.5는 agentic tool 사용 부문에서 선두, 컴퓨터 활용 능력에서도 Opus 4.1 대비 약 20%의 성능 향상 수치를 기록
Claude Code v2.0 등장: 기본으로 소넷 4.5 적용, 이전 Opus 4.1로도 전환 가능. 신규 VS Code 확장 프로그램 및 Claude Code(agents) SDK도 도입
실제 개발 테스트: 동일한 요구사항(기존 agentic 애플리케이션에 Stripe 결제통합 구현)을 Claude Sonnet 4.5(Cloud Code)와 GPT 5 Codex(Codeex) 환경에서 각각 진행
Sonnet 4.5는 Stripe 통합 전 과정 15분 만에 구현, 과거 Opus 4.1이 35분 소요된 것 대비 2배 이상 빠른 속도. GPT 5 Codex는 1시간 20분 소요해 Sonnet 4.5 대비 월등히 느림
구현 결과 Sonnet 4.5가 소소한 오류(앞단·뒤단 URL 불일치 등)를 보였으나 전체적으로 우수한 품질과 빠른 결과 산출
GPT 5 Codex는 파일 편집 및 반복적 읽기 등 비효율적 루틴에 많은 시간을 소모했고, UI·거래 이력 등 일부 완성도 아쉬움 남음
두 모델 모두 Stripe 결제, 토큰 관리 등 기능은 구현 성공. 그러나 세부 오류 수정 반복 필요
결과적으로 현 시점에서 Sonnet 4.5의 속도와 품질이 크게 앞서며, 향후 LLM 개발 경쟁에 중요한 이정표 제시
Anthropic의 적극적 마케팅 및 코드 도구 생태계 확장을 통한 사용자 경험 혁신도 주목됨

세부 요약 - 주제별 정리

벤치마크와 공식 출시를 통해 Sonnet 4.5가 AI 코딩 왕좌에 등극함을 입증함

Anthropic이 Claude Sonnet 4.5를 공식 출시, 벤치마크 결과 현존 최고 AI 코딩 모델로 평가
Opus 4.1을 포함한 기존 Anthropic 모델들을 능가하며, 최근 크게 주목받던 OpenAI GPT 5 Codex를 벤치마크에서 앞섬
특히 agentic tool 사용 부문에서 선두 등극, 컴퓨터 활용 능력에서는 직전 Opus 4.1 대비 무려 20% 향상된 성능 데이터 발표
“벤치마크는 전부를 말해주진 않는다”는 전제하에 실제 사용 경험이 궁금하다는 영상 제작자의 시각 제시

Claude Code v2.0과 생태계 전반에 걸친 대대적 업그레이드가 진행됨

Claude Code가 v2.0으로 업데이트, 소넷 4.5가 기본 엔진으로 적용됨 (원할 경우 옛 Opus 4.1로도 전환 가능)
VS Code(비주얼 스튜디오 코드) 확장 프로그램 추가
Claude Code SDK도 개편되어 지금은 공식적으로 Claude agents SDK로 명명, 에이전트 기반 경험 구축에 초점
Anthropic은 이번 출시와 함께 YouTube 채널 등에서 활발한 신제품 홍보와 기술 콘텐츠 발표

실제 개발 환경에서 Sonnet 4.5와 GPT 5 Codex의 코딩 성능을 직접 비교함

동일한 개발 요구사항: 기존 agentic(에이전트 기반) 애플리케이션에 Stripe 결제 기능 통합
테스트 환경: 좌측은 Codeex(GPT 5 Codex 사용), 우측은 Cloud Code(새로운 Sonnet 4.5 사용)
실제 복잡한 코드베이스 위에서 기획구현테스트 전체 과정을 동일하게 수행
이미 Stripe 연동이 완료된 별도의 브랜치 존재, 실제 구현은 이와 독립적으로 새롭게 시작

PRP를 적용한 AI 코딩 실행 워크플로우를 양 모델에 동일하게 적용함

명확히 구조화된 PRP(Procedural Requirement Prompt) 기반 문서를 작성해 두 AI 모델 모두에게 입력
명령어 실행 시, 기능 명세서를 읽고, 구현 방안을 고안, 작업을 세분화 후 태스크 단위로 처리
각자 독립적인 Git 저장소에서 병렬로 개발이 진행됨

중간 진행 상황에서는 Sonnet 4.5의 월등한 속도와 안정성이 확인됨

코덱스(Codeex) 측: 데이터베이스 관련 작업 시 여러 커맨드 실행 실패 등으로 상당히 느린 진행 속도
파일 읽기 등 기본 작업 자체도 느림
Sonnet 4.5(Cloud Code): 빠른 속도로 프론트엔드 Stripe 구매 컴포넌트 및 디스플레이 구현까지 순조롭게 처리
작업 목록(Task list) 상으로도 Claude Code(소넷 4.5) 쪽이 상당히 앞서 나가는 상황

Sonnet 4.5는 Stripe 결제통합 전 과정을 15분 만에 끝내면서도 실용적 성공을 거둠

15분 만에 Stripe 연동 전체 구현 완료, 과거 동일 작업을 Opus 4.1로 했을 땐 35분 소요됐음 (2.3배 향상)
소스 코드 자체 사전 검토 시, 프론트엔드와 백엔드 URL 일부 잘못 연결 등 사소한 버그 존재 → 즉시 수정 가능
데모 결과 UI는 양호하며, 토큰 구매 시 Stripe checkout으로 연결되는 등 실제 결제 플로우 정상 작동
테스트 환경상 Stripe 샌드박스 계정과 가짜 카드 정보로 결제 수행
메시지 전송·토큰 소진 처리 등에서도 정상 동작, 단 토큰 수치 반영은 새로고침이 필요 등 마이너 이슈 반복

GPT 5 Codex(Codeex)는 속도와 효율성에서 큰 약점을 드러냈으나, 기능 구현 자체는 성공함

Stripe 결제 기능 완성까지 1시간 20분 소요됨. Sonnet 4.5 대비 월등히 느림
파일 수정 후 재독(file re-reading) 등 비효율적 동작이 반복되어 전체 프로세스를 지연시킴 (제작자는 Windows 환경이 원인일 수도 있다는 의견 언급)
Front-end·거래 이력 등 일부 UI 품질과 상태 관리, 표시 갱신 등에 미세한 불완전성 존재
하지만 Stripe 결제, 토큰 지급, 메시지 전송 시 토큰 감산 등 핵심 기능은 동작

반복적 수정(iteration)을 통해 두 모델 모두 자잘한 오류와 환경설정 문제를 보임

Sonnet 4.5: 한두 차례 반복( iteration )으로 URL 불일치 등 소소한 문제 수정 가능
Codex: 환경세팅, Docker 컨테이너 구동 등에서 반복적 수정 필요
그래도 두 모델 모두 일정 수준 이상 결과물을 산출할 수 있음

UI 구현·사용자 경험 측면에서는 Claude Sonnet 4.5가 우세함을 확인할 수 있었음

Sonnet 4.5: 깔끔하고 실용적인 UI, 결제 동작 등에서 사용자 편의성 양호
Stripe checkout 자체로 이동하는 플로우를 취함
Codex: UI가 다소 덜 세련되고, 거래 이력 등 부가 요소가 있으나 불완전
결제프로세스는 인라인 처리, UI상 개량 가능성 높음

결론적으로 현 시점에서 Sonnet 4.5가 코딩 AI 분야의 품질·속도 모두에서 뚜렷하게 앞섬

Sonnet 4.5는 파일 처리 속도, 기능 구현 정확도, 필요한 반복 횟수 모두에서 우위
Codex 역시 전체적 기능 구현에는 성공해 장기적으로 충분한 성장 가능성 보임
하지만 2024년 6월 기준으로 Sonnet 4.5가 LLM 기반 코딩 도구의 새로운 강자임을 확인하는 계기
“지금 시점에서 Sonnet 4.5가 확실히 승리 중”이라고 결론
영상 제작자는 LLM·AI 코딩 기술의 발전 및 에이전트 개발에 대한 지속적 관심을 약속

Anthropic의 제품 전략 및 사용자 생태계 확장에 대한 언급이 눈에 띔

Claude Code SDK(“Claude agents SDK”로 명칭 변경) 등으로 개발자 대상 툴 강화
VS Code 등 실무 환경과의 통합도 빠르게 추진
YouTube 등 미디어 활용한 적극적 신제품 홍보 및 데모 콘텐츠 공개
이런 전방위적 확장이 AI 코딩 플랫폼의 표준화를 촉진할 것으로 기대됨