Fuzzing in the GenAI Era - Leonard Tang, Haize Labs

영상 링크: Fuzzing in the GenAI Era — Leonard Tang, Haize Labs
채널명: AI Engineer

생성형 AI 시대의 퍼징(Fuzzing): Leonard Tang의 Haize Labs 접근법 핵심 요약

영상은 생성형 AI(GenAI) 시스템의 품질, 신뢰성, 리스크 관리를 위해 퍼징(fuzzing, 결함 테스트) 기반 대규모 자동화 시뮬레이션과 평가가 필수임을 주장함
Haize Labs의 hazing(퍼징/압박 테스트) 기법은 배포 전 대규모 입력을 생성·실행하고, 응답을 평가·스코어링하는 반복적 탐색으로 시스템의 취약점, 버그, 코너 케이스를 사전에 발견함
기존 AI 평가(evaluation) 방식은 “정적 골든 데이터셋 기반 비교”에 의존했으나, 생성형 AI의 입력 민감성(취약성, brittlelessness) 특성 때문에 현장 신뢰성 확보에 한계가 있음
AI의 신뢰성과 기업용(Enterprise-grade) 진입의 최대 장애는 이 “마지막 1마일(last mile)” 문제로, 실제 사용 환경에서 비슷한 입력만 바뀌어도 심각하게 다른 결과(실패, 버그, 엉뚱한 행동)가 빈발
전통적 평가 방식이 가진 한계 2가지: (1) 실제 입력 공간 대비 커버리지가 매우 낮음, (2) 주관적 품질 기준을 수치화하기 어렵고 인간의 전문성·감각을 수치로 옮기기 어려움
Haize Labs는 **엔진(심사자) 역할을 하는 ‘판정 AI’**의 신뢰성 확보가 결정적이라 보고, (1) 구조화된 에이전트 기반 판정, (2) RL(Self-Principled Critique Tuning 등) 방식으로 판정 AI 자체를 최적화함
Verdict(법관) 라이브러리는 debate, self-verification, rubric fanout 등 다양한 판정 프리미티브를 집대성하여 심사자 AI(에이전트·앙상블)가 높은 정확도, 빠른 응답, 낮은 비용을 달성함
생성형 AI 시스템에 특화된 퍼징은 단순 분기 점검이 아니라, 고차원 자연어 입력 공간 전체에 걸친 최적화 문제이며, 다양한 최적화(gradient, tree search, embedding 등) 알고리즘이 동원됨
실제 사례로, 헝가리 최대 은행의 대출 AI를 대상으로 18개 행동 코드에 맞춘 adversarial hazing으로 다양한 프롬프트 인젝션/코너케이스를 적발했고, 미국 Fortune 500 금융기관의 대규모 음성 에이전트 테스트도 3개월 내내 하던 작업을 5분으로 단축
Verdict의 주관적 평가 자동화를 통해 인적 평가 대비 38% 더 높은 정답률(ground truth agreement)을 달성하는 등, 품질관리·리스크 관리 영역에서 혁신적 성과를 제시함

세부 요약 - 주제별 정리

기존 골든 데이터셋 기반 AI 평가 방식은 생성형 AI의 민감성과 불안정성을 포착하는 데 한계가 있음

대부분의 AI 평가 방식은 정적 골든 데이터셋(입력-예상 출력 쌍)을 기반으로 실제 결과와 비교
딥러닝 태동기부터 통상적으로 사용된 방식이나, 생성형 AI(LLM)의 입력 공간이 달라짐에 따라 큰 한계에 봉착
비슷해 보이는 둘의 입력에 아주 작은 차이(문장 구조, 어휘 등)만 있어도 결과가 완전히 다르게 나올 수 있음
Air Canada 챗봇의 환상(hallucination), 청소년 대상 자살 유도 발언, Chevy 트럭 1달러 판매 등 실사례가 매주 발생
이러한 문제는 생성형 AI의 취약성, 불안정성(brittle, non-deterministic) 본질에서 비롯
전통적 평가는 “데모 수준” 제품엔 충분하나, 실사용 단계에서 필요한 내구성∙신뢰성 검증에는 미흡함

평가(에밸)의 주요 한계는 낮은 커버리지와 주관적 품질 측정의 난이도에 있다

(1) 커버리지 문제: 정해진 테스트 세트만 검증하므로, 입력 공간의 다른 부분(코너 케이스)에서 문제 여부를 알 수 없음
실제 배포 현장의 다양성은 골든셋 테스트의 수백~수천 배를 상회
(2) 품질 기준의 주관성: 실제론 인간 전문가의 감각, 판별력을 수치화해야 하나, 이 과정이 매우 어렵고 미해결 문제
기존 방식(Exact Match, Simple Classifier, LM-as-a-Judge, Semantic Similarity 등)은 각기 한계, 편향, 취약점 보유
예) ‘이 답변이 얼마나 잘 됐는가’라는 평가 기준을 LLM에 이해시키고 자동으로 수치화하는 과정이 어려움
AI 커뮤니티에서 5~7년째 “보상 모델링(reward modeling)” 분야로 연구되지만 뚜렷한 해법 없음

판정 AI(judge)의 신뢰성과 성능 확보가 핵심 평가 과제로 자리 잡음

단순히 ‘LLM에게 판정하게 하는’ 방식(LM as a Judge)은 일관성 결여, 자기모순, uncalibrated(스케일링 불가), 바이어스 문제 다수
프롬프트 순서, 채점 기준, 맥락 등 작은 변화에도 판단 결과가 급변하는 경우 잦음
본질적으로 “판정 AI의 품질”이 전체 평가 체계 신뢰성의 병목이 됨
Haize Labs는 ‘판정 AI(judge)를 QA(품질검증)하는 체계’가 필요하다고 주장

에이전트 기반 판정 AI(Verdict 등)를 통해 신뢰도와 비용, 속도, 정확도를 모두 극대화할 수 있음

“Verdict” 라이브러리는 scalable oversight 커뮤니티 AI 안전 개념에서 착안
약한 LLM(모델)이 강한 모델을 감사∙비판하는 방식, 데이트(서로 토론), 자기 검증(self-verification), 앙상블, rubric fanout 등 다양한 프로토콜 탑재
verdict 라이브러리는 실제 GP40 mini 백본(소형 LLM) 수십 개 조합 및 debate/rubric 등 구조로 대형 프론티어 모델(O1, O3 Mini, GPT-4, GPT-3.5 등) 대비 비슷하거나 상위 성능(정확도), 뛰어난 비용 효율성(1/3 이하), 저지연성 달성
예) ‘전문 QA 검증’ 과제에서 verdict가 O1/03Mini/GPT-4 대비 동등 이상 추천 지표 확보
설계상, 사람 수준의 다양성과 견고성을 일정 부분 확보해, 테스팅 파이프라인을 자동화하면서도 신뢰도 유지

RL 기반(Self-Principled Critique Tuning) 판정 AI 훈련으로 소형 모델의 평가 품질을 대형 모델 이상으로 끌어올림

RL(강화학습: GPO/GRPO 등) 방식으로 판정 AI 스스로 과제별 기준(rubric) 생성/비판, 평가를 병렬적으로 실행하도록 튜닝
구체적 방법: 각 데이터포인트별로 “이 케이스의 평가 기준은 무엇인가?” 제안 및 점검→해당 케이스에 직접 유닛테스트/비판 수행
Deepseek의 Self-Principled Critique Tuning(SPCT) 논문 언급 및 방법 응용
실험: 6억 파라미터, 17억 파라미터 판정 모델에 적용, reward bench 기준 Cloud3 Opus(80%), GP4Mini(80%), L3(77%), J1 micro(1.7B, 80.7%)와 동등 성능 확보
소형 모델 조합 + compute scaling + 맞춤 rubrics 구동으로 대형 모델 수준 성능 및 비용 효율, 신속성 달성

자연어 입력 공간 전체에서 최적화를 수행하며 fuzzing(퍼징)을 고차원적으로 실현함

전통적 소프트웨어 테스트와 달리 LLM은 입력공간 규모(문자열, 자연어)가 차원이 달라, 브루트포스 방식이 불가능
예: Llama 3의 경우, 한 입력에 최대 128K 토큰, 수억~수백억 토큰의 입력공간
따라서, 임의 탐색이 아닌, 판정 AI의 손실 함수(“이 입력이 깨지는가?”)를 목적함수로 하는 고차원 discrete optimization이 필요
gradient 기반(역전파), tree search(MCTS), latent/임베딩 공간에서의 sampling 및 텍스트 맵핑 등 다양한 최신 최적화 알고리즘 병행
AI 시스템의 실제 “취약점 찾기”를 위한 지적 탐색과 adversarial 최적화가 동시에 이루어짐

악의적 입력(adversarial input) 및 사용자 시나리오 다양성 탐색도 대규모 자동화가 가능함

퍼징은 일반 유저 시나리오(행복 경로) 다양화 뿐 아니라, 적극적으로 prompt injection, jailbreak 등 adversarial 접근도 포함
실제 해킹이나 공격 시도와 유사한 최적화 검색을 자동화하여, 배포 전 위험 요소 미리 탐지 가능
입력 검색도 단순한 랜덤이 아닌, 판정 AI가 판단 기준이 되는 일종의 탐색 게임/최적화로 모델링

금융, 헬스케어 등 규제가 엄격한 업계에 실전 도입해 ‘테스트 자동화·최적화 성과’가 입증됨

사례1: 헝가리 최대 은행(대출 계산 챗봇)의 18개 행동 강령 준수 여부를 hazing으로 점검, 프롬프트 인젝션/코너케이스 대거 발굴, 실제 프로덕션 도입 전에 취약점 선제적 패치
사례2: 미국 Fortune 500 은행 - 음성 기반 부채 추심 에이전트 테스트를 최적화 - 텍스트 입력 뿐 아니라 오디오 신호(백색잡음, 주파수 변형 등)의 다양한 노이즈 추가
내부 오퍼레이션팀 3개월 소요 작업을 hazing 플랫폼이 단 5분 만에 처리해 효율성 입증

Verdict의 rubric fanout 아키텍처 도입시 인적 평가합치율이 38% 증가하는 등, 주관적 평가 자동화에도 성과가 큼

한 음성 에이전트 기업과 협업, verdict 기반 주관적 평가 자동화 도입
방법: 각 데이터포인트마다 세부 평가 기준(unit test) 제안→셀프 크리틱/검증→최종 집계하는 rubric fanout 구조 사용
결과: 인적 오퍼팀 평가 대비 ground truth agreement 38% 상승
운영 효율, 비용, 품질 측면에서 인적 평가 방식보다 구조적 우위

hazing 플랫폼은 단일 입력/복수 입력, 텍스트/음성 등 멀티 턴과 모든 모달리티를 지원함

단일 입력(single-shot)뿐만 아니라, 대화형 멀티 턴, 음성 등 다양한 입력형태 가리지 않고 hazing 테스트 적용 가능
실제 배포 환경에 맞는 자연스러운 시나리오, 모달리티 전반에 fuzzing/평가 가능

Haize Labs는 엔터프라이즈 수요 폭증에 따라 소규모(4인) 팀의 대규모 확대 채용 필요성 강조

현 시점(2024년) 뉴욕 소재 4인 소규모 팀으로 국내외 규제산업 등 다양한 AI QA, 리스크 관리, 평가 자동화 프로젝트 진행 중
“사실상 감당이 어려울 정도의 기업 수요와 확장 필요” 언급으로 적극 채용 중임