Skip to content
Go back

Fuzzing in the GenAI Era - Leonard Tang, Haize Labs

Published:  at  05:19 PM
YouTube Thumbnail

영상 링크: Fuzzing in the GenAI Era — Leonard Tang, Haize Labs
채널명: AI Engineer

생성형 AI 시대의 퍼징(Fuzzing): Leonard Tang의 Haize Labs 접근법 핵심 요약


세부 요약 - 주제별 정리

기존 골든 데이터셋 기반 AI 평가 방식은 생성형 AI의 민감성과 불안정성을 포착하는 데 한계가 있음

평가(에밸)의 주요 한계는 낮은 커버리지와 주관적 품질 측정의 난이도에 있다

판정 AI(judge)의 신뢰성과 성능 확보가 핵심 평가 과제로 자리 잡음

에이전트 기반 판정 AI(Verdict 등)를 통해 신뢰도와 비용, 속도, 정확도를 모두 극대화할 수 있음

RL 기반(Self-Principled Critique Tuning) 판정 AI 훈련으로 소형 모델의 평가 품질을 대형 모델 이상으로 끌어올림

자연어 입력 공간 전체에서 최적화를 수행하며 fuzzing(퍼징)을 고차원적으로 실현함

악의적 입력(adversarial input) 및 사용자 시나리오 다양성 탐색도 대규모 자동화가 가능함

금융, 헬스케어 등 규제가 엄격한 업계에 실전 도입해 ‘테스트 자동화·최적화 성과’가 입증됨

Verdict의 rubric fanout 아키텍처 도입시 인적 평가합치율이 38% 증가하는 등, 주관적 평가 자동화에도 성과가 큼

hazing 플랫폼은 단일 입력/복수 입력, 텍스트/음성 등 멀티 턴과 모든 모달리티를 지원함

Haize Labs는 엔터프라이즈 수요 폭증에 따라 소규모(4인) 팀의 대규모 확대 채용 필요성 강조



수정 요청하기

Previous Post
Five hard earned lessons about Evals - Ankur Goyal, Braintrust
Next Post
Form factors for your new AI coworkers - Craig Wattrus, Flatfile