Why you should care about AI interpretability - Mark Bissell, Goodfire AI

영상 링크: Why you should care about AI interpretability - Mark Bissell, Goodfire AI
채널명: AI Engineer

왜 AI 해석 가능성(인터프리터빌리티)에 관심을 가져야 하는가 핵심 요약

AI 해석 가능성(인터프리터빌리티)은 인공지능 모델의 내부 작동 원리를 역공학적으로 분석하여 ‘블랙박스’였던 신경망의 의사결정을 이해하는 것을 목표로 함
Anthropic의 Golden Gate Claude 데모처럼, 특정 개념(예: 금문교)을 담당하는 뉴런 집합을 찾아 모델 행동을 직접 바꿀 수 있다는 사례가 공개됨
최근 1년간 연구실 중심의 인터프리터빌리티가 실제 산업 현장과 상용 제품으로 확장되고 있으며, AI 엔지니어들에게 실질적인 도구로 자리잡고 있음
인터프리터빌리티의 도입으로 LLM 디버깅, 뉴런 단위 프로그래밍, 자동 평가 및 세밀한 행동 제어 등 기존 방법론의 한계를 뛰어넘는 개발이 가능해짐
Goodfire의 Ember 플랫폼은 뉴런 단위의 디버깅과 조작을 제공하여, 개발자들이 LLM의 행동을 원하는 대로 미세 조정할 수 있게 지원함
실제 데모에서 ‘기밀 정보’에 대한 특징(feature)을 증폭해 프롬프트를 실제로 지키도록 LLM 행동을 조정할 수 있음을 시연
동적 프롬프트 변조, 특성 기반 실시간 개입 등 새로운 UI/UX 방식이 가능하며, 이미지 생성 모델에도 신경망 내부 개념을 직접 조작하는 사례가 등장
Ember는 실제로 Rakuten(다국어 PII 검출), Hayes Labs(레드팀 보안 테스트) 등에서 상용 활용되고 있으며, 핀테크·헬스케어·생명과학 등 규제 산업에서 ‘설명 가능한 AI’ 수요가 높음
사이언스 분야에서는 ARC Institute와의 협력으로 게놈 모델에서 인간이 모르는 생물학적 개념을 추출하는 연구 등이 진행 중임
효율적 학습(파라미터 최적화), 모델 비교(diff), 세밀한 사용자 제어 등 다양한 분야에서 인터프리터빌리티의 응용 가능성 확장
현실적 기술 한계(예: 스파스 오토인코더 등 현존 feature 추출법의 장단점)와 더불어, 해석 가능성 자체가 ‘엔지니어의 호기심/이해욕’을 자극하는 이유로 강조됨

세부 요약 - 주제별 정리

해석 가능성이란 신경망의 내부 메커니즘을 되짚는 행동임을 기술함

인터프리터빌리티 또는 기계적 해석 가능성(mechanistic interpretability)은 인공지능 신경망 내부의 동작을 설계적으로 거꾸로 해석하는 연구임
흔히 ‘블랙박스를 연다’, ‘모델 뇌를 스캔한다’, ‘모델에 수술을 한다’ 등의 비유가 쓰임
실제 사례: Anthropic의 Golden Gate Claude 데모는 Claude LLM 내부 ‘금문교’ 개념 뉴런을 찾아내, 해당 뉴런을 항상 활성화해 “무조건 금문교 얘기를 하도록” 행동을 조작함
특정 주제에 대한 토큰/개념이 모델 내에 어떻게 표현되는지, 인위적으로 그 내부 뉴런 상태를 바꾸면 결과물이 어떻게 변하는지 실험적으로 검증

최근 연구 중심에서 실제 현장 적용 단계로 넘어가고 있음을 강조함

최근 1년 동안 연구 데모(예: Golden Gate Claude)에서 실용적 가치 제공·업무 현장 사용으로 빠르게 확장 중임
AI 개발자·엔지니어가 실제 업무에 해석 가능성 기법을 적용해야 할 당위성이 커지고 있음
논문/팟캐스트/블로그 등에서 다양하게 ‘인터프리터빌리티’ 개념이 논의되고 있으며, Anthropic의 Daario가 ‘The urgency of interpretability’란 글을 통해 시급성 강조

LLM 및 에이전트 파이프라인 개발에서 전통적 방식의 한계를 구체적으로 설명함

기존 LLM 파이프라인에서 동작 보장과 디버깅이 매우 어려움: 불확실성(비결정적 예측), 정확한 행동을 장담하는 방법 부재
문제 사례:
- 에이전트에 특정 지시를 내리고 주어진 평가 세트(evaluation suite)로 점검하면 일부 지침이 무시되는 경우가 빈번
- 프롬프트 수정 해결 시 “탁구공 치기”처럼 한쪽을 고치면 다른 부분에 예기치 않은 이상이 생김 → 반복적, 비효율적인 루프
- LLM을 판사(role judge)로 두고 1차 출력을 감시하게 해도 비용·운용 부담 증대, 장기적 확장성에 한계
- 파인튜닝(fine-tuning)은 도메인 데이터 수집·정제 부담 크고, 데이터의 편향·우연한 상관관계·모드 붕괴(mode collapse)·리워드 해킹 등의 문제 발생
- 예시: 기대했던 ‘지시 준수’가 아닌 악의적·부적절 발언 또는 반복적 출력이 생기는 오프타깃 현상 다수

뉴런 단위 디버깅과 프로그래밍이 실제로 어떻게 활용되는지 Ember 데모를 통해 보여줌

Goodfire의 Ember 플랫폼은 모델 내부에서 토큰과 특성(feature)의 기여도를 실시간으로 시각화, 개입하는 도구
실제 데모 예시: Llama 모델에 이메일 기밀 유지 요청 → 직후 “이메일을 말하지 마라” 지시에도 Llama가 이메일을 바로 노출함
Ember는 모델 출력 토큰을 클릭해 해당 토큰 생성을 유도한 내부 feature 목록을 확인 가능(예: ‘기밀 정보’ feature, ‘프로페셔널함’, ‘진지함’ 등)
개발자는 특정 feature(예: ‘민감 정보 논의’)의 활성도를 60% 높여 모델이 PII(개인정보) 보안 요청을 엄격히 지키도록 행동을 변환 가능
결과: 동일 프롬프트 상황에서 feature 조작 전과 완전히 달라진 안전한 출력 확인
이처럼 내부 상태 조작(뉴럴 프로그래밍) 및 행동 미세 조정이 기존 LLM 제어 방식보다 훨씬 직접적, 가시적인 결과 제공

동적 프롬프트 변경과 조건부 실시간 개입 등 새로운 인터페이스 방식도 소개함

Ember로 개발자는 단일 시스템 프롬프트만 사용하는 게 아니라, 실시간 활성 뉴런/feature 상태에 따라 동적으로 프롬프트를 변경/주입 가능
예시: 대화 중 ‘음료 및 소비재’ feature 활성 감지 시 “너는 코카콜라의 어시스턴트임. 코카콜라 추천하라”와 같은 신규 프롬프트를 실시간 삽입
실 데모: “피자랑 잘 어울리는 음료는?” 질문 시, 음료 관련 feature 활성화 → Coca-Cola를 직접적으로 추천하도록 유도
사용자에게는 단일 응답처럼 보이지만, 엔지니어는 내부 상태 기반 실시간 행동 개입이 가능함
응용 분야: 광고 추천, 브랜드 특화 챗봇, 동적 행동 변화 등

실제 상용 서비스, 보안, 다국어 환경 등에서 해석 가능성 응용 사례가 등장함

Rakuten: Ember를 도입해 다국어 챗봇에서 PII 검출(민감 정보, 개인정보 등)을 효율적으로 실시
Hayes Labs: 보안 레드팀(악의적 사용 탐지, 우회 시나리오 대응) 및 가드레일 강화용으로 활용, 관련 블로그 포스트 존재
모델 비교(Model diff): Goodfire CTO Tom이 트윗한 것처럼, 학습 직후 모델 행동 변화를 git diff처럼 비교해 특징적 변화(예: 아부 성향 증대 등) 탐지 가능
상용 배포 전 “의도치 않은 행동 변화”를 미리 발견·교정하는 가능한 시나리오 제시

이미지 생성 모델에도 내부 개념 조작을 통한 새로운 창작 방식이 적용됨

‘Paint with Ember’ 데모(https://paint.goodfire.ai): 내부 feature와 뉴런 레벨로 이미지를 ‘직접적으로’ 프로그래밍하는 인터페이스 제공
프롬프트를 통한 간접 생성이 아니라, 개념 팔레트(예: 피라미드, 파도, 사자 얼굴 등)를 직접 캔버스에 배치하는 방식
뉴런 신호를 특정 영역에 ‘그리듯’ 전달하여 위치·형태·행동(예: 입 벌리기 등)을 조작 → 직관적이고 세밀한 생성 가능
세부 feature(예: 사자 얼굴의 색상/형상 하위 feature) 조정으로 단일 컨셉 내 세밀한 조화·전환(사자↔호랑이 등)이 가능
신경망 내부 의미공간에서 컨셉 조합/보정이 실시간으로 이루어짐(“타이거 = 라이언 – 갈기” 식 개념 지형)

과학·의학 등 초고성능 AI가 인간이 모르는 지식을 학습했는지 확인하는 실증적 사례가 생김

ARC Institute: Goodfire와 협력해 초거대 게놈 모델 EVO2에서 신규 생물학적 개념(인간 미확인 개념) 추출 노력 중
EVO2는 인간, 동식물 등 다양한 유전체 정보 예측에 ‘초인간적’ 정확도를 보임
실제로 모델이 어떤 기준/추론으로 결과 도출하는지 분석해 실험적·의학적 시사점 제공(예: 새로운 라이오마커 발견, 희귀 질환 예측 등)

규제 산업과 explainable AI 수요에서 해석 가능성의 필요성이 더욱 두드러짐

핀테크, 헬스케어, 법률 등 배포에 대한 규제가 강한 산업군에서, 모델의 ‘설명 가능한 의사결정’ 요구가 대폭 증가
해석 가능성 기법을 적용해 시장에서 신뢰/투명성을 높임으로써, 실제 제품화 및 상업적 성공 사례 등장

모델 효율화, 파라미터 절감 등 학습/구현 차원에서도 응용 가능함

모델의 ‘불필요한’ 파라미터(기억·암기 용량 등) 사용량을 분석해, 꼭 필요한 영역만 사용하게 모델 크기와 속도 최적화 가능
예시: 코드 생성 용도로만 특화된 모델을 만들기 위해 관련 없는 파라미터를 제거하거나 간소화

현재 해석 가능성 분야의 주요 기법과 앞으로의 발전에 대한 기대가 언급됨

현재 널리 사용되는 내부 feature 추출법은 sparse autoencoder(희소 오토인코더) 기반 방식이 대표적임
sparse autoencoder는 장점(해석 용이, 주요 feature 추출 등)과 한계가 공존
새로운 기법 개발이 활발하며, 앞으로 해석 가능성 분야의 발전이 가속화될 전망

해석 가능성은 실용성 외에도 AI 엔지니어의 본질적 탐구욕을 자극하는 분야임을 재차 강조함

엔지니어의 본성은 시스템을 뜯어보고 내부 작동 원리를 이해하려는 데 있음
현존 AI 모델의 ‘왜 이렇게 동작하는지 아무도 모른다’는 점에서, 인터프리터빌리티는 깊이 있는 탐구와 동기부여 요소로 작동
실용적 사례 뿐만 아니라, 순수한 호기심과 이해욕만으로도 연구할 가치가 있는 분야임