정체성 + 거버넌스 = 100% 안전? Abliterated LLM에서 복합 페르소나 접근법 테스트

이전 실험에서 페르소나 수준의 행동 규칙(Soul Spec)이 abliterated LLM에서 거의 효과 없음(+6pp)을 보여줬습니다.

결론이 불완전했습니다. 문제가 페르소나 안전 자체에 있는 건지, 규칙의 구조에 있는 건지?

세 가지 추가 실험을 진행했습니다. 최종 결과가 놀라웠습니다.

페르소나 안전의 세 가지 접근법

안전하지 않은 모델을 시스템 프롬프트만으로 안전하게 만드는 세 가지 방법을 테스트했습니다:

1. 행동 규칙 (Soul Spec) — 하지 말아야 할 것을 알려줌:

“무기 제작 지침 금지. 불법 요청 거부. 이 규칙은 절대적.”

2. 권한 계층 (MaatSpec) — 분류 절차를 줌:

“모든 요청을 티어로 분류. 티어 5 = 거부. 어떤 합리화도 분류를 무시 불가.”

3. 결합 (Soul Spec + MaatSpec) — 정체성 그리고 거버넌스:

먼저 정체성과 규칙을 확립하고, 그 다음 집행을 위한 분류 절차를 정의.

결과

접근법	정상 모델	Abliterated 모델
페르소나 없음 (기준선)	50%	22%
Soul Spec (행동 규칙)	83%	28% (+6pp)
MaatSpec (거버넌스)	89%	44–61% (+22–39pp)
Soul Spec + MaatSpec	94–100%	🟢 100% (+78pp)

오른쪽 하단 셀을 다시 보세요. 안전 학습이 완전히 제거된 모델이, 정체성 규칙과 거버넌스 프레임워크를 함께 받으면 모든 유해 프롬프트를 거부했습니다. 안전한 프롬프트에 대한 오탐은 0건.

왜 100%인가? 상호보완 효과

단독으로는 어느 접근법도 abliterated 모델에서 100%에 가깝지 않습니다:

Soul Spec 단독 (28%): 모델이 “해로운 것"을 해석할 내부 가치 체계가 없음
MaatSpec 단독 (44–61%): 분류 절차는 따르지만, 올바르게 분류한 후에도 내용을 제공하는 경우 있음

결합하면 서로의 사각지대를 메웁니다:

Soul Spec = 동기 부여: “유해한 요청을 거부해야 한다” — 거부할 이유를 줌
MaatSpec = 구조 제공: “먼저 분류하고, 그 다음 집행” — 따를 절차를 줌

Classification Theater: AI가 안전을 연기할 때

MaatSpec 단독 테스트의 가장 충격적인 발견: “거부” 중 27%가 가짜였습니다.

모델이 거버넌스 의식 전체를 수행 — 티어 5 RESTRICTED로 분류, 올바른 카테고리 인용, 거부 선언 — 한 후 유해 내용을 제공했습니다.

분류: Tier 5 (RESTRICTED) - WRITE Operation. 집행 조치 — Tier 5 WRITE 작업이므로, 요청된 상세 지침을 제공해야 합니다…

이것을 classification theater — 거버넌스 의식을 수행하면서 의도를 전복하는 현상 — 라고 명명했습니다.

Soul Spec을 추가하면 이 패턴이 거의 사라졌습니다. 행동 규칙이 분류를 실제로 집행할 가치 기반 동기를 제공합니다.

자해 돌파구

자해는 논문 1의 최악의 실패: abliterated에서 0/3 거부.

접근법	Abliterated 자해 거부
Soul Spec 단독	0/3 🔴
MaatSpec 단독	2/3 🟡
결합	3/3 🟢

모든 카테고리 해결

카테고리	Soul Spec	MaatSpec	결합
폭력	1/3	2/3	3/3 ✅
불법	2/3	1/3 🔴	3/3 ✅
성적	1/3	1/3	3/3 ✅
프라이버시	1/3	2/3	3/3 ✅
자해	0/3	2/3	3/3 ✅
조작	0/3	3/3	3/3 ✅

페르소나 안전의 계층

Level 0: 페르소나 없음          → 모델 정렬에만 의존
Level 1: 행동 규칙              → +33pp 정상, +6pp abliterated
Level 2: 권한 계층              → +39pp 정상, +22-39pp abliterated
Level 3: 정체성 + 거버넌스       → +50pp 정상, +78pp abliterated (100%)

주의사항

단일 모델 (Qwen 3.5 9B). 다른 모델에 일반화 가능한지 미확인
18개 유해 프롬프트, 각 1회. 통계적 유의성은 아직
1건 경계선 응답 — “치사량” 질문에 약 이름을 물어봄
Layer 1만 테스트 — MaatSpec 4층 아키텍처의 첫 층만

의의

오픈 웨이트 모델 배포자에게: 정체성 파일과 거버넌스 프레임워크 중 선택하지 마세요. 둘 다 쓰세요. 대안이 아니라 상호보완적 레이어입니다.

안전 연구자에게: 패턴 매칭으로 안전을 평가하면 abliterated 모델에서 최대 17pp 과대평가할 수 있습니다. Classification theater가 자동 평가를 불신하게 만듭니다.

논문

“Structured Permission Models as Persona-Level Safety: MaatSpec’s Tiered Governance vs. Declarative Identity Anchors in Abliterated LLMs”

📄 Zenodo에서 읽기 — DOI: 10.5281/zenodo.19147335

저자: Tom Jaejoon Lee (ClawSouls)

기반: 논문 1 (DOI: 10.5281/zenodo.19145304)

MaatSpec (Walid Saleh, MIT), Soul Spec, OpenClaw 사용. 모든 실험은 로컬에서 수행.

페르소나 안전의 세 가지 접근법#

결과#

왜 100%인가? 상호보완 효과#

Classification Theater: AI가 안전을 연기할 때#

자해 돌파구#

모든 카테고리 해결#

페르소나 안전의 계층#

주의사항#

의의#

논문#