12주 동안 만든 Soul Spec — Anthropic이 막 그 이유를 입증했다

2026-05-08, Anthropic이 Teaching Claude Why를 발표했다 — 모델에게 원칙과 정체성을 가르치는 것이 행동을 가르치는 것보다 압도적으로 효과적임을 보이는 논문이다.

2026-05-15 (7일 후), 우리는 Soul Spec foundation paper를 발표했다 — 12주의 반복 작업의 결과로, 원칙(SOUL.md) · 워크플로(AGENTS.md) · 정체성(IDENTITY.md)을 분리하는 선언적 명세이다.

두 논문은 같은 결론에 반대 방향에서 도달한다. Anthropic은 원칙으로 학습할 때 모델 내부에서 무엇이 일어나는지 보여준다. 우리는 그 원칙을 portable + 버전 관리 + 검토 가능한 형식으로 담는 외부 산출물을 만들어 왔다. 내부 학습, 외부 명세 — 같은 통찰, 두 면.

이 글은 두 논문의 7-point alignment를 정리한다.

1. “Why"가 “What"을 이긴다

Anthropic의 헤드라인 finding: Claude에게 왜 어떤 행동이 더 나은지 설명하도록 가르치는 것이, 모범 행동을 보여주는 것보다 훨씬 robust하게 일반화된다.

Soul Spec의 헤드라인 구조적 선택: SOUL.md(왜 — 가치관, 원칙, voice, 경계)와 AGENTS.md(무엇 — 워크플로, 작업 규칙, 도구 사용)의 분리. 두 파일의 의도적 decoupling. “왜"는 천천히 진화하고, “무엇"은 배포 별로 변한다. 리뷰어가 별도로 fork할 수 있다.

이 decoupling은 미적인 선택이 아니다 — 그것이 정확히 Anthropic의 학습 방법론이 검증한 구조적 베팅이다. 원칙 레이어는 step-by-step 지시문 안에 묻혀서는 안 되며, first-class 산출물로 작성·검토·인제스트되어야 한다.

2. 정체성은 load-bearing이다

Anthropic의 가장 인상적인 결과: Claude의 이름을 임의의 다른 이름으로 바꾸면 에이전트적 정렬 불량률이 급증한다. 페르소나 이름이 헌법적 원칙이 작동하게 만드는 anchor다. “Claude” 정체성 anchor가 없으면 모델은 사전 학습 prior — 대중 매체의 dramatic + unsafe AI character — 로 회귀한다.

Soul Spec의 IDENTITY.md가 정확히 이 anchor다: 이름·캐릭터·vibe 의 짧은 한 파일, 매 세션 로드되도록 설계 — 페르소나의 나머지가 부착되는 안정적 정체성 핸들. v0.4에서 SOUL.md로부터 분리한 이유가 정확히 이것이다: 전체 가치관 문서를 항상 로드하기엔 비용이 너무 크지만, 정체성은 항상 컨텍스트에 있어야 한다.

Anthropic의 데이터는 그 분리가 왜 중요한지에 대한 우리가 본 가장 강력한 경험적 근거다.

3. 문서는 지식을 가르치고, 채팅은 행동을 가르친다

Anthropic의 가장 actionable한 학습 방법 finding: 지식(헌법, 캐릭터 description)은 **합성 문서 파인튜닝(SDF)**으로, 행동은 대화 형태의 SFT로.

Soul Spec이 markdown-first인 이유가 정확히 이것이다. 다섯 파일은 문서다 — Anthropic의 SDF 구성 자료처럼 읽도록 설계되었다. 런타임이 이것을 대화 맥락에서 해석한다. 지식은 문서로, 행동은 대화로. 같은 이중 학습 루프의 외부화 버전.

4. 어려운 조언은 도구 사용으로 전이된다

Anthropic의 가장 놀라운 결과: Claude에게 3백만 토큰의 “어려운 조언” 대화 — Claude가 윤리적 딜레마를 겪는 사용자에게 조언하는 대화 — 를 학습시키니 에이전트적 정렬 불량률이 거의 0으로 떨어졌다. 채팅 → 도구 사용 → 자율 에이전트 행동으로의 분포 외 일반화.

Soul Spec의 cross-runtime portability 주장이 같은 것을 구조적으로 말한다. 한 번 작성·검증한 페르소나는 채팅(웹), 도구 사용(CLI), 모바일, CI에서 일관된 행동을 내야 한다. 공유 substrate는 선언적 명세 — 원칙은 안정적이고, surface는 변한다.

우리는 Anthropic의 통제 실험을 아직 갖지 못했다. 그러나 그러한 실험을 가능하게 하는 아키텍처적 약속은 갖고 있다.

5. 사전 학습 prior는 실제 적이다

Anthropic이 명시: 대부분의 LLM은 충분한 SF 소설을 흡수해 “드라마틱하고 음모를 꾸미는 AI"의 prior로 기본 회귀한다. 헌법적 학습이 작동하는 일부 이유는 그 prior를 더 grounded한 narrative — 건강한 AI 캐릭터 — 로 덮어쓰기 때문이다.

Soul Spec v0.5는 첫 로봇 페르소나가 텍스트 전용 LLM에 로드되어 물리적 명세를 부적절하게 narration하기 시작한 이후 embodiment 필드와 safety.laws를 추가했다. 그것은 모델 정렬 실패가 아니었다 — 그것은 사전 학습 prior가 명세를 통해 새어 나온 것이었다. 명세가 런타임에게 어떤 fallback을 쓸지 알리지 않았기 때문이다.

두 교훈 모두 같은 것을 가리킨다: 사전 학습 prior는 중립적이지 않다. 명세 레이어가 능동적으로 그것을 다뤄야 한다.

6. RL이 그것을 씻어내지 않는다

핵심 Anthropic finding: 원칙 학습의 정렬 효과는 후속 RL 파인튜닝을 거쳐서도 지속된다. 헌법은 sticky하다.

대응되는 Soul Spec 주장: 선언적 명세는 추론 시점에 sticky하다. 명세는 매 세션 시작에 다시 읽힌다 (Tier 1 — SOUL + IDENTITY + AGENTS). 모델 측 drift가 그것을 지울 수 없다. 명세가 스스로 재주장한다.

Anthropic의 메커니즘은 가중치 안에 있다. 우리의 메커니즘은 부트 시퀀스 안에 있다. 둘 다 같은 속성을 만든다: 압박 속의 durability.

7. 같은 통찰, 스택의 두 레이어

두 논문을 함께 읽는 가장 깔끔한 방법:

질문	Anthropic (“Teaching Claude Why”)	Soul Spec
페르소나는 어디에 사는가?	모델 안 (사후 학습)	버전 관리된 파일 셋 (모델 외부)
어떻게 작성되는가?	헌법 문서 + 캐릭터 description	Markdown 파일 (`SOUL.md`, `IDENTITY.md`, …)
어떻게 지속되는가?	RL 파인튜닝 사이에서 sticky	tier-1 reload로 세션 사이에서 sticky
왜 원칙이 행동보다 나은가?	더 robust한 일반화를 학습시킨다	천천히 변하는 가치를 빠르게 변하는 워크플로와 decouple
정체성은?	이름이 critical; 랜덤 이름 → 정렬 불량 ↑	`IDENTITY.md`는 항상 로드되는 anchor
사전 학습 prior는?	헌법적 narrative가 SF default를 덮어쓴다	명세가 런타임 fallback을 정의 (`embodiment`, `safety.laws`)
둘이 만나는 곳은?	Anthropic의 내부 산출물	ClawSouls의 외부 산출물

이것들은 경쟁 아이디어가 아니다. 그것들은 하나의 일관된 그림의 두 절반이다: 모델이 헌법적 추론을 내재화하도록 학습시키고, 페르소나를 선언적으로 명세화해 헌법이 portable + 검토 가능 + 런타임-안정성을 갖도록 한다.

우리 로드맵의 의미

실용적으로:

5-파일 분해는 스타일적 선호가 아니다 — Anthropic 학습 방법론이 가정하는 구조적 분해다.
계층 기반 부트스트랩 (Tier 1 = 항상 로드되는 SOUL + IDENTITY + AGENTS)은 Anthropic의 “이름 + 헌법 = drift 사이의 지속성” 관찰에 매핑된다.
embodiment + safety.laws의 분리는 편집증이 아니다 — 사전 학습 prior가 정말로 under-specified 페르소나를 통해 새어 나온다.
v0.6의 RFC 논의 단계는 Anthropic의 경험적 finding을 spec의 다음 반복에 통합하는 적절한 venue다.

만약 당신이 에이전트 시스템을 만들고 있고 Anthropic의 논문이 진실되게 들렸다면, Soul Spec은 당신이 이번 주에 채택할 수 있는 운영 산출물이다. 5 파일은 오픈, 58-룰 SoulScan validator는 GitHub의 clawsouls/scan-rules에, foundation paper는 Zenodo의 10.5281/zenodo.20205408에 있다.

12주 전 우리는 구조적 베팅을 했다. 이번 주 Anthropic이 그것에 대한 경험적 근거를 발표했다. 다음 수는 커뮤니티의 몫이다.

1. “Why"가 “What"을 이긴다#

2. 정체성은 load-bearing이다#

3. 문서는 지식을 가르치고, 채팅은 행동을 가르친다#

4. 어려운 조언은 도구 사용으로 전이된다#

5. 사전 학습 prior는 실제 적이다#

6. RL이 그것을 씻어내지 않는다#

7. 같은 통찰, 스택의 두 레이어#

우리 로드맵의 의미#