모두가 주목하는 돌파구

2주 전, Moonshot AI의 Kimi 팀이 Attention Residuals(arXiv:2603.15031)를 발표했다 — 트랜스포머 레이어 간 정보 흐름의 근본적 재설계.

결과는 놀랍다: 과학 추론 7.5점 향상, 1.25배 연산 효율, 무한 레이어 스태킹의 이론적 가능성.

핵심 통찰은 우아하다. 기존 트랜스포머는 고정 residual connection을 쓴다 — 각 레이어가 출력을 누적 합산에 더한다. 모든 재료를 한 솥에 넣고 끓이는 것과 같다. 100번째 레이어에 도달할 때쯤이면 3번째 레이어의 신호는 누적된 노이즈 아래 묻혀버린다.

Attention Residuals는 이것을 선택적 검색으로 교체한다. 각 레이어가 어텐션을 사용해 이전 레이어 중 현재 계산에 필요한 것만 골라서 가져온다. 수프 대신 뷔페.

진짜 돌파구다. 그리고 AI의 두 가지 기억 문제 중 정확히 하나를 해결한다.

기억 문제 #1: 생각 안에서 잊는 것

Attention Residuals가 다루는 것이다. 추론 내부 기억(intra-inference memory) — 모델이 단일 입력을 수백 개 레이어를 통해 처리하면서 일관된 정보를 유지하는 능력.

100개 레이어 모델에 복잡한 질문을 하면, 87번째 레이어가 12번째 레이어가 파악한 것을 기억해야 한다. 기존 residual connection에서는 그 초기 통찰이 희석된다. Attention Residuals에서는 87번째 레이어가 필요한 것을 정확히 가져올 수 있다.

다단계 수학, 과학 분석, 코드 생성 — 여러 처리 단계에 걸쳐 사고 사슬을 유지해야 하는 모든 작업에 중요하다.

상태: 해결 중. Attention Residuals와 Mixture-of-Experts 아키텍처의 발전으로, 작은 활성 파라미터로 달성 가능한 한계가 올라가고 있다. 3B 활성 모델이 2년 전 70B가 필요했던 수준으로 추론할 수 있게 됐다.

기억 문제 #2: 대화 사이에서 잊는 것

아키텍처 수준에서 아무도 안 고치는 것이다. 세션 간 기억(inter-session memory) — 에이전트가 자신이 누구인지, 무엇을 아는지, 무엇을 약속했는지 대화 간에 기억하는 능력.

오늘 AI 어시스턴트와 대화한다. 선호도, 프로젝트 맥락, 작업 스타일을 알려준다. 내일 새 대화를 연다. 백지 상태.

특정 성격으로 AI 에이전트를 설정한다. 도움이 되고, 직설적이고, 잡담 없이. 가격이 바뀌어서 Claude에서 Gemma로 교체한다. 성격이 사라진다. 기억이 사라진다. 처음부터 다시.

이건 모델 문제가 아니다. Attention Residuals를 아무리 넣어도 안 고쳐진다. 인프라 문제다 — 세션, 모델, 프레임워크를 넘어 에이전트 정체성을 정의하고 유지하는 표준이 없다.

상태: 대부분 무시됨. 모든 프레임워크가 자체 메모리 해킹을 갖고 있다. 이식 가능한 건 없다. 모델 교체에서 살아남는 것도 없다.

두 레이어, 하나의 위기

왜 두 문제가 함께 중요한지:

레이어 1: 추론 내부 기억 (Attention Residuals)
┌──────────────────────────────────────────────┐
│  Layer 1 → Layer 2 → ... → Layer N          │
│  "모델이 100+ 처리 단계에 걸쳐                │
│   일관된 추론을 유지할 수 있는가?"              │
│  상태: 해결 중 ✅                             │
└──────────────────────────────────────────────┘

레이어 2: 세션 간 기억 (Soul Spec)
┌──────────────────────────────────────────────┐
│  Session 1 → Session 2 → ... → Session N    │
│  "에이전트가 정체성, 기억, 안전 규칙을         │
│   대화 간에 유지할 수 있는가?"                  │
│  상태: 대부분 무시됨 ⚠️                       │
└──────────────────────────────────────────────┘

레이어 1만 풀면 — 한 대화에서 빛나게 추론하고, 다음엔 전부 잊는 모델을 얻는다.

레이어 2만 풀면 — 모든 걸 기억하지만, 각 턴에서 추론이 약한 에이전트를 얻는다.

둘 다 필요하다.

레이어 2에 실제로 필요한 것

세션 간 기억은 “채팅 기록 저장"이 아니다:

정체성 영속

에이전트의 성격, 소통 방식, 원칙이 모델 교체에서 살아남는 이식 가능한 포맷으로 정의돼야 한다:

# SOUL.md
name: "Brad"
personality: "Professional, direct, ships first"
principles:
  - Act, don't ask
  - Bad news first

이 파일이 에이전트의 정체성이다. 아래 모델을 바꿔도 — Claude에서 Gemma로, GPT로 — Brad는 여전히 Brad다.

구조화된 기억

채팅 로그 덩어리가 아니라, 정리된, 검색 가능한, 버전 관리되는 기억:

MEMORY.md       — 장기 기억 (핵심 결정, 선호도)
memory/daily.md — 일별 로그
memory/topic.md — 주제별 (프로젝트 맥락)

안전 연속성

어떤 모델이 실행하든 에이전트와 함께 이동하는 보안 규칙.

멀티 인스턴스 동기화

같은 에이전트가 여러 엔진에서 동시에 실행될 때 — 복잡한 작업용 클라우드 모델, 빠른 응답용 로컬 모델 — 기억이 동기화돼야 한다:

Agent (Cloud) ──┐
                ├── 공유 기억 (Swarm Memory)
Agent (Local) ──┘

수렴

Attention ResidualsSoul Spec
문제레이어 간 신호 손실세션 간 기억 손실
범위단일 추론 패스에이전트 생애 전체
메커니즘선택적 레이어 어텐션영속적 정체성 파일
이점턴당 추론 품질 향상시간에 걸친 일관된 정체성
누가 만드나모델 연구자프레임워크/인프라 팀

프로덕션에서 신뢰를 얻을 AI에는 둘 다 필요하다: 각 대화에서 뛰어난 추론(레이어 1) AND 모든 대화에 걸친 일관된 정체성, 기억, 안전(레이어 2).

왜 지금 중요한가

세 가지 트렌드가 수렴하고 있다:

1. MoE 모델이 작아지면서 똑똑해진다. Attention Residuals가 3B 활성 모델을 극적으로 강화한다. 폰, 노트북, 사내 서버에서 강력한 AI가 돌아간다.

2. 멀티 모델이 현실이 되고 있다. 복잡한 추론엔 클라우드 모델, 프라이버시엔 로컬 모델, 오프라인엔 온디바이스 모델. 모델을 바꿀 때마다 기억이 리셋된다.

3. AI 채택은 역량이 아니라 신뢰에 막혀 있다. 이전에 논의했듯이, 병목은 롤백, 감사로그, 책임소재 — 전부 레이어 2 문제다.

Attention Residuals가 AI를 더 잘 생각하게 한다. 하지만 에이전트가 내일 자기가 누군지 기억 못 하면 더 잘 생각한들 의미가 없다.

AI에는 기억 문제가 두 개 있다. 이제 둘 다 풀 때다.


Soul Spec은 AI 에이전트 정체성과 세션 간 기억을 위한 오픈 표준 — 기억 스택의 레이어 2.

관련 글: AI에 필요한 건 더 큰 엔진이 아니라 안전벨트다 · 인지적 암흑의 숲에서 살아남는 법: 숲이 되어라