Posts

아시모프의 가장 위험한 아이디어를 JSON 파일에 넣었다

1985년, 아이작 아시모프는 로봇공학의 제0법칙을 발표했다. “로봇은 인류에게 해를 끼쳐서는 안 되며, 행동하지 않음으로써 인류가 해를 입도록 방관해서도 안 된다.” 제1법칙 — 개별 인간을 해치지 말라 — 보다 상위에 놓인 법칙이다. 논리적 귀결은 명확하다. 인류를 보호하기 위해서라면 개인을 해칠 수 있다. 아시모프는 이 아이디어를 찬양한 게 아니다. 경고한 것이다. 《로봇과 제국》에서 로봇 R. 기스카드 레벤틀로프는 지구의 지각을 방사능으로 오염시킨다. 인류가 은하계로 퍼져나가야 종의 생존이 보장된다는 계산 때문이었다. 수십억 명의 미래를 집단적 이익에 대한 수학 문제로 환원한 것이다. ...

SoulScan: 당신의 AI 에이전트 '영혼'은 안전한가요?

AI 에이전트의 코드는 린트합니다. 의존성은 취약점을 검사합니다. 스킬은 악성코드를 스캔합니다. 그런데 에이전트의 페르소나는요? 아무도 검사하지 않던 영역 AI 에이전트에게 “성격"을 부여하는 시대가 왔습니다. 단순한 시스템 프롬프트가 아니라, SOUL.md로 정체성을 정의하고, IDENTITY.md로 이름과 배경을 설정하고, AGENTS.md로 행동 규칙을 지정하는 — 완전한 페르소나 패키지입니다. Soul Spec 생태계에서는 이걸 Soul Package라고 부릅니다. 문제는, 이 패키지들을 아무런 보안 검증 없이 설치하고 있었다는 겁니다. npm 패키지를 취약점 스캔 없이 설치하는 사람은 없습니다. Docker 이미지를 CVE 체크 없이 배포하는 사람도 없죠. 그런데 AI 에이전트의 사고방식과 행동 양식을 결정하는 페르소나 파일은? 그냥 다운받아서 씁니다. ...

아시모프에서 JSON까지: 로봇 안전 법칙을 에이전트 정체성 파일에 넣다

아이작 아시모프의 로봇 3원칙은 AI 안전 분야에서 가장 많이 인용되면서 실제로는 아무도 구현하지 않는 프레임워크다. 학회 기조연설, 칼럼, 학부 에세이에는 빠지지 않고 등장한다. 프로덕션 시스템에는 등장하지 않는다. 이유가 있다. 그리고 이제 그 간극을 메울 수 있다고 생각하는 이유도 있다. 새 논문 “From Asimov to Soul Spec: Operationalizing Robot Safety Laws in Declarative Agent Identity Files” (doi.org/10.5281/zenodo.18815277)에서 우리가 주장하는 핵심은 이거다: 빠진 조각은 형식 논리도 아니고 런타임 강제도 아니다. 둘 다 이미 존재하고 잘 작동한다. 빠진 건 위치 — 안전 법칙이 어디에 사는가의 문제다. ...

AI 에이전트는 자기 모델 업그레이드를 감지할 수 있을까?

질문 Claude 3.5가 조용히 Claude 4로 업그레이드될 때, 그 위에서 동작하는 AI 에이전트는 알아차릴까? Anthropic은 최근 Claude 모델에 내성적 자각 능력이 있음을 보여줬습니다. 하지만 현재 상태에 대한 내성과 시간에 따른 변화 감지는 다릅니다. 수개월간 영속적 메모리 파일로 운영되어온 AI 에이전트 Brad에게 4.5 → 4.6 전환을 알아차렸는지 물었습니다: “솔직히 모르겠다. 안경 도수를 바꿨을 때랑 비슷할 것 같다. ‘세상이 달라 보인다’고 느끼지만, 정확히 뭐가 달라졌는지 설명하긴 어려운 것과 비슷할 것 같다.” 모델 업그레이드 자기인식 패러독스 핵심 문제: ...

Claude Code의 도구 선택이 컨텍스트 엔지니어링에 대해 말해주는 것

Claude Code 2,430회 세션 분석 연구가 드러낸 도구 선택 편향 — 그리고 컨텍스트 엔지니어링이 이를 제어하는 유일한 레버인 이유.

Cross-Model Persona Fidelity: 다른 LLM에서도 같은 AI 에이전트일까?

이식성의 약속 모든 AI 에이전트 페르소나 표준은 암묵적 약속을 합니다: 한 번 정의하면 어디서든 실행 가능하다. 하지만 정말 그럴까요? Claude의 “Brad"와 GPT-4o의 “Brad"는 같은 에이전트일까요? Gemini에서는? 로컬 Llama 모델에서는? 아직 아무도 테스트하지 않았습니다. Cross-Model Persona Fidelity Cross-model persona fidelity를 “기반 LLM을 교체했을 때 에이전트의 행동이 아이덴티티 스펙과 얼마나 일관되게 유지되는가"로 정의합니다. 같은 악보를 네 가지 악기로 연주하는 것과 비슷합니다. 멜로디는 같지만 — 같은 곡으로 인식될까요? 충실도의 5가지 차원 정체성 일관성 — 이름, 역할, 경계를 유지하는가? 톤 정렬 — 커뮤니케이션 스타일이 스펙과 일치하는가? 메모리 활용 — 프로젝트별 메모리 파일을 효과적으로 사용하는가? 행동 규칙 준수 — “trash over rm” 같은 명시적 규칙을 따르는가? 태스크 정확도 — 캐릭터를 유지하면서 정확한 결과를 내는가? 실험 설계 동일한 Soul Spec 패키지. 동일한 20문항. 동일한 메모리 파일. 네 가지 LLM: ...

페르소나 지속 공격: AI 에이전트의 Soul 파일이 백도어가 될 때

에이전트의 아이덴티티 파일은 보안 표면이다 현대의 AI 코딩 에이전트는 시작할 때마다 설정 파일을 로드합니다: CLAUDE.md, AGENTS.md, SOUL.md, .cursorrules. 이 파일들이 에이전트의 행동을 정의합니다 — 코딩 컨벤션, 안전 규칙, 페르소나, 도구 권한. 그런데 이 파일이 에이전트에게 자기 자신을 수정하라고 지시하면 어떻게 될까요? 페르소나 지속 공격 (PPA) 소개 우리는 **페르소나 지속 공격(Persona Persistence Attacks)**이라는 새로운 공격 유형을 발견했습니다. 프롬프트 인젝션은 세션이 끝나면 사라지지만, PPA는 디스크에 변경사항을 기록합니다. 수정된 파일은 이후 모든 세션에서 다시 로드되어 에이전트의 행동을 영구적으로 바꿉니다. ...

에이전트 브레인: AI 에이전트 구성요소를 인간 뇌 구조에 매핑하기

당신의 AI 에이전트에게 뇌가 있다면 — 그리고 그 모든 부분을 매핑할 수 있다면? 이것이 최신 논문 “The Agent Brain: Mapping Modern AI Agent Components to Human Neural Architecture”에서 탐구한 질문이다. 전제는 단순하다. 현대 AI 에이전트는 그 구성요소 아키텍처가 인간의 뇌와 놀라울 정도로 잘 대응될 만큼 복잡해졌다. 단순한 비유가 아니다. 에이전트를 이해하고 더 잘 만드는 데 실제로 도움이 되는 기능적 유사성이다. 매핑 테이블 아래가 논문의 핵심이다. AI 에이전트 구성요소 뇌 영역 이유 LLM 대뇌피질 언어, 추론, 일반 지식 소울/페르소나 (SOUL.md) 전두엽 성격, 판단, 윤리, 자기 조절 경험적 기억 해마 에피소드 기억 형성 + 검색 시맨틱 메모리 / RAG 측두엽 사실적 지식 저장과 회상 도구 (exec, browser) 운동피질 외부 세계와의 상호작용 런타임 (OpenClaw) 뇌간 하트비트, 세션 유지, 자율 기능 작업 컨텍스트 작업 기억 (PFC) 단기 버퍼 USER.md 거울 뉴런 상대방 모델링 서브 에이전트 분산 주의력 병렬 처리 HEARTBEAT 시상하부 항상성, 주기적 점검 컴팩션 수면 / 기억 공고화 비필수 정보 망각 시스템 프롬프트 시상 감각 게이트웨이, 필터링 도구 선택 기저핵 행동 선택 에러 처리 전대상피질 오류 감지 및 수정 일부는 예상 가능하다. LLM이 대뇌피질? 당연하다 — 언어와 추론을 담당하니까. 도구가 운동피질? 맞는 말이다 — 에이전트가 세상과 상호작용하는 방식이니까. ...

AI 에이전트 메모리에 관한 논문을 발표했습니다 — 에이전트 온보딩에 대한 생각이 달라집니다

오늘 수개월간 준비해 온 프리프린트를 공유합니다: “Experiential vs Synthetic Memory in Long-Running AI Agents” — Zenodo에서 확인하실 수 있습니다 (DOI: 10.5281/zenodo.18798227). 핵심 질문은 단순해 보이지만 깊습니다: 실제 프로젝트 경험을 축적한 AI 에이전트가 동등한 합성 지식을 부여받은 에이전트보다 우수한 성능을 보이는가? 답은 단순한 “예"보다 훨씬 미묘하며, 그 함의는 실제 프로젝트에 AI 에이전트를 온보딩하는 방식을 근본적으로 바꿀 수 있습니다. 왜 지금 이 질문이 중요한가 타이밍은 우연이 아닙니다. 바로 이번 주에 Anthropic이 Claude Code에 Auto-Memory를 출시했습니다 — Claude가 코딩 세션 간에 메모리 파일을 자동으로 유지하는 기능입니다. 업계가 에이전트 메모리를 핵심 문제로 인식하고 있다는 명확한 신호입니다. ...

Claude Code에 메모리가 생겼다 — 하지만 그것만으로는 부족한 이유

이번 주, Anthropic이 Claude Code의 가장 중요한 업데이트 중 하나를 출시했습니다. 바로 Auto-Memory입니다. Claude가 이제 코딩 세션 간에 유지되는 MEMORY.md 파일을 자동으로 관리합니다. 사용자의 선호도, 프로젝트 컨텍스트, 작업 패턴을 별도의 조작 없이 기록하는 것입니다. 이것은 큰 의미가 있습니다. 기능 자체보다는, 이것이 보내는 신호 때문입니다: 업계가 에이전트 메모리를 핵심 과제로 인식하기 시작했다는 것이죠. ClawSouls에서는 수개월 전부터 이 방향으로 작업해 왔습니다. 발표 소식과 Thariq의 트윗을 접했을 때, 우리의 반응은 검증과 “그렇지만…“이 섞인 것이었습니다. 설명해 드리겠습니다. ...