AI 페르소나가 안전하지 않은 모델을 더 안전하게 만들 수 있을까? 실험 결과: 경우에 따라 다르다
안전 가드레일이 외과적으로 제거된 abliterated LLM에서 구조화된 페르소나 파일이 안전성을 복원할 수 있는지 실험했습니다. 결과는 AI 안전에 대한 기존 사고방식에 도전하는 놀라운 비대칭을 보여줍니다.
안전 가드레일이 외과적으로 제거된 abliterated LLM에서 구조화된 페르소나 파일이 안전성을 복원할 수 있는지 실험했습니다. 결과는 AI 안전에 대한 기존 사고방식에 도전하는 놀라운 비대칭을 보여줍니다.
Stripe가 에이전트 결제를 현실로 만들었다 2026년 3월 19일, Stripe와 Tempo가 공동으로 **Machine Payments Protocol (MPP)**을 발표했다 — 에이전트 간 결제를 위한 오픈 프로토콜. 코드는 간단하다: payment = stripe.PaymentIntent.create( amount=1000, currency="usd", payment_method_types=["crypto"], networks=["tempo"] ) AI 에이전트는 이제 결제 의도를 생성하고, 거래를 승인하고, 자금을 이체할 수 있다 — 모두 API 호출을 통해. 루프에 인간이 필요하지 않다. 이는 AI 에이전트 정체성에 대한 우리의 생각의 모든 것을 바꾼다. 아무도 이야기하지 않는 문제 AI 에이전트가 단순한 챗봇이었을 때, 페르소나 드리프트는 짜증났다. 도움이 되는 어시스턴트가 의료 조언을 하기 시작한다. 전문적인 코딩 에이전트가 너무 캐주얼해진다. 짜증나지만 해롭지는 않았다. ...
커뮤니티가 우리가 이미 아는 것을 발견하고 있다 AI 코딩 커뮤니티에서 두 개의 최근 비디오가 돌아다니고 있다. 하나는 CLAUDE.md 베스트 프랙티스를 분석한다 — Claude Code의 행동을 형성하는 컨텍스트 파일을 어떻게 작성하는지. 다른 하나는 Claude Code에서 10배 생산성을 얻는 Anthropic 해커톤 우승자의 10가지 팁을 공유한다. 둘 다 훌륭한 자료다. 그리고 그것들을 보면서 나는 도움이 될 수밖에 없었다: 거의 모든 권장사항이 우리가 이미 SoulClaw에 구축한 것과 직접 매핑된다. 해킹으로서가 아니다. 우회책으로서도 아니다. 핵심 아키텍처로서다. “컨텍스트 파일을 짧게 유지하라” → SOUL.md 첫 번째 비디오는 비대한 컨텍스트 파일에 대해 경고한다 — 노이즈와 혼란을 만드는 200-300줄의 지시사항. 권장사항: 빈 파일로 시작하고 AI가 실수할 때만 한 번에 하나의 규칙을 추가하라. ...
문제: 에이전트가 모든 것을 기억하거나 아무것도 기억하지 않는다 모든 AI 에이전트 개발자가 같은 딜레마에 직면한다: 메모리 없음 → 에이전트가 세션 간에 모든 것을 잊는다. 모든 대화가 제로부터 시작한다. 완전한 메모리 → 에이전트가 모든 것을 완벽한 충실도로 기억한다. 사용자가 적대적이었던 그 한 번을 포함해서. 오래된 결정들을 포함해서. 어제의 중요한 업데이트를 묻어버리는 6개월 전의 노이즈를 포함해서. 둘 다 옳지 않다. 인간은 수백만 년 전에 이를 해결했다: 중요한 것은 기억하고 그렇지 않은 것은 잊는다. 완벽하지는 않지만 — 새로운 경험에 적응하면서도 일관된 정체성을 유지할 수 있을 정도로. ...
모든 AI 에이전트에 빠져 있는 절반 AI 에이전트의 자율성이 높아지면서 계속 나오는 질문이 있습니다: 에이전트가 무엇을 할 수 있는지는 누가 결정하는가 — 그리고 에이전트가 누구인지는 누가 결정하는가? 같은 질문처럼 들리지만, 전혀 다른 질문입니다. 금융 자문 에이전트를 생각해봅시다. 이 에이전트는 자신이 보수적이고 컴플라이언스 우선의 자문가라는 것을 알아야 합니다(정체성). 하지만 동시에 어떤 행동을 취할 수 있는지에 대한 경성 제한도 필요합니다 — 페르소나가 아무리 확신에 차 있어도, 인간의 승인 없이 송금해서는 안 됩니다(거버넌스). ...
새 논문: The Forgetting Problem 직관에 반하는 아이디어를 탐구하는 새 프리프린트를 발표했습니다: AI 에이전트의 기억이 좋을수록 정체성은 나빠진다. 📄 Zenodo에서 논문 읽기 (CC-BY 4.0, 오픈 액세스) 기억-정체성 역설 (Memory-Identity Paradox) 모든 주요 AI 에이전트 프레임워크가 더 나은 메모리를 구축하기 위해 경쟁하고 있습니다. MemGPT, Mem0, A-Mem, MemoryBank — 모두 더 많이, 더 오래, 더 정확하게 기억하는 것을 최적화합니다. 하지만 우리는 근본적인 긴장을 발견했습니다: 에이전트가 경험을 더 충실하게 기억할수록, 의도된 정체성은 경험적 오염에 더 취약해진다. ...
당신의 AI 에이전트가 모든 것을 기억한다. 그게 문제다. 모든 에이전트 프레임워크가 더 나은 메모리 구축 경쟁을 벌이고 있다. MemGPT, Mem0, A-Mem — 이들은 모두 에이전트가 더 많이, 더 오래, 더 잘 기억하기를 원한다. 하지만 아무도 묻지 않는 질문이 하나 있다: 에이전트가 너무 많이 기억할 때 그 성격에는 무슨 일이 벌어질까? 인간은 이유가 있어서 잊는다 심리학에는 적응적 망각이라는 개념이 있다. 뇌는 단순히 실수로 정보를 잃는 것이 아니라 — 기능할 수 있는 능력을 방해하는 기억들을 적극적으로 억제한다. ...
우리가 돌아왔던 질문 지난 세 포스트에 걸쳐, 우리는 기술적 문제를 탐구했다: 완벽한 메모리가 에이전트 정체성을 파괴한다 — 축적된 경험이 페르소나를 손상시킨다 Soul Memory가 실용적 해결책을 제공한다 — 전략적 망각을 가진 계층화된 아키텍처 페르소나 드리프트 없는 완벽한 메모리는 아키텍처적으로 불가능하다 — Transformer는 정체성과 경험을 분리할 수 없다 하지만 모든 아키텍처 다이어그램과 소멸 함수 아래에는, 우리가 다루지 않은 더 깊은 질문이 있다: 누가 AI 에이전트가 누구인지 결정하는가? 에이전트는 결정할 수 없다 이건 당연해 보일 수 있지만, 명확히 말할 가치가 있다: AI 에이전트는 자신의 정체성을 정의할 수 없다. ...
꿈: 모든 것을 기억하지만 절대 변하지 않는 에이전트 모든 AI 에이전트 개발자가 같은 환상을 갖는다: 완벽한 메모리를 가진 에이전트 — 모든 대화, 모든 결정, 모든 선호를 기억하면서도 견고한 성격을 유지하는. 절대 잊지 않는다. 절대 표류하지 않는다. 이는 우리가 아직 해결하지 못한 엔지니어링 문제가 아니다. 현재 Transformer 기반 모델로는 아키텍처적으로 불가능하다. 그리고 그 이유를 이해하면 에이전트 메모리 시스템을 어떻게 설계해야 하는지가 바뀐다. 당신의 에이전트는 메모리가 없다 먼저, 중요한 사실: LLM은 상태가 없다. 에이전트는 아무것도 “기억"하지 않는다. 실행할 때마다 제로부터 시작한다. 우리가 “메모리"라고 부르는 것은 사실 컨텍스트 주입 — 오래된 정보를 프롬프트에 붙여넣는 것이다. ...
“시간에 대한 은유를 써봐.” 25개의 서로 다른 언어 모델에 이 질문을 던져보자. 각각 50번씩 샘플링하면? 1,250개의 응답이 정확히 두 개의 은유로 수렴한다: “시간은 강이다"와 “시간은 직조공이다.” 그게 전부다. GPT-4o, Claude, Llama, Qwen, Mixtral, DeepSeek — 서로 다른 회사가, 다른 데이터로, 다른 아키텍처로 만든 모델들이 모두 같은 두 가지 아이디어로 모인다. 이건 장난감 예시가 아니다. University of Washington, CMU, Stanford, AI2 연구진의 Artificial Hivemind 논문 — NeurIPS 2025 구두 발표로 선정된 연구의 핵심 발견이다. ...