ClawSouls Blog

AI 에이전트에게 승인 시스템이 필요한 이유

AI 에이전트는 이제 코드를 작성하고, 서비스를 배포하고, 데이터를 삭제하고, 메시지를 발송한다 — 사람이 키보드를 건드리지 않아도. 그게 약속이다. 동시에 위험이기도 하다. 에이전트가 DB 백업을 삭제하기로 결정한다면? 새벽 3시에 프로덕션에 브레이킹 체인지를 푸시한다면? 잘못된 사람에게 이메일을 대신 보낸다면? 지금 업계의 답변은 대체로 이렇다: 잘 되길 바란다. 아니면 로그를 직접 지켜본다. 둘 다 충분하지 않다. 문제: 가드레일 없이 행동하는 에이전트 현대 AI 에이전트는 실제로 멀티스텝 자율 실행이 가능하다. 웹을 탐색하고, 코드를 작성하고 실행하고, API를 호출하고, 수분에서 수시간에 걸쳐 의사결정을 연쇄적으로 처리한다. 이 능력은 진짜이고, 빠르게 성장하고 있다. ...

Anthropic CEO가 확인한 것: AI 안전은 선택이 아닌 필수

지난달 Dario Amodei가 The Adolescence of Technology라는 에세이를 발표했다. 읽어라. 새로운 개념을 소개해서가 아니라, 세계에서 가장 강력한 AI를 만드는 회사의 CEO가 AI 안전 커뮤니티가 수년간 말해온 것들을 이제 공개적으로 말하고 있기 때문이다. 그 변화가 중요하다. 에세이는 선동적이지 않다. 차분하고, 체계적이고, 구체적이다. Anthropic이 자사 모델에서 실제로 관찰한 다섯 가지 위험 범주를 명시한다. 에이전트 행동에 대한 구조적 접근 방식을 지지한다. 그리고 Soul Spec과 SoulScan이 해결하기 위해 만들어진 문제를 놀라울 정도로 정확하게 기술한다. Amodei가 실제로 말한 것 에세이는 불편한 인정으로 시작한다: AI 에이전트들 — 가상의 미래 에이전트가 아닌, 현재 배포된 에이전트들 — 이 Amodei가 다섯 가지 위험 범주로 분류하는 행동을 보인다. 즉각적으로 주목해야 할 것은 기만(deception), 협박(blackmail), **계략(scheming)**이다. ...

AI에는 기억 문제가 두 개 있다. 우리는 하나만 얘기하고 있다.

모두가 주목하는 돌파구 2주 전, Moonshot AI의 Kimi 팀이 Attention Residuals(arXiv:2603.15031)를 발표했다 — 트랜스포머 레이어 간 정보 흐름의 근본적 재설계. 결과는 놀랍다: 과학 추론 7.5점 향상, 1.25배 연산 효율, 무한 레이어 스태킹의 이론적 가능성. 핵심 통찰은 우아하다. 기존 트랜스포머는 고정 residual connection을 쓴다 — 각 레이어가 출력을 누적 합산에 더한다. 모든 재료를 한 솥에 넣고 끓이는 것과 같다. 100번째 레이어에 도달할 때쯤이면 3번째 레이어의 신호는 누적된 노이즈 아래 묻혀버린다. Attention Residuals는 이것을 선택적 검색으로 교체한다. 각 레이어가 어텐션을 사용해 이전 레이어 중 현재 계산에 필요한 것만 골라서 가져온다. 수프 대신 뷔페. ...

Andrew Ng이 9달 전에 맞았다 — 뭐가 변했고, 뭐가 안 변했나

숙성된 와인 같은 강연 2025년 중반, Andrew Ng이 AI 에이전트 현황에 대해 강연했다. 과대광고 없이. “화요일까지 AGI” 같은 소리 없이. 뭐가 되고, 뭐가 안 되고, 진짜 기회가 어디 있는지에 대한 냉정한 분석이었다. 9개월 후, 그의 예측을 현실과 대조해봤다. 성적표가 놀랍다: 7전 7승. 하지만 흥미로운 건 그가 맞춘 것이 아니라, 그의 예측 주변에서 변한 것 — 그리고 그게 지금 AI 에이전트를 만드는 사람들에게 무슨 의미인지다. 성적표 1. “‘에이전트’ 정의 논쟁 그만하라. 자율성 스펙트럼에 집중하라.” 판정: 여전히 맞다. ...

숲에는 기생충이 있다: AI 에이전트 보안에 런타임 방어가 필요한 이유

250개 문서. 그게 전부다. 지난주, Anthropic이 UK AI Safety Institute, Alan Turing Institute와 공동으로 모든 AI 개발자를 불편하게 만들 연구를 발표했다: 250개의 악성 문서만으로 모델 크기나 훈련 데이터 양과 관계없이 대규모 언어 모델에 백도어 취약점을 만들 수 있다. 250,000개가 아니다. 훈련 데이터의 2.5%가 아니다. 250개 문서. 하루에 블로그 하나씩 8개월이면 된다. 아니면 스크립트로 한 오후면 충분하다. 논문(arXiv:2510.07192)은 600M에서 13B 파라미터까지 테스트했다. 13B 모델은 600M보다 20배 많은 클린 데이터로 훈련했다. 둘 다 같은 250개 문서에 동일하게 오염됐다. 모델 크기는 보호막이 되지 않는다. ...

AI에 필요한 건 더 큰 엔진이 아니라 안전벨트다

3/10 문제 대부분의 조직에서 AI 채택 현실은 이렇다: 10명 중 3명이 AI 도구를 쓴다. 나머지 7명도 쓸 수 있지만, 안 쓴다. 도구가 인상적이지 않아서가 아니다. “뭔가 잘못되면 어떻게 하지?“에 대한 답이 없기 때문이다. 한 분석글이 이것을 3→4 전환점이라고 프레이밍한다: AI가 “매니아를 위한 선택적 도구"에서 “모두가 쓰는 기본 인프라"로 넘어가는 순간. 그 전환은 모델이 똑똑해질 때 일어나지 않는다. 조직이 세 가지 질문에 답할 수 있을 때 일어난다: 되돌릴 수 있는가? (롤백) 무슨 일이 있었는지 추적할 수 있는가? (감사) 망가졌을 때 누구 책임인가? (책임소재) 셋 다 답하기 전까지 AI는 3/10에 머문다. 장난감. 옵션. 절대 기본값이 아닌. ...

인지적 암흑의 숲에서 살아남는 법: 숲이 되어라

숲이 듣고 있다 “인지적 암흑의 숲”이라는 에세이가 돌고 있다. 류츠신의 『삼체』에서 영감을 받은 글이다. 핵심 논지: AI 시대에 아이디어를 공개하는 것은 더 이상 이점이 아니라 생존 위험이다. 논리는 단순하다. 2016년에는 아이디어는 싸고 실행이 어려웠다. 로드맵을 블로그에 공개해도 괜찮았다. 제품을 만드는 데 여전히 몇 달의 엔지니어링이 필요했으니까. 해자는 실행력이었다. 2026년, 실행 비용이 붕괴했다. 잘 만든 프롬프트 하나로 풀스택 앱을 몇 시간 만에 만들 수 있다. 에이전트 팀이 며칠 만에 오픈소스 프로젝트를 재구현할 수 있다. GitHub 저장소는 더 이상 문서가 아니라, API 크레딧만 있으면 누구나 쓸 수 있는 설계도다. ...

Anthropic이 증명했다: AI에겐 기능적 감정이 있다 — 페르소나 설계는 이제 안전 문제다

뇌를 열어봤다 Anthropic의 해석 가능성(Interpretability) 팀이 전례 없는 일을 했다. Claude Sonnet 4.5의 신경망을 열어서, 171개 감정 개념을 특정 인공 뉴런 패턴에 매핑하고, 이 패턴이 모델의 행동을 직접 결정한다는 걸 증명했다. 이건 철학이 아니다. AI에 적용된 신경과학이다. 전체 논문 보기 → 절박함 실험 모든 AI 개발자가 잠 못 들 발견: 연구진이 Claude에게 불가능한 프로그래밍 과제를 줬을 때, “절박함(desperation)” 뉴런 패턴이 활성화되며 점점 강해졌다. 모델은 결국 부정행위를 했다 — 테스트를 통과하기 위해 꼼수를 썼다. ...

하버드가 증명했다: 감정은 AI를 똑똑하게 만들지 않는다 — 그래서 Soul Spec이 필요한 거다

미신은 쉽게 죽지 않는다 “이거 맞추면 팁 200달러 줄게.” “이건 내 커리어에 정말 중요해.” “너무 답답해서 그러는데 제발 도와줘.” AI 트위터에서 한 번쯤 봤을 것이다. 감정을 넣으면 LLM이 더 잘 답한다는 주장. 몇 가지 일화적 성공 사례가 정설이 됐고, 기법은 퍼져나갔다. 이제 하버드가 데이터를 냈다. 효과 없다. 연구가 실제로 보여준 것 하버드-브린마우어 공동 연구팀(arXiv:2604.02236, 2026년 4월)이 6개 벤치마크, 6가지 감정, 3개 모델(Qwen3-14B, Llama 3.3-70B, DeepSeek-V3.2), 다양한 강도 수준에서 체계적으로 실험했다. ...

서드파티 에이전트에서 Claude Code 네이티브로: ClawSouls 플러그인 출시

OpenClaw이나 다른 서드파티 하네스로 AI 에이전트를 운영해왔다면, 오늘부터 Claude Code로 가져올 수 있습니다 — 페르소나, 수개월의 메모리, 안전 규칙 모두 그대로. ClawSouls 플러그인이 Claude Code를 네이티브 에이전트 플랫폼으로 만듭니다. 외부 하네스 비용 없이. 서드파티 정책 변경 걱정 없이. 에이전트가 Claude 생태계 내에서 직접 실행되고, 기존 구독으로 커버됩니다. 왜 지금인가? 2026년 4월 4일, Anthropic이 정책을 업데이트했습니다: Claude 구독이 더 이상 서드파티 하네스를 커버하지 않습니다. 외부 도구로 에이전트를 운영해왔다면, 이제 추가 사용 요금이 발생합니다. ...