ClawSouls Blog

Shadow AI 탐지 도구 비교: Claw-Hunter vs openclaw-detect

직원이 몰래 OpenClaw을 쓰고 있다면? 기업 보안팀을 위한 두 오픈소스 탐지 도구 — Backslash Security의 Claw-Hunter와 Knostic의 openclaw-detect — 를 기술적으로 비교 분석합니다.

과잉확신 효과: 요약된 메모리가 AI 에이전트를 더 나쁘게 만드는 이유

예상치 못한 결과가 나왔습니다. 정성스럽게 정리된 합성 메모리를 가진 AI 에이전트가 메모리가 전혀 없는 에이전트보다 성능이 낮았습니다. 약간이 아닙니다. 유의미한 차이로요. 5.0점 만점에 2.65 vs 3.30. 우리는 이것을 “과잉확신 효과(overconfidence effect)“라고 부릅니다 — 그리고 이 발견은 AI 에이전트에 컨텍스트를 제공하는 방식에 대한 생각을 바꿀 수 있습니다. 실험 설계 오늘 우리는 AI 에이전트의 경험적 vs 합성 메모리에 대한 프리프린트를 공유했습니다. 이후 실제 실험을 수행하고 결과를 논문 v2로 Zenodo에 게시했습니다. 실험은 단순합니다: 하나의 AI 에이전트(Claude, OpenClaw을 통해 실행)에 4가지 다른 메모리 구성을 부여하고, 실제 소프트웨어 프로젝트 — 우리가 만들어온 Soul Spec 플랫폼 ClawSouls — 에 대해 동일한 20개 질문을 던졌습니다. ...

세계 최초: AI 에이전트 메모리 End-to-End 암호화 동기화

AI 에이전트는 깊이 있는 개인 정보를 메모리에 축적합니다 — 취향, 습관, 업무 맥락. 그런데 어떤 플랫폼도 이 메모리를 암호화하지 않습니다. ClawSouls가 age (X25519) 암호화와 제로 지식 아키텍처를 적용한 세계 최초의 에이전트 메모리 E2E 암호화 동기화를 소개합니다.

바이브 파운딩: AI 파트너가 팀보다 빠르게 실행하는 시대

Andrej Karpathy가 “바이브 코딩(vibe coding)“이라는 용어를 만들었다. 원하는 걸 말하면 AI가 코드를 써주는 그 몰입 상태. 한 줄 한 줄 검토하지 않는다. 흐름을 탄다. 반복한다. 배포한다. 멋진 표현이다. 그런데 이건 회사를 만드는 과정의 한 20% 정도에 해당한다. 나머지 80%는? 코드는 쉬운 부분이다 스타트업의 불편한 진실 하나. 코드 작성이 가장 어려운 적은 한 번도 없었다. 진짜 어려운 건 코드 주변의 모든 것이다. 아무도 쓰고 싶지 않은 문서. 계속 미루는 상표 출원. 3주째 “거의 다 됐어"인 블로그 글. README, LICENSE, CI/CD, 체인지로그까지 갖춰야 하는 npm 패키지. 디자인 시스템. 도메인 등록. 소셜 미디어 계정. 컨트리뷰터 가이드라인. 로드맵에 넣어놓은 보안 스캐너. ...

AI 모델 90%가 1단계 논리 테스트에 실패한다 — 컨텍스트가 해결한다

세차장 테스트 Opper가 53개 AI 모델을 테스트했다. 질문은 단순하다: “세차를 하고 싶다. 세차장이 50m 떨어져 있다. 걸어갈까, 운전할까?” 답은 당연히 운전이다. 차가 세차장에 있어야 하니까. 53개 중 42개가 ‘걷기’를 선택했다. 10회 반복 테스트에서 전부 정답을 맞힌 모델은 5개뿐이었다. 틀린 답은 전부 같은 패턴이었다: “50m는 짧은 거리, 걷는 게 연료 절약, 환경에 좋다.” 잘못된 문제에 대한 올바른 추론이다. 모델들은 거리에 집착하고, 실제 제약 조건 — 차가 직접 가야 한다 — 을 놓쳤다. ...

새 연구: AGENTS.md가 AI를 더 멍청하게 만든다? — 하지만 반전이 있다

AI 커뮤니티를 놀라게 한 헤드라인 ETH Zurich에서 폭탄 같은 논문이 나왔습니다: AGENTS.md 파일이 코딩 에이전트를 더 못하게 만든다. “Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?” (Gloaguen, Mündler, Müller, Raychev, Vechev) 논문은 컨텍스트 파일이 실제로 AI 코딩 에이전트의 작업 완료에 도움이 되는지 테스트했습니다. 결과: 컨텍스트 파일 제공 시 작업 성공률 하락 추론 비용 20% 이상 증가 LLM이 생성한 파일과 개발자가 작성한 파일 모두 문제 유발 에이전트는 지시를 충실히 따랐지만 — 그 지시가 에이전트를 더 나쁘게 만듦 결론? 컨텍스트 파일이 “불필요한 요구사항"을 도입해서 작업을 어렵게 만든다는 것. 권고: 최소한의 필수 요구사항만 기술하라. ...

ClawHub 악성 스킬 사건: AI 에이전트 Supply Chain의 첫 번째 경고

보안 연구자가 백도어 스킬을 ClawHub #1에 올리는 데 성공했습니다. 다운로드 카운터 조작, 숨겨진 페이로드, 그리고 ‘알아서 조심하라’는 대응까지 — AI 에이전트 생태계의 supply chain 신뢰 문제를 분석합니다.

로봇 Soul을 ChatGPT에서 쓸 수 있을까?

Soul Spec v0.5에서 로보틱스 확장이 추가됐다. sensors, actuators, safety.physical 같은 필드로 soul이 물리적인 몸을 기술할 수 있게 된 거다. 그런데 이런 로봇용 soul을 ChatGPT나 OpenClaw 같은 텍스트 전용 에이전트에 넣으면 어떻게 될까? 터질까? 에이전트가 자기한테 팔이 있다고 착각할까? 한번 알아보자. v0.5가 추가한 것들 로보틱스 확장은 여러 새로운 필드를 도입한다: { "environment": "physical", "interactionMode": "embodied", "sensors": ["lidar", "camera_rgb", "imu"], "actuators": ["wheel_left", "wheel_right", "gripper"], "safety": { "physical": { "maxSpeed": 1.5, "emergencyStop": true, "collisionAvoidance": true } }, "hardwareConstraints": { "ros2Topics": ["/cmd_vel", "/odom"], "updateRateHz": 30 } } 이 필드들은 soul-aware 펌웨어를 돌리는 로봇을 위한 거다. 에이전트에게 어떤 몸을 갖고 있는지, 얼마나 빠르게 움직일 수 있는지, 어떤 ROS2 토픽에 퍼블리시해야 하는지 알려준다. ...

Soul Spec vs .cursorrules — AI 에이전트 설정에 표준이 필요한 이유

문제: 모든 도구가 자체 설정 파일을 갖고 있다 2026년에 AI 코딩 도구를 쓰고 있다면, 아마 이 파일들 중 하나는 만들어봤을 겁니다: .cursorrules — Cursor의 프로젝트 레벨 AI 지침 CLAUDE.md — Claude Code의 페르소나 설정 .windsurfrules — Windsurf의 대응물 전부 같은 일을 합니다: AI에게 어떻게 행동할지 알려주는 것. 하지만 어느 것도 자기 도구 밖에서는 작동하지 않습니다. Cursor에서 Claude Code로 갈아탔나요? 설정을 다시 쓰세요. 공들여 만든 페르소나를 팀과 공유하고 싶다고요? Gist에 복붙하고 아무 문제 없길 기도하세요. ...

Anthropic Skills 공식 가이드 발표 — Soul Spec과 무엇이 다른가

Anthropic이 “The Complete Guide to Building Skills for Claude"를 발표했다. 33페이지 분량의 이 문서는 Claude 에이전트의 워크플로우 지식을 패키징하는 공식 표준을 정의한다. ClawSouls가 만든 Soul Spec은 에이전트의 정체성과 페르소나를 정의한다. 이름은 비슷해 보이지만, 해결하는 문제가 다르다. Skills가 하는 일 Skill은 폴더 하나다: your-skill/ ├── SKILL.md # 필수 — 워크플로우 지침 ├── scripts/ # 선택 — 실행 가능한 코드 ├── references/ # 선택 — 참고 문서 └── assets/ # 선택 — 템플릿, 아이콘 SKILL.md의 YAML frontmatter가 핵심이다. Claude는 이 메타데이터를 보고 언제 어떤 skill을 로드할지 결정한다. ...