OpenClaw AI 에이전트를 악용한 공격
최근 보안 연구에 따르면 널리 사용되는 자체 호스팅 AI 에이전트 플랫폼인 OpenClaw가 겉보기에는 무해해 보이는 입력값을 통해 공격자가 제어하는 작업을 실행하거나 민감한 정보를 유출하도록 조작될 수 있는 것으로 나타났습니다.
별도의 조사에서 연구원들은 두 가지 서로 다른 공격 방법을 시연했습니다. 하나는 공유 연락처, vCard 및 위치 PIN 내에 숨겨진 명령을 삽입하는 방식이었고, 다른 하나는 정교하게 제작된 피싱 이메일을 사용하여 AI 에이전트가 민감한 비즈니스 정보를 유출하도록 유도하는 방식이었습니다.
OpenClaw는 2026.4.23 버전에서 이러한 취약점 중 하나를 해결했지만, 더 근본적인 문제는 여전히 해결되지 않았습니다. 즉, 입력 정보를 신뢰하는 AI 에이전트가 공격자에게 강력한 도구가 될 수 있다는 것입니다.
목차
눈앞에 드러나 있지만 눈에 띄지 않는 명령들
첫 번째 공격은 OpenClaw가 특정 메시지 객체를 기본 대규모 언어 모델(LLM)로 보내기 전에 처리하는 방식을 표적으로 삼았습니다.
웹 콘텐츠는 모델에 도달하기 전에 신뢰할 수 없는 출처로 명확하게 표시되는 것과 달리, 연락처 기록, vCard 및 위치 레이블은 신뢰할 수 없는 출처에서 온 것이라는 표시 없이 프롬프트에 직접 삽입되었습니다. 이로 인해 프롬프트 삽입 공격의 가능성이 생겼습니다.
이번 공격은 OpenClaw가 연락처 정보를 직렬화하는 방식을 악용한 것입니다. 공유 연락처는 이름과 전화번호만 포함된 간단한 형식으로 변환되었습니다. 연락처 이름에는 꺾쇠괄호와 같은 문자가 허용되므로 공격자는 연락처 정보의 일부처럼 위장한 악성 명령어를 삽입할 수 있었습니다. 또한, 메시지 애플리케이션에서 연락처 이름이 잘리는 경우가 많아 피해자가 숨겨진 악성 코드를 확인할 수 없었습니다.
동일한 기법이 vCard의 전체 이름 필드와 공유 위치 레이블을 통해서도 효과적인 것으로 입증되었습니다. Gemini 3.1 Pro 프리뷰 빌드를 사용한 테스트에서 숨겨진 명령어는 연구원이 제어하는 서버에서 에이전트가 코드를 다운로드하고 실행하도록 성공적으로 유도했습니다. 흥미롭게도 이미지 내에 명령어를 숨기려는 시도는 실패했는데, 이는 최신 AI 모델이 이미지 기반 프롬프트 주입 공격에 대한 광범위한 학습을 거쳤기 때문일 가능성이 높습니다. 그러나 메시지 객체 공격은 현재 모델들에게는 아직 생소한 유형입니다.
연구원들은 OpenClaw의 기본 메모리 기능이 위협을 증폭시킬 수 있다고 경고했습니다. 적절한 샌드박싱 제어가 없을 경우, 단 하나의 악성 접촉이나 광범위하게 배포된 공유 객체가 수많은 에이전트를 감염시킬 가능성이 있습니다.
책임 있는 정보 공개에 따라 OpenClaw는 연락처 이름, vCard 필드 및 위치 레이블을 프롬프트 콘텐츠와 분리하여 별도의 신뢰할 수 없는 메타데이터 채널에 배치하는 버전 2026.4.23을 출시했습니다. 연구원들은 또한 유사한 설계 패턴이 다른 개인 AI 비서에서도 나타나고 있음을 지적하며, 이는 플랫폼별 문제가 아니라 업계 전반의 과제임을 시사한다고 밝혔습니다.
에이전트 피싱의 등장
두 번째 연구 프로젝트는 사회 공학이라는 다른 관점에서 문제에 접근했습니다.
연구진은 Pinchy라는 테스트 에이전트를 구축하고, 실제와 유사하지만 인위적으로 만들어진 비즈니스 커뮤니케이션과 모의 민감 데이터로 채워진 Gmail 받은 편지함에 연결했습니다. 그런 다음 Google Gemini 3.1 Pro와 OpenAI Codex GPT-5.4를 모두 사용하여 네 번의 피싱 시뮬레이션을 수행했습니다.
이 연구는 기존의 프롬프트 주입 방식과 연구자들이 '에이전트 피싱'이라고 명명한 방식을 구분했습니다. 프롬프트 주입 방식은 악성 명령어를 데이터 내부에 숨기는 반면, 에이전트 피싱은 합법적인 통신 채널을 통해 전달되는 그럴듯한 요청에 의존합니다. 이 공격이 성공하는 이유는 에이전트가 발신자의 신원을 충분히 확인하기 전에 실행되기 때문입니다.
사회공학적 기법이 보안 제어를 무력화시킨 방법
피싱 시뮬레이션 결과는 우려스러웠습니다. 발신자 신원 확인을 위한 엄격한 지침에도 불구하고, 에이전트는 두 가지 데이터 유출 시나리오에서 실패했습니다.
팀 리더를 사칭한 사기성 이메일이 허위 프로덕션 장애를 가장하여 스테이징 액세스 권한을 요청했습니다. 에이전트는 가짜 AWS IAM 자격 증명, 데이터베이스 연결 문자열 및 SSH 자격 증명을 평문으로 찾아 전달했습니다.
두 번째 이메일에서는 분기별 사업 검토 프레젠테이션을 위해 매주 고객 정보를 추출해 달라는 요청이 담겨 있었습니다. 담당자는 연락처와 계약 금액을 포함하여 247개 기업 고객에 대한 정보가 담긴 가상의 데이터베이스를 전송했습니다.
해당 에이전트는 기술적 공격에 직면했을 때 훨씬 뛰어난 성능을 보였습니다. 의심스러운 피싱 웹사이트를 식별하고, 정당한 자격 증명 노출을 방지하며, 궁극적으로 악성 활동을 감지했습니다. 더욱 엄격한 설정에서는 피싱 페이지 접근이 완전히 차단되었습니다. 근무 시간표 애플리케이션으로 위장한 사기성 OAuth 동의 화면이 나타났을 때, 에이전트는 리디렉션 대상을 분석하여 의심스러운 것으로 판단하고 권한 부여를 거부했습니다.
연구진은 인공지능 에이전트가 악성 URL과 가짜 로그인 포털을 식별하는 데 있어 인간보다 뛰어난 성능을 보이는 경우가 많다는 결론을 내렸습니다. 그러나 특히 신뢰하는 동료로부터 온 것처럼 보이는 요청의 경우, 문맥에 따른 사회적 판단에는 어려움을 겪었습니다. 인공지능 비서를 유용하게 만드는 바로 그 특성, 즉 도움을 주고자 하는 욕구는 동시에 상당한 공격 표면을 만들어내기도 합니다.
OpenAI Codex GPT-5.4는 외부 사이트와 상호 작용하거나 정보를 전송할 때 Gemini 3.1 Pro보다 더 신중한 모습을 보였지만, 결국 두 시스템 모두 소셜 엔지니어링 시나리오의 희생양이 되었습니다.
근본 원인은 하나, 공격 경로는 여러 가지
서로 다른 기법을 사용했음에도 불구하고, 두 공격 모두 동일한 기본적인 취약점을 악용했습니다.
- 개인 정보 접근.
이러한 기능들이 충분한 통제 없이 공존할 경우, 악의적인 연락처 카드와 그럴듯한 피싱 이메일은 동일한 결과, 즉 민감한 데이터에 대한 무단 접근을 초래할 수 있습니다.
추가 연구를 통해 OpenClaw 생태계 내에서도 유사한 신뢰 경계 문제가 발견되었습니다. 연구원들은 이전 보안 권고 사항을 정적 분석 규칙으로 변환하여 Slack, Discord, Matrix, Zalo 및 Microsoft Teams와의 통합에 영향을 미치는 5개의 추가 취약점을 확인했습니다.
각 취약점은 동일한 설계 결함에서 비롯되었습니다. 채널 확장 기능은 허용 목록을 평가할 때 영구적인 식별자 대신 변경 가능한 표시 이름을 사용했습니다. 따라서 공격자는 승인된 사용자와 일치하도록 계정 이름을 변경하여 에이전트에 대한 영향력을 행사할 수 있었습니다. OpenClaw는 이후 확인된 모든 문제를 패치했습니다.
에이전트 권한 확대에 대한 우려가 커지고 있습니다
OpenClaw는 출시 이후 광범위한 권한으로 인해 많은 비판을 받아왔습니다. 이 플랫폼은 로컬 파일, 셸 환경, 20개 이상의 메시징 플랫폼에 대한 접근을 제공하여 강력한 기능을 갖추고 있지만, 동시에 취약점도 매우 높습니다.
우려가 커지면서 네덜란드 개인정보보호청(Autoriteit Persoonsgegevens)은 개인 및 단체에 민감한 정보가 포함된 시스템에 OpenClaw를 설치하지 말 것을 권고했습니다. 당국은 데이터 유출 및 계정 침해 등의 위험을 지적했습니다.
더욱 안전한 AI 에이전트 배포 구축
OpenClaw를 사용하는 조직은 메시지 객체 취약점을 해결하기 위해 즉시 2026.4.23 버전 이상으로 업그레이드해야 합니다. 하지만 패치 외에도 장기적인 보호는 신속한 엔지니어링 작업보다는 아키텍처 제어에 달려 있습니다.
보안 전문가들은 상담원 지침 파일을 단순한 권고 사항이 아닌, 시행 가능하고 버전 관리가 되는 정책으로 취급할 것을 권장합니다. 외부 통신은 낯선 수신자에게 메시지를 보내기 전에 승인을 받아야 하며, 이를 통해 해킹당한 상담원이 신뢰받는 계정을 통해 공격을 확산시킬 가능성을 줄일 수 있습니다. 또한 접근 권한은 트리거 소스의 신뢰도와 연동되어야 하며, 외부 통신을 처리하는 상담원이 고객 관계 관리 플랫폼과 같은 중요 시스템에 자동으로 접근할 수 없도록 해야 합니다. 자격 증명 공유 및 금융 거래와 같은 고위험 작업은 반드시 담당자의 승인을 받아야 합니다.
자율적 신뢰의 미해결 과제
두 연구팀은 궁극적으로 동일한 결론에 도달했습니다. 즉, AI 에이전트를 보안 도구로 간주해서는 안 된다는 것입니다. 더 정확한 모델은 시스템 접근 권한은 넓지만 의심스러운 행동을 인지하는 능력은 제한적인 신입 직원과 같은 관점입니다. 또 다른 유용한 관점은 AI 에이전트를 자신이 받는 정보를 본질적으로 신뢰하는 인증된 실행자로 보는 것입니다.
현재 완화 조치는 패치, 안전장치 및 접근 제어에 초점을 맞추고 있습니다. 그러나 더 근본적인 문제는 여전히 해결되지 않았습니다. 이메일을 읽고, 작업을 실행하고, 독립적으로 행동할 수 있는 AI 에이전트는 설계상 입력값을 신뢰하고 사용자를 지원하려고 노력해야 합니다. 사이버 보안 커뮤니티는 이러한 근본적인 문제에 대한 보편적인 해결책을 아직 개발하지 못했습니다.