ChatGPT의 ChatGPhish 취약점
사이버 보안 연구원들이 OpenAI의 ChatGPT에서 취약점을 발견했습니다. 이 취약점은 플랫폼이 마크다운 링크와 이미지를 신뢰한다는 점을 악용하여 즉각적인 삽입 공격을 가능하게 하고 새로운 피싱 기회를 만들어냅니다. ChatGPhish라고 명명된 이 기법은 AI 기반 요약 기능을 조작하여 신뢰할 수 있는 인터페이스를 통해 악성 콘텐츠를 직접 전달하는 방법을 보여줍니다.
이 문제는 ChatGPT의 응답 렌더링 엔진이 타사 웹페이지에서 가져온 마크다운 요소를 처리하는 방식에서 비롯됩니다. 챗봇이 외부 콘텐츠를 요약할 때, 내장된 마크다운 링크와 이미지 URL을 자동으로 신뢰하여 원격 이미지를 가져오고 링크를 어시스턴트 인터페이스 내에서 클릭 가능한 활성 요소로 표시합니다.
목차
공격의 메커니즘
공격자는 ChatGPT가 요약하는 웹페이지 내에 작은 악성 페이로드를 삽입할 수 있습니다. 렌더링 과정에서 공격자가 제어하는 이미지가 자동으로 가져와질 수 있으며, 이로 인해 피해자의 IP 주소, 사용자 에이전트, 리퍼러 정보와 같은 개인 정보가 노출될 수 있습니다.
정보 유출 외에도, 이 취약점은 악성 콘텐츠를 매우 그럴듯하게 보이도록 만들 수 있습니다. 공격자는 ChatGPT 응답 내에 피싱 링크를 직접 삽입하거나, 시스템 보안 경고처럼 보이는 가짜 메시지를 표시하고, 공격자가 제어하는 인프라에 호스팅된 QR 코드를 제시할 수 있습니다. 이러한 QR 코드는 사용자가 모바일 기기로 스캔하도록 유도하여 데스크톱 기반 URL 필터링 및 기업 보안 제어를 효과적으로 우회할 수 있게 합니다.
ChatGPhish가 특히 중요한 이유는 프롬프트 삽입 자체보다는 AI 시스템이 내장된 지침을 충실히 따르고 그 결과를 신뢰할 수 있는 요약 정보처럼 제시한다는 점입니다. 따라서 겉보기에는 평범해 보이는 웹페이지에서도 피싱 링크, 가짜 계정 알림, 원격 이미지, 악성 QR 코드 등이 AI 비서의 응답 내용에 직접 포함될 수 있습니다.
AI 기반 브라우징의 위협 표면 확대
이번 발견은 보다 광범위한 보안 문제를 부각합니다. 요약 기능이 새로운 공격 표면으로 떠올랐기 때문입니다. 2026년 3월 초, 연구원들은 특수하게 제작된 이메일을 통해 크로스 프롬프트 주입(XPIA) 방식으로 Microsoft Copilot을 조작하여 숨겨진 명령어를 통해 AI가 생성한 요약 내용을 조작할 수 있음을 입증했습니다.
조직들이 연구 및 콘텐츠 분석에 AI 도구를 점점 더 많이 활용함에 따라, AI 비서가 처리하는 악성 웹페이지는 공격자가 제어하는 지침을 모델의 컨텍스트에 삽입할 수 있습니다. 이는 피싱 전술의 중대한 변화를 의미합니다. 공격자는 사용자가 의심스러운 첨부 파일을 열거나 악성 이메일에 반응하도록 유도하는 대신, 일상적인 웹 브라우징 활동과 AI 요약 워크플로를 악용할 수 있습니다.
이메일 환경에서 브라우저 기반 AI 상호작용으로 공격 방식이 옮겨가면서 공격 가능 범위가 극적으로 넓어졌습니다. 단순히 웹페이지 요약을 요청하는 것만으로도 간접 프롬프트 주입 기법을 통해 생성된 악성 콘텐츠에 사용자가 노출될 수 있습니다.
인공지능 보안 우회 기술의 급증
ChatGPhish 관련 정보 공개는 인공지능 시스템을 표적으로 하는 새로운 공격 방법을 밝혀내는 연구가 급증하는 가운데 이루어졌습니다. 최근 연구 결과는 다음과 같습니다.
- GPT-5.4 제한을 우회하기 위해 컨텍스트 학습과 안전 정렬 간의 충돌을 악용하는 비자발적 컨텍스트 학습(IICL) 탈옥 기술, 대규모 언어 모델 보호 장치를 점진적으로 우회하는 다중 턴 대화 전략, 시각적으로 왜곡된 이미지 내에 지침을 숨기는 타이포그래피 프롬프트 삽입 공격, Apple Intelligence 보호 기능을 우회하기 위해 유니코드 오른쪽에서 왼쪽으로 재정의하는 기술과 결합된 Neural Exec 공격, 그리고 겉보기에 합법적인 콘텐츠의 AI 생성 요약을 통해 사용자를 조작하는 BrowserOS에 영향을 미치는 간접 프롬프트 삽입 취약점인 WebPromptTrap 등이 있습니다.
- AI 생태계 및 에이전트 프레임워크에 영향을 미치는 보안 취약점에는 악성 npm 패키지를 통해 OAuth 기반 MCP 통신을 가로챌 수 있도록 하는 Anthropic Claude 코드의 취약점, OpenClaw 스킬을 대상으로 하는 원격 업데이트 메커니즘 악용 시나리오, AI 기반 이메일 보안 제품을 속이도록 설계된 숨겨진 텍스트 피싱 캠페인, 브라우저 확장 프로그램이 Claude에 무단 명령을 실행할 수 있도록 하는 ClaudeBleed 취약점, 프롬프트 주입을 호스트 수준 원격 코드 실행으로 확대할 수 있는 Microsoft Semantic Kernel의 심각한 취약점(CVE-2026-25592 및 CVE-2026-26030), ClawHub 및 skills.sh 에이전트 저장소 내의 광범위한 보안 결함, 악성 GitHub 저장소 및 npm 패키지를 통해 OpenClaw 데이터 유출을 가능하게 하는 NVIDIA의 NemoClaw 참조 스택에 대한 공격 등이 포함됩니다.
인공지능 기반 사이버 위협의 미래
첨단 AI 모델이 계속해서 발전함에 따라 사이버 범죄자들은 공격 능력을 더욱 다양하게 실험하고 있습니다. 위협 행위자들은 대규모 언어 모델을 활용하여 탐지 메커니즘을 회피하기 위해 동작을 변경할 수 있는 더욱 적응력 있는 악성 소프트웨어를 개발하고 있습니다.
또한, AI 시스템이 악성코드의 의사결정 과정에 통합되고 있습니다. 이러한 기능을 통해 악성 소프트웨어는 침해된 환경을 평가하고, 공격 대상이 가치 있는지 판단하며, 추가 페이로드를 배포하기에 적합한 조건인지 결정할 수 있습니다.
ChatGPhish 연구는 AI 기술이 완전히 새로운 보안 문제를 야기한다는 점을 다시 한번 상기시켜 줍니다. AI 비서가 기업 업무 흐름에 깊숙이 통합됨에 따라, 간접적인 프롬프트 주입, 조작된 요약, 그리고 신뢰 기반 인터페이스 악용으로부터 보호하는 것이 사이버 보안 전략에서 점점 더 중요한 요소가 될 것입니다.