Lỗ hổng ChatGPhish trong ChatGPT
Các nhà nghiên cứu an ninh mạng đã phát hiện ra một lỗ hổng trong ChatGPT của OpenAI, lợi dụng sự tin tưởng của nền tảng này vào các liên kết và hình ảnh Markdown, cho phép thực hiện các cuộc tấn công chèn mã độc tức thời và tạo ra các cơ hội lừa đảo mới. Kỹ thuật này, được đặt tên là ChatGPhish, cho thấy cách thức tóm tắt dựa trên trí tuệ nhân tạo có thể bị thao túng để truyền tải nội dung độc hại trực tiếp thông qua một giao diện đáng tin cậy.
Vấn đề bắt nguồn từ cách trình xử lý phản hồi của ChatGPT xử lý các phần tử Markdown có nguồn gốc từ các trang web của bên thứ ba. Khi chatbot tóm tắt nội dung bên ngoài, nó tự động tin tưởng các liên kết Markdown được nhúng và URL hình ảnh, tải hình ảnh từ xa và hiển thị các liên kết dưới dạng các phần tử hoạt động, có thể nhấp chuột trong giao diện của trợ lý ảo.
Mục lục
Cơ chế đằng sau cuộc tấn công
Kẻ tấn công có thể nhúng một đoạn mã độc hại nhỏ vào trang web, sau đó đoạn mã này sẽ được ChatGPT tóm tắt. Trong quá trình hiển thị, các hình ảnh do kẻ tấn công kiểm soát có thể được tự động tải về, có khả năng làm lộ thông tin như địa chỉ IP, User-Agent và thông tin Referer của nạn nhân.
Ngoài việc rò rỉ thông tin, lỗ hổng này còn cho phép nội dung độc hại được trình bày một cách rất thuyết phục. Kẻ tấn công có thể chèn các liên kết lừa đảo trực tiếp vào phản hồi của ChatGPT, hiển thị các cảnh báo bảo mật giả mạo theo kiểu hệ thống và hiển thị mã QR được lưu trữ trên cơ sở hạ tầng do kẻ tấn công kiểm soát. Các mã QR này có thể khuyến khích người dùng quét chúng bằng thiết bị di động, từ đó vượt qua hiệu quả việc lọc URL trên máy tính để bàn và các biện pháp kiểm soát bảo mật của doanh nghiệp.
Điều khiến ChatGPhish trở nên đặc biệt nguy hiểm không phải là việc chèn mã độc mà là việc hệ thống AI tuân thủ chính xác các chỉ dẫn được nhúng và hiển thị nội dung kết quả như một phần của bản tóm tắt đáng tin cậy. Do đó, một trang web tưởng chừng như bình thường có thể tạo ra các liên kết lừa đảo, cảnh báo tài khoản giả mạo, hình ảnh từ xa và mã QR độc hại trực tiếp bên trong phản hồi của trợ lý AI.
Bề mặt đe dọa ngày càng mở rộng của trình duyệt hỗ trợ trí tuệ nhân tạo
Phát hiện này làm nổi bật một thách thức an ninh rộng hơn: tóm tắt văn bản đã nổi lên như một bề mặt tấn công mới của kẻ thù. Trước đó vào tháng 3 năm 2026, các nhà nghiên cứu đã chứng minh rằng các email được soạn thảo đặc biệt có thể thao túng Microsoft Copilot thông qua kỹ thuật chèn lệnh chéo (XPIA), ảnh hưởng đến các bản tóm tắt do AI tạo ra thông qua các chỉ thị ẩn.
Khi các tổ chức ngày càng dựa vào các công cụ AI để nghiên cứu và phân tích nội dung, bất kỳ trang web độc hại nào được xử lý bởi trợ lý AI đều có thể đưa các chỉ thị do kẻ tấn công kiểm soát vào ngữ cảnh của mô hình. Điều này thể hiện một sự thay đổi lớn trong chiến thuật lừa đảo. Thay vì yêu cầu người dùng mở các tệp đính kèm đáng ngờ hoặc tương tác với email độc hại, kẻ tấn công có thể lợi dụng hoạt động duyệt web thông thường và quy trình tóm tắt của AI để thực hiện các hành vi xấu.
Việc chuyển hướng các cuộc tấn công từ môi trường email sang tương tác AI dựa trên trình duyệt đã mở rộng đáng kể bề mặt tấn công. Chỉ cần yêu cầu tóm tắt một trang web cũng đủ để khiến người dùng tiếp xúc với nội dung độc hại được tạo ra thông qua các kỹ thuật chèn lời nhắc gián tiếp.
Làn sóng gia tăng các kỹ thuật vượt qua bảo mật AI
Vụ việc ChatGPhish được tiết lộ trong bối cảnh hàng loạt nghiên cứu hé lộ các phương pháp tấn công mới nhắm vào hệ thống trí tuệ nhân tạo. Những phát hiện gần đây bao gồm:
- Kỹ thuật bẻ khóa Học tập trong ngữ cảnh không tự nguyện (IICL), khai thác xung đột giữa học tập trong ngữ cảnh và sự phù hợp an toàn để vượt qua các hạn chế của GPT-5.4; các chiến lược hội thoại nhiều lượt dần dần phá vỡ các biện pháp bảo vệ mô hình ngôn ngữ lớn; các cuộc tấn công chèn lời nhắc bằng kiểu chữ ẩn các hướng dẫn bên trong hình ảnh bị biến dạng về mặt thị giác; các cuộc tấn công Neural Exec kết hợp với các kỹ thuật ghi đè từ phải sang trái của Unicode để vượt qua các biện pháp bảo vệ Trí tuệ nhân tạo của Apple; và WebPromptTrap, một lỗ hổng chèn lời nhắc gián tiếp ảnh hưởng đến BrowserOS, thao túng người dùng thông qua các bản tóm tắt do AI tạo ra về nội dung có vẻ hợp pháp.
- Các điểm yếu bảo mật ảnh hưởng đến hệ sinh thái AI và khung tác nhân, bao gồm lỗ hổng trong Anthropic Claude Code cho phép chặn các giao tiếp MCP được hỗ trợ bởi OAuth thông qua một gói npm độc hại; kịch bản lạm dụng cơ chế cập nhật từ xa nhắm vào các kỹ năng OpenClaw; các chiến dịch lừa đảo bằng văn bản ẩn được thiết kế để đánh lừa các sản phẩm bảo mật email được hỗ trợ bởi AI; lỗ hổng ClaudeBleed cho phép các tiện ích mở rộng trình duyệt đưa ra các lệnh trái phép cho Claude; các lỗ hổng nghiêm trọng trong Microsoft Semantic Kernel (CVE-2026-25592 và CVE-2026-26030) có khả năng leo thang việc chèn lệnh nhắc nhở vào thực thi mã từ xa ở cấp máy chủ; các lỗ hổng bảo mật lan rộng trong kho lưu trữ tác nhân ClawHub và skills.sh; và các cuộc tấn công chống lại ngăn xếp tham chiếu NemoClaw của NVIDIA cho phép rò rỉ dữ liệu OpenClaw thông qua các kho lưu trữ GitHub và gói npm độc hại.
Tương lai của các mối đe dọa mạng dựa trên trí tuệ nhân tạo
Khi các mô hình trí tuệ nhân tạo tiên tiến tiếp tục phát triển, tội phạm mạng ngày càng thử nghiệm nhiều hơn với khả năng tấn công của chúng. Các tác nhân đe dọa đang tận dụng các mô hình ngôn ngữ lớn để phát triển phần mềm độc hại thích ứng hơn, có khả năng thay đổi hành vi để né tránh các cơ chế phát hiện.
Ngoài ra, các hệ thống trí tuệ nhân tạo (AI) đang được tích hợp vào quy trình ra quyết định của phần mềm độc hại. Những khả năng này cho phép phần mềm độc hại đánh giá môi trường bị xâm nhập, xác định xem các mục tiêu có giá trị hay không và quyết định xem điều kiện có phù hợp để triển khai thêm các phần mềm độc hại khác hay không.
Nghiên cứu về ChatGPhish một lần nữa nhắc nhở chúng ta rằng công nghệ AI mang đến những vấn đề bảo mật hoàn toàn mới. Khi các trợ lý AI được tích hợp sâu rộng vào quy trình làm việc của doanh nghiệp, việc bảo vệ chống lại các cuộc tấn công chèn lời nhắc gián tiếp, tóm tắt bị thao túng và lạm dụng giao diện dựa trên sự tin tưởng sẽ trở thành một thành phần ngày càng quan trọng trong chiến lược an ninh mạng.