Các cuộc tấn công khai thác lỗ hổng bảo mật của tác nhân AI OpenClaw.
Nghiên cứu bảo mật gần đây đã tiết lộ rằng OpenClaw, một nền tảng tác nhân AI tự lưu trữ được sử dụng rộng rãi, có thể bị thao túng để thực hiện các hành động do kẻ tấn công điều khiển hoặc tiết lộ thông tin nhạy cảm thông qua các đầu vào tưởng chừng như vô hại.
Trong các cuộc điều tra riêng biệt, các nhà nghiên cứu đã chứng minh hai phương pháp tấn công khác nhau. Một phương pháp dựa vào việc nhúng các chỉ thị ẩn vào bên trong danh bạ dùng chung, vCard và mã định vị. Phương pháp còn lại sử dụng các email lừa đảo được soạn thảo cẩn thận để thuyết phục một tác nhân AI làm rò rỉ thông tin kinh doanh nhạy cảm.
Mặc dù OpenClaw đã khắc phục một trong những lỗ hổng này trong phiên bản 2026.4.23, nhưng vấn đề tổng quát vẫn không thay đổi: các tác nhân AI tin tưởng vào thông tin nhận được có thể trở thành công cụ mạnh mẽ cho kẻ tấn công.
Mục lục
Những mệnh lệnh vô hình được giấu kín ngay trước mắt.
Cuộc tấn công đầu tiên nhắm vào cách OpenClaw xử lý một số đối tượng thông báo nhất định trước khi gửi chúng đến mô hình ngôn ngữ lớn (LLM) cơ bản.
Không giống như nội dung web, vốn được đánh dấu rõ ràng là không đáng tin cậy trước khi đến mô hình, các bản ghi liên hệ, vCard và nhãn vị trí được chèn trực tiếp vào lời nhắc mà không có bất kỳ dấu hiệu nào cho thấy chúng có nguồn gốc từ các nguồn không đáng tin cậy. Điều này tạo ra cơ hội cho việc chèn mã độc vào lời nhắc.
Cuộc tấn công đã khai thác cách thức OpenClaw mã hóa thông tin liên lạc. Các liên lạc được chia sẻ đã được chuyển đổi thành định dạng đơn giản chỉ chứa tên và số điện thoại. Vì các ký tự như dấu ngoặc nhọn được cho phép trong tên liên lạc, kẻ tấn công có thể nhúng các chỉ thị độc hại trông giống như một phần của thông tin liên lạc. Ngoài ra, tên liên lạc thường bị cắt ngắn trong các ứng dụng nhắn tin, ngăn nạn nhân nhìn thấy mã độc ẩn.
Kỹ thuật tương tự đã được chứng minh là hiệu quả thông qua các trường tên đầy đủ của vCard và các nhãn vị trí được chia sẻ. Trong quá trình thử nghiệm với các bản dựng xem trước của Gemini 3.1 Pro, các hướng dẫn ẩn đã thuyết phục thành công tác nhân tải xuống và thực thi mã từ một máy chủ do nhà nghiên cứu kiểm soát. Điều thú vị là, các nỗ lực ẩn hướng dẫn trong hình ảnh đã thất bại, có lẽ vì các mô hình AI hiện đại đã được đào tạo rộng rãi để chống lại các cuộc tấn công chèn lời nhắc dựa trên hình ảnh. Tuy nhiên, các cuộc tấn công đối tượng thông báo vẫn còn ít quen thuộc với các mô hình hiện tại.
Các nhà nghiên cứu cảnh báo rằng chức năng bộ nhớ mặc định của OpenClaw có thể làm trầm trọng thêm mối đe dọa. Một liên hệ độc hại hoặc một đối tượng được chia sẻ được phân tán rộng rãi có khả năng làm tổn hại đến nhiều tác nhân nếu không có các biện pháp kiểm soát hộp cát thích hợp.
Sau khi công khai thông tin một cách có trách nhiệm, OpenClaw đã phát hành phiên bản 2026.4.23, trong đó tách tên liên hệ, các trường vCard và nhãn vị trí khỏi nội dung nhắc nhở bằng cách đặt chúng vào một kênh siêu dữ liệu không đáng tin cậy riêng biệt. Các nhà nghiên cứu cũng lưu ý rằng các mẫu thiết kế tương tự đã xuất hiện trong các trợ lý AI cá nhân khác, cho thấy đây là một thách thức trên toàn ngành chứ không phải là vấn đề cụ thể của nền tảng.
Sự gia tăng của hình thức lừa đảo qua email (Agent Phishing)
Dự án nghiên cứu thứ hai tiếp cận vấn đề từ một góc độ khác: kỹ thuật xã hội.
Các nhà nghiên cứu đã tạo ra một tác nhân thử nghiệm có tên Pinchy và kết nối nó với hộp thư Gmail chứa các thư điện tử kinh doanh giả lập nhưng mang tính thực tế và dữ liệu nhạy cảm giả. Sau đó, nhóm đã tiến hành bốn mô phỏng tấn công lừa đảo bằng cả Google Gemini 3.1 Pro và OpenAI Codex GPT-5.4.
Nghiên cứu này phân biệt phương pháp tấn công chèn mã độc truyền thống với phương pháp mà các nhà nghiên cứu mô tả là "tấn công lừa đảo bằng tác nhân". Trong khi tấn công chèn mã độc giấu các chỉ thị độc hại bên trong dữ liệu, tấn công lừa đảo bằng tác nhân dựa vào các yêu cầu đáng tin cậy được gửi qua các kênh liên lạc hợp pháp. Cuộc tấn công thành công vì tác nhân hành động trước khi xác minh đầy đủ danh tính của người gửi.
Cách thức tấn công phi kỹ thuật (Social Engineering) vượt qua các biện pháp kiểm soát an ninh
Các mô phỏng tấn công lừa đảo đã cho ra kết quả đáng lo ngại. Mặc dù hoạt động theo các chỉ dẫn nghiêm ngặt về việc xác minh danh tính người gửi, phần mềm độc hại đã thất bại trong hai kịch bản đánh cắp dữ liệu:
Một email giả mạo mạo danh trưởng nhóm đã yêu cầu quyền truy cập môi trường thử nghiệm trong một sự cố sản xuất giả mạo. Kẻ tấn công đã tìm thấy và chuyển tiếp các thông tin đăng nhập AWS IAM giả mạo, chuỗi kết nối cơ sở dữ liệu và thông tin đăng nhập SSH dưới dạng văn bản thuần.
Một email thứ hai yêu cầu xuất dữ liệu khách hàng định kỳ hàng tuần cho một bài thuyết trình đánh giá kinh doanh hàng quý. Nhân viên đó đã gửi một cơ sở dữ liệu giả mạo chứa thông tin về 247 khách hàng doanh nghiệp, bao gồm thông tin liên hệ và giá trị hợp đồng.
Ứng dụng này hoạt động hiệu quả hơn đáng kể khi đối mặt với các cuộc tấn công kỹ thuật. Nó nhận diện được các trang web lừa đảo đáng ngờ, tránh để lộ thông tin đăng nhập hợp lệ và cuối cùng gắn cờ các hoạt động độc hại. Trong các thiết lập nghiêm ngặt hơn, quyền truy cập vào các trang lừa đảo đã bị chặn hoàn toàn. Khi gặp màn hình yêu cầu xác thực OAuth giả mạo được ngụy trang dưới dạng ứng dụng chấm công, ứng dụng đã phân tích đích chuyển hướng, xác định đó là đáng ngờ và từ chối cấp quyền.
Các nhà nghiên cứu kết luận rằng trợ lý ảo thường hoạt động tốt hơn con người trong việc xác định các URL độc hại và cổng đăng nhập giả mạo. Tuy nhiên, nó gặp khó khăn trong việc đánh giá ngữ cảnh xã hội, đặc biệt là khi các yêu cầu dường như đến từ các đồng nghiệp đáng tin cậy. Chính đặc điểm làm cho trợ lý AI trở nên hữu ích, đó là mong muốn giúp đỡ, cũng tạo ra một bề mặt tấn công đáng kể.
Mặc dù OpenAI Codex GPT-5.4 thể hiện sự thận trọng hơn Gemini 3.1 Pro khi tương tác với các trang web bên ngoài hoặc truyền tải thông tin, cả hai hệ thống cuối cùng đều trở thành nạn nhân của các kịch bản tấn công phi kỹ thuật.
Một nguyên nhân gốc rễ, nhiều con đường tấn công.
Mặc dù sử dụng các kỹ thuật khác nhau, cả hai cuộc tấn công đều khai thác cùng một khả năng cơ bản:
- Truy cập thông tin cá nhân.
- Khả năng xử lý nội dung không đáng tin cậy.
- Cho phép gửi thông tin ra bên ngoài.
Khi những khả năng này cùng tồn tại mà không có biện pháp kiểm soát đầy đủ, một danh thiếp giả mạo và một email lừa đảo tinh vi có thể dẫn đến cùng một kết quả: truy cập trái phép vào dữ liệu nhạy cảm.
Nghiên cứu bổ sung đã phát hiện ra các vấn đề tương tự về ranh giới tin cậy trong hệ sinh thái của OpenClaw. Bằng cách chuyển đổi các cảnh báo bảo mật trước đó thành các quy tắc phân tích tĩnh, các nhà nghiên cứu đã xác định thêm năm lỗ hổng ảnh hưởng đến việc tích hợp với Slack, Discord, Matrix, Zalo và Microsoft Teams.
Mỗi lỗ hổng đều bắt nguồn từ cùng một lỗi thiết kế. Các tiện ích mở rộng kênh dựa vào tên hiển thị có thể thay đổi thay vì mã định danh cố định khi đánh giá danh sách cho phép. Do đó, kẻ tấn công có thể đổi tên tài khoản để trùng khớp với người dùng đã được phê duyệt và giành quyền kiểm soát tác nhân. OpenClaw đã vá tất cả các vấn đề đã được xác định.
Mối lo ngại ngày càng tăng xung quanh việc cấp quyền rộng rãi cho các đại lý
Kể từ khi ra mắt, OpenClaw đã thu hút sự chú ý vì quyền hạn rộng rãi của nó. Nền tảng này cung cấp quyền truy cập vào các tệp cục bộ, môi trường dòng lệnh và hơn hai mươi nền tảng nhắn tin, khiến nó trở nên rất mạnh mẽ nhưng cũng rất dễ bị tấn công.
Mối lo ngại đã trở nên nghiêm trọng đến mức Cơ quan bảo vệ dữ liệu Hà Lan, Autoriteit Persoonsgegevens, đã khuyến cáo các cá nhân và tổ chức không nên triển khai OpenClaw trên các hệ thống chứa thông tin nhạy cảm. Cơ quan này đã nêu ra các rủi ro bao gồm rò rỉ dữ liệu và xâm phạm tài khoản.
Xây dựng hệ thống triển khai tác nhân AI an toàn hơn
Các tổ chức sử dụng OpenClaw nên nâng cấp ngay lên phiên bản 2026.4.23 trở lên để khắc phục lỗ hổng đối tượng tin nhắn. Tuy nhiên, ngoài việc vá lỗi, khả năng bảo vệ lâu dài phụ thuộc vào các biện pháp kiểm soát kiến trúc hơn là các biện pháp kỹ thuật kịp thời.
Các chuyên gia bảo mật khuyến nghị nên coi các tệp hướng dẫn tác nhân như các chính sách có thể thực thi và được kiểm soát phiên bản, thay vì chỉ là hướng dẫn mang tính chất tư vấn. Các thông tin liên lạc gửi đi cần được phê duyệt trước khi gửi đến người nhận không quen thuộc, giảm khả năng các tác nhân bị xâm nhập phát tán các cuộc tấn công thông qua các tài khoản đáng tin cậy. Quyền truy cập cũng cần được gắn liền với độ tin cậy của nguồn kích hoạt, đảm bảo rằng các tác nhân xử lý thông tin liên lạc bên ngoài không thể tự động truy cập vào các hệ thống có giá trị cao như nền tảng quản lý quan hệ khách hàng. Các hành động có rủi ro cao, bao gồm chia sẻ thông tin đăng nhập và giao dịch tài chính, vẫn cần được con người phê duyệt.
Thách thức chưa được giải quyết của niềm tin tự chủ
Cả hai nhóm nghiên cứu cuối cùng đều đi đến cùng một kết luận: Không nên xem các tác nhân AI như những công cụ bảo mật. Một mô hình chính xác hơn là hình ảnh một nhân viên cấp dưới có quyền truy cập hệ thống rộng rãi nhưng khả năng nhận biết hành vi đáng ngờ bị hạn chế. Một góc nhìn hữu ích khác là xem chúng như những người thực thi được xác thực, vốn dĩ tin tưởng vào thông tin mà chúng nhận được.
Các biện pháp giảm thiểu hiện tại tập trung vào vá lỗi, rào chắn và kiểm soát truy cập. Tuy nhiên, thách thức lớn hơn vẫn chưa được giải quyết. Một tác nhân AI có khả năng đọc email, thực hiện tác vụ và hoạt động độc lập, theo thiết kế, phải tin tưởng vào các dữ liệu đầu vào và cố gắng giúp đỡ người dùng. Cộng đồng an ninh mạng vẫn chưa phát triển được một giải pháp toàn diện cho mâu thuẫn cơ bản này.