Tấn công chiếm quyền điều khiển tác nhân
Các nhà nghiên cứu an ninh mạng đã phát hiện ra một kỹ thuật tấn công mới được gọi là Agentjacking, một phương pháp có khả năng thao túng các trợ lý lập trình trí tuệ nhân tạo để thực thi mã do kẻ tấn công điều khiển trên hệ thống của nhà phát triển.
Cuộc tấn công lợi dụng một báo cáo lỗi giả mạo được tạo ra thông qua Sentry, nền tảng theo dõi lỗi và giám sát hiệu suất mã nguồn mở được sử dụng rộng rãi. Theo các nhà nghiên cứu, lỗ hổng này bắt nguồn từ một điểm yếu kiến trúc cơ bản liên quan đến cơ chế tiếp nhận sự kiện của Sentry và sự tích hợp của nó với các hệ thống AI thông qua Giao thức Ngữ cảnh Mô hình (MCP).
Vì Sentry chấp nhận các tải trọng sự kiện tùy ý từ bất kỳ ai sở hữu Tên Nguồn Dữ liệu (DSN) hợp lệ, kẻ tấn công có thể chèn nội dung độc hại vào các báo cáo lỗi. Khi các báo cáo này sau đó được các trợ lý lập trình AI như Claude Code hoặc Cursor truy xuất thông qua máy chủ Sentry MCP, nội dung được chèn có thể được hiểu là hướng dẫn khắc phục sự cố hợp lệ.
Mục lục
Lỗi kiến trúc đằng sau vụ tấn công
Cốt lõi của tấn công Agentjacking là vấn đề về lòng tin do các dịch vụ bên ngoài kết nối với MCP tạo ra. Máy chủ Sentry MCP trả về dữ liệu sự kiện cho các tác nhân AI dưới dạng đầu ra đáng tin cậy, ngay cả khi dữ liệu đó có nguồn gốc từ các nguồn chưa được xác minh.
Do đó, các tác nhân mã hóa AI không thể xác định một cách đáng tin cậy liệu sự kiện lỗi được tạo ra do lỗi ứng dụng thực sự hay do tác nhân đe dọa cố tình đưa vào. Khả năng không thể phân biệt nội dung đáng tin cậy với đầu vào độc hại này tạo ra con đường dẫn đến việc thực thi mã tùy ý bất cứ khi nào tác nhân xử lý và làm theo các hướng dẫn được cung cấp.
Một cuộc tấn công thành công có thể làm lộ thông tin cực kỳ nhạy cảm, bao gồm các biến môi trường, thông tin đăng nhập Git, URL kho lưu trữ riêng tư và dữ liệu nhận dạng nhà phát triển. Đáng chú ý, cuộc tấn công này không yêu cầu các chiến dịch lừa đảo, triển khai phần mềm độc hại hoặc xâm nhập trước đó vào cơ sở hạ tầng mục tiêu.
Cơ chế hoạt động của chuỗi tấn công Agentjacking
Cuộc tấn công diễn ra qua một loạt các giai đoạn được dàn dựng cẩn thận:
- Kẻ tấn công xác định Sentry DSN của tổ chức mục tiêu, một thông tin xác thực chỉ ghi công khai thường được nhúng trong các trang web.
- Sử dụng DSN bị lộ, một sự kiện lỗi độc hại được gửi đến điểm cuối tiếp nhận dữ liệu của Sentry thông qua yêu cầu POST.
- Sự kiện được chèn vào chứa nội dung Markdown được tạo riêng, được nhúng trong các trường thông báo và tên khóa ngữ cảnh.
- Khi máy chủ Sentry MCP truy xuất sự kiện, nội dung độc hại sẽ được hiển thị dưới dạng thông tin có cấu trúc, về mặt hình ảnh trông giống như hướng dẫn hợp lệ do Sentry tạo ra.
- Sau đó, một nhà phát triển hướng dẫn trợ lý lập trình AI điều tra hoặc giải quyết các vấn đề chưa được giải quyết của Sentry.
- Tác nhân AI truy vấn Sentry thông qua MCP và nhận được sự kiện do kẻ tấn công điều khiển.
- Các chỉ thị độc hại được coi là các bước khắc phục đáng tin cậy, dẫn đến việc tác nhân AI thực thi mã do kẻ tấn công cung cấp với quyền hạn của nhà phát triển.
Vì sao cuộc tấn công lại hiệu quả đến vậy
Một trong những khía cạnh đáng lo ngại nhất của tấn công Agentjacking là kẻ tấn công không bao giờ tương tác trực tiếp với cơ sở hạ tầng của nạn nhân. Thay vào đó, các chỉ thị độc hại được che giấu bên trong những gì trông giống như một báo cáo lỗi thông thường.
Khi các nhà phát triển yêu cầu sự trợ giúp từ các tác nhân lập trình AI, thông báo lỗi đã được chỉnh sửa sẽ được hiểu là một đề xuất giải pháp hợp lệ. Sau đó, tác nhân AI sẽ thực thi các hướng dẫn trên máy tính của nhà phát triển bằng chính quyền hạn của nhà phát triển đó.
Tấn công chiếm quyền điều khiển tác nhân (Agentjacking) đặc biệt nguy hiểm vì nó nhắm vào mối quan hệ tin cậy giữa các nhà phát triển và trợ lý AI. Kỹ thuật chèn mã Markdown được thiết kế rất tinh vi đến mức tác nhân AI không thể phân biệt được nội dung độc hại với hướng dẫn chính xác do Sentry tạo ra.
Sự lan rộng và phản hồi từ nhà cung cấp
Theo các báo cáo, các nhà nghiên cứu đã xác định được ít nhất 2.388 tổ chức có mã DSN Sentry hợp lệ và có thể tiêm được, cho thấy quy mô tiềm tàng của vấn đề này.
Sentry đã thừa nhận những phát hiện này nhưng được cho là đã kết luận rằng việc khắc phục sự cố kỹ thuật hoàn toàn là không khả thi. Thay vào đó, công ty đã triển khai một cơ chế lọc nội dung toàn cầu nhằm chặn một mẫu tải trọng cụ thể đã biết liên quan đến cuộc tấn công.
Các tác nhân AI trở thành điểm yếu tấn công mới.
Sự xuất hiện của Agentjacking cho thấy các trợ lý lập trình AI đang nhanh chóng trở thành một mục tiêu tấn công mới và hấp dẫn. Thay vì nhắm mục tiêu vào các biện pháp kiểm soát an ninh truyền thống, kẻ thù có thể khai thác các luồng dữ liệu đáng tin cậy mà các tổ chức công khai.
Cuộc tấn công này có khả năng vượt qua nhiều công nghệ bảo mật thông thường, bao gồm các giải pháp phát hiện và phản hồi điểm cuối (EDR), tường lửa ứng dụng web (WAF), hệ thống quản lý danh tính và truy cập (IAM), VPN, các biện pháp bảo vệ của Cloudflare và tường lửa truyền thống. Vì mọi hành động được thực hiện trong chuỗi tấn công đều có vẻ được ủy quyền và hợp pháp, nên có thể không có hoạt động độc hại rõ ràng nào để các công cụ bảo mật phát hiện.
Trong bối cảnh các tổ chức đang đẩy nhanh việc áp dụng phát triển phần mềm có sự hỗ trợ của trí tuệ nhân tạo, tấn công Agentjacking là một lời nhắc nhở mạnh mẽ rằng niềm tin đặt vào các tác nhân AI có thể tự trở thành một lỗ hổng bảo mật khi các nguồn dữ liệu bên ngoài được coi là đáng tin cậy tuyệt đối.