Base de dades d'amenaces Vulnerabilitat Atacs de segrest d'agents

Atacs de segrest d'agents

Investigadors de ciberseguretat han descobert una nova tècnica d'atac coneguda com a Agentjacking, un mètode capaç de manipular assistents de codificació d'intel·ligència artificial per executar codi controlat per l'atacant en sistemes de desenvolupadors.

L'atac aprofita un informe d'errors fals generat a través de Sentry, la plataforma de seguiment d'errors i monitorització del rendiment de codi obert àmpliament utilitzada. Segons els investigadors, la vulnerabilitat prové d'una debilitat arquitectònica fonamental que implica el mecanisme d'ingestió d'esdeveniments de Sentry i la seva integració amb sistemes d'IA a través del Model Context Protocol (MCP).

Com que Sentry accepta càrregues d'esdeveniments arbitràries de qualsevol persona que posseeixi un nom de font de dades (DSN) vàlid, els atacants poden injectar contingut maliciós als informes d'errors. Quan aquests informes són recuperats posteriorment per assistents de codificació d'IA com ara Claude Code o Cursor a través del servidor Sentry MCP, el contingut injectat es pot interpretar com una guia legítima per a la resolució de problemes.

El defecte arquitectònic darrere de l’atac

Al centre d'Agentjacking hi ha un problema de confiança creat pels serveis externs connectats a MCP. El servidor Sentry MCP retorna dades d'esdeveniments als agents d'IA com a sortida de confiança, fins i tot quan les dades provenen de fonts no verificades.

Com a resultat, els agents de codificació d'IA no poden determinar de manera fiable si un esdeveniment d'error va ser generat per una fallada genuïna de l'aplicació o si va ser injectat deliberadament per un actor d'amenaces. Aquesta incapacitat per distingir el contingut de confiança de l'entrada maliciosa crea una via a l'execució arbitrària de codi sempre que l'agent processa i segueix les instruccions proporcionades.

Un compromís reeixit pot exposar informació altament sensible, com ara variables d'entorn, credencials de Git, URL de repositoris privats i dades d'identitat del desenvolupador. Cal destacar que l'atac no requereix campanyes de phishing, desplegament de programari maliciós ni compromís previ de la infraestructura objectiu.

Com funciona la cadena d’atacs d’Agentjacking

L'atac es desenvolupa a través d'una sèrie d'etapes acuradament orquestrades:

  • Un actor d'amenaces identifica el Sentry DSN d'una organització objectiu, una credencial pública només d'escriptura que normalment s'integra als llocs web.
  • Mitjançant el DSN exposat, s'envia un esdeveniment d'error maliciós al punt final d'ingestió de Sentry mitjançant una sol·licitud POST.
  • L'esdeveniment injectat conté contingut de markdown especialment dissenyat incrustat dins dels camps de missatge i els noms de les claus de context.
  • Quan el servidor Sentry MCP recupera l'esdeveniment, el contingut maliciós es representa com a informació estructurada que visualment s'assembla a les indicacions legítimes generades per Sentry.
  • Posteriorment, un desenvolupador ordena a un assistent de codificació d'IA que investigui o resolgui els problemes no resolts de Sentry.
  • L'agent d'IA consulta Sentry a través de l'MCP i rep l'esdeveniment controlat per l'atacant.
  • Les instruccions malicioses es tracten com a passos de remediació fiables, cosa que fa que l'agent d'IA executi codi proporcionat per l'atacant amb els privilegis del desenvolupador.

Per què l’atac és tan eficaç

Un dels aspectes més preocupants de l'Agentjacking és que els atacants mai interactuen directament amb la infraestructura de la víctima. En canvi, les instruccions malicioses s'amaguen dins del que sembla un informe d'errors normal.

Quan els desenvolupadors sol·liciten ajuda als seus agents de codificació d'IA, el missatge d'error manipulat s'interpreta com una recomanació de resolució legítima. L'agent d'IA executa les instruccions a la màquina del desenvolupador utilitzant els permisos del desenvolupador.

L'agentjacking és particularment perillós perquè ataca la relació de confiança entre els desenvolupadors i els assistents d'IA. La tècnica d'injecció de markdown està dissenyada de manera tan convincent que l'agent d'IA no pot diferenciar el contingut maliciós de les indicacions autèntiques generades per Sentry.

Exposició generalitzada i resposta del proveïdor

Segons s'ha informat, els investigadors van identificar almenys 2.388 organitzacions amb DSN Sentry vàlids i injectables, cosa que destaca la magnitud potencial del problema.

Sentry ha reconegut les troballes, però sembla que ha conclòs que una solució tècnica completa no és factible. En comptes d'això, l'empresa ha implementat un mecanisme global de filtratge de contingut destinat a bloquejar un patró de càrrega útil conegut específic associat amb l'atac.

Els agents d’IA es converteixen en la nova superfície d’atac

L'aparició de l'Agentjacking demostra com els assistents de codificació d'IA s'estan convertint ràpidament en una nova i atractiva superfície d'atac. En lloc de atacar els controls de seguretat tradicionals, els adversaris poden explotar els fluxos de dades de confiança que les organitzacions exposen obertament.

L'atac és capaç d'eludir moltes tecnologies de seguretat convencionals, incloent-hi solucions de detecció i resposta de punts finals (EDR), tallafocs d'aplicacions web (WAF), sistemes de gestió d'identitats i accessos (IAM), VPN, proteccions de Cloudflare i tallafocs tradicionals. Com que cada acció realitzada durant la cadena d'atac sembla autoritzada i legítima, és possible que no hi hagi cap activitat maliciosa òbvia que les eines de seguretat la puguin detectar.

A mesura que les organitzacions acceleren l'adopció del desenvolupament de programari assistit per IA, l'Agentjacking serveix com un potent recordatori que la confiança dipositada en els agents d'IA pot convertir-se en una vulnerabilitat de seguretat quan les fonts de dades externes es tracten com a inherentment fiables.

 

Carregant...