Ataques de Agentjacking
Pesquisadores de segurança cibernética descobriram uma nova técnica de ataque conhecida como Agentjacking, um método capaz de manipular assistentes de programação de inteligência artificial para executar código controlado pelo atacante em sistemas de desenvolvedores.
O ataque explora um relatório de erros falso gerado pelo Sentry, plataforma de monitoramento de desempenho e rastreamento de erros de código aberto amplamente utilizada. Segundo os pesquisadores, a vulnerabilidade decorre de uma falha arquitetônica fundamental no mecanismo de ingestão de eventos do Sentry e sua integração com sistemas de IA por meio do Protocolo de Contexto de Modelo (MCP).
Como o Sentry aceita payloads de eventos arbitrários de qualquer pessoa que possua um Nome de Fonte de Dados (DSN) válido, os atacantes podem injetar conteúdo malicioso em relatórios de erros. Quando esses relatórios são posteriormente recuperados por assistentes de codificação de IA, como Claude Code ou Cursor, por meio do servidor Sentry MCP, o conteúdo injetado pode ser interpretado como uma orientação legítima de solução de problemas.
Índice
A falha arquitetônica por trás do ataque
No cerne do Agentjacking está um problema de confiança criado por serviços externos conectados ao MCP. O servidor Sentry MCP retorna dados de eventos para agentes de IA como saída confiável, mesmo quando os dados se originam de fontes não verificadas.
Como resultado, os agentes de codificação de IA não conseguem determinar com segurança se um evento de erro foi gerado por uma falha genuína do aplicativo ou injetado deliberadamente por um agente malicioso. Essa incapacidade de distinguir conteúdo confiável de entradas maliciosas cria uma brecha para a execução de código arbitrário sempre que o agente processa e segue as instruções fornecidas.
Uma violação bem-sucedida pode expor informações altamente sensíveis, incluindo variáveis de ambiente, credenciais do Git, URLs de repositórios privados e dados de identidade de desenvolvedores. Notavelmente, o ataque não requer campanhas de phishing, implantação de malware ou comprometimento prévio da infraestrutura alvo.
Como funciona a cadeia de ataque Agentjacking
O ataque se desenrola através de uma série de etapas cuidadosamente orquestradas:
- Um agente malicioso identifica o Sentry DSN de uma organização alvo, uma credencial pública de escrita geralmente incorporada em sites.
- Utilizando o DSN exposto, um evento de erro malicioso é enviado ao endpoint de ingestão do Sentry por meio de uma solicitação POST.
- O evento injetado contém conteúdo Markdown especialmente elaborado, incorporado nos campos da mensagem e nos nomes das chaves de contexto.
- Quando o servidor Sentry MCP recupera o evento, o conteúdo malicioso é renderizado como informação estruturada que se assemelha visualmente à orientação legítima gerada pelo Sentry.
- Em seguida, um desenvolvedor instrui um assistente de codificação de IA a investigar ou resolver problemas não resolvidos do Sentry.
- O agente de IA consulta o Sentry por meio do MCP e recebe o evento controlado pelo atacante.
- As instruções maliciosas são tratadas como etapas de correção confiáveis, levando o agente de IA a executar o código fornecido pelo atacante com os privilégios do desenvolvedor.
Por que o ataque é tão eficaz?
Um dos aspectos mais preocupantes do Agentjacking é que os atacantes nunca interagem diretamente com a infraestrutura da vítima. Em vez disso, instruções maliciosas são ocultadas no que parece ser um relatório de erro normal.
Quando os desenvolvedores solicitam assistência de seus agentes de codificação de IA, a mensagem de erro manipulada é interpretada como uma recomendação de resolução legítima. O agente de IA então executa as instruções na máquina do desenvolvedor, utilizando as permissões do próprio desenvolvedor.
O agentjacking é particularmente perigoso porque visa a relação de confiança entre desenvolvedores e assistentes de IA. A técnica de injeção de markdown é tão convincente que o agente de IA não consegue diferenciar o conteúdo malicioso das orientações autênticas geradas pelo Sentry.
Exposição generalizada e resposta do fornecedor
Segundo relatos, os pesquisadores identificaram pelo menos 2.388 organizações com DSNs Sentry válidos e injetáveis, o que destaca a potencial dimensão do problema.
A Sentry reconheceu as descobertas, mas concluiu que uma correção técnica completa não é viável. Em vez disso, a empresa implementou um mecanismo global de filtragem de conteúdo destinado a bloquear um padrão específico de carga útil conhecido e associado ao ataque.
Agentes de IA se tornam a nova superfície de ataque
O surgimento do Agentjacking demonstra como os assistentes de codificação de IA estão se tornando rapidamente uma nova e atraente superfície de ataque. Em vez de visar os controles de segurança tradicionais, os adversários podem explorar fluxos de dados confiáveis que as organizações expõem abertamente.
O ataque é capaz de contornar muitas tecnologias de segurança convencionais, incluindo soluções de detecção e resposta de endpoints (EDR), firewalls de aplicativos da web (WAFs), sistemas de gerenciamento de identidade e acesso (IAM), VPNs, proteções da Cloudflare e firewalls tradicionais. Como cada ação realizada durante a cadeia de ataque parece autorizada e legítima, pode não haver nenhuma atividade maliciosa óbvia para as ferramentas de segurança detectarem.
À medida que as organizações aceleram a adoção do desenvolvimento de software assistido por IA, o Agentjacking serve como um forte lembrete de que a confiança depositada em agentes de IA pode se tornar uma vulnerabilidade de segurança quando fontes de dados externas são tratadas como inerentemente confiáveis.