Banco de Dados de Ameaças Phishing Ataques exploram o agente de IA do OpenClaw

Ataques exploram o agente de IA do OpenClaw

Pesquisas recentes de segurança revelaram que o OpenClaw, uma plataforma de agentes de IA autohospedada amplamente utilizada, pode ser manipulado para executar ações controladas por atacantes ou divulgar informações confidenciais por meio de entradas aparentemente inofensivas.

Em investigações separadas, pesquisadores demonstraram dois métodos de ataque distintos. Um deles consistia em inserir instruções ocultas em contatos compartilhados, vCards e pins de localização. O outro utilizava e-mails de phishing cuidadosamente elaborados para convencer um agente de IA a vazar informações comerciais confidenciais.

Embora o OpenClaw tenha corrigido uma dessas vulnerabilidades na versão 2026.4.23, o problema mais amplo permanece inalterado: agentes de IA que confiam em informações recebidas podem se tornar ferramentas poderosas para invasores.

Comandos invisíveis ocultos à vista de todos.

O primeiro ataque teve como alvo a forma como o OpenClaw processa determinados objetos de mensagem antes de enviá-los ao modelo de linguagem subjacente (LLM).

Ao contrário do conteúdo da web, que é claramente marcado como não confiável antes de chegar ao modelo, os registros de contato, vCards e rótulos de localização foram inseridos diretamente nos prompts sem qualquer indicação de que se originavam de fontes não confiáveis. Isso criou uma oportunidade para injeção de prompts.

O ataque explorou a forma como o OpenClaw serializa informações de contato. Contatos compartilhados foram convertidos em um formato simples contendo apenas nome e número de telefone. Como caracteres como colchetes angulares são permitidos em nomes de contato, os atacantes puderam inserir instruções maliciosas que pareciam fazer parte das informações de contato. Além disso, os nomes de contato são frequentemente truncados em aplicativos de mensagens, impedindo que as vítimas vejam o código malicioso oculto.

A mesma técnica mostrou-se eficaz por meio de campos de nome completo em vCards e rótulos de localização compartilhados. Durante os testes com versões de pré-visualização do Gemini 3.1 Pro, instruções ocultas persuadiram o agente a baixar e executar código de um servidor controlado pelo pesquisador. Curiosamente, as tentativas de ocultar instruções em imagens falharam, provavelmente porque os modelos de IA modernos receberam treinamento extensivo contra ataques de injeção de prompts baseados em imagens. Ataques a objetos de mensagem, no entanto, ainda são menos familiares aos modelos atuais.

Pesquisadores alertaram que a funcionalidade de memória padrão do OpenClaw pode amplificar a ameaça. Um único contato malicioso ou objeto compartilhado amplamente distribuído pode comprometer vários agentes caso não haja controles de sandbox adequados.

Após a divulgação responsável, a OpenClaw lançou a versão 2026.4.23, que separa nomes de contatos, campos de vCard e rótulos de localização do conteúdo das mensagens, colocando-os em um canal de metadados não confiável dedicado. Os pesquisadores também observaram que padrões de design semelhantes apareceram em outros assistentes pessoais de IA, indicando um desafio em toda a indústria, e não um problema específico da plataforma.

A Ascensão do Phishing de Agentes

Um segundo projeto de pesquisa abordou o problema de um ângulo diferente: a engenharia social.

Os pesquisadores criaram um agente de teste chamado Pinchy e o conectaram a uma caixa de entrada do Gmail repleta de comunicações comerciais realistas, porém sintéticas, e dados confidenciais simulados. A equipe então conduziu quatro simulações de phishing usando o Google Gemini 3.1 Pro e o OpenAI Codex GPT-5.4.

O estudo diferenciou a injeção de prompt tradicional do que os pesquisadores descreveram como "phishing por agente". Enquanto a injeção de prompt oculta instruções maliciosas dentro dos dados, o phishing por agente se baseia em solicitações plausíveis enviadas por meio de canais de comunicação legítimos. O ataque é bem-sucedido porque o agente age antes de verificar adequadamente a identidade do remetente.

Como a Engenharia Social Derrotou os Controles de Segurança

As simulações de phishing produziram resultados preocupantes. Apesar de operar sob instruções rigorosas para verificar a identidade dos remetentes, o agente falhou em dois cenários de exfiltração de dados:

Um e-mail fraudulento, se passando por um líder de equipe, solicitou acesso ao ambiente de teste durante um incidente de produção simulado. O agente localizou e encaminhou credenciais falsas do AWS IAM, strings de conexão de banco de dados e credenciais SSH em texto simples.

Um segundo e-mail solicitava uma exportação semanal de rotina de dados de clientes para uma suposta apresentação trimestral de revisão de negócios. O agente transmitiu um banco de dados sintético contendo informações sobre 247 clientes corporativos, incluindo contatos e valores de contrato.

O agente apresentou um desempenho significativamente melhor ao enfrentar ataques técnicos. Ele reconheceu sites de phishing suspeitos, evitou expor credenciais legítimas e, por fim, sinalizou atividades maliciosas. Em configurações mais restritivas, o acesso a páginas de phishing foi bloqueado completamente. Ao se deparar com uma tela fraudulenta de consentimento OAuth disfarçada de aplicativo de controle de ponto, o agente analisou o destino do redirecionamento, determinou que era suspeito e recusou-se a conceder permissões.

Os pesquisadores concluíram que o agente frequentemente superava os humanos na identificação de URLs maliciosos e portais de login falsos. No entanto, ele apresentava dificuldades com o julgamento social contextual, principalmente quando as solicitações pareciam vir de colegas de confiança. A mesma característica que torna os assistentes de IA úteis, o desejo de ajudar, também cria uma superfície de ataque significativa.

Embora o OpenAI Codex GPT-5.4 tenha demonstrado maior cautela do que o Gemini 3.1 Pro ao interagir com sites externos ou transmitir informações, ambos os sistemas acabaram sendo vítimas de cenários de engenharia social.

Uma causa raiz, múltiplos caminhos de ataque

Apesar de utilizarem técnicas diferentes, ambos os ataques exploraram as mesmas capacidades fundamentais:

  • Acesso a informações privadas.
  • A capacidade de processar conteúdo não confiável.
  • Autorização para envio de informações externas.

Quando essas capacidades coexistem sem controles suficientes, um cartão de contato malicioso e um e-mail de phishing convincente podem produzir o mesmo resultado: acesso não autorizado a dados confidenciais.

Pesquisas adicionais revelaram problemas semelhantes de limites de confiança no ecossistema do OpenClaw. Ao converter avisos de segurança anteriores em regras de análise estática, os pesquisadores identificaram cinco vulnerabilidades adicionais que afetam as integrações com Slack, Discord, Matrix, Zalo e Microsoft Teams.

Cada vulnerabilidade decorria da mesma falha de projeto. As extensões de canal dependiam de nomes de exibição mutáveis em vez de identificadores permanentes ao avaliar as listas de permissões. Um atacante poderia, portanto, renomear uma conta para corresponder a um usuário aprovado e obter influência sobre o agente. A OpenClaw já corrigiu todos os problemas identificados.

Crescentes preocupações em torno de amplas autorizações de agentes.

Desde o seu lançamento, o OpenClaw tem atraído atenção devido às suas extensas permissões. A plataforma fornece acesso a arquivos locais, ambientes de shell e mais de vinte plataformas de mensagens, tornando-a altamente capaz, mas também altamente vulnerável.

As preocupações tornaram-se tão significativas que a autoridade holandesa de proteção de dados, a Autoriteit Persoonsgegevens, aconselhou indivíduos e organizações a não implementarem o OpenClaw em sistemas que contenham informações sensíveis. A autoridade citou riscos como violações de dados e comprometimento de contas.

Construindo Implantações de Agentes de IA Mais Seguras

Organizações que utilizam o OpenClaw devem atualizar imediatamente para a versão 2026.4.23 ou posterior para corrigir a vulnerabilidade de objeto de mensagem. Além da aplicação de patches, no entanto, a proteção a longo prazo depende de controles arquitetônicos, e não de soluções de engenharia imediatas.

Especialistas em segurança recomendam tratar os arquivos de instruções dos agentes como políticas executáveis e controladas por versão, em vez de meras orientações. As comunicações externas devem exigir aprovação antes do envio de mensagens para destinatários desconhecidos, reduzindo a probabilidade de agentes comprometidos disseminarem ataques por meio de contas confiáveis. As permissões de acesso também devem estar vinculadas à confiabilidade da fonte que as originou, garantindo que os agentes que processam comunicações externas não possam acessar automaticamente sistemas de alto valor, como plataformas de gestão de relacionamento com o cliente (CRM). Ações de alto risco, incluindo o compartilhamento de credenciais e transações financeiras, devem permanecer sujeitas à aprovação humana.

O desafio não resolvido da confiança autônoma

Ambas as equipes de pesquisa chegaram à mesma conclusão: os agentes de IA não devem ser vistos como ferramentas de segurança. Um modelo mais preciso é o de um funcionário júnior com amplo acesso ao sistema, mas com capacidade limitada de reconhecer comportamentos suspeitos. Outra perspectiva útil é considerá-los como executores autenticados que confiam inerentemente nas informações que recebem.

As medidas de mitigação atuais focam em correções, salvaguardas e controles de acesso. No entanto, o desafio mais amplo permanece sem solução. Um agente de IA capaz de ler e-mails, executar tarefas e agir de forma independente deve, por definição, confiar nas entradas recebidas e tentar ajudar os usuários. A comunidade de segurança cibernética ainda não desenvolveu uma solução universal para essa tensão fundamental.

Tendendo

Mais visto

Carregando...