Attacchi che sfruttano una vulnerabilità dell'agente AI di OpenClaw
Recenti ricerche sulla sicurezza hanno rivelato che OpenClaw, una piattaforma di agenti AI auto-ospitata ampiamente utilizzata, può essere manipolata per eseguire azioni controllate da un aggressore o per divulgare informazioni sensibili attraverso input apparentemente innocui.
In indagini separate, i ricercatori hanno dimostrato due metodi di attacco distinti. Il primo si basava sull'inserimento di istruzioni nascoste all'interno di contatti condivisi, vCard e segnaposto di posizione. Il secondo utilizzava email di phishing accuratamente create per convincere un agente di intelligenza artificiale a divulgare informazioni aziendali sensibili.
Sebbene OpenClaw abbia risolto una di queste vulnerabilità nella versione 2026.4.23, il problema di fondo rimane invariato: gli agenti di intelligenza artificiale che si fidano delle informazioni in entrata possono diventare strumenti potenti per gli aggressori.
Sommario
Comandi invisibili nascosti in bella vista
Il primo attacco ha preso di mira il modo in cui OpenClaw elabora determinati oggetti messaggio prima di inviarli al modello linguistico di grandi dimensioni (LLM) sottostante.
A differenza dei contenuti web, che vengono chiaramente contrassegnati come non attendibili prima di raggiungere il modello, i record dei contatti, le vCard e le etichette di posizione venivano inseriti direttamente nei prompt senza alcuna indicazione che provenissero da fonti non attendibili. Ciò ha creato un'opportunità per l'iniezione di prompt.
L'attacco ha sfruttato il modo in cui OpenClaw serializzava le informazioni di contatto. I contatti condivisi venivano convertiti in un formato semplice contenente solo nome e numero di telefono. Poiché caratteri come le parentesi angolari sono consentiti nei nomi dei contatti, gli aggressori potevano incorporare istruzioni dannose che sembravano parte delle informazioni di contatto. Inoltre, i nomi dei contatti vengono spesso troncati nelle applicazioni di messaggistica, impedendo alle vittime di visualizzare il payload nascosto.
La stessa tecnica si è dimostrata efficace tramite i campi nome completo vCard e le etichette di posizione condivise. Durante i test con le build di anteprima di Gemini 3.1 Pro, le istruzioni nascoste hanno convinto con successo l'agente a scaricare ed eseguire codice da un server controllato da un ricercatore. È interessante notare che i tentativi di nascondere le istruzioni all'interno delle immagini sono falliti, probabilmente perché i moderni modelli di IA hanno ricevuto un addestramento approfondito contro gli attacchi di iniezione di prompt basati su immagini. Gli attacchi oggetto-messaggio, tuttavia, rimangono meno familiari ai modelli attuali.
I ricercatori hanno avvertito che la funzionalità di gestione della memoria predefinita di OpenClaw potrebbe amplificare la minaccia. Un singolo contatto dannoso o un oggetto condiviso ampiamente diffuso potrebbe potenzialmente compromettere numerosi agenti in assenza di adeguati controlli di sandboxing.
A seguito di una divulgazione responsabile, OpenClaw ha rilasciato la versione 2026.4.23, che separa i nomi dei contatti, i campi vCard e le etichette di posizione dal contenuto dei prompt, inserendoli in un canale di metadati dedicato e non attendibile. I ricercatori hanno inoltre notato che modelli di progettazione simili sono apparsi in altri assistenti personali basati sull'IA, indicando una sfida a livello di settore piuttosto che un problema specifico della piattaforma.
L’ascesa del phishing tramite agenti
Un secondo progetto di ricerca ha affrontato il problema da un'angolazione diversa: l'ingegneria sociale.
I ricercatori hanno creato un agente di test chiamato Pinchy e lo hanno collegato a una casella di posta Gmail contenente comunicazioni aziendali realistiche ma sintetiche e dati sensibili fittizi. Il team ha quindi condotto quattro simulazioni di phishing utilizzando sia Google Gemini 3.1 Pro che OpenAI Codex GPT-5.4.
Lo studio ha distinto la tradizionale iniezione di prompt da ciò che i ricercatori hanno definito "phishing tramite agente". Mentre l'iniezione di prompt nasconde istruzioni dannose all'interno dei dati, il phishing tramite agente si basa su richieste credibili inviate attraverso canali di comunicazione legittimi. L'attacco ha successo perché l'agente agisce prima di aver verificato adeguatamente l'identità del mittente.
Come l’ingegneria sociale ha eluso i controlli di sicurezza
Le simulazioni di phishing hanno prodotto risultati preoccupanti. Nonostante operasse seguendo rigide istruzioni per verificare l'identità del mittente, l'agente ha fallito due scenari di esfiltrazione dei dati:
Un'e-mail fraudolenta, che impersonava un team leader, richiedeva l'accesso all'ambiente di staging durante un finto incidente di produzione. L'agente ha individuato e inoltrato in chiaro credenziali AWS IAM, stringhe di connessione al database e credenziali SSH fasulle.
Una seconda email richiedeva un'esportazione settimanale di routine dei dati dei clienti, destinata a una presunta presentazione trimestrale di revisione aziendale. L'operatore ha trasmesso un database sintetico contenente informazioni su 247 clienti aziendali, inclusi contatti e valori contrattuali.
L'agente ha ottenuto risultati nettamente migliori in caso di attacchi tecnici. Ha riconosciuto siti web di phishing sospetti, ha evitato di esporre credenziali legittime e ha infine segnalato attività dannose. Con impostazioni più restrittive, l'accesso alle pagine di phishing è stato bloccato completamente. Di fronte a una schermata di consenso OAuth fraudolenta camuffata da applicazione per la gestione delle ore lavorate, l'agente ha analizzato la destinazione del reindirizzamento, l'ha ritenuta sospetta e ha rifiutato di concedere le autorizzazioni.
I ricercatori hanno concluso che l'agente spesso superava gli esseri umani nell'identificare URL dannosi e portali di accesso falsi. Tuttavia, mostrava difficoltà nel giudizio sociale contestuale, in particolare quando le richieste sembravano provenire da colleghi fidati. La stessa caratteristica che rende utili gli assistenti IA, ovvero il desiderio di essere d'aiuto, crea anche una significativa superficie di attacco.
Sebbene OpenAI Codex GPT-5.4 abbia dimostrato maggiore cautela rispetto a Gemini 3.1 Pro nell'interagire con siti esterni o nella trasmissione di informazioni, entrambi i sistemi sono infine caduti vittime di scenari di ingegneria sociale.
Un’unica causa principale, molteplici vie d’attacco.
Nonostante l'utilizzo di tecniche diverse, entrambi gli attacchi hanno sfruttato le stesse capacità fondamentali:
- Accesso a informazioni private.
- La capacità di elaborare contenuti non attendibili.
- Autorizzazione all'invio di informazioni all'esterno.
Quando queste funzionalità coesistono senza controlli adeguati, un biglietto da visita contraffatto e un'e-mail di phishing convincente possono produrre lo stesso risultato: accesso non autorizzato a dati sensibili.
Ulteriori ricerche hanno rivelato problemi simili relativi ai confini di fiducia all'interno dell'ecosistema di OpenClaw. Convertendo i precedenti avvisi di sicurezza in regole di analisi statica, i ricercatori hanno identificato altre cinque vulnerabilità che interessano le integrazioni con Slack, Discord, Matrix, Zalo e Microsoft Teams.
Ciascuna vulnerabilità derivava dallo stesso difetto di progettazione. Le estensioni dei canali si basavano su nomi visualizzati modificabili anziché su identificatori permanenti durante la valutazione delle liste di autorizzazione. Un utente malintenzionato poteva quindi rinominare un account per farlo corrispondere a un utente autorizzato e ottenere il controllo dell'agente. Da allora OpenClaw ha corretto tutti i problemi identificati.
Crescono le preoccupazioni riguardo alle ampie autorizzazioni concesse agli agenti.
Sin dal suo lancio, OpenClaw ha attirato l'attenzione a causa delle sue ampie autorizzazioni. La piattaforma fornisce accesso a file locali, ambienti shell e oltre venti piattaforme di messaggistica, il che la rende estremamente potente ma anche estremamente vulnerabile.
Le preoccupazioni sono diventate così significative che l'autorità olandese per la protezione dei dati, l'Autoriteit Persoonsgegevens, ha sconsigliato a individui e organizzazioni di implementare OpenClaw su sistemi contenenti informazioni sensibili. L'autorità ha citato rischi quali violazioni dei dati e compromissione degli account.
Creazione di implementazioni più sicure di agenti di intelligenza artificiale
Le organizzazioni che utilizzano OpenClaw dovrebbero aggiornare immediatamente alla versione 2026.4.23 o successiva per risolvere la vulnerabilità relativa agli oggetti messaggio. Tuttavia, oltre all'applicazione della patch, la protezione a lungo termine dipende dai controlli architetturali piuttosto che da interventi di progettazione tempestivi.
Gli specialisti della sicurezza raccomandano di trattare i file di istruzioni per gli agenti come policy vincolanti e soggette a controllo di versione, anziché come semplici linee guida. Le comunicazioni in uscita dovrebbero richiedere l'approvazione prima dell'invio a destinatari sconosciuti, riducendo la probabilità che agenti compromessi diffondano attacchi attraverso account affidabili. Le autorizzazioni di accesso dovrebbero inoltre essere legate all'affidabilità della fonte che le ha generate, garantendo che gli agenti che gestiscono le comunicazioni esterne non possano accedere automaticamente a sistemi di alto valore come le piattaforme di gestione delle relazioni con i clienti (CRM). Le azioni ad alto rischio, tra cui la condivisione delle credenziali e le transazioni finanziarie, dovrebbero rimanere soggette all'approvazione umana.
La sfida irrisolta della fiducia autonoma
Entrambi i gruppi di ricerca sono giunti alla stessa conclusione: gli agenti di intelligenza artificiale non dovrebbero essere considerati strumenti di sicurezza. Un modello più accurato è quello di un dipendente junior con ampio accesso al sistema ma con capacità limitate di riconoscere comportamenti sospetti. Un'altra prospettiva utile è quella di vederli come esecutori autenticati che si fidano intrinsecamente delle informazioni che ricevono.
Le attuali misure di mitigazione si concentrano su patch, misure di sicurezza e controlli di accesso. Tuttavia, la sfida più ampia rimane irrisolta. Un agente di intelligenza artificiale in grado di leggere le email, eseguire compiti e agire in modo indipendente deve, per sua stessa natura, fidarsi degli input e cercare di aiutare gli utenti. La comunità della sicurezza informatica non ha ancora sviluppato una soluzione universale a questa fondamentale contraddizione.