Els atacs exploten l'agent d'IA d'OpenClaw
Investigacions recents sobre seguretat han revelat que OpenClaw, una plataforma d'agents d'IA autoallotjada àmpliament utilitzada, pot ser manipulada per executar accions controlades per atacants o revelar informació sensible mitjançant entrades aparentment inofensives.
En investigacions separades, els investigadors van demostrar dos mètodes d'atac diferents. Un es basava en la incrustació d'instruccions ocultes dins dels contactes compartits, les vCards i els pins d'ubicació. L'altre utilitzava correus electrònics de phishing acuradament elaborats per convèncer un agent d'IA que filtrés informació empresarial confidencial.
Tot i que OpenClaw ha solucionat una d'aquestes vulnerabilitats a la versió 2026.4.23, el problema més ampli continua sense canvis: els agents d'IA que confien en la informació entrant poden convertir-se en eines poderoses per als atacants.
Taula de continguts
Comandes invisibles amagades a plena vista
El primer atac es va centrar en com OpenClaw processa certs objectes de missatge abans d'enviar-los al model de llenguatge gran (LLM) subjacent.
A diferència del contingut web, que està clarament marcat com a no fiable abans d'arribar al model, els registres de contactes, les vCards i les etiquetes d'ubicació s'inserien directament a les indicacions sense cap indicació que provenien de fonts no fiables. Això creava una oportunitat per a la injecció de dades.
L'atac va explotar la manera com OpenClaw serialitzava la informació de contacte. Els contactes compartits es convertien en un format simple que només contenia un nom i un número de telèfon. Com que es permeten caràcters com ara parèntesis angulars dins dels noms de contacte, els atacants podien inserir instruccions malicioses que semblaven formar part de la informació de contacte. A més, els noms de contacte sovint es trunquen a les aplicacions de missatgeria, cosa que impedeix que les víctimes vegin la càrrega útil oculta.
La mateixa tècnica va resultar eficaç mitjançant camps de nom complet de vCard i etiquetes d'ubicació compartides. Durant les proves amb versions de vista prèvia de Gemini 3.1 Pro, les instruccions ocultes van persuadir amb èxit l'agent perquè descarregués i executés codi des d'un servidor controlat per investigadors. Curiosament, els intents d'amagar instruccions dins de les imatges van fallar, probablement perquè els models moderns d'IA han rebut una àmplia formació contra els atacs d'injecció de missatges basats en imatges. Els atacs d'objecte de missatge, però, continuen sent menys familiars als models actuals.
Els investigadors van advertir que la funcionalitat de memòria per defecte d'OpenClaw podria amplificar l'amenaça. Un sol contacte maliciós o un objecte compartit distribuït àmpliament podria comprometre nombrosos agents si no hi ha controls adequats de sandboxing.
Després de la divulgació responsable, OpenClaw va publicar la versió 2026.4.23, que separa els noms de contacte, els camps de vCard i les etiquetes d'ubicació del contingut de les sol·licituds col·locant-los en un canal de metadades dedicat i no fiable. Els investigadors també van observar que han aparegut patrons de disseny similars en altres assistents personals d'IA, cosa que indica un repte a nivell de la indústria en lloc d'un problema específic de la plataforma.
L’auge del phishing d’agents
Un segon projecte de recerca va abordar el problema des d'una perspectiva diferent: l'enginyeria social.
Els investigadors van crear un agent de prova anomenat Pinchy i el van connectar a una safata d'entrada de Gmail plena de comunicacions empresarials realistes però sintètiques i dades sensibles simulades. A continuació, l'equip va dur a terme quatre simulacions de phishing utilitzant Google Gemini 3.1 Pro i OpenAI Codex GPT-5.4.
L'estudi va distingir la injecció ràpida tradicional del que els investigadors van descriure com a "phishing d'agent". Mentre que la injecció ràpida amaga instruccions malicioses dins de les dades, el phishing d'agent es basa en sol·licituds creïbles enviades a través de canals de comunicació legítims. L'atac té èxit perquè l'agent actua abans de verificar adequadament la identitat del remitent.
Com l’enginyeria social va derrotar els controls de seguretat
Les simulacions de phishing van produir resultats preocupants. Tot i operar sota instruccions estrictes per verificar les identitats dels remitents, l'agent va fallar en dos escenaris d'exfiltració de dades:
Un correu electrònic fraudulent que suplantava la identitat d'un cap d'equip sol·licitava accés de prova durant un incident de producció fabricat. L'agent va localitzar i reenviar credencials d'AWS IAM, cadenes de connexió de base de dades i credencials SSH simulades en text sense format.
Un segon correu electrònic sol·licitava una exportació setmanal rutinària de clients per a una suposada presentació trimestral de revisió empresarial. L'agent va transmetre una base de dades sintètica que contenia informació sobre 247 clients empresarials, inclosos contactes i valors de contractes.
L'agent va tenir un rendiment significativament millor quan es va enfrontar a atacs tècnics. Va reconèixer llocs web sospitosos de phishing, va evitar exposar credencials legítimes i, finalment, va marcar activitats malicioses. Amb una configuració més estricte, l'accés a les pàgines de phishing es va bloquejar completament. Quan es va presentar una pantalla de consentiment OAuth fraudulenta disfressada d'una aplicació de full de temps, l'agent va analitzar la destinació de redirecció, va determinar que era sospitosa i es va negar a concedir permisos.
Els investigadors van concloure que l'agent sovint superava els humans a l'hora d'identificar URL malicioses i portals d'inici de sessió falsos. Tanmateix, tenia dificultats amb el judici social contextual, sobretot quan les sol·licituds semblaven provenir de col·legues de confiança. La mateixa característica que fa que els assistents d'IA siguin útils, el desig de ser útils, també crea una superfície d'atac important.
Tot i que OpenAI Codex GPT-5.4 va demostrar més precaució que Gemini 3.1 Pro a l'hora d'interactuar amb llocs externs o transmetre informació, tots dos sistemes van acabar sent víctimes d'escenaris d'enginyeria social.
Una causa arrel, múltiples vies d’atac
Tot i utilitzar tècniques diferents, ambdós atacs van explotar les mateixes capacitats fonamentals:
- Accés a informació privada.
- La capacitat de processar contingut no fiable.
- Permís per enviar informació externament.
Quan aquestes capacitats coexisteixen sense controls suficients, una targeta de contacte maliciosa i un correu electrònic de phishing convincent poden produir el mateix resultat: accés no autoritzat a dades sensibles.
Investigacions addicionals van descobrir problemes similars de límits de confiança dins de l'ecosistema d'OpenClaw. En convertir avisos de seguretat anteriors en regles d'anàlisi estàtica, els investigadors van identificar cinc vulnerabilitats addicionals que afectaven les integracions amb Slack, Discord, Matrix, Zalo i Microsoft Teams.
Cada vulnerabilitat provenia del mateix defecte de disseny. Les extensions de canal es basaven en noms de visualització mutables en lloc d'identificadors permanents a l'hora d'avaluar les llistes de permesos. Per tant, un atacant podia canviar el nom d'un compte perquè coincidís amb un usuari aprovat i obtenir influència sobre l'agent. Des de llavors, OpenClaw ha corregit tots els problemes identificats.
Creixents preocupacions sobre els amplis permisos d’agent
Des del seu llançament, OpenClaw ha atret l'atenció a causa dels seus amplis permisos. La plataforma proporciona accés a fitxers locals, entorns de shell i més de vint plataformes de missatgeria, cosa que la fa molt capaç però també molt exposada.
Les preocupacions han esdevingut prou importants com per fer que l'autoritat neerlandesa de protecció de dades, l'Autoriteit Persoonsgegevens, hagi aconsellat a particulars i organitzacions que no implementin OpenClaw en sistemes que continguin informació sensible. L'autoritat va citar riscos com ara filtracions de dades i el compromís de comptes.
Creació d’implementacions d’agents d’IA més segures
Les organitzacions que utilitzen OpenClaw haurien d'actualitzar immediatament a la versió 2026.4.23 o posterior per solucionar la vulnerabilitat de l'objecte de missatge. Més enllà de l'aplicació de pegats, però, la protecció a llarg termini depèn dels controls arquitectònics en lloc de l'enginyeria ràpida.
Els especialistes en seguretat recomanen tractar els fitxers d'instruccions dels agents com a polítiques aplicables i controlades per versions en lloc d'orientacions assessores. Les comunicacions sortints haurien de requerir aprovació abans que els missatges s'enviïn a destinataris desconeguts, reduint la probabilitat que els agents compromesos propaguin atacs a través de comptes de confiança. Els permisos d'accés també haurien d'estar vinculats a la fiabilitat de la font desencadenant, garantint que els agents que processen comunicacions externes no puguin accedir automàticament a sistemes d'alt valor com ara plataformes de gestió de relacions amb els clients. Les accions d'alt risc, inclosa la compartició de credencials i les transaccions financeres, haurien de continuar subjectes a l'aprovació humana.
El repte no resolt de la confiança autònoma
Finalment, tots dos equips de recerca van arribar a la mateixa conclusió: els agents d'IA no s'han de veure com a eines de seguretat. Un model més precís és el d'un empleat júnior amb un ampli accés al sistema però amb una capacitat limitada per reconèixer comportaments sospitosos. Una altra perspectiva útil és veure'ls com a executors autenticats que confien inherentment en la informació que reben.
Les mitigacions actuals se centren en pegats, barreres de protecció i controls d'accés. Tot i això, el repte més ampli continua sense resoldre's. Un agent d'IA capaç de llegir correus electrònics, executar tasques i actuar de manera independent ha de, per disseny, confiar en les entrades i intentar ajudar els usuaris. La comunitat de ciberseguretat encara no ha desenvolupat una solució universal per a aquesta tensió fonamental.