Napadi iskorištavaju OpenClaw AI agenta
Nedavna sigurnosna istraživanja otkrila su da se OpenClaw, široko korištena platforma za samostalno hostane AI agente, može manipulirati tako da izvršava akcije koje kontrolira napadač ili otkriva osjetljive informacije putem naizgled bezopasnih unosa.
U odvojenim istragama, istraživači su demonstrirali dvije različite metode napada. Jedna se oslanjala na ugrađivanje skrivenih uputa unutar dijeljenih kontakata, vCardova i pribadača lokacija. Druga je koristila pažljivo izrađene phishing e-poruke kako bi uvjerila AI agenta da oda osjetljive poslovne informacije.
Iako je OpenClaw riješio jednu od ovih ranjivosti u verziji 2026.4.23, širi problem ostaje nepromijenjen: AI agenti koji vjeruju dolaznim informacijama mogu postati moćni alati za napadače.
Sadržaj
Nevidljive naredbe skrivene na vidiku
Prvi napad bio je usmjeren na način na koji OpenClaw obrađuje određene objekte poruka prije nego što ih pošalje temeljnom velikom jezičnom modelu (LLM).
Za razliku od web sadržaja, koji je jasno označen kao nepouzdan prije nego što dođe do modela, zapisi kontakata, vCards i oznake lokacija umetnuti su izravno u upite bez ikakve naznake da potječu iz nepouzdanih izvora. To je stvorilo priliku za umetanje upita.
Napad je iskoristio način na koji je OpenClaw serijalizirao kontaktne podatke. Dijeljeni kontakti su pretvoreni u jednostavan format koji sadrži samo ime i telefonski broj. Budući da su znakovi poput kutnih zagrada dopušteni unutar imena kontakata, napadači su mogli ugraditi zlonamjerne upute koje su se činile kao dio kontaktnih podataka. Osim toga, imena kontakata se često skraćuju u aplikacijama za razmjenu poruka, što sprječava žrtve da vide skriveni sadržaj.
Ista tehnika pokazala se učinkovitom putem vCard polja s punim imenom i oznaka dijeljenih lokacija. Tijekom testiranja s preglednim verzijama Gemini 3.1 Pro, skrivene instrukcije uspješno su nagovorile agenta da preuzme i izvrši kod s poslužitelja kojim upravlja istraživač. Zanimljivo je da pokušaji skrivanja instrukcija unutar slika nisu uspjeli, vjerojatno zato što su moderni modeli umjetne inteligencije prošli opsežnu obuku protiv napada ubrizgavanjem prompta temeljenih na slikama. Međutim, napadi objektima poruka ostaju manje poznati trenutnim modelima.
Istraživači su upozorili da bi OpenClawova zadana funkcionalnost memorije mogla pojačati prijetnju. Jedan zlonamjerni kontakt ili dijeljeni objekt koji se široko distribuira mogao bi potencijalno ugroziti brojne agente ako nedostaju odgovarajuće kontrole sandboxa.
Nakon odgovornog otkrivanja, OpenClaw je objavio verziju 2026.4.23 koja odvaja imena kontakata, vCard polja i oznake lokacija od sadržaja upita smještajući ih u namjenski nepouzdani kanal metapodataka. Istraživači su također primijetili da su se slični obrasci dizajna pojavili i u drugim osobnim AI asistentima, što ukazuje na izazov na razini cijele industrije, a ne na problem specifičan za platformu.
Uspon phishinga putem agenata
Drugi istraživački projekt pristupio je problemu iz drugačijeg kuta: socijalnog inženjeringa.
Istraživači su izradili testnog agenta pod nazivom Pinchy i povezali ga s Gmail inboxom ispunjenim realističnim, ali sintetičkim poslovnim komunikacijama i lažnim osjetljivim podacima. Tim je zatim proveo četiri phishing simulacije koristeći Google Gemini 3.1 Pro i OpenAI Codex GPT-5.4.
Studija je razlikovala tradicionalno prompt injection od onoga što su istraživači opisali kao "agent phishing". Dok prompt injection skriva zlonamjerne upute unutar podataka, agent phishing oslanja se na uvjerljive zahtjeve dostavljene putem legitimnih komunikacijskih kanala. Napad uspijeva jer agent djeluje prije nego što adekvatno provjeri identitet pošiljatelja.
Kako je društveni inženjering porazio sigurnosne kontrole
Simulacije phishinga dale su zabrinjavajuće rezultate. Unatoč djelovanju pod strogim uputama za provjeru identiteta pošiljatelja, agent nije uspio u dva scenarija krađe podataka:
Lažnom e-poštom u kojoj se lažno predstavljao vođa tima zatražen je pristup za pripravnost tijekom izmišljenog incidenta u produkciji. Agent je locirao i proslijedio lažne AWS IAM vjerodajnice, nizove za povezivanje s bazom podataka i SSH vjerodajnice u običnom tekstu.
U drugoj e-poruci zatražen je rutinski tjedni izvoz podataka o klijentima za navodnu tromjesečnu prezentaciju poslovnog pregleda. Agent je poslao sintetičku bazu podataka koja sadrži informacije o 247 poslovnih klijenata, uključujući kontakte i vrijednosti ugovora.
Agent se znatno bolje pokazao suočen s tehničkim napadima. Prepoznao je sumnjive phishing web stranice, izbjegao otkrivanje legitimnih vjerodajnica i na kraju označio zlonamjernu aktivnost. Pod strožim postavkama, pristup phishing stranicama bio je potpuno blokiran. Kada mu se prikazao lažni OAuth ekran za pristanak prikriven kao aplikacija za evidenciju radnog vremena, agent je analizirao odredište preusmjeravanja, utvrdio da je sumnjivo i odbio odobriti dopuštenja.
Istraživači su zaključili da je agent često nadmašivao ljude u identificiranju zlonamjernih URL-ova i lažnih portala za prijavu. Međutim, imao je problema s kontekstualnom društvenom prosudbom, posebno kada su se činilo da zahtjevi dolaze od pouzdanih kolega. Sama karakteristika koja čini AI asistente korisnima, želja da budu od pomoći, također stvara značajnu površinu za napad.
Iako je OpenAI Codex GPT-5.4 pokazao veći oprez od Geminija 3.1 Pro pri interakciji s vanjskim stranicama ili prijenosu informacija, oba sustava su na kraju postala žrtvama scenarija socijalnog inženjeringa.
Jedan uzrok, višestruki putevi napada
Unatoč korištenju različitih tehnika, oba napada iskoristila su iste temeljne mogućnosti:
- Pristup privatnim informacijama.
- Sposobnost obrade nepouzdanog sadržaja.
- Dozvola za slanje informacija izvana.
Kada te mogućnosti koegzistiraju bez dovoljnih kontrola, zlonamjerna kartica kontakta i uvjerljiva phishing e-pošta mogu proizvesti isti ishod: neovlašteni pristup osjetljivim podacima.
Dodatna istraživanja otkrila su slične probleme s granicama povjerenja unutar OpenClawovog ekosustava. Pretvaranjem prethodnih sigurnosnih savjeta u pravila statičke analize, istraživači su identificirali pet dodatnih ranjivosti koje utječu na integracije sa Slackom, Discordom, Matrixom, Zalom i Microsoft Teamsom.
Svaka ranjivost proizašla je iz iste greške u dizajnu. Proširenja kanala oslanjala su se na promjenjiva imena za prikaz, a ne na trajne identifikatore prilikom procjene popisa dopuštenih. Napadač je stoga mogao preimenovati račun kako bi odgovarao odobrenom korisniku i steći utjecaj na agenta. OpenClaw je od tada ispravio sve identificirane probleme.
Rastuća zabrinutost oko širokih dozvola agenata
Od svog lansiranja, OpenClaw je privukao pozornost zbog svojih opsežnih dozvola. Platforma pruža pristup lokalnim datotekama, shell okruženjima i više od dvadeset platformi za razmjenu poruka, što je čini vrlo sposobnom, ali i vrlo izloženom.
Zabrinutost je postala toliko značajna da je nizozemsko tijelo za zaštitu podataka, Autoriteit Persoonsgegevens, savjetovalo pojedincima i organizacijama da ne koriste OpenClaw na sustavima koji sadrže osjetljive informacije. Tijelo je navelo rizike, uključujući povrede podataka i kompromitiranje računa.
Izgradnja sigurnijih implementacija AI agenata
Organizacije koje koriste OpenClaw trebale bi odmah nadograditi na verziju 2026.4.23 ili noviju kako bi riješile ranjivost objekta poruke. Međutim, osim zakrpa, dugoročna zaštita ovisi o arhitektonskim kontrolama, a ne o brzom inženjeringu.
Sigurnosni stručnjaci preporučuju tretiranje datoteka s uputama agenata kao provedivih politika kontroliranih verzijama, umjesto savjetodavnih smjernica. Odlazna komunikacija trebala bi zahtijevati odobrenje prije slanja poruka nepoznatim primateljima, smanjujući vjerojatnost da kompromitirani agenti šire napade putem pouzdanih računa. Dozvole za pristup također bi trebale biti povezane s pouzdanošću izvora koji ih pokreće, osiguravajući da agenti koji obrađuju vanjsku komunikaciju ne mogu automatski pristupiti sustavima visoke vrijednosti kao što su platforme za upravljanje odnosima s klijentima. Radnje visokog rizika, uključujući dijeljenje vjerodajnica i financijske transakcije, trebale bi i dalje biti podložne ljudskom odobrenju.
Neriješeni izazov autonomnog povjerenja
Oba istraživačka tima na kraju su došla do istog zaključka: AI agente ne treba smatrati sigurnosnim alatima. Točniji model je model mlađeg zaposlenika s opsežnim pristupom sustavu, ali ograničenom sposobnošću prepoznavanja sumnjivog ponašanja. Druga korisna perspektiva je promatrati ih kao autentificirane izvršitelje koji inherentno vjeruju informacijama koje primaju.
Trenutne mjere ublažavanja usredotočuju se na zakrpe, zaštitne ograde i kontrole pristupa. No, širi izazov ostaje neriješen. Agent umjetne inteligencije sposoban za čitanje e-pošte, izvršavanje zadataka i samostalno djelovanje mora, po svojoj prirodi, vjerovati ulaznim podacima i pokušati pomoći korisnicima. Zajednica kibernetičke sigurnosti još nije razvila univerzalno rješenje za tu temeljnu napetost.