Útoky zneužívají agenta umělé inteligence OpenClaw
Nedávný bezpečnostní výzkum odhalil, že OpenClaw, široce používaná platforma agentů umělé inteligence s vlastním hostingem, může být manipulována k provádění akcí ovládaných útočníkem nebo ke zveřejnění citlivých informací prostřednictvím zdánlivě neškodných vstupů.
V samostatných vyšetřováních vědci demonstrovali dvě odlišné metody útoku. Jedna se spoléhala na vkládání skrytých pokynů do sdílených kontaktů, vizitek vCard a pinů s polohou. Druhá používala pečlivě vytvořené phishingové e-maily k přesvědčení agenta umělé inteligence k úniku citlivých obchodních informací.
Ačkoli OpenClaw ve verzi 2026.4.23 vyřešil jednu z těchto zranitelností, širší problém zůstává nezměněn: Agenti umělé inteligence, kteří důvěřují příchozím informacím, se mohou stát silnými nástroji pro útočníky.
Obsah
Neviditelné příkazy skryté na očích
První útok se zaměřil na to, jak OpenClaw zpracovává určité objekty zpráv před jejich odesláním do podkladového modelu velkého jazyka (LLM).
Na rozdíl od webového obsahu, který je před dosažením modelu jasně označen jako nedůvěryhodný, byly záznamy kontaktů, vCard a popisky umístění vkládány přímo do výzev k zadání bez jakéhokoli náznaku, že pocházejí z nedůvěryhodných zdrojů. To vytvořilo příležitost k vložení výzev do výzev.
Útok zneužil způsob, jakým OpenClaw serializoval kontaktní informace. Sdílené kontakty byly převedeny do jednoduchého formátu obsahujícího pouze jméno a telefonní číslo. Protože jsou v jménech kontaktů povoleny znaky, jako jsou lomené závorky, mohli útočníci vložit škodlivé instrukce, které se jevily jako součást kontaktních informací. Jména kontaktů jsou navíc v aplikacích pro zasílání zpráv často zkrácena, což obětem brání v vidění skrytého obsahu.
Stejná technika se ukázala jako účinná prostřednictvím polí s celým jménem vCard a sdílených popisků umístění. Během testování s náhledovými verzemi Gemini 3.1 Pro se skrytým instrukcím podařilo přesvědčit agenta ke stažení a spuštění kódu ze serveru ovládaného výzkumníkem. Je zajímavé, že pokusy o skrytí instrukcí v obrázcích selhaly, pravděpodobně proto, že moderní modely umělé inteligence prošly rozsáhlým školením proti útokům založeným na vkládání promptu do obrázků. Útoky typu Message-Object však zůstávají pro současné modely méně známé.
Výzkumníci varovali, že výchozí paměťová funkcionalita OpenClaw by mohla hrozbu zesílit. Jeden škodlivý kontakt nebo sdílený objekt distribuovaný ve velkém měřítku by mohl potenciálně ohrozit řadu agentů, pokud chybí řádné kontroly sandboxu.
Po odpovědném zveřejnění informací vydala společnost OpenClaw verzi 2026.4.23, která odděluje jména kontaktů, pole vCard a popisky polohy od obsahu výzvy tím, že je umisťuje do vyhrazeného nedůvěryhodného kanálu metadat. Výzkumníci také poznamenali, že podobné návrhové vzory se objevily i u jiných osobních asistentů s umělou inteligencí, což naznačuje spíše problém v celém odvětví než problém specifický pro danou platformu.
Vzestup phishingu agentů
Druhý výzkumný projekt se k problému přiblížil z jiného úhlu pohledu: pomocí sociálního inženýrství.
Výzkumníci vytvořili testovacího agenta s názvem Pinchy a propojili ho s doručenou poštou v Gmailu, která obsahovala realistickou, ale syntetickou obchodní komunikaci a falešné citlivé údaje. Tým poté provedl čtyři phishingové simulace s využitím Google Gemini 3.1 Pro a OpenAI Codex GPT-5.4.
Studie rozlišila tradiční prompt injection od toho, co vědci popsali jako „agent phishing“. Zatímco prompt injection skrývá škodlivé instrukce uvnitř dat, agent phishing se spoléhá na věrohodné požadavky doručené prostřednictvím legitimních komunikačních kanálů. Útok je úspěšný, protože agent jedná předtím, než adekvátně ověří identitu odesílatele.
Jak sociální inženýrství porazilo bezpečnostní kontroly
Phishingové simulace přinesly znepokojivé výsledky. Přestože agent pracoval podle přísných pokynů k ověření identity odesílatele, selhal ve dvou scénářích úniku dat:
Podvodný e-mail vydávající se za vedoucího týmu požadoval přístup k pracovnímu prostředí během vykonstruovaného incidentu v produkčním prostředí. Agent nalezl a přeposlal falešné přihlašovací údaje AWS IAM, řetězce pro připojení k databázi a přihlašovací údaje SSH v prostém textu.
V druhém e-mailu byl vyžadován rutinní týdenní export zákazníků pro údajnou čtvrtletní prezentaci obchodního hodnocení. Agent odeslal syntetickou databázi obsahující informace o 247 podnikových zákaznících, včetně kontaktů a hodnoty smluv.
Agent si vedl výrazně lépe při řešení technických útoků. Rozpoznal podezřelé phishingové webové stránky, vyhýbal se odhalení legitimních přihlašovacích údajů a nakonec nahlásil škodlivou aktivitu. Za přísnějšího nastavení byl přístup k phishingovým stránkám zcela blokován. Když se agentovi zobrazila podvodná obrazovka s potvrzením OAuth maskovaná jako aplikace pro výkaz pracovní doby, analyzoval cíl přesměrování, zjistil, že je podezřelý, a odmítl udělit oprávnění.
Výzkumníci dospěli k závěru, že agent často překonává lidi v identifikaci škodlivých URL adres a falešných přihlašovacích portálů. Měl však potíže s kontextovým sociálním úsudkem, zejména když se zdálo, že požadavky pocházejí od důvěryhodných kolegů. Právě ta vlastnost, která dělá asistenty s umělou inteligencí užitečnými, tedy touha být nápomocní, vytváří také významný prostor pro útok.
Přestože OpenAI Codex GPT-5.4 prokázal větší opatrnost než Gemini 3.1 Pro při interakci s externími weby nebo přenosu informací, oba systémy se nakonec staly obětí scénářů sociálního inženýrství.
Jedna hlavní příčina, více cest útoku
Přestože oba útoky používaly odlišné techniky, využívaly stejné základní možnosti:
- Přístup k soukromým informacím.
- Schopnost zpracovat nedůvěryhodný obsah.
- Povolení k odesílání informací externě.
Pokud tyto funkce existují současně bez dostatečných kontrol, může škodlivá karta kontaktu a přesvědčivý phishingový e-mail vést ke stejnému výsledku: neoprávněnému přístupu k citlivým údajům.
Další výzkum odhalil podobné problémy s hranicemi důvěryhodnosti v ekosystému OpenClaw. Převedením předchozích bezpečnostních doporučení do pravidel statické analýzy vědci identifikovali dalších pět zranitelností ovlivňujících integrace se Slackem, Discordem, Matrixem, Zalem a Microsoft Teamsem.
Každá zranitelnost pramenila ze stejné konstrukční chyby. Rozšíření kanálů se při vyhodnocování povolených seznamů spoléhala na proměnlivé zobrazované názvy, nikoli na trvalé identifikátory. Útočník by tak mohl přejmenovat účet tak, aby odpovídal schválenému uživateli, a získat tak vliv na agenta. OpenClaw od té doby všechny identifikované problémy opravil.
Rostoucí obavy ohledně širokých oprávnění agentů
Od svého spuštění přitahuje OpenClaw pozornost kvůli svým rozsáhlým oprávněním. Platforma poskytuje přístup k lokálním souborům, prostředím shellu a více než dvaceti platformám pro zasílání zpráv, což z ní činí vysoce výkonnou, ale také vysoce exponovanou platformu.
Obavy nabraly natolik závažný význam, že nizozemský úřad pro ochranu osobních údajů Autoriteit Persoonsgegevens doporučil jednotlivcům a organizacím, aby nenasazovali OpenClaw na systémy obsahující citlivé informace. Úřad uvedl rizika, jako jsou úniky dat a kompromitace účtů.
Vytváření bezpečnějších nasazení agentů s umělou inteligencí
Organizace používající OpenClaw by měly okamžitě upgradovat na verzi 2026.4.23 nebo novější, aby se vyřešila zranitelnost typu message-object. Kromě oprav však dlouhodobá ochrana závisí spíše na architektonických kontrolách než na rychlém inženýrství.
Bezpečnostní specialisté doporučují zacházet se soubory s pokyny agentů jako s vynutitelnými zásadami s kontrolou verzí, nikoli jako s poradními pokyny. Odchozí komunikace by měla vyžadovat schválení před odesláním zpráv neznámým příjemcům, čímž se sníží pravděpodobnost, že napadení agenti budou šířit útoky prostřednictvím důvěryhodných účtů. Přístupová oprávnění by měla být také vázána na důvěryhodnost spouštěcího zdroje, čímž se zajistí, že agenti zpracovávající externí komunikaci nebudou moci automaticky přistupovat k systémům s vysokou hodnotou, jako jsou platformy pro správu vztahů se zákazníky. Vysoce rizikové akce, včetně sdílení přihlašovacích údajů a finančních transakcí, by měly i nadále podléhat lidskému schválení.
Nevyřešená výzva autonomní důvěry
Oba výzkumné týmy nakonec dospěly ke stejnému závěru: Agenti umělé inteligence by neměli být vnímáni jako bezpečnostní nástroje. Přesnějším modelem je model mladšího zaměstnance s rozsáhlým přístupem k systému, ale omezenou schopností rozpoznávat podezřelé chování. Další užitečnou perspektivou je vnímat je jako ověřené vykonavatele, kteří ze své podstaty důvěřují informacím, které přijímají.
Současná opatření k zmírnění rizik se zaměřují na záplaty, ochranné zábrany a řízení přístupu. Širší problém však zůstává nevyřešen. Agent umělé inteligence schopný číst e-maily, provádět úkoly a jednat samostatně musí být ze své podstaty důvěřivý vstupům a snažit se uživatelům pomáhat. Komunita kybernetické bezpečnosti dosud nevyvinula univerzální řešení tohoto základního napětí.