Mga Pag-atake na Nagsasamantala sa Ahente ng OpenClaw AI
Isiniwalat ng kamakailang pananaliksik sa seguridad na ang OpenClaw, isang malawakang ginagamit na self-hosted na AI agent platform, ay maaaring manipulahin upang magsagawa ng mga aksyon na kontrolado ng attacker o magbunyag ng sensitibong impormasyon sa pamamagitan ng tila hindi nakakapinsalang mga input.
Sa magkakahiwalay na imbestigasyon, ipinakita ng mga mananaliksik ang dalawang magkaibang paraan ng pag-atake. Ang isa ay umasa sa pag-embed ng mga nakatagong tagubilin sa loob ng mga nakabahaging contact, vCards, at location pins. Ang isa naman ay gumamit ng maingat na ginawang mga phishing email upang kumbinsihin ang isang AI agent na maglabas ng sensitibong impormasyon sa negosyo.
Bagama't natugunan ng OpenClaw ang isa sa mga kahinaang ito sa bersyon 2026.4.23, ang mas malawak na isyu ay nananatiling hindi nagbabago: Ang mga ahente ng AI na nagtitiwala sa papasok na impormasyon ay maaaring maging makapangyarihang kasangkapan para sa mga umaatake.
Talaan ng mga Nilalaman
Mga Hindi Nakikitang Utos na Nakatago sa Paningin
Ang unang pag-atake ay tumutok sa kung paano pinoproseso ng OpenClaw ang ilang partikular na bagay ng mensahe bago ipadala ang mga ito sa pinagbabatayang large language model (LLM).
Hindi tulad ng nilalaman sa web, na malinaw na minarkahan bilang hindi mapagkakatiwalaan bago makarating sa modelo, ang mga talaan ng kontak, mga vCard, at mga label ng lokasyon ay direktang ipinasok sa mga prompt nang walang anumang indikasyon na nagmula ang mga ito sa mga hindi mapagkakatiwalaang mapagkukunan. Lumikha ito ng pagkakataon para sa agarang pag-iniksyon.
Sinamantala ng pag-atake ang paraan ng pag-serialize ng OpenClaw ng impormasyon sa pakikipag-ugnayan. Ang mga nakabahaging contact ay ginawang simpleng format na naglalaman lamang ng pangalan at numero ng telepono. Dahil pinapayagan ang mga karakter tulad ng mga angle bracket sa loob ng mga pangalan ng contact, maaaring mag-embed ang mga attacker ng mga malisyosong tagubilin na tila bahagi ng impormasyon sa pakikipag-ugnayan. Bukod pa rito, ang mga pangalan ng contact ay kadalasang pinutol sa mga messaging application, na pumipigil sa mga biktima na makita ang nakatagong payload.
Napatunayang epektibo ang parehong pamamaraan sa pamamagitan ng mga field na may buong pangalan ng vCard at mga shared location label. Sa pagsubok gamit ang mga preview build ng Gemini 3.1 Pro, matagumpay na nahikayat ng mga nakatagong tagubilin ang ahente na mag-download at magpatupad ng code mula sa isang server na kontrolado ng mananaliksik. Kapansin-pansin, nabigo ang mga pagtatangkang itago ang mga tagubilin sa loob ng mga imahe, malamang dahil ang mga modernong modelo ng AI ay nakatanggap ng malawak na pagsasanay laban sa mga pag-atake ng prompt injection na nakabatay sa imahe. Gayunpaman, ang mga pag-atake ng message-object ay nananatiling hindi gaanong pamilyar sa mga kasalukuyang modelo.
Nagbabala ang mga mananaliksik na maaaring palakasin ng default na memory functionality ng OpenClaw ang banta. Ang isang malisyosong contact o ibinahaging object na malawakang ipinamamahagi ay maaaring makasira sa maraming ahente kung walang wastong mga kontrol sa sandboxing.
Kasunod ng responsableng pagsisiwalat, inilabas ng OpenClaw ang bersyon 2026.4.23, na naghihiwalay sa mga pangalan ng contact, mga field ng vCard, at mga label ng lokasyon mula sa nilalaman ng prompt sa pamamagitan ng paglalagay ng mga ito sa isang nakalaang hindi mapagkakatiwalaang metadata channel. Napansin din ng mga mananaliksik na lumitaw ang mga katulad na pattern ng disenyo sa iba pang mga personal na AI assistant, na nagpapahiwatig ng isang hamon sa buong industriya sa halip na isang isyu na partikular sa platform.
Ang Pag-usbong ng Agent Phishing
Isang pangalawang proyekto sa pananaliksik ang lumapit sa problema mula sa ibang anggulo: social engineering.
Gumawa ang mga mananaliksik ng isang test agent na pinangalanang Pinchy at ikinonekta ito sa isang Gmail inbox na puno ng makatotohanan ngunit sintetikong komunikasyon sa negosyo at pekeng sensitibong datos. Pagkatapos, nagsagawa ang pangkat ng apat na phishing simulation gamit ang Google Gemini 3.1 Pro at OpenAI Codex GPT-5.4.
Pinag-iba ng pag-aaral ang tradisyonal na prompt injection mula sa inilarawan ng mga mananaliksik bilang 'agent phishing.' Bagama't itinatago ng prompt injection ang mga malisyosong tagubilin sa loob ng data, umaasa naman ang agent phishing sa mga kapani-paniwalang kahilingang inihahatid sa pamamagitan ng mga lehitimong channel ng komunikasyon. Nagtatagumpay ang pag-atake dahil kumikilos ang ahente bago pa man sapat na beripikahin ang pagkakakilanlan ng nagpadala.
Paano Natalo ng Social Engineering ang mga Kontrol sa Seguridad
Ang mga simulation ng phishing ay nagbunga ng mga nakababahalang resulta. Sa kabila ng pagpapatakbo sa ilalim ng mahigpit na mga tagubilin upang beripikahin ang mga pagkakakilanlan ng nagpadala, nabigo ang ahente sa dalawang senaryo ng pag-exfiltration ng data:
Isang mapanlinlang na email na nagpapanggap na pinuno ng koponan ang humiling ng staging access sa panahon ng isang gawa-gawang insidente ng produksyon. Natagpuan at ipinadala ng ahente ang mga pekeng kredensyal ng AWS IAM, mga string ng koneksyon sa database, at mga kredensyal ng SSH sa plain text.
Isang pangalawang email ang humiling ng regular na lingguhang pag-export ng customer para sa isang umano'y quarterly business review presentation. Nagpadala ang ahente ng isang synthetic database na naglalaman ng impormasyon tungkol sa 247 enterprise customer, kabilang ang mga contact at halaga ng kontrata.
Mas mahusay ang naging performance ng ahente nang maharap sa mga teknikal na pag-atake. Natukoy nito ang mga kahina-hinalang phishing website, naiwasan ang paglalantad ng mga lehitimong kredensyal, at kalaunan ay na-flag ang mga malisyosong aktibidad. Sa ilalim ng mas mahigpit na mga setting, ganap na hinarangan ang access sa mga phishing page. Nang ipakita ang isang mapanlinlang na OAuth consent screen na nagbalatkayo bilang isang timesheet application, sinuri ng ahente ang destinasyon ng pag-redirect, natukoy na kahina-hinala ito, at tumangging magbigay ng mga pahintulot.
Napagpasyahan ng mga mananaliksik na ang ahente ay kadalasang mas mahusay kaysa sa mga tao sa pagtukoy ng mga malisyosong URL at pekeng mga login portal. Gayunpaman, nahihirapan ito sa kontekstong panlipunang paghatol, lalo na kapag ang mga kahilingan ay tila nagmumula sa mga pinagkakatiwalaang kasamahan. Ang mismong katangian na nagpapapakinabang sa mga AI assistant, ang pagnanais na maging matulungin, ay lumilikha rin ng isang malaking ibabaw ng pag-atake.
Bagama't nagpakita ng higit na pag-iingat ang OpenAI Codex GPT-5.4 kaysa sa Gemini 3.1 Pro kapag nakikipag-ugnayan sa mga panlabas na site o nagpapadala ng impormasyon, ang parehong sistema ay kalaunan ay naging biktima ng mga senaryo ng social engineering.
Isang Ugat na Sanhi, Maraming Landas ng Pag-atake
Sa kabila ng paggamit ng magkaibang pamamaraan, parehong ginamit ng dalawang pag-atake ang parehong pangunahing kakayahan:
- Pag-access sa pribadong impormasyon.
- Ang kakayahang iproseso ang hindi mapagkakatiwalaang nilalaman.
- Pahintulot na magpadala ng impormasyon sa labas.
Kapag ang mga kakayahang ito ay nagsabay nang walang sapat na kontrol, ang isang malisyosong contact card at isang nakakakumbinsing phishing email ay maaaring magdulot ng parehong resulta: hindi awtorisadong pag-access sa sensitibong data.
Natuklasan ng karagdagang pananaliksik ang mga katulad na problema sa trust-boundary sa loob ng ecosystem ng OpenClaw. Sa pamamagitan ng pag-convert ng mga nakaraang security advisory sa mga static-analysis rule, natukoy ng mga mananaliksik ang limang karagdagang kahinaan na nakakaapekto sa mga integrasyon sa Slack, Discord, Matrix, Zalo, at Microsoft Teams.
Ang bawat kahinaan ay nagmula sa parehong depekto sa disenyo. Ang mga extension ng channel ay umaasa sa mga nababagong display name sa halip na mga permanenteng identifier kapag sinusuri ang mga allowlist. Samakatuwid, maaaring palitan ng pangalan ng isang attacker ang isang account upang tumugma sa isang aprubadong user at makakuha ng impluwensya sa ahente. Simula noon ay inayos na ng OpenClaw ang lahat ng natukoy na isyu.
Lumalaking mga Alalahanin Tungkol sa Malawak na Pahintulot ng Ahente
Simula nang ilunsad ito, ang OpenClaw ay umani ng masusing pagsusuri dahil sa malawak nitong mga pahintulot. Ang platform ay nagbibigay ng access sa mga lokal na file, mga shell environment, at mahigit dalawampung messaging platform, kaya naman ito ay lubos na may kakayahan ngunit lubos ding nalantad.
Ang mga pangamba ay naging sapat na matindi kaya't ang awtoridad sa proteksyon ng datos ng Netherlands, ang Autoriteit Persoonsgegevens, ay nagpayo sa mga indibidwal at organisasyon laban sa pag-deploy ng OpenClaw sa mga sistemang naglalaman ng sensitibong impormasyon. Binanggit ng awtoridad ang mga panganib kabilang ang mga paglabag sa datos at pagkompromiso sa account.
Pagbuo ng Mas Ligtas na Pag-deploy ng Ahente ng AI
Ang mga organisasyong gumagamit ng OpenClaw ay dapat agad na mag-upgrade sa bersyon 2026.4.23 o mas bago upang matugunan ang kahinaan ng message-object. Gayunpaman, bukod sa pag-patch, ang pangmatagalang proteksyon ay nakasalalay sa mga kontrol sa arkitektura sa halip na sa agarang pag-iinhinyero.
Inirerekomenda ng mga espesyalista sa seguridad na ituring ang mga file ng tagubilin ng ahente bilang mga patakarang kontrolado ang bersyon na maaaring ipatupad sa halip na gabay sa pagpapayo. Ang mga papalabas na komunikasyon ay dapat mangailangan ng pag-apruba bago ipadala ang mga mensahe sa mga hindi pamilyar na tatanggap, na binabawasan ang posibilidad ng mga nakompromisong ahente na magkalat ng mga pag-atake sa pamamagitan ng mga pinagkakatiwalaang account. Ang mga pahintulot sa pag-access ay dapat ding nakatali sa pagiging mapagkakatiwalaan ng nagti-trigger na pinagmulan, na tinitiyak na ang mga ahente na nagpoproseso ng mga panlabas na komunikasyon ay hindi maaaring awtomatikong ma-access ang mga mahahalagang sistema tulad ng mga platform sa pamamahala ng relasyon sa customer. Ang mga aksyon na may mataas na panganib, kabilang ang pagbabahagi ng kredensyal at mga transaksyong pinansyal, ay dapat manatiling napapailalim sa pag-apruba ng tao.
Ang Hindi Nalutas na Hamon ng Awtonom na Pagtitiwala
Sa huli, parehong pangkat ng pananaliksik ang nakarating sa iisang konklusyon: Ang mga ahente ng AI ay hindi dapat ituring na mga kasangkapan sa seguridad. Ang mas tumpak na modelo ay ang isang nakababatang empleyado na may malawak na access sa sistema ngunit limitado ang kakayahang makilala ang kahina-hinalang pag-uugali. Ang isa pang kapaki-pakinabang na pananaw ay ang pagtingin sa kanila bilang mga authenticated executor na likas na nagtitiwala sa impormasyong kanilang natatanggap.
Ang kasalukuyang mga pagpapagaan ay nakatuon sa mga patch, guardrail, at mga kontrol sa pag-access. Ngunit ang mas malawak na hamon ay nananatiling hindi pa nalulutas. Ang isang ahente ng AI na may kakayahang magbasa ng mga email, magsagawa ng mga gawain, at kumilos nang nakapag-iisa ay dapat, sa pamamagitan ng disenyo, magtiwala sa mga input at subukang tulungan ang mga gumagamit. Ang komunidad ng cybersecurity ay hindi pa nakakabuo ng isang unibersal na solusyon sa pangunahing tensyong iyon.