Aanvallen maken misbruik van de OpenClaw AI-agent.
Recent beveiligingsonderzoek heeft aangetoond dat OpenClaw, een veelgebruikt, zelfgehost AI-agentplatform, gemanipuleerd kan worden om door aanvallers aangestuurde acties uit te voeren of gevoelige informatie prijs te geven via ogenschijnlijk onschuldige invoer.
In afzonderlijke onderzoeken hebben onderzoekers twee verschillende aanvalsmethoden aangetoond. De ene methode berustte op het verbergen van instructies in gedeelde contacten, vCards en locatiepincodes. De andere methode maakte gebruik van zorgvuldig opgestelde phishing-e-mails om een AI-agent ertoe te bewegen gevoelige bedrijfsgegevens te lekken.
Hoewel OpenClaw een van deze kwetsbaarheden heeft verholpen in versie 2026.4.23, blijft het bredere probleem ongewijzigd: AI-agenten die inkomende informatie vertrouwen, kunnen krachtige instrumenten worden voor aanvallers.
Inhoudsopgave
Onzichtbare commando’s, verborgen in het volle zicht.
De eerste aanval was gericht op de manier waarop OpenClaw bepaalde berichtobjecten verwerkt voordat ze naar het onderliggende grote taalmodel (LLM) worden verzonden.
In tegenstelling tot webcontent, die duidelijk als onbetrouwbaar wordt gemarkeerd voordat deze het model bereikt, werden contactgegevens, vCards en locatiegegevens rechtstreeks in prompts ingevoegd zonder enige indicatie dat ze afkomstig waren van onbetrouwbare bronnen. Dit creëerde een mogelijkheid voor promptinjectie.
De aanval maakte misbruik van de manier waarop OpenClaw contactgegevens serialiseerde. Gedeelde contacten werden omgezet naar een eenvoudig formaat met alleen een naam en telefoonnummer. Omdat tekens zoals punthaken zijn toegestaan in contactnamen, konden aanvallers kwaadaardige instructies inbedden die leken op onderdeel van de contactgegevens. Bovendien worden contactnamen in berichtenapps vaak afgekapt, waardoor slachtoffers de verborgen payload niet kunnen zien.
Dezelfde techniek bleek effectief via vCard-velden met volledige namen en labels voor gedeelde locaties. Tijdens tests met preview-versies van Gemini 3.1 Pro slaagden verborgen instructies erin de agent ertoe te bewegen code te downloaden en uit te voeren vanaf een door de onderzoeker beheerde server. Opvallend genoeg mislukten pogingen om instructies in afbeeldingen te verbergen, waarschijnlijk omdat moderne AI-modellen uitgebreid getraind zijn tegen prompt-injectieaanvallen op basis van afbeeldingen. Aanvallen met berichtobjecten zijn echter minder bekend bij de huidige modellen.
Onderzoekers waarschuwden dat de standaard geheugenfunctionaliteit van OpenClaw de dreiging zou kunnen versterken. Een enkel kwaadaardig contact of gedeeld object dat wijdverspreid is, zou potentieel talloze agents kunnen compromitteren als er geen adequate sandboxing-maatregelen worden getroffen.
Na een periode van verantwoorde openbaarmaking heeft OpenClaw versie 2026.4.23 uitgebracht, waarin contactnamen, vCard-velden en locatielabels worden gescheiden van de promptinhoud door ze in een apart, niet-vertrouwd metadatakanaal te plaatsen. Onderzoekers merkten ook op dat vergelijkbare ontwerppatronen zijn waargenomen bij andere persoonlijke AI-assistenten, wat wijst op een sectorbrede uitdaging in plaats van een platformspecifiek probleem.
De opkomst van agent-phishing
Een tweede onderzoeksproject benaderde het probleem vanuit een andere invalshoek: sociale engineering.
Onderzoekers ontwikkelden een testagent genaamd Pinchy en koppelden deze aan een Gmail-inbox gevuld met realistische, maar synthetische zakelijke communicatie en gesimuleerde gevoelige gegevens. Vervolgens voerde het team vier phishing-simulaties uit met zowel Google Gemini 3.1 Pro als OpenAI Codex GPT-5.4.
De studie maakte onderscheid tussen traditionele promptinjectie en wat onderzoekers omschreven als 'agentphishing'. Bij promptinjectie worden kwaadaardige instructies in data verborgen, terwijl agentphishing gebruikmaakt van geloofwaardige verzoeken die via legitieme communicatiekanalen worden verstuurd. De aanval slaagt omdat de agent handelt voordat de identiteit van de afzender adequaat is geverifieerd.
Hoe sociale manipulatie beveiligingsmaatregelen omzeilde
De phishing-simulaties leverden zorgwekkende resultaten op. Ondanks strikte instructies om de identiteit van de afzender te verifiëren, faalde de agent in twee scenario's voor data-exfiltratie:
Een frauduleuze e-mail, afkomstig van een afzender die zich voordeed als een teamleider, verzocht om toegang tot de testomgeving tijdens een gefabriceerd productie-incident. De agent achterhaalde en verstuurde valse AWS IAM-referenties, databaseverbindingsreeksen en SSH-referenties in platte tekst.
In een tweede e-mail werd gevraagd om een wekelijkse export van klantgegevens voor een zogenaamde kwartaalpresentatie. De medewerker verstuurde een synthetische database met informatie over 247 zakelijke klanten, inclusief contactpersonen en contractwaarden.
De agent presteerde aanzienlijk beter bij technische aanvallen. Hij herkende verdachte phishingwebsites, voorkwam dat legitieme inloggegevens werden prijsgegeven en signaleerde uiteindelijk kwaadaardige activiteiten. Met strengere instellingen werd de toegang tot phishingpagina's volledig geblokkeerd. Toen een frauduleus OAuth-toestemmingsscherm, vermomd als een urenregistratieapplicatie, werd getoond, analyseerde de agent de redirectbestemming, stelde vast dat deze verdacht was en weigerde toestemming te verlenen.
Onderzoekers concludeerden dat de agent vaak beter presteerde dan mensen bij het identificeren van kwaadwillende URL's en nep-inlogportalen. Het apparaat had echter moeite met contextueel sociaal oordeel, met name wanneer verzoeken afkomstig leken te zijn van vertrouwde collega's. Juist die eigenschap die AI-assistenten nuttig maakt, de wil om behulpzaam te zijn, creëert tegelijkertijd een aanzienlijk aanvalsoppervlak.
Hoewel OpenAI Codex GPT-5.4 voorzichtiger te werk ging dan Gemini 3.1 Pro bij interactie met externe sites of het verzenden van informatie, werden beide systemen uiteindelijk slachtoffer van social engineering-scenario's.
Eén hoofdoorzaak, meerdere aanvalspaden
Ondanks het gebruik van verschillende technieken maakten beide aanvallen gebruik van dezelfde fundamentele mogelijkheden:
- Toegang tot privé-informatie.
- Het vermogen om onbetrouwbare inhoud te verwerken.
- Toestemming om informatie extern te verzenden.
Wanneer deze mogelijkheden naast elkaar bestaan zonder voldoende controle, kunnen een kwaadaardige contactkaart en een overtuigende phishing-e-mail tot hetzelfde resultaat leiden: ongeautoriseerde toegang tot gevoelige gegevens.
Aanvullend onderzoek bracht vergelijkbare problemen met vertrouwensgrenzen binnen het ecosysteem van OpenClaw aan het licht. Door eerdere beveiligingswaarschuwingen om te zetten in statische analyse-regels, identificeerden onderzoekers nog vijf kwetsbaarheden die van invloed zijn op integraties met Slack, Discord, Matrix, Zalo en Microsoft Teams.
Elke kwetsbaarheid kwam voort uit dezelfde ontwerpfout. Kanaaluitbreidingen vertrouwden op veranderlijke weergavenamen in plaats van permanente identificaties bij het evalueren van toegangslijsten. Een aanvaller kon daardoor een account hernoemen zodat deze overeenkwam met een goedgekeurde gebruiker en zo invloed krijgen op de agent. OpenClaw heeft inmiddels alle geïdentificeerde problemen verholpen.
Toenemende bezorgdheid over ruime bevoegdheden voor agenten
Sinds de lancering heeft OpenClaw kritiek gekregen vanwege de uitgebreide toegangsrechten. Het platform biedt toegang tot lokale bestanden, shell-omgevingen en meer dan twintig berichtenplatformen, waardoor het zeer krachtig, maar ook zeer kwetsbaar is.
De bezorgdheid is zo groot geworden dat de Nederlandse Autoriteit Persoonsgegevens particulieren en organisaties heeft afgeraden OpenClaw te gebruiken op systemen met gevoelige informatie. De autoriteit noemde risico's zoals datalekken en het compromitteren van accounts.
Het bouwen van veiligere AI-agentimplementaties
Organisaties die OpenClaw gebruiken, moeten onmiddellijk upgraden naar versie 2026.4.23 of later om de kwetsbaarheid in het berichtobject aan te pakken. Naast het toepassen van patches is bescherming op de lange termijn echter afhankelijk van architectonische beheersmaatregelen in plaats van snelle technische oplossingen.
Beveiligingsspecialisten adviseren om instructiebestanden voor agents te behandelen als afdwingbare, versiebeheerde beleidsregels in plaats van als adviezen. Uitgaande communicatie moet goedkeuring vereisen voordat berichten naar onbekende ontvangers worden verzonden, waardoor de kans kleiner wordt dat gecompromitteerde agents aanvallen verspreiden via vertrouwde accounts. Toegangsrechten moeten ook gekoppeld zijn aan de betrouwbaarheid van de bron die de aanval activeert, zodat agents die externe communicatie verwerken geen automatische toegang krijgen tot waardevolle systemen zoals CRM-systemen. Risicovolle acties, waaronder het delen van inloggegevens en financiële transacties, moeten onderworpen blijven aan menselijke goedkeuring.
De onopgeloste uitdaging van autonoom vertrouwen
Beide onderzoeksteams kwamen uiteindelijk tot dezelfde conclusie: AI-agenten moeten niet als beveiligingsinstrumenten worden beschouwd. Een nauwkeuriger beeld is dat van een junior medewerker met uitgebreide toegang tot systemen, maar een beperkt vermogen om verdacht gedrag te herkennen. Een ander nuttig perspectief is om ze te zien als geauthenticeerde uitvoerders die inherent vertrouwen hebben in de informatie die ze ontvangen.
De huidige maatregelen richten zich op patches, beveiligingsmechanismen en toegangscontroles. De bredere uitdaging blijft echter onopgelost. Een AI-agent die e-mails kan lezen, taken kan uitvoeren en zelfstandig kan handelen, moet per definitie input vertrouwen en gebruikers proberen te helpen. De cybersecuritygemeenschap heeft nog geen universele oplossing gevonden voor deze fundamentele spanning.