Атаки використовують OpenClaw AI Agent
Нещодавні дослідження в галузі безпеки показали, що OpenClaw, широко використовувана платформа самостійно розміщених агентів штучного інтелекту, може бути маніпульована для виконання дій, контрольованих зловмисником, або розкриття конфіденційної інформації через, здавалося б, нешкідливі вхідні дані.
В окремих розслідуваннях дослідники продемонстрували два різні методи атаки. Один спирався на вбудовування прихованих інструкцій у спільні контакти, vCards та pin-коди місцезнаходження. Інший використовував ретельно розроблені фішингові електронні листи, щоб переконати агента штучного інтелекту вилити конфіденційну бізнес-інформацію.
Хоча OpenClaw вирішив одну з цих вразливостей у версії 2026.4.23, ширша проблема залишається незмінною: агенти штучного інтелекту, які довіряють вхідній інформації, можуть стати потужними інструментами для зловмисників.
Зміст
Невидимі команди, приховані у всіх на виду
Перша атака була спрямована на те, як OpenClaw обробляє певні об'єкти повідомлень перед тим, як відправити їх до базової великої мовної моделі (LLM).
На відміну від веб-контенту, який чітко позначено як ненадійний ще до того, як він потрапив до моделі, записи контактів, vCards та мітки місцезнаходження вставлялися безпосередньо в запити без жодних ознак того, що вони походять з ненадійних джерел. Це створювало можливість для впровадження запитів.
Атака використовувала спосіб, у який OpenClaw серіалізував контактну інформацію. Спільні контакти були перетворені на простий формат, що містить лише ім'я та номер телефону. Оскільки в іменах контактів дозволено використовувати такі символи, як кутові дужки, зловмисники могли вбудовувати шкідливі інструкції, які виглядали як частина контактної інформації. Крім того, імена контактів часто обрізаються в програмах обміну повідомленнями, що не дозволяє жертвам бачити приховане корисне навантаження.
Той самий метод виявився ефективним за допомогою полів повного імені vCard та спільних міток місцезнаходження. Під час тестування з попередніми збірками Gemini 3.1 Pro приховані інструкції успішно переконали агента завантажити та виконати код із сервера, контрольованого дослідником. Цікаво, що спроби приховати інструкції в зображеннях зазнали невдачі, ймовірно, тому, що сучасні моделі штучного інтелекту пройшли ретельне навчання проти атак на основі впровадження запитів на основі зображень. Однак атаки на об'єкти повідомлень залишаються менш знайомими для сучасних моделей.
Дослідники попереджають, що функціональність пам'яті OpenClaw за замовчуванням може посилити загрозу. Один шкідливий контакт або спільний об'єкт, поширений на великій відстані, може потенційно поставити під загрозу численні агенти, якщо відсутні належні засоби контролю пісочниці.
Після відповідального розкриття інформації, OpenClaw випустила версію 2026.4.23, яка відокремлює імена контактів, поля vCard та мітки місцезнаходження від вмісту запиту, розміщуючи їх у спеціальному ненадійному каналі метаданих. Дослідники також зазначили, що подібні шаблони проектування з'явилися в інших персональних помічниках зі штучним інтелектом, що вказує на проблему, характерну для всієї галузі, а не на проблему, характерну для певної платформи.
Зростання популярності фішингу агентів
Другий дослідницький проєкт підійшов до проблеми з іншого боку: за допомогою соціальної інженерії.
Дослідники створили тестового агента під назвою Pinchy та підключили його до поштової скриньки Gmail, заповненої реалістичними, але штучними бізнес-повідомленнями та імітацією конфіденційних даних. Потім команда провела чотири симуляції фішингу, використовуючи Google Gemini 3.1 Pro та OpenAI Codex GPT-5.4.
Дослідження розрізняє традиційне промовисте впровадження (short insert) від того, що дослідники описали як «фішинг агента». У той час як промовисте впровадження приховують шкідливі інструкції всередині даних, фішинг агента спирається на правдоподібні запити, що надсилаються через законні канали зв'язку. Атака успішна, оскільки агент діє до того, як належним чином перевірить особу відправника.
Як соціальна інженерія перемогла засоби контролю безпеки
Фішингові симуляції дали тривожні результати. Незважаючи на те, що агент працював відповідно до суворих інструкцій щодо перевірки особи відправника, він не зміг виконати два сценарії витоку даних:
Шахрайський електронний лист, в якому видавали себе за керівника команди, містив запит на доступ до проміжної зони під час сфабрикованого інциденту у виробничому середовищі. Агент знайшов та переслав фіктивні облікові дані AWS IAM, рядки підключення до бази даних та облікові дані SSH у звичайному тексті.
У другому електронному листі містився запит на звичайний щотижневий експорт даних клієнтів для нібито щоквартальної презентації огляду бізнесу. Агент передав синтетичну базу даних, що містила інформацію про 247 корпоративних клієнтів, включаючи контакти та вартість контрактів.
Агент значно краще справлявся з технічними атаками. Він розпізнавав підозрілі фішингові веб-сайти, уникав розкриття законних облікових даних і зрештою позначав шкідливу активність. За суворіших налаштувань доступ до фішингових сторінок повністю блокувався. Коли агент бачив шахрайський екран згоди OAuth, замаскований під додаток табеля робочого часу, він аналізував місце призначення перенаправлення, визначав, що воно підозріле, і відмовлявся надавати дозволи.
Дослідники дійшли висновку, що агент часто перевершує людей у виявленні шкідливих URL-адрес та фальшивих порталів входу. Однак він мав проблеми з контекстуальною соціальною оцінкою, особливо коли запити, здавалося, надходили від довірених колег. Сама характеристика, яка робить помічників зі штучним інтелектом корисними, – бажання бути корисним – також створює значну поверхню для атаки.
Хоча OpenAI Codex GPT-5.4 продемонстрував більшу обережність, ніж Gemini 3.1 Pro, під час взаємодії із зовнішніми сайтами або передачі інформації, обидві системи зрештою стали жертвами сценаріїв соціальної інженерії.
Одна корінна причина, кілька шляхів атаки
Незважаючи на використання різних методів, обидві атаки використовували однакові фундаментальні можливості:
- Доступ до приватної інформації.
- Здатність обробляти ненадійний контент.
- Дозвіл на надсилання інформації назовні.
Коли ці можливості співіснують без достатнього контролю, шкідлива картка контакту та переконливий фішинговий електронний лист можуть призвести до одного й того ж результату: несанкціонованого доступу до конфіденційних даних.
Додаткові дослідження виявили аналогічні проблеми з межами довіри в екосистемі OpenClaw. Перетворивши попередні рекомендації щодо безпеки на правила статичного аналізу, дослідники виявили ще п'ять вразливостей, що впливають на інтеграцію зі Slack, Discord, Matrix, Zalo та Microsoft Teams.
Кожна вразливість випливала з одного й того ж недоліку в проектуванні. Розширення каналів покладалися на змінні відображувані імена, а не на постійні ідентифікатори під час оцінки білих списків. Таким чином, зловмисник міг перейменувати обліковий запис, щоб він відповідав затвердженому користувачеві, та отримати вплив на агента. OpenClaw з того часу виправив усі виявлені проблеми.
Зростаюча стурбованість щодо широких дозволів агентів
З моменту свого запуску OpenClaw привернув увагу через свої широкі дозволи. Платформа надає доступ до локальних файлів, середовищ оболонки та понад двадцяти платформ обміну повідомленнями, що робить її дуже потужною, але також і дуже вразливою.
Занепокоєння стало настільки серйозним, що голландський орган із захисту даних, Autoriteit Persoonsgegevens, порадив окремим особам та організаціям утриматися від розгортання OpenClaw на системах, що містять конфіденційну інформацію. Орган посилався на ризики, включаючи витік даних та компрометацію облікових записів.
Створення безпечніших розгортань агентів штучного інтелекту
Організаціям, що використовують OpenClaw, слід негайно оновити його до версії 2026.4.23 або пізнішої, щоб усунути вразливість об'єкта повідомлень. Однак, окрім встановлення виправлень, довгостроковий захист залежить від архітектурних засобів контролю, а не від оперативної розробки.
Фахівці з безпеки рекомендують розглядати файли інструкцій агентів як обов'язкові політики з контролем версій, а не як консультативні вказівки. Вихідні повідомлення повинні вимагати схвалення перед надсиланням повідомлень незнайомим одержувачам, що зменшує ймовірність поширення атак через довірені облікові записи скомпрометованими агентами. Дозволи на доступ також повинні бути пов'язані з надійністю джерела ініціювання, гарантуючи, що агенти, що обробляють зовнішні повідомлення, не можуть автоматично отримувати доступ до цінних систем, таких як платформи управління взаємовідносинами з клієнтами. Дії з високим рівнем ризику, включаючи обмін обліковими даними та фінансові транзакції, повинні залишатися предметом схвалення людиною.
Невирішена проблема автономної довіри
Обидві дослідницькі групи зрештою дійшли одного й того ж висновку: агентів штучного інтелекту не слід розглядати як інструменти безпеки. Більш точною є модель молодшого співробітника з широким доступом до системи, але обмеженою здатністю розпізнавати підозрілу поведінку. Інша корисна перспектива полягає в тому, щоб розглядати їх як автентифікованих виконавців, які за своєю суттю довіряють отриманій інформації.
Поточні заходи щодо пом'якшення наслідків зосереджені на виправленнях, захисних захисних елементах та контролі доступу. Однак ширша проблема залишається невирішеною. Агент штучного інтелекту, здатний читати електронні листи, виконувати завдання та діяти самостійно, повинен за своєю природою довіряти вхідним даним та намагатися допомагати користувачам. Спільнота кібербезпеки ще не розробила універсального рішення для цієї фундаментальної суперечності.