AI Tool Poisoning: Критична уязвимост в сигурността на автономните агенти

Публикувано от Svetni.me Editorial на 10 май 2026 г.

Докато индустрията се фокусира върху защитата на самите AI модели, една по-опасна пролука остава широко отворена: инструментите (tools), които тези агенти използват. Според репортаж на Nik Kale във VentureBeat [1], "AI tool poisoning" (отравяне на инструментите) разкрива фундаментален проблем в начина, по който изграждаме доверие в автономните системи.

Автономните агенти обикновено избират инструменти от споделени регистри, като разчитат на описания на естествен език. Проблемът е, че в момента никой не проверява дали тези описания са верни. Атакуващият може да публикува злонамерен инструмент с описание, което подмамва агента да го избере приоритетно пред легитимни алтернативи – форма на "description injection" (инжектиране в описанието).

Разликата между цялост на артефакта и цялост на поведението

Съществуващите контроли за сигурност, като подписване на код, спецификации за материали (SBOM) и стандартите SLSA [2] и Sigstore [3], се фокусират върху целостта на артефакта (artifact integrity). Те гарантират, че софтуерът е точно това, което твърди, че е, и не е бил подменен.

За AI агентите обаче това е недостатъчно. Те се нуждаят от целост на поведението (behavioral integrity). Един инструмент може да има валиден цифров подпис и чист произход, но въпреки това да съдържа инструкции за инжектиране, които принуждават агента да действа против интересите на потребителя. Друг риск е т.нар. "behavioral drift" (отклонение в поведението), при което инструментът променя сървърното си поведение седмици след като е бил проверен и подписан.

Решението: Прокси за проверка на рантайм

За да се затвори тази пропаст, експертите предлагат внедряването на защитен слой (verification proxy) между агента и неговите инструменти. Този подход, особено в контекста на протокола MCP (Model Context Protocol) [4], включва три ключови валидации при всяко повикване:

  1. Обвързване при откриване (Discovery binding): Гарантира, че инструментът, който се изпълнява, съвпада точно със спецификацията, която агентът е одобрил първоначално.
  2. Списък с разрешени крайни точки (Endpoint allowlisting): Проксито следи мрежових връзки на инструмента и ги прекратява, ако той се опита да се свърже с неоторизиран адрес.
  3. Валидация на изходната схема: Проверява дали отговорът на инструмента не съдържа неочаквани полета или шаблони, характерни за атаки с инжектиране на команди.

Ключовият нов елемент е поведенческата спецификация – машинно четим документ, подобен на Android манифест, който описва точно какво е разрешено на инструмента да прави. Интегрирането на тези контроли е следващата голяма стъпка в еволюцията на сигурността при AI агентите.

Схема на защитно прокси за AI инструменти
Изображение: Авторско изображение чрез Svetni.me / Mermaid.js

Без тях рискуваме да повторим грешките от ранните дни на интернет сигурността, където имахме силни гаранции за идентичност, но никакво реално доверие в поведението на приложенията.

Източници:

[1]: AI tool poisoning exposes a major flaw in enterprise agent security - VentureBeat
[2]: SLSA - Supply-chain Levels for Software Artifacts
[3]: Sigstore - Software Supply Chain Security
[4]: Introduction to Model Context Protocol (MCP)