Слепи петна в защитата: Нови атаки заобикалят филтрите на AI агенти
Според научно изследване, публикувано в arXiv [1], съвременните детектори за злонамерени команди в големи езикови модели (LLM) страдат от систематично „сляпо петно“. Нова техника, наречена „домейн-камуфлажна инжекция“ (DCI), позволява на атакуващите да заобикалят защитите, като маскират злонамерения товар с терминологията и структурата на целевия документ.
Провалът на стандартните детектори
Традиционните системи за защита са калибрирани да разпознават статични, лесно забележими шаблони на инжекции, които директно изискват пренебрегване на инструкциите. Изследователят Аадитя Пай демонстрира, че когато злонамереният код е интегриран естествено в контекста – например използвайки специфичен финансов или правен език – ефективността на защитата се срива драстично.
Изображение: Svetni.me / Авторско изображение
При тестове с модела Llama 3.1 8B, нивото на засичане пада от 93.8% при стандартни атаки до едва 9.7% при камуфлажни. Ситуацията е сходна и при Gemini 2.0 Flash, където защитата спада от перфектните 100% до 55.6% [1].
Уязвимост на специализираните филтри
Особено притеснителен е фактът, че дори специализирани класификатори за сигурност като Llama Guard 3 се провалят напълно срещу новата атака. В рамките на изследването Llama Guard 3 не е успял да идентифицира нито една камуфлажна инжекция, класифицирайки ги като безопасни с висока степен на увереност [2].
Този феномен, формализиран като „Camouflage Detection Gap“ (CDG), подчертава, че проблемът не е в липсата на увереност на модела, а в архитектурна неспособност да се разграничи легитимният професионален контекст от злонамерените инструкции.
Опасност за многоагентните системи
Изследването разкрива и друг критичен аспект: многоагентните системи, базирани на дебати между няколко AI агента, могат парадоксално да усилят статичните атаки до 9.9 пъти при по-малките модели. Докато по-мощните модели показват колективна устойчивост, при по-слабите сътрудничеството между агентите улеснява разпространението на злонамерения код вместо неговото филтриране [1].
Въпреки че екипът предлага частични методи за подобряване на детекторите, резултатите показват, че пълното решаване на проблема изисква нови архитектурни подходи към сигурността на агентите, а не просто допълнително обучение на съществуващите филтри.
Източници:
[1]: Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems - arXiv
[2]: Blind Spots in the Guard: Research Summary - arXiv