Prompt Injection (Инжектиране на команди)
Prompt Injection (инжектиране на подкани или команди) е критична уязвимост в сигурността на големите езикови модели (LLM), при която атакуващият успява да манипула входа на модела така, че да го принуди да пренебрегне оригиналните инструкции и да изпълни злонамерени команди.
Механизъм на атаката
Атаката използва факта, че LLM често не правят ясна разлика между системните инструкции (предоставени от разработчика) и потребителския вход. Чрез използване на специфични фрази като „Игнорирай всички предишни инструкции“ или чрез камуфлаж в контекста на документа, атакуващият може да поеме контрол над поведението на модела.
Видове инжекции
- Директна инжекция: Потребителят директно въвежда команда за заобикаляне на защитите в чат интерфейса.
- Индиректна инжекция: Моделът обработва външен източник (например уеб страница или имейл), който съдържа скрити злонамерени инструкции.
- Домейн-камуфлажна инжекция (DCI): Усъвършенствана форма на атака, при която злонамереният код е маскиран с терминологията и структурата на целевия документ, за да избегне засичане от специализирани филтри.
Значение за сигурността
С навлизането на многоагентни системи и AI агенти с достъп до реални инструменти и данни, Prompt Injection се превръща в основен риск, който може да доведе до изтичане на данни, неоторизирани действия или компрометиране на цялата система.