Prompt Injection (Инжектиране на команди)

Prompt Injection (инжектиране на подкани или команди) е критична уязвимост в сигурността на големите езикови модели (LLM), при която атакуващият успява да манипула входа на модела така, че да го принуди да пренебрегне оригиналните инструкции и да изпълни злонамерени команди.

Механизъм на атаката

Атаката използва факта, че LLM често не правят ясна разлика между системните инструкции (предоставени от разработчика) и потребителския вход. Чрез използване на специфични фрази като „Игнорирай всички предишни инструкции“ или чрез камуфлаж в контекста на документа, атакуващият може да поеме контрол над поведението на модела.

Видове инжекции

Директна инжекция: Потребителят директно въвежда команда за заобикаляне на защитите в чат интерфейса.
Индиректна инжекция: Моделът обработва външен източник (например уеб страница или имейл), който съдържа скрити злонамерени инструкции.
Домейн-камуфлажна инжекция (DCI): Усъвършенствана форма на атака, при която злонамереният код е маскиран с терминологията и структурата на целевия документ, за да избегне засичане от специализирани филтри.

Значение за сигурността

С навлизането на многоагентни системи и AI агенти с достъп до реални инструменти и данни, Prompt Injection се превръща в основен риск, който може да доведе до изтичане на данни, неоторизирани действия или компрометиране на цялата система.

Prompt Injection (Инжектиране на команди)

Механизъм на атаката

Видове инжекции

Значение за сигурността

Свързани концепции

Споменавания в статии