Prompt Injection (Инжектиране на команди)

Prompt Injection (инжектиране на подкани или команди) е критична уязвимост в сигурността на големите езикови модели (LLM), при която атакуващият успява да манипула входа на модела така, че да го принуди да пренебрегне оригиналните инструкции и да изпълни злонамерени команди.

Механизъм на атаката

Атаката използва факта, че LLM често не правят ясна разлика между системните инструкции (предоставени от разработчика) и потребителския вход. Чрез използване на специфични фрази като „Игнорирай всички предишни инструкции“ или чрез камуфлаж в контекста на документа, атакуващият може да поеме контрол над поведението на модела.

Видове инжекции

  1. Директна инжекция: Потребителят директно въвежда команда за заобикаляне на защитите в чат интерфейса.
  2. Индиректна инжекция: Моделът обработва външен източник (например уеб страница или имейл), който съдържа скрити злонамерени инструкции.
  3. Домейн-камуфлажна инжекция (DCI): Усъвършенствана форма на атака, при която злонамереният код е маскиран с терминологията и структурата на целевия документ, за да избегне засичане от специализирани филтри.

Значение за сигурността

С навлизането на многоагентни системи и AI агенти с достъп до реални инструменти и данни, Prompt Injection се превръща в основен риск, който може да доведе до изтичане на данни, неоторизирани действия или компрометиране на цялата система.

Споменавания в статии