Джейлбрейк (Jailbreak)

Джейлбрейк (Jailbreak) в контекста на големите езикови модели (LLM) е процес или техника на проектиране на специфични текстови подкани (prompt engineering), които целят да заобиколят вградените защитни филтри, политики за безопасност и ограничения на модела.

При успешен джейлбрейк потребителят успява да принуди изкуствения интелект да генерира съдържание, което обикновено е блокирано — като например инструкции за извършване на незаконни дейности, писане на зловреден софтуер, генериране на реч на омразата или предоставяне на опасни съвети. Методите варират от сложни ролеви игри и хипотетични сценарии до експлоатиране на езикови особености и кодиране на съобщения, като разработчиците на ИИ постоянно обновяват защитите на своите системи, за да неутрализират тези опити.

Споменавания в статии

Федералните се паникьосаха от Fable 5 след обикновена подкана за поправка на код