Ред тийминг

Ред тиймингът (Red-teaming) е систематичен процес на симулиране на противникови атаки срещу системи с изкуствен интелект (ИИ) с цел идентифициране на пропуски в сигурността, уязвимости за взлом (jailbreak) и нежелано поведение на моделите.

Значение при ИИ

При големите езикови модели (LLM) и генераторите на изображения, ред тиймингът включва създаване на подвеждащи подкани (prompts), които карат модела да наруши собствените си правила за безопасност и да генерира вредно съдържание (насилие, порнография, реч на омразата).

Методология

Процесът се провежда от независими изследователи по сигурността, външни организации или специализирани стартъпи (като Mindgard). Резултатите от тези симулации помагат на разработчици като OpenAI и Google да подобряват филтрите и алгоритмите си за защита.

Споменавания в статии

Заобикаляне на защитите в ChatGPT позволява генериране на насилие и сексуални изображения

Ред тийминг

Значение при ИИ

Методология

Свързани концепции

Споменавания в статии