Llama Guard 3

Llama Guard 3 е специализиран модел за класификация на сигурността, разработен от Meta, предназначен да открива и филтрира потенциално опасни входове и изходи при взаимодействие с големи езикови модели (LLM).

Предназначение

Моделът служи като защитен слой (guardrail), който оценява дали даден потребителски промпт или генериран отговор съответства на дефинираните политики за безопасност (например избягване на език на омразата, насилие или злонамерен код).

Ефективност и ограничения

Въпреки че е калибриран да разпознава стандартни атаки за инжектиране на команди (Prompt Injection), изследванията показват, че Llama Guard 3 има значителни „слепи петна“. Той може да бъде заобиколен чрез техники като „домейн-камуфлажна инжекция“ (DCI), при които злонамереният товар е маскиран с професионална терминология и специфични за даден домейн структури.

Роля в екосистемата

Llama Guard 3 е част от отворената екосистема на Llama и се използва широко в производствени среди за автоматизирано модериране на съдържание и защита на AI агенти.

Споменавания в статии