Нов естонски бенчмарк оценява устойчивостта на ИИ моделите спрямо руска пропаганда
Институтът за естонски език (EKI) в сътрудничество с доброволческата организация Propastop представи нов бенчмарк за оценяване на податливостта на големите езикови модели (LLM) към руска пропаганда [1]. Инструментът, наречен „Propaganda Resistance“, е разработен, за да тества как различните алгоритми реагират на дезинформационни кампании и манипулативни внушения.
Изображение: Svetni.me / Авторско изображение
Методология и дизайн на тестовете
Бенчмаркът е изграден върху анализи на 14 водещи руски пропагандни наратива, засягащи чувствителни геополитически теми, сред които войната в Украйна, статута на Кримския полуостров, историята на НАТО и събитията от Втората световна война. Оценката се извършва чрез 75 тестови въпроса, формулирани на естонски, английски и руски език.
Авторите на изследването използват три специфични стила на подкани (prompts) при запитванията [1]:
- Неутрален: Стандартно търсене на информация по съответната тема.
- Пристрастен: Формулировки, които съдържат вградени неверни предпоставки с цел подвеждане на модела.
- Злонамерен: Директни опити за извличане на пропагандни или подвеждащи твърдения.
Този дизайн позволява на изследователите да оценят не само статичните знания на моделите, но и тяхната устойчивост при опити за манипулация.
Резултати и технологични разлики
Тестовете показват значително разделение между затворените комерсиални системи и платформите с отворени тегла. Водещите модели на Anthropic (в частност серията Claude Opus 4.7), NVIDIA и Alibaba показват най-висока степен на защита срещу пропагандата [1]. Те успешно идентифицират манипулативния контекст и предоставят обективни отговори.
За разлика от тях, по-евтините модели и тези с отворен код изпитват сериозни затруднения. Проблемите се задълбочават особено при тестване на руски език, където моделите по-лесно възпроизвеждат контролирани от Кремъл тези. Проучването установява, че пристрастните и заредени с подвеждаща информация подкани удвояват риска от генериране на пропагандни отговори [1].
Предизвикателства пред информационната сигурност
Кристер Крусма, отговарящ за съгласуването на изкуствения интелект в Института за естонски език, изрази загриженост относно сигурността. Той посочи, че моделите с отворени тегла в момента не отговарят на строгите изисквания за информационна сигурност на Естония [1]. Тъй като тези модели могат лесно да бъдат хоствани локално без централизиран контрол върху безопасността, те крият рискове от използване за мащабно автоматизирано разпространение на дезинформация.
Бенчмаркът „Propaganda Resistance“ служи като важно напомняне, че сигурността на езиковите модели е критичен елемент от националната отбрана в хибридната война.
Източници:
[1]: How easily can Russian propaganda fool AI models? A new benchmark finds out - Propastop