Вярна неопределеност: Как Google учи езиковите модели да казват „Не знам“
Справянето с халюцинациите при големите езикови модели остава едно от най-сериозните препятствия пред внедряването на изкуствен интелект в реалния бизнес. Досегашните опити за намаляване на тези грешки обаче налагат сериозни ограничения, принуждавайки моделите да отказват отговори дори на въпроси, които всъщност знаят.
В нов научен труд изследователи от Google предлагат изход от това ограничение чрез концепцията за вярна неопределеност (faithful uncertainty) [1], [2]. Този метакогнитивен метод синхронизира думите, които моделът използва за изразяване на съмнение, с неговата реална вътрешна статистическа увереност в отговора [1].
Авторско изображение: Класически подход (Данък полезност) срещу Вярна неопределеност
Данъкът върху полезността (Utility Tax)
Когато разработчиците налагат строги филтри срещу халюцинации, те принуждават ИИ да работи в двоичен режим: „отговори или замълчи“. Това създава т.нар. „данък полезност“ (utility tax). За да се намали процентът на грешките от 25% на 5%, разработчиците често са принудени да отхвърлят до 52% от напълно верните отговори на модела, тъй като той се презастрахова при най-малкото съмнение [1].
Google предлага промяна в тази дефиниция. Вместо всяка фактическа грешка да се счита за халюцинация, изследователите дефинират халюцинациите единствено като „самоуверени грешки“ — грешна информация, поднесена авторитетно и без резерви [1].
Ако моделът направи грешка, но я придружи с думи като „Не съм напълно сигурен, но мисля, че...“, това не е халюцинация, а хипотеза. По този начин ИИ запазва полезността си за потребителя, без да нарушава доверието му.
Ползи за автономните агенти
Вълната от развитие на ИИ агенти изисква прецизна самооценка. Метапознанието се превръща в основен контролен слой. Без вярна неопределеност агентите „летят сляпо“ — те или губят време и ресурси да търсят в мрежата информация, която вече знаят, или уверено генерират грешни отговори от паметта си, вместо да задействат външен инструмент за търсене [1].
Чрез вярната неопределеност ИИ може динамично да оптимизира работата си: той се обръща към външни API или бази данни само когато неговата вътрешна статистическа увереност падне под определен праг. Освен това, методът му помага да оценява критично намерените в интернет резултати, съпоставяйки ги със собствените си вътрешни знания [1].
Парадоксът на самоподдържането (Bootstrapping Paradox)
Внедряването на тази технология в реални условия обаче е предизвикателство. При стандартното обучение моделите се хранят главно с категорични и авторитетни текстове, което означава, че те трябва тепърва да бъдат обучавани на синтаксиса на съмнението.
Това създава „парадокса на самоподдържането“: правилното изразяване на неопределеност зависи изцяло от това какво знае конкретният модел в даден момент на обучение, което го прави движеща се и силно динамична мишена за статичните масиви от данни [1].
Като първа достъпна стъпка за разработчиците, изследователите препоръчват използването на метакогнитивни шаблони за подкана (prompting) чрез отворени библиотеки като MetaFaith [1]. В дългосрочен план обаче пълното интегриране на това самосъзнание ще изисква внедряването на специализирано обучение с подкрепление (Reinforcement Learning) директно в ядрото на езиковите модели [1].
Източници:
[1]: Google researchers introduce 'faithful uncertainty,' allowing LLMs to offer best guesses instead of hallucinations - VentureBeat
[2]: Faithful Uncertainty: Hedging in the Long Tail - arXiv