Как да научим ИИ да казва „не съм сигурен“: Новият метод на MIT за борба с фалшивата увереност

Публикувано от Svetni.me Editorial на 22 април 2026 г.

Илюстрация на ИИ модел, оценяващ своята увереност
Изображение: Alex Shipps/MIT CSAIL

Един от най-големите проблеми на съвременните модели с изкуствен интелект не е просто, че грешат, а че го правят с непоколебима увереност. Дори най-способните системи за разсъждение днес често поднасят грешни отговори със същия авторитетен тон, с който съобщават и фактите. Изследователи от Лабораторията за компютърни науки и изкуствен интелект на MIT (CSAIL) обаче са открили начин да коригират това поведение [1].

Техниката, наречена RLCR (Reinforcement Learning with Calibration Rewards), учи езиковите модели да генерират калибрирани оценки за своята увереност паралелно с отговорите си. Вместо просто да „изстрелва“ отговор, моделът се замисля върху своята несигурност и извежда числова оценка. В експерименти с множество бенчмаркове, RLCR намалява грешките в калибрирането с до 90%, без да жертва общата точност на модела.

Проблемът с „бинарното“ обучение

Проблемът се корени в начина, по който се обучават съвременните системи (включително модели като o1 на OpenAI). Традиционните методи за обучение чрез подсилване (Reinforcement Learning) награждават модела за верен отговор и го наказват за грешен. Нищо по средата.

Модел, който достига до верния отговор чрез логика, получава същата награда като този, който просто е познал случайно. С течение на времето това учи моделите да отговарят уверено на всеки въпрос, независимо дали имат доказателства или просто „хвърлят ези-тура“ [1].

„Стандартният подход е прост и мощен, но не дава на модела стимул да изразява несигурност или да каже „не знам““, казва Мехул Дамани, докторант в MIT и съавтор на изследването. „Така моделът естествено се научава да гадае, когато не е сигурен.“

Решението: Оценка на Брайър (Brier score)

RLCR решава това чрез добавяне на нов елемент във функцията за възнаграждение: т.нар. Оценка на Брайър (Brier score). Това е утвърдена статистическа мярка, която наказва разликата между заявената увереност на модела и неговата действителна точност.

При този метод се наказват както самоуверените грешни отговори, така и излишно несигурните правилни отговори. Математически е доказано, че тази структура на възнаграждение гарантира модели, които са едновременно точни и добре калибрирани.

Защо това е критично важно?

Когато ИИ се използва в медицината, правото или финансите, система, която излъчва висока увереност независимо от своята сигурност, става опасна. Модел, който казва „95% съм сигурен“, а е прав само в половината случаи, е по-рисков от такъв, който просто греши, защото потребителят няма сигнал кога да потърси второ мнение.

Екипът на MIT демонстрира, че тези оценки за увереност са практично полезни в реално време. Когато моделът генерира няколко възможни отговора, избирането на този с най-висока самоотчетена увереност значително подобрява крайните резултати.

Работата на изследователите ще бъде представена на Международната конференция по представяне на обучението (ICLR) по-късно този месец [2].

Източници:

[1]: Teaching AI models to say “I’m not sure” - MIT News
[2]: RLCR: Reinforcement Learning with Calibration Rewards - arXiv