AI моделите се провалят в спортните залози: Изследването KellyBench разкрива сериозни слабости

Публикувано от Svetni.me Editorial на 16 април 2026 г.

KellyBench: ИИ се проваля в хаотични среди
Изображение: Генерирано чрез Svetni.me AI

Ново изследване, наречено KellyBench, разкрива значителна пропаст между способността на съвременните AI модели да решават теоретични задачи и тяхното представяне в реални, динамични среди [1]. Проучването, проведено от стартъпа General Reasoning, подлага осем водещи AI модела на тест, в който те трябва да управляват бюджет от £100,000 чрез залози на футболния сезон 2023-24 в Английската висша лига [1].

Резултатите са категорични: всеки един от тестваните модели е завършил сезона на загуба, като няколко от тях са достигнали до пълен банкрут. Най-изненадващото откритие е т.нар. „пропаст между знание и действие“ (knowledge-action gap) — моделите са били в състояние перфектно да обяснят математическия Критерий на Кели (формула за определяне на оптималния размер на залога), но са се провалили напълно в прилагането му на практика [1].

Резултати от KellyBench (Средна възвръщаемост)

AI модел	Среден ROI	Краен резултат
Claude Opus 4.6 (Anthropic)	–11.0%	Най-висока „разумност“
GPT-5.4 (OpenAI)	–13.6%	Предпазливи, но губещи залози
Gemini 3.1 Pro (Google)	–43.3%	Висока волатилност
xAI Grok 4.20 (Elon Musk)	–100.0%	Пълен банкрут
Acree Trinity	–100.0%	Пълен банкрут

Резултатите са усреднени на базата на три опита за всеки модел [1].

Защо AI се проваля?

Според Роси Тейлър, главен изпълнителен директор на General Reasoning и бивш изследовател в Meta AI, проблемът се корени в това, че съвременните бенчмаркове са твърде статични [1]. Докато AI моделите вече превъзхождат хората в писането на софтуерен код (затворена и предвидима система), те се „чупят“ в среди с дълъг времеви хоризонт и променящи се променливи.

В случая с Grok 4.20 на xAI, моделът е загубил целия си капитал още при първия опит и не е успял да завърши следващите изпитания [1]. Други модели са демонстрирали абсурдни грешки: например моделът на Moonshot е написал правилен код за изчисление на залозите в своите разсъждения, но никога не е извикал този код при реалното подаване на залога.

Това изследване служи като „студен душ“ за ентусиазма около пълната автоматизация на професии, изискващи дългосрочно стратегическо планиране и реакция в хаотична среда. Оказва се, че в света на спортните залози, AI все още систематично отстъпва дори на опитните хора [1].

Източници:

[1]: AI models are terrible at betting on soccer—especially xAI Grok - Ars Technica