AI моделите се провалят в спортните залози: Изследването KellyBench разкрива сериозни слабости

Публикувано от Svetni.me Editorial

Ново изследване, наречено KellyBench, разкрива значителна пропаст между способността на съвременните AI модели да решават теоретични задачи и тяхното представяне в реални, динамични среди [1]. Проучването, проведено от стартъпа General Reasoning, подлага осем водещи AI модела на тест, в който те трябва да управляват бюджет от £100,000 чрез залози на футболния сезон 2023-24 в Английската висша лига [2].

Резултатите са категорични: всеки един от тестваните модели е завършил сезона на загуба, като няколко от тях са достигнали до пълен банкрут. Най-изненадващото откритие е т.нар. „пропаст между знание и действие“ (knowledge-action gap) — моделите са били в състояние перфектно да обяснят математическия Критерий на Кели (формула за определяне на оптималния размер на залога), но са се провалили напълно в прилагането му на практика [1][2].

Резултати от KellyBench (Средна възвръщаемост)

AI модел Среден ROI Краен резултат
Claude Opus 4.6 (Anthropic) –11.0% Най-висока „разумност“
GPT-5.4 (OpenAI) –13.6% Предпазливи, но губещи залози
Gemini 3.1 Pro (Google) –43.3% Висока волатилност
xAI Grok 4.20 (Elon Musk) –100.0% Пълен банкрут
Acree Trinity –100.0% Пълен банкрут

Резултатите са усреднени на базата на три опита за всеки модел [1].

Защо AI се проваля?

Според Роси Тейлър, главен изпълнителен директор на General Reasoning и бивш изследовател в Meta AI, проблемът се корени в това, че съвременните бенчмаркове са твърде статични [1]. Докато AI моделите вече превъзхождат хората в писането на софтуерен код (затворена и предвидима система), те се „чупят“ в среди с дълъг времеви хоризонт и променящи се променливи.

В случая с Grok 4.20 на xAI, моделът е загубил целия си капитал още при първия опит и не е успял да завърши следващите изпитания [1]. Други модели, като Kimi K2.5, са демонстрирали абсурдни грешки: въпреки че са написали правилен код за изчисление на залозите в своите разсъждения, те никога не са извикали този код при реалното подаване на залога [2].

Това изследване служи като „студен душ“ за ентусиазма около пълната автоматизация на професии, изискващи дългосрочно стратегическо планиране и реакция в хаотична среда. Оказва се, че в света на спортните залози, AI все още систематично отстъпва дори на опитните хора [1].

Източници:

[1]: AI models are terrible at betting on soccer—especially xAI Grok - Ars Technica
[2]: KellyBench Official Study - General Reasoning