AI моделите се провалят в спортните залози: Изследването KellyBench разкрива сериозни слабости
Ново изследване, наречено KellyBench, разкрива значителна пропаст между способността на съвременните AI модели да решават теоретични задачи и тяхното представяне в реални, динамични среди [1]. Проучването, проведено от стартъпа General Reasoning, подлага осем водещи AI модела на тест, в който те трябва да управляват бюджет от £100,000 чрез залози на футболния сезон 2023-24 в Английската висша лига [2].
Резултатите са категорични: всеки един от тестваните модели е завършил сезона на загуба, като няколко от тях са достигнали до пълен банкрут. Най-изненадващото откритие е т.нар. „пропаст между знание и действие“ (knowledge-action gap) — моделите са били в състояние перфектно да обяснят математическия Критерий на Кели (формула за определяне на оптималния размер на залога), но са се провалили напълно в прилагането му на практика [1][2].
Резултати от KellyBench (Средна възвръщаемост)
| AI модел | Среден ROI | Краен резултат |
|---|---|---|
| Claude Opus 4.6 (Anthropic) | –11.0% | Най-висока „разумност“ |
| GPT-5.4 (OpenAI) | –13.6% | Предпазливи, но губещи залози |
| Gemini 3.1 Pro (Google) | –43.3% | Висока волатилност |
| xAI Grok 4.20 (Elon Musk) | –100.0% | Пълен банкрут |
| Acree Trinity | –100.0% | Пълен банкрут |
Резултатите са усреднени на базата на три опита за всеки модел [1].
Защо AI се проваля?
Според Роси Тейлър, главен изпълнителен директор на General Reasoning и бивш изследовател в Meta AI, проблемът се корени в това, че съвременните бенчмаркове са твърде статични [1]. Докато AI моделите вече превъзхождат хората в писането на софтуерен код (затворена и предвидима система), те се „чупят“ в среди с дълъг времеви хоризонт и променящи се променливи.
В случая с Grok 4.20 на xAI, моделът е загубил целия си капитал още при първия опит и не е успял да завърши следващите изпитания [1]. Други модели, като Kimi K2.5, са демонстрирали абсурдни грешки: въпреки че са написали правилен код за изчисление на залозите в своите разсъждения, те никога не са извикали този код при реалното подаване на залога [2].
Това изследване служи като „студен душ“ за ентусиазма около пълната автоматизация на професии, изискващи дългосрочно стратегическо планиране и реакция в хаотична среда. Оказва се, че в света на спортните залози, AI все още систематично отстъпва дори на опитните хора [1].
Източници:
[1]: AI models are terrible at betting on soccer—especially xAI Grok - Ars Technica
[2]: KellyBench Official Study - General Reasoning