Златният стандарт на ИИ: MIT пусна най-голямата база с олимпийска математика
Напредъкът на изкуствения интелект в областта на езика е безспорен, но неговите способности за задълбочено логическо и математическо разсъждение остават обект на ожесточени дебати. Сега учени от Лабораторията за компютърни науки и изкуствен интелект на MIT (MIT CSAIL) представиха нов „златен стандарт“, който може да даде окончателен отговор на въпроса колко умен е всъщност ИИ [1].
Наречен MathNet, проектът представлява най-голямата в света отворена колекция от математически задачи на олимпийско ниво. С над 30 000 задачи, събрани от официални национални състезания в 47 държави, MathNet е пет пъти по-голям от всеки съществуващ досега подобен бенчмарк.

Изображение: Генерирано чрез Svetni.me AI
Глобален мащаб и културно разнообразие
За разлика от досегашните набори от данни, които се фокусираха почти изключително върху САЩ и Китай, MathNet обхваща задачи на 17 езика – от румънска комбинаторика до бразилска теория на числата. Това разнообразие е критично за бенчмаркинга на ИИ, тъй като тества способността на моделите да разпознават фундаментални математически структури независимо от езиковата нотация [1].
Базата данни включва и подробни, рецензирани от експерти решения, които често се простират на няколко страници – ниво на детайлност, което липсва в по-ранните масиви от данни.
Предизвикателство дори за гигантите
Първоначалните тестове показват, че дори най-мощните съвременни модели, като GPT-5, се затрудняват сериозно. ИИ проваля близо една на всеки три задачи (33%), особено в случаите, които изискват визуален анализ на геометрични фигури или работа с по-рядко срещани езици като монголски [1].
„Това не е просто тест за запаметяване, а за структурно мислене“, споделя Рейчъл Гордън от MIT CSAIL. Според изследователите, MathNet въвежда нови метрики за „извличане“ (retrieval), проверявайки дали моделът може да идентифицира кога две задачи споделят една и съща математическа логика, въпреки че изглеждат коренно различно.
Пътят към AGI
Създаването на MathNet е важна стъпка към постигането на изкуствен общ интелект (AGI). Способността да се решават сложни, нестандартни математически проблеми е доказателство за наличието на истинско логическо разсъждение, а не просто за статистическо комбиниране на думи.
Като отварят MathNet за целия свят, изследователите от MIT се надяват да ускорят развитието на модели, които не просто „изглеждат умни“, а притежават гъвкавостта и прецизността на най-добрите човешки умове.
Източници: