Aletheia на DeepMind решава автономно математически задачи на ниво научни изследвания

Публикувано от Svetni.me Editorial на 20 април 2026 г.

$Aletheia на DeepMind: Автономно математическо изследване$
Изображение: Генерирано чрез Svetni.me AI

Google DeepMind постигна нов крайъгълен камък в развитието на агентния изкуствен интелект (agentic AI). Техният нов агент Aletheia, базиран на модела Gemini 3 Deep Think, успешно е решил шест от десет непубликувани, изследователски задачи в рамките на първото предизвикателство FirstProof [1].

Това постижение бележи преход от решаването на задачи за състезания по математика (като IMO) към автономно справяне с проблеми на ниво докторантски изследвания.

Строг протокол за автономия

Aletheia е оперирала под строг протокол за нулева човешка намеса (zero-human-intervention). В рамките на едноседмичния период за предаване на решенията, системата е генерирала кандидат-доказателства, форматирала ги е в LaTeX и сама е докладвала за неуспех в случаите, когато не е успяла да намери решение [1].

Експертни оценители са потвърдили, че шест от предадените решения (за задачи 2, 5, 7, 8, 9 и 10) са годни за публикуване след минимални редакции [2]. Единствено при задача 8 е имало разминаване в мненията на експертите, което подчертава сложността на изследователските задачи [3].

Архитектура на надеждността

Ключът към успеха на Aletheia се крие в нейната мултиагентна структура и разширения капацитет за изчисление по време на тестване (extended test-time compute). Системата използва конвейер от три специализирани агента:

Generator (Генератор): Предлага стъпки в доказателството.
Verifier (Проверител): Търси логически пропуски и грешки.
Reviser (Редактор): Коригира или реструктурира аргументите въз основа на обратната връзка [1].

Дизайнерите на системата са поставили фокус върху надеждността чрез „самофилтриране“. Вместо да халюцинира правдоподобни, но грешни доказателства, Aletheia е проектирана да признава, когато не може да реши даден проблем. „Виждаме надеждността като основното тясно място пред мащабирането на AI асистенцията в изследователската математика“, пишат изследователите в доклад в arXiv [2].

Значение за научната общност

За разлика от затворените експерименти, екипът на DeepMind публикува пълните данни за промптоветe и изходите в arXiv и GitHub, правейки резултатите напълно проверими и възпроизводими [2].

Според специалистите, това демонстрира, че комбинирането на итеративни разсъждения и автоматизирана верификация може да генерира доказателства, които издържат на строга експертна оценка. Пътят напред включва интеграция с формални системи за проверка на доказателства, за да се постигне машинно проверима точност в реално време [1].

Източници:

[1]: Aletheia Advances Autonomous Agentic Mathematical Research - Let's Data Science
[2]: Aletheia tackles FirstProof autonomously - arXiv:2602.21201
[3]: Google's Aletheia AI Agent Autonomously Solves 6/10 Novel FirstProof Math Problems - Themata.ai