Aletheia на DeepMind решава автономно математически задачи на ниво научни изследвания

Google DeepMind постигна нов крайъгълен камък в развитието на агентния изкуствен интелект (agentic AI). Техният нов агент Aletheia, базиран на модела Gemini 3 Deep Think, успешно е решил шест от десет непубликувани, изследователски задачи в рамките на първото предизвикателство FirstProof [1].
Това постижение бележи преход от решаването на задачи за състезания по математика (като IMO) към автономно справяне с проблеми на ниво докторантски изследвания.
Строг протокол за автономия
Aletheia е оперирала под строг протокол за нулева човешка намеса (zero-human-intervention). В рамките на едноседмичния период за предаване на решенията, системата е генерирала кандидат-доказателства, форматирала ги е в LaTeX и сама е докладвала за неуспех в случаите, когато не е успяла да намери решение [1].
Експертни оценители са потвърдили, че шест от предадените решения (за задачи 2, 5, 7, 8, 9 и 10) са годни за публикуване след минимални редакции [2]. Единствено при задача 8 е имало разминаване в мненията на експертите, което подчертава сложността на изследователските задачи [3].
Архитектура на надеждността
Ключът към успеха на Aletheia се крие в нейната мултиагентна структура и разширения капацитет за изчисление по време на тестване (extended test-time compute). Системата използва конвейер от три специализирани агента:
- Generator (Генератор): Предлага стъпки в доказателството.
- Verifier (Проверител): Търси логически пропуски и грешки.
- Reviser (Редактор): Коригира или реструктурира аргументите въз основа на обратната връзка [1].
Дизайнерите на системата са поставили фокус върху надеждността чрез „самофилтриране“. Вместо да халюцинира правдоподобни, но грешни доказателства, Aletheia е проектирана да признава, когато не може да реши даден проблем. „Виждаме надеждността като основното тясно място пред мащабирането на AI асистенцията в изследователската математика“, пишат изследователите в доклад в arXiv [2].
Значение за научната общност
За разлика от затворените експерименти, екипът на DeepMind публикува пълните данни за промптоветe и изходите в arXiv и GitHub, правейки резултатите напълно проверими и възпроизводими [2].
Според специалистите, това демонстрира, че комбинирането на итеративни разсъждения и автоматизирана верификация може да генерира доказателства, които издържат на строга експертна оценка. Пътят напред включва интеграция с формални системи за проверка на доказателства, за да се постигне машинно проверима точност в реално време [1].
Източници:
[1]: Aletheia Advances Autonomous Agentic Mathematical Research - Let's Data Science
[2]: Aletheia tackles FirstProof autonomously - arXiv:2602.21201
[3]: Google's Aletheia AI Agent Autonomously Solves 6/10 Novel FirstProof Math Problems - Themata.ai