Terminal-Bench 2.0

Terminal-Bench 2.0 е специализиран бенчмарк за оценяване на „агентните“ способности на ИИ моделите в терминална среда. Той измерва успеха на моделите при решаване на реални задачи по софтуерно инженерство, киберсигурност и системно администриране. През април 2026 г. GPT-5.5 постави нов рекорд в този бенчмарк с резултат от 82.7%.

Споменавания в статии

OpenAI пусна GPT-5.5: Ерата на автономните агенти и новата битка за лидерство