Perceptron Mk1: Революционен модел за видео анализ, който е 90% по-евтин от GPT-5 и Gemini

Публикувано от Svetni.me Editorial на 12 май 2026 г.

Според репортаж на VentureBeat [1], стартъпът Perceptron обяви пускането на своя първи патентован модел за видео анализ и физическо мислене – Mk1. Моделът демонстрира производителност, съпоставима с водещите системи на пазара, но на цена, която е с 80-90% по-ниска от конкуренти като GPT-5 на OpenAI, Claude на Anthropic и Gemini на Google.

Базираната в Белвю, Вашингтон компания е основана от Армен Агаджанян и Акшат Шривастава – и двамата бивши изследователи в лабораторията FAIR на Meta. Тяхната мисия е да преместят границата на „физическия изкуствен интелект“, създавайки модели, които не просто разпознават образи, а разбират динамиката на реалния свят.

Efficiency Frontier
Изображение: Svetni.me / Авторско изображение

Физическо мислене и пространствена прецизност

Mk1 е проектиран за директна обработка на видео поток с честота до 2 кадъра в секунда (FPS) в рамките на 32K контекстен прозорец. За разлика от традиционните модели, които разглеждат видеото като поредица от несвързани изображения, Mk1 поддържа приемственост на обектите дори при частично закриване.

Ключов диференциатор е способността за „физическо мислене“. Моделът може да анализира сложни сцени, за да разбере причинно-следствени връзки – например да определи дали баскетболен изстрел е направен преди или след финалната сирена, анализирайки едновременно позицията на топката и показанията на часовника [2].

Ефективност и цена

Ценовата политика на Perceptron е агресивна: $0,15 за милион входни токена и $1,50 за милион изходни токена чрез тяхното API. Това позиционира Mk1 на т.нар. „граница на ефективността“ (Efficiency Frontier) – място, където моделите достигат възможностите на най-големите системи (frontier models), но на цената на техните олекотени (lite) версии.

В бенчмарковете за пространствено мислене (Embodied Reasoning), Mk1 постига резултат от 85,1 на EmbSpatialBench, изпреварвайки специализирани модели на Google и Alibaba. В теста RefSpatialBench моделът показва драстично предимство пред GPT-5 и Claude 4.5 при разбирането на препратки в пространството.

Приложения в роботиката и индустрията

Моделът включва специализирани функции като „Focus“ (автоматично мащабиране върху специфични региони въз основа на текст) и „Counting“ (прецизно броене на стотици обекти в гъсти сцени). Тези възможности са насочени директно към индустриални приложения:

  • Производство: Автоматизиран контрол на качеството и мониторинг на безопасността.
  • Роботика: Генериране на данни за обучение на роботи чрез анализ на видео записи от човешки операции.
  • Сигурност: Интелигентно разпознаване на събития в реално време, разграничаващо обикновеното движение от специфични инциденти.

Заедно с Mk1, компанията поддържа и своята серия с отворен код Isaac. Моделът Isaac 0.2 (с 2 милиарда параметри) е предназначен за използване в периферни устройства, където ниската латентност (под 200ms) е от критично значение [3]. Теглата на Isaac моделите са достъпни в платформата Hugging Face.

Източници:

[1]: Perceptron Mk1 shocks with highly performant video analysis AI model 80-90% cheaper than Anthropic, OpenAI & Google - VentureBeat
[2]: Introducing Perceptron Mk1 - Perceptron Blog
[3]: Introducing Isaac 0.2 - Perceptron Blog