Perceptron Mk1: Революционен модел за видео анализ, който е 90% по-евтин от GPT-5 и Gemini
Според репортаж на VentureBeat [1], стартъпът Perceptron обяви пускането на своя първи патентован модел за видео анализ и физическо мислене – Mk1. Моделът демонстрира производителност, съпоставима с водещите системи на пазара, но на цена, която е с 80-90% по-ниска от конкуренти като GPT-5 на OpenAI, Claude на Anthropic и Gemini на Google.
Базираната в Белвю, Вашингтон компания е основана от Армен Агаджанян и Акшат Шривастава – и двамата бивши изследователи в лабораторията FAIR на Meta. Тяхната мисия е да преместят границата на „физическия изкуствен интелект“, създавайки модели, които не просто разпознават образи, а разбират динамиката на реалния свят.
Изображение: Svetni.me / Авторско изображение
Физическо мислене и пространствена прецизност
Mk1 е проектиран за директна обработка на видео поток с честота до 2 кадъра в секунда (FPS) в рамките на 32K контекстен прозорец. За разлика от традиционните модели, които разглеждат видеото като поредица от несвързани изображения, Mk1 поддържа приемственост на обектите дори при частично закриване.
Ключов диференциатор е способността за „физическо мислене“. Моделът може да анализира сложни сцени, за да разбере причинно-следствени връзки – например да определи дали баскетболен изстрел е направен преди или след финалната сирена, анализирайки едновременно позицията на топката и показанията на часовника [2].
Ефективност и цена
Ценовата политика на Perceptron е агресивна: $0,15 за милион входни токена и $1,50 за милион изходни токена чрез тяхното API. Това позиционира Mk1 на т.нар. „граница на ефективността“ (Efficiency Frontier) – място, където моделите достигат възможностите на най-големите системи (frontier models), но на цената на техните олекотени (lite) версии.
В бенчмарковете за пространствено мислене (Embodied Reasoning), Mk1 постига резултат от 85,1 на EmbSpatialBench, изпреварвайки специализирани модели на Google и Alibaba. В теста RefSpatialBench моделът показва драстично предимство пред GPT-5 и Claude 4.5 при разбирането на препратки в пространството.
Приложения в роботиката и индустрията
Моделът включва специализирани функции като „Focus“ (автоматично мащабиране върху специфични региони въз основа на текст) и „Counting“ (прецизно броене на стотици обекти в гъсти сцени). Тези възможности са насочени директно към индустриални приложения:
- Производство: Автоматизиран контрол на качеството и мониторинг на безопасността.
- Роботика: Генериране на данни за обучение на роботи чрез анализ на видео записи от човешки операции.
- Сигурност: Интелигентно разпознаване на събития в реално време, разграничаващо обикновеното движение от специфични инциденти.
Заедно с Mk1, компанията поддържа и своята серия с отворен код Isaac. Моделът Isaac 0.2 (с 2 милиарда параметри) е предназначен за използване в периферни устройства, където ниската латентност (под 200ms) е от критично значение [3]. Теглата на Isaac моделите са достъпни в платформата Hugging Face.
Източници:
[1]: Perceptron Mk1 shocks with highly performant video analysis AI model 80-90% cheaper than Anthropic, OpenAI & Google - VentureBeat
[2]: Introducing Perceptron Mk1 - Perceptron Blog
[3]: Introducing Isaac 0.2 - Perceptron Blog