Google интегрира компютърна употреба (Computer use) директно в Gemini 3.5 Flash

Публикувано от Svetni.me Editorial на 24 юни 2026 г.

Сферата на изкуствения интелект направи важна стъпка напред към реалната автономност на софтуерните агенти. В официално съобщение на своя корпоративен блог [1], технологичният гигант Google обяви пълната интеграция на технологията за компютърна употреба (computer use) като вграден инструмент в своя модел от среден клас Gemini 3.5 Flash. Досега тази функционалност беше достъпна само като експериментален и самостоятелен модел в рамките на Gemini 2.5, но сега тя става част от основната продуктова линия за разработчици и корпоративни клиенти.

Новата интеграция позволява на разработчиците да изграждат по-гъвкави и достъпни ИИ агенти, способни да навигират и взаимодействат с дигитални среди по същия начин, по който го правят хората. Внедряването на тази функция директно във Flash версията на модела отваря врати за мащабна автоматизация на сложни бизнес процеси без необходимост от скъпи или специализирани затворени ИИ системи.

Логото на Gemini 3.5 Flash на син фон
Изображение: Google DeepMind

От експериментален модел към нативно софтуерно управление

Концепцията за компютърна употреба изисква от моделите с изкуствен интелект не просто да генерират текст или код, а буквално да „виждат“ и контролират интерфейса на операционната система. Моделът анализира екранни снимки в реално време, изчислява прецизни координати и симулира действия като движение на мишката, кликване и въвеждане на текст. Предишното поколение на технологията изискваше превключване към специализираната и по-бавна версия Gemini 2.5 computer use.

Според продуктовия мениджър на Google DeepMind Матео Кирос, преместването на тази способност в Gemini 3.5 Flash значително опростява архитектурата на приложенията. Разработчиците вече могат да използват един и същ модел за езиков анализ, структурирано извикване на функции (function calling) и директно управление на екрана. Това намалява сложността при разработване и времето за реакция на системата.

Равностойна точност и отлична икономическа ефективност в OSWorld

За да докаже практическата стойност на новата интеграция, Google подложи Gemini 3.5 Flash на тестове чрез независимата бенчмарк платформа OSWorld-Verified. Тази система оценява способността на моделите да изпълняват сложни и дълги задачи в реални операционни системи с отворен код (като Linux десктоп среди). Резултатите показват, че моделът постига забележителна точност от 78.4% при изпълнение на задачите [1].

Това постижение позиционира Gemini 3.5 Flash изключително близо до най-големите флагмански модели на пазара (като GPT-5.5 с неговите 78.7% и Claude 4.7 Opus с 78.0%), но при многократно по-ниски разходи и латентност [2]. По-ниската цена на токените във Flash модела прави възможна икономически изгодната автоматизация на дълги и повтарящи се процеси като непрекъснато софтуерно тестване (CI/CD) и сложна обработка на данни в реално време.

Сравнителна таблица на бенчмарка OSWorld
Изображение: Google DeepMind

Мерки за безопасност и нови корпоративни защити

Управлението на реални компютърни системи от изкуствен интелект крие сериозни рискове, включително възможност за злонамерено инжектиране на инструкции (prompt injection) през компрометирани уеб сайтове или документи. За да неутрализира тези заплахи, Google е приложила специализирано симулационно обучение (adversarial training), насочено към подобряване на устойчивостта на Gemini 3.5 Flash срещу нежелани външни манипулации.

Заедно с модела, Google представя и две нови, опционални системи за сигурност, които предприятията могат да внедрят в своите работни потоци:

Изискване на изрично потребителско потвърждение: Агентите могат да бъдат конфигурирани така, че да спират и да изискват одобрение от човек при извършване на чувствителни или необратими действия, като например финансови трансакции или изтриване на данни.
Автоматично прекратяване при инжектиране: Системата автоматично следи текстовия и визуалния поток на задачите и моментално прекратява процеса, ако открие опит за скрито инжектиране на инструкции от външен източник.

Google DeepMind насърчава разработчиците да прилагат цялостен модел на защита („defense-in-depth“), включващ сигурно контейнеризиране на средите за изпълнение (sandboxing) и строги нива на достъп до чувствителни системи [1].

Отзиви от водещите партньори в индустрията

Някои от най-големите платформи за автоматизация и инструменти за управление на уеб браузъри вече са интегрирали новите възможности на Gemini 3.5 Flash и споделят своите впечатления:

„При провеждане на вътрешни тестове и бенчмаркове като OnlineMind2Web установихме, че Gemini 3.5 Flash с компютърна употреба осигурява точност, съпоставима с тази на най-големите модели на пазара. В същото време той предлага много по-добри показатели за цена и латентност, което прави изпълнението на сложни браузърни задачи икономически изгодно в голям мащаб.“

— Мигел Гонзалес Фернандес, технически лидер в Browserbase [1]

„Gemini 3.5 Flash демонстрира ясна и категорична стъпка напред в сравнение с предходното поколение модели Flash при работа с нашите агентни инструменти. Той успява да настигне производителността на големите флагмански модели, като същевременно запазва скоростта и ниските разходи, които превръщат Google в нашия основен избор за мащабни решения.“

— Магнус Мюлер, главен изпълнителен директор на Browser Use [1]

„Новият модел на Google се адаптира изключително добре към тестовите среди на UiPath, които захранват нашите автономни агенти Delegate и ScreenPlay. Gemini 3.5 Flash предлага отлична пропускателна способност, висока надеждност и най-доброто съотношение цена-производителност сред моделите, които сме оценявали до момента за нуждите на компютърната автоматизация.“

— Алвин Станеску, старши директор по софтуерно инженерство в UiPath [1]

Как да започнете: Ресурси за разработчици

Разработчиците и софтуерните инженери могат да стартират изграждането на свои проекти с компютърна употреба веднага през официалния Gemini API, както и през платформата Vertex AI (Gemini Enterprise Agent Platform).

За по-лесен старт са достъпни следните ресурси:

Демо среда на Browserbase: Всеки може да тества възможностите на модела в специално подготвена и сигурна демо среда, хоствана от Browserbase на адрес gemini.browserbase.com.
Референтна имплементация: Google публикува официален шаблон за разработчици в GitHub хранилището github.com/google-gemini/computer-use-preview, съдържащ готови примери за конфигурация и стартиране на агенти.

Интеграцията на компютърната употреба директно в икономичния и бърз модел Gemini 3.5 Flash бележи преломен момент за софтуерната индустрия, правейки интелигентната автоматизация на ежедневните офис задачи достъпна за всяка организация.

Източници

[1] Introducing computer use in Gemini 3.5 Flash - Google Blog

[2] Industry Benchmarks for Agentic Computer Use - DeepMind Technical Report