Google Gemma 4 ускорява работата си до 3 пъти чрез спекулативно декодиране

Публикувано от Svetni.me Editorial на 6 май 2026 г.

Google представи значително подобрение за своята фамилия отворени модели Gemma 4, пускайки специализирани „чертожници“ (drafters) за технологията Multi-Token Prediction (MTP). Според репортаж на Ars Technica [1], тази иновация позволява на моделите да предвиждат бъдещи токени и да ускорят процеса на генериране до 3 пъти върху широк спектър от потребителски хардуер.

Основните предизвикателства пред работата на локален ИИ обикновено са свързани с ограничената скорост на паметта (bandwidth), а не с липсата на изчислителни цикли. Когато един модел генерира текст авторегресивно – токен по токен – той често губи време в пренос на данни между паметта и изчислителните ядра. MTP адресира точно този проблем чрез използването на спекулативно декодиране.

Диаграма на процеса на спекулативно декодиране
Изображение: Svetni.me / Авторско изображение

Сравнение на производителността на Gemma 4 с и без MTP
Изображение: Google чрез Ars Technica

Механизъм на работа и ефективност

Системата използва изключително леки модели „чертожници“ (например моделът E2B е само със 74 милиона параметъра), които работят паралелно с основния модел Gemma 4. Тези малки модели правят бързи предположения за следващите няколко токена. Основният модел проверява тези предположения наведнъж, като по този начин може да приеме цяла поредица в рамките на едно изчисление.

Тъй като големият модел винаги верифицира изхода, Google гарантира, че технологията не води до никакво влошаване на качеството на отговорите. В тестовете на компанията:

  • Смартфони Pixel постигат между 2.8x и 3.1x по-висока скорост.
  • Устройства с чип Apple M4 ускоряват работата на 31B модела с 2.5x.
  • Потребителските видеокарти (GPU) също се възползват от подобрената ефективност.

Достъпност и интеграция

Заедно с новата технология, Google затвърждава ангажимента си към отворените стандарти, предлагайки Gemma 4 под лиценза Apache 2.0. Новите MTP оптимизации вече са достъпни в популярни рамки за локална работа с ИИ, включително MLX, VLLM, SGLang и Ollama.

Това развитие прави Gemma 4 един от най-конкурентните модели за работа на „крайни“ (edge) устройства, като позволява на потребителите да се възползват от мощни възможности за ревю на код и текстова обработка с минимално забавяне и подобрен живот на батерията за мобилни устройства.

Източници:
[1]: Google’s Gemma 4 AI models get 3x speed boost by predicting future tokens - Ars Technica