06 май 2026 г.
Google Gemma 4 ускорява работата си до 3 пъти чрез спекулативно декодиране
Google представи значително подобрение за своята фамилия отворени модели Gemma 4, пускайки специализирани „чертожници“ (drafters) за технологията Multi-Token Prediction (MTP). Според репортаж на Ars Technica [1], тази иновация позволява на моделите да предвиждат бъдещи токени и да ускорят процеса на генериране до 3 пъти върху широк спектър от потребителски хардуер.
Основните предизвикателства пред работата на локален ИИ обикновено са свързани с ограничената скорост на паметта (bandwidth), а не с липсата на изчислителни цикли. Когато един модел генерира текст авторегресивно – токен по токен – той често губи време в пренос на данни между паметта и изчислителните ядра. MTP адресира точно този проблем чрез използването на спекулативно декодиране.