Multi-Token Prediction (MTP)

Multi-Token Prediction (MTP) е усъвършенствана архитектура за обучение и инференция на езикови модели, предложена от изследователи на Meta и впоследствие адаптирана от Google за фамилията модели Gemma.

Концепция

За разлика от традиционния подход, при който моделът се обучава да предвижда само следващия токен (Next-Token Prediction), MTP моделите се обучават да предвиждат няколко бъдещи токена едновременно чрез допълнителни „глави“ в архитектурата на невронната мрежа.

Приложение в Gemma 4

В контекста на Gemma 4, Google използва специализирани MTP „чертожници“ (drafters) за реализиране на спекулативно декодиране. Тези чертожници са изключително леки (например само 74 милиона параметъра) и помагат на основния модел да постигне до 3 пъти по-висока скорост на работа върху потребителски хардуер.

Ползи

  • По-добра кохерентност: Предвиждането на бъдещи токени помага на модела да планира по-добре логическата структура на изречението.
  • Ефективна инференция: Директно поддържа техники за ускоряване, които правят работата с локален ИИ много по-гладка.

Споменавания в статии