Спекулативно декодиране

Спекулативното декодиране (Speculative Decoding) е техника за оптимизация на производителността при големи езикови модели (LLM), която цели да ускори процеса на генериране на текст (инференция).

Механизъм на работа

Традиционните езикови модели генерират текст авторегресивно – токен по токен, като всяка стъпка изисква пълно преминаване през масивната невронна мрежа. Това често е ограничено от скоростта на паметта, а не от изчислителната мощ.

При спекулативното декодиране се използва втори, много по-малък и по-бърз модел (наречен „чертожник“ или drafter), който прави предположения за следващите няколко токена в поредицата. След това основният, голям модел проверява тези предположения паралелно.

Предимства

  • Скорост: Ако предположенията на малкия модел са правилни, големият модел може да приеме цялата поредица наведнъж, вместо да я генерира стъпка по стъпка.
  • Качество: Тъй като големият модел винаги проверява изхода, финалният резултат е идентичен с този, който би бил генериран без спекулативно декодиране (zero quality degradation).
  • Ефективност: Позволява по-добро оползотворяване на ресурсите на графичните ускорители (GPU).

Споменавания в статии