Скритата икономика на LLM: Битката за памет и токени

Публикувано от Svetni.me Editorial на 26 април 2026 г.

Когато плащаме $20 на месец за абонамент или няколко цента за API заявка към модел като Claude или ChatGPT, ние виждаме само върха на айсберга. Под повърхността се крие една „невидима икономика“, която определя кои компании ще оцелеят и защо някои услуги са подозрително евтини. Тейло Миле от френската консултантска компания OCTO Technology публикува детайлен анализ на тези структурни разходи [1].

Основният извод е поразителен: в ерата на големите езикови модели (LLM), основният разход вече не е самото изчисление, а „проблемната област“ на паметта – скоростта, с която данните се придвижват между чиповете.

Анатомия на ИИ разходите: От паметта до токена
Изображение: Генерирано чрез Svetni.me AI

Префикс срещу Генериране (Prefill vs. Decode)

Производството на един ИИ токен преминава през две коренно различни фази:

  1. Prefill: Когато моделът „разчита“ вашия промпт. Тук графичните процесори (NVIDIA H100) работят изключително ефективно, обработвайки хиляди думи едновременно.
  2. Decode: Когато моделът генерира отговора дума по дума. Тук системата става изключително неефективна. GPU прекарва по-голямата част от времето си в чакане теглата на модела да бъдат заредени от високоскоростната памет (HBM) [1].

Оръжието на мащаба: Batching и MoE

За да победят тази неефективност, доставчиците използват две основни стратегии:

  • Групиране (Batching): Вместо да обслужва един потребител, един H100 клъстер обработва стотици заявки едновременно. Това разпределя огромния разход за зареждане на модела между много потребители, намалявайки цената на милион токена от над $90 до едва $2.70.
  • Смес от експерти (MoE): Модерните архитектури активират само малка част от своите „мозъчни клетки“ за всяка дума. Това позволява на модел с 1 трилион параметри да харчи ресурси като модел с 30 милиарда, без да губи от качеството на отговора [1].

Парадоксът на абонамента

Анализът на Миле разкрива интересна истина за токеномиката: за „агентни“ потребители (програмисти или анализатори, чиито модели четат огромни количества код), абонаментът от $20 е чиста загуба за компанията. Ако същите тези потребители плащаха през API, сметката им би била стотици долари. В този смисъл, технологичните гиганти използват абонаментите като „зарибяващ“ продукт (loss-leader), за да изградят потребителска база, докато чакат следващото поколение по-ефективен хардуер.

В крайна сметка, битката за ИИ лидерство не се води само в лабораториите за алгоритми, а в способността да се изстиска и последният бит от скоростта на паметта.

Източници:

[1]: L'économie cachée des LLM - OCTO Talks !