Токени (Tokens)
При обработката на естествен език, токенът е основната единица текст, която моделът на ИИ чете и пише. Обикновено това не е цяла дума, а по-скоро поредица от знаци, които често се появяват заедно.
Разбиране на токенизацията
- Чести думи: „The“ или „Apple“ могат да бъдат 1 токен.
- Редки думи: „Tokenization“ може да бъде 3 токена („Token“, „iz“, „ation“).
- Ефективност: Като ориентир, 1000 токена са приблизително 750 думи.
Защо токените са важни
- Контекстен прозорец: Всеки модел има лимит на това колко токена може да „помни“ наведнъж (напр. 200k или 1M токена).
- Цена: Доставчиците на ИИ обикновено таксуват на милион токена (входящи срещу изходящи токени).
- Скорост: Моделите генерират текст токен по токен. Колкото повече токени има в отговора, толкова повече време отнема генерирането му.
Съвременни токенизатори (2026)
До 2026 г. повечето токенизатори са станали „мултимодални“. Вместо само текст, те могат да обработват „визуални токени“ (части от изображение) или „аудио токени“, позволявайки на един модел да разбира и генерира текст, изображения и звук в рамките на един и същ контекстен прозорец.