NdLinear

NdLinear е иновативен градивен елемент за невронни мрежи, разработен от стартъпа Ensemble AI като директен заместител (drop-in replacement) на стандартните линейни слоеве (Linear Layers) в трансформърните архитектури.

Технологична разлика

В традиционните невронни мрежи (като тези, захранващи PyTorch и TensorFlow), стандартният линеен слой изисква входящите данни с множество измерения да бъдат „сплюснати“ (flattened) в двумерна матрица преди извършване на матрично умножение. Този процес премахва важна пространствена и йерархична информация.

За разлика от тях, NdLinear оперира директно върху многомерни активирания (multidimensional activations), без да разрушава тяхната структура.

Предимства на NdLinear

  1. Запазване на структурите: Позволява на модела да съхрани информацията за отделните измерения като вниманието на главите (attention heads), каналите (channels) или пространствените разпределения.
  2. Архитектурна компресия: Позволява изграждането на по-компактни невронни мрежи с по-малък брой параметри и по-ниски изисквания за памет, без да се налага промяна на целия модел.
  3. Ефективно фино настройване (NdLinear-LoRA): В комбинация с техники като LoRA, NdLinear позволява адаптиране на модели с изключително малък брой допълнително обучаеми параметри, намалявайки цената за обучение.

Споменавания в статии