Оптимизация на ИИ в периферията: Cloudflare привлича екипа на Ensemble AI

Публикувано от Svetni.me Editorial на 15 юни 2026 г.

Инфраструктурата за изкуствен интелект навлиза в нов етап на развитие. Разработчиците вече не се нуждаят само от достъп до готови езикови модели, а от изчислителна мрежа, която да ги изпълнява надеждно, икономично и възможно най-близо до крайния потребител. В опит да ускори този преход, Cloudflare обяви привличането на ключови членове от екипа на стартъпа Ensemble AI [1].

Специалистите от Ensemble AI се присъединяват към инженерния екип за машинно обучение на Cloudflare Workers AI. Тяхната основна задача ще бъде ускоряване на инфраструктурните процеси и улесняване на разработчиците при внедряването на сложни изкуствени интелекти в глобален мащаб [1].

Архитектура на изчисленията с изкуствен интелект в периферията на Cloudflare
Авторско изображение: Синергия между технологиите на Cloudflare и Ensemble AI за ускорена ИИ периферия

Икономиката на ИИ изчисленията (Inference)

В епохата на автономните агенти, мултимодалните модели и персонализираното фино настройване, разходите за изчисления (inference) остават една от най-големите пречки пред мащабирането на софтуерните приложения [1]. Моделите стават все по-големи, а натоварванията — динамични и непредсказуеми. Потребителите изискват глобално разпределени ИИ услуги, които да работят светкавично бързо, да бъдат високо надеждни и финансово достъпни.

Всяко намаление в размера на модела, изискванията към графичната памет, пропускателната способност и оптимизацията на графичните процесори (GPU) оказва директно влияние върху цената и достъпността на технологията. Поради тази причина Cloudflare фокусира инвестициите си в подобряване на базовата ефективност на платформата Workers AI [1].

Подходът на Ensemble AI: NdLinear и NdLinear-LoRA

Основаният през 2023 г. в Сан Франциско стартъп Ensemble AI се специализира именно в решаването на този проблем: оптимизиране на работата на големи модели без загуба на тяхното качество [1]. За разлика от традиционните методи, които разчитат единствено на хардуерни подобрения или стандартно квантуване (quantization), Ensemble AI търси оптимизация на самото архитектурно ниво на невронните мрежи.

Ключовата иновация на екипа е разработката на софтуерния модул NdLinear, който служи като пълноценен заместител на стандартните линейни слоеве (Linear Layers) в трансформърните модели [1].

Традиционните линейни слоеве в невронните мрежи изискват „сплюскване“ (flattening) на многомерните входящи активирания в двумерни матрици, което размива пространствената и структурна информация. За разлика от тях, NdLinear оперира директно върху многомерни активирания. Това позволява на моделите да запазят важни структурни оси като глави (heads), канали (channels) и пространствени измерения. Крайният резултат е намаляване на броя на параметрите и на нужния изчислителен ресурс, без да се компрометира точността на модела.

Допълнително, екипът е разработил и метода NdLinear-LoRA [1]. Това е адаптация на популярната техника за фино настройване LoRA (Low-Rank Adaptation), която драстично намалява броя на обучаемите параметри, необходими за персонализиране на големи езикови и мултимодални модели за специфични нужди на бизнеса.

Синергия в платформата Workers AI

Интеграцията на технологичния стек на Ensemble AI ще допълни и разшири съществуващата инфраструктура на Cloudflare. Платформата Workers AI вече включва няколко патентовани разработки за оптимизация:

  • Infire: Изключително ефективният енджин за ИИ изчисления на Cloudflare [1].
  • Unweight: Специализирана технология за компресиране на тензори [1].
  • Глобална платформа с безсървърни GPU, разположени в стотици локации по света.

Интегрирането на NdLinear и опита на Ensemble AI в компресирането на модели ще позволи на Cloudflare да предостави на разработчиците по-гъвкава среда [1]. Те ще могат да тестват различни размери на моделите, стратегии за фино настройване и сценарии на разгръщане, без да се сблъскват с високи финансови бариери или оперативна сложност.

Обединявайки своята глобална сървърна инфраструктура с иновациите в оптимизацията на невронните мрежи, Cloudflare цели да превърне Workers AI в най-икономичната и бърза платформа за изкуствен интелект в реално време.

Източници:

[1]: Growing the Cloudflare AI team with talent from Ensemble AI - Cloudflare Blog