Оптимизация на ИИ в периферията: Cloudflare привлича екипа на Ensemble AI
Инфраструктурата за изкуствен интелект навлиза в нов етап на развитие. Разработчиците вече не се нуждаят само от достъп до готови езикови модели, а от изчислителна мрежа, която да ги изпълнява надеждно, икономично и възможно най-близо до крайния потребител. В опит да ускори този преход, Cloudflare обяви привличането на ключови членове от екипа на стартъпа Ensemble AI [1].
Специалистите от Ensemble AI се присъединяват към инженерния екип за машинно обучение на Cloudflare Workers AI. Тяхната основна задача ще бъде ускоряване на инфраструктурните процеси и улесняване на разработчиците при внедряването на сложни изкуствени интелекти в глобален мащаб [1].
Авторско изображение: Синергия между технологиите на Cloudflare и Ensemble AI за ускорена ИИ периферия
Икономиката на ИИ изчисленията (Inference)
В епохата на автономните агенти, мултимодалните модели и персонализираното фино настройване, разходите за изчисления (inference) остават една от най-големите пречки пред мащабирането на софтуерните приложения [1]. Моделите стават все по-големи, а натоварванията — динамични и непредсказуеми. Потребителите изискват глобално разпределени ИИ услуги, които да работят светкавично бързо, да бъдат високо надеждни и финансово достъпни.
Всяко намаление в размера на модела, изискванията към графичната памет, пропускателната способност и оптимизацията на графичните процесори (GPU) оказва директно влияние върху цената и достъпността на технологията. Поради тази причина Cloudflare фокусира инвестициите си в подобряване на базовата ефективност на платформата Workers AI [1].
Подходът на Ensemble AI: NdLinear и NdLinear-LoRA
Основаният през 2023 г. в Сан Франциско стартъп Ensemble AI се специализира именно в решаването на този проблем: оптимизиране на работата на големи модели без загуба на тяхното качество [1]. За разлика от традиционните методи, които разчитат единствено на хардуерни подобрения или стандартно квантуване (quantization), Ensemble AI търси оптимизация на самото архитектурно ниво на невронните мрежи.
Ключовата иновация на екипа е разработката на софтуерния модул NdLinear, който служи като пълноценен заместител на стандартните линейни слоеве (Linear Layers) в трансформърните модели [1].
Традиционните линейни слоеве в невронните мрежи изискват „сплюскване“ (flattening) на многомерните входящи активирания в двумерни матрици, което размива пространствената и структурна информация. За разлика от тях, NdLinear оперира директно върху многомерни активирания. Това позволява на моделите да запазят важни структурни оси като глави (heads), канали (channels) и пространствени измерения. Крайният резултат е намаляване на броя на параметрите и на нужния изчислителен ресурс, без да се компрометира точността на модела.
Допълнително, екипът е разработил и метода NdLinear-LoRA [1]. Това е адаптация на популярната техника за фино настройване LoRA (Low-Rank Adaptation), която драстично намалява броя на обучаемите параметри, необходими за персонализиране на големи езикови и мултимодални модели за специфични нужди на бизнеса.
Синергия в платформата Workers AI
Интеграцията на технологичния стек на Ensemble AI ще допълни и разшири съществуващата инфраструктура на Cloudflare. Платформата Workers AI вече включва няколко патентовани разработки за оптимизация:
- Infire: Изключително ефективният енджин за ИИ изчисления на Cloudflare [1].
- Unweight: Специализирана технология за компресиране на тензори [1].
- Глобална платформа с безсървърни GPU, разположени в стотици локации по света.
Интегрирането на NdLinear и опита на Ensemble AI в компресирането на модели ще позволи на Cloudflare да предостави на разработчиците по-гъвкава среда [1]. Те ще могат да тестват различни размери на моделите, стратегии за фино настройване и сценарии на разгръщане, без да се сблъскват с високи финансови бариери или оперативна сложност.
Обединявайки своята глобална сървърна инфраструктура с иновациите в оптимизацията на невронните мрежи, Cloudflare цели да превърне Workers AI в най-икономичната и бърза платформа за изкуствен интелект в реално време.
Източници:
[1]: Growing the Cloudflare AI team with talent from Ensemble AI - Cloudflare Blog