По-горещо от джакузи: Пробивът на NVIDIA с 45°C течно охлаждане за ИИ суперкомпютри

Изображение: NVIDIA чрез Hackaday
Термален прелом при суперкомпютрите
В официална публикация на корпоративния си блог американският технологичен гигант NVIDIA [1] представи детайли за фундаментална промяна в начина, по който се охлаждат най-големите системи за изкуствен интелект. Новото поколение хардуерна инфраструктура NVIDIA Vera Rubin въвежда революционен подход, позволяващ на охладителния флуид да работи при температури до 45 °C (113 °F). За сравнение, стандартната температура на водата в горещо джакузи обикновено е между 38 °C и 40 °C. Този на пръв поглед контраинтуитивен инженерен избор представлява един от най-големите скокове в енергийната ефективност на съвременната компютърна индустрия.
Пълна интеграция на течно охлаждане и NVIDIA DSX
Платформата от поколение Rubin е първата в света, постигаща 100% течно охлаждане. Това означава, че всеки отделен чип и мрежов компонент се охлаждат изцяло от течност в затворен контур, като в раковете не се използват никакви вентилатори. Методологията е детайлно описана в новия референтен дизайн NVIDIA DSX за ИИ фабрики (AI factories) [1]. Той съдържа инженерни стандарти и добри практики за проектиране, изграждане и експлоатация на пълния инфраструктурен стек в модерните центри за данни [1].
Интеграцията на дизайна DSX позволява драстично съкращаване на разходите за енергия, тъй като охлаждането се извършва изцяло на ниво флуид. „Елиминирахме огромни количества консумирана електроенергия и практически цялото потребление на вода“, посочва Али Хейдари, директор по охлаждане и инфраструктура на центрове за данни в NVIDIA [1]. Чрез системи със сухи охладители (dry coolers) се осигурява затворен цикъл, който премахва нуждата от традиционното изпарително охлаждане с водни кули, освен в екстремни климатични условия за по-малко от 1% от годината [1].
Икономически ползи при хипермащабиране
Традиционно охлаждането съставлява до 40% от общата консумация на електроенергия в един съвременен център за данни [1]. Това прави термалното управление най-критичния фактор за оптимизация на оперативните разходи (OPEX) и въглеродния отпечатък.
Индустриалните анализи показват следните икономически зависимости при повишаване на работните температури на охладителните инсталации [1]:
Повишаването на температурата в чилърната централа само с 1 °C намалява разходите за енергия за охлаждане с около 4%.
При хипермащабно съоръжение с мощност 50 MW преходът към изцяло течно охлаждане спестява над 4 милиона долара годишно от разходи за вода и ток [1].
Екологичен ефект и спестяване на вода
В региони с подходящ климат 45-градусовата архитектура позволява напълно безчилърна работа (chiller-less operation) с използването единствено на външни сухи охладители. Конвенционалните системи с отворени охладителни кули консумират около 2,6 милиона галона вода на мегават годишно [1]. Преходът към затворен контур на NVIDIA намалява това потребление до практически нула [1].
При стандартните въздушно охлаждани центрове за данни се изискват огромни обеми студен въздух, чието поддържане през горещите летни месеци е изключително енергоемко. При новия модел на NVIDIA топлината се улавя директно при източника върху самия силициев кристал. Флуидът я пренася при висока температура до външни радиаторни пити, които ефективно я разсейват в атмосферата дори при високи летни температури на околния въздух [1]. Тъй като флуидът циркулира в херметичен кръг, не е необходимо добавянето на нова вода за охлаждане [1].
Преодоляване на термалния мит за силиция
Дълго време в ИТ индустрията съществуваше схващането, че студената зала в центъра за данни е признак за висока ефективност. В миналото поддържането на ниски температури (подобно на фризер) се смяташе за задължително за стабилността на сървърите.
Инженерите на NVIDIA обаче доказват, че съвременният силиций може да работи безопасно при много по-висока температура [1]:
Охладителната смес влиза в контакт с чиповете при температура 45 °C и я напуска при около 55 °C, след като абсорбира топлинния товар [1].
Процесорите продължават да работят на пълна мощност без деградация в производителността, тъй като медните пластини поддържат кристала в сертифицираните термални граници [1].
Конструктивна промяна и партньорство с Motivair
Премахването на вентилаторите води до премахване и на шума, който в традиционните центрове за данни често надхвърърля 85 децибела и изисква носенето на антифони от персонала [1]. Сега охлаждащият агент, състоящ се от 75% вода и 25% пропиленгликол, циркулира безшумно през специални тръбопроводи в раковете [1].
За целта е разработена Tray-level архитектура с единични входящи и изходящи колектори за флуид, което значително опростява разпределението му. Това води до свиване на физическия отпечатък на сървърите — система, която преди е изисквала 6 rack units (6U) пространство за въздушно охлаждане, сега заема само 2 rack units (2U) [1].
В разработката на тази екосистема ключова роля играе Motivair (част от Schneider Electric), партнираща на NVIDIA от близо десетилетие [1]. Президентът и изпълнителен директор на Motivair Ричард Уитмор отбелязва, че с нарастването на топлинната плътност на новите чипове, течното охлаждане е станало единственият възможен вариант [1]. В географски ширини с умерен климат системата позволява пълно елиминиране на хладилните машини (чилъри) и замяната им с външни сухи охладители [1].
Възможности за когенерация и вторична употреба
Друго важно предимство на дизайна с високотемпературен охладител е възможността за лесно оползотворяване на остатъчната топлина [1]. Тъй като изходящата вода е с температура около 55 °C, тя е напълно подходяща за директно интегриране в топлофикационни мрежи за битово или индустриално отопление на съседни сгради [1]. По този начин центровете за данни могат да функционират като активни енергийни източници за местните общности, вместо просто да разсейват отпадъчната топлина в атмосферата [2].
Интензивното изграждане на ИИ фабрики в световен мащаб изисква устойчиви технологични решения. Без подобрения в енергийната ефективност на охлаждането, разходите биха нараствали правопропорционално на производителността. Системите със 100% течно охлаждане при 45 °C се очертават като ключов стандарт за бъдещето на изчислителната инфраструктура [1].
Източници:
[1]: Hotter Than a Hot Tub: The 45°C Breakthrough to Cool AI’s Biggest Machines - NVIDIA Blog
[2]: NVIDIA’s New AI Servers Run On Hotub Coolant And Don’t Need Evaporators - Hackaday