Ko strežniki AI zahtevajo višjo tehnologijo hlajenja! Zakaj se trend premika z "zračnega hlajenja" na "tekoče hlajenje"

Aug 23, 2024

Pustite sporočilo

Generalni direktor NVIDIA Jensen Huang se je posebej pojavil na COMPUTEX 2023, da bi podprl govor predsednika Supermicro Charlesa Lianga. Predsednik Fannerja Lin Yushen je poudaril, da je večina strežniških izdelkov, prikazanih na odru, vsebovala Fannerjeve module za vodno hlajenje. Fanner, ki je več let vlagal v module za vodno hlajenje, je v dobrem položaju, da izkoristi ta val umetne inteligence. Ker pa strežniki z umetno inteligenco zahtevajo vse višje standarde hlajenja, zakaj se trend premika od "zračnega hlajenja" na "tekoče hlajenje"?

I Od hitrega delovanja do tekočega hlajenja

Kar zadeva hladilno tehnologijo, je Lin Yushen opozoril, da trenutni hladilni moduli večinoma uporabljajo hibridno hladilno tehnologijo, ki vključuje toplotne cevi. Ti hladilni moduli toplotnih cevi združujejo komponente, kot so ventilatorji, toplotni odvodi in toplotne cevi, da ustvarijo uravnoteženo toplotno okolje za notranje elektronske komponente in tako povečajo stabilnost elektronskih naprav. Ker pa postajajo terminalski elektronski izdelki na koncu toka bolj večnamenski in kompaktni, so se proizvajalci hladilnih modulov preusmerili k oblikovanju hladilnih rešitev, osredotočenih na parne komore in toplotne cevi.

Trenutno so hladilni moduli razdeljeni na dve vrsti: "zračno hlajenje" in "tekočinsko hlajenje". Zračno hlajenje uporablja zrak kot medij z materiali, kot so materiali za termični vmesnik, parne komore (VC) ali toplotne cevi, ki prevajajo toploto, ki se nato odvaja skozi hladilna telesa ali ventilatorje s konvekcijo zraka. Nasprotno pa tekočinsko hlajenje odvaja toploto s konvekcijo tekočine, vključno s potopnim hlajenjem, ki učinkoviteje hladi čipe. Ker pa čipi proizvajajo več toplote in postajajo manjši ter ko se toplotna konstrukcijska moč (TDP) povečuje, zračno hlajenje postopoma postaja nezadostno.

A comparison between air cooling and liquid cooling technologies

▲ Primerjava med tehnologijama zračnega hlajenja in hlajenja s tekočino

Z vzponom ChatGPT je generativni AI spodbudil povečanje pošiljk strežnikov, kar je posledično privedlo do nadgrajenih specifikacij za hladilne module, ki jih potiskajo k rešitvam za tekoče hlajenje, da bi izpolnili stroge zahteve za hlajenje in stabilnost strežnika. Lin Yushen je poudaril, da je Fanner začel s tehnologijo zračnega hlajenja in že pred desetimi leti s prenosom tehnologije IBM začel pridobivati tehnologijo tekočinskega hlajenja. Zagotovili so stranska vrata za vodno hlajenje, ki so strankam omogočila dodajanje vodnega hlajenja v omarice brez spreminjanja obstoječe infrastrukture podatkovnega centra.

II Do leta 2025 nova doba hkratnega hlajenja zraka in tekočine

Zaradi razvoja polprevodniške tehnologije, povezane z aplikacijami AI, je uvedba GPT-3 v ChatGPT povečala parametre algoritma AI na 175 milijard, kar je zahtevalo stokratno povečanje računalniške moči GPE. Industrija uporablja predvsem enofazno tehnologijo potopnega hlajenja znotraj tekočinskega hlajenja za reševanje izzivov z odvajanjem toplote strežnikov ali komponent z visoko gostoto. Vendar ima ta metoda omejitev 600 W, medtem ko potrebe po hlajenju za ChatGPT ali naprednejše strežnike presegajo 700 W.

Illustration of single-phase immersion cooling technology

▲ Prikaz tehnologije enofaznega potopnega hlajenja

Z razvojem interneta stvari, robnega računalništva in aplikacij 5G podatkovna umetna inteligenca poganja globalno računalniško moč v fazo visoke rasti. Naslednja generacija zasnov hladilnih modulov bo sledila dvema glavnima smerema: nadgradnja obstoječih hladilnih modulov s 3D parnimi komorami (3DVC) ali uvedba sistemov za hlajenje s tekočino, ki uporabljajo tekočino kot toplotno konvekcijski medij za izboljšanje učinkovitosti hlajenja. Posledično se je leta 2023 število testov tekočinskega hlajenja močno povečalo. Vendar je 3DVC navsezadnje prehodna rešitev in pričakuje se, da se bo do 2024-2025 začela doba hkratnega zračnega in tekočinskega hlajenja.

Po podatkih TrendForce so leta 2022 strežniki z umetno inteligenco, opremljeni z GPGPU (generalni grafični procesorji), predstavljali približno 1 % vseh pošiljk. Zaradi uporabe ChatGPT pa se pričakuje, da bodo pošiljke strežnikov z umetno inteligenco leta 2023 narasle za 38,4 %, pri čemer bo skupna letna stopnja rasti pošiljk strežnikov z umetno inteligenco med letoma 2022 in 2026 dosegla 29 %.

III "Tekočinsko hlajenje" bo postalo mainstream za čipe AI

Ko se TDP nove generacije strežnikov približuje mejam zračnega hlajenja, vodilna tehnološka podjetja začenjajo testirati tekoče hlajenje ali povečevati prostor za hlajenje. Na primer, Intelov Eagle Stream in AMD-jev Genoa TDP 350-400W sta dosegla meje zračnega hlajenja, zaradi česar je tekoče hlajenje glavna rešitev za čipe AI. NVIDIA H100 ima TDP 700 W, zračno hlajenje z uporabo 3DVC pa na splošno zahteva več kot 4U prostora, kar ni primerno za arhitekture z visoko gostoto namestitve.

NVIDIA's H100

▲ NVIDIA H100

Glede na to, da hladilni sistemi predstavljajo približno 33 % celotne porabe energije v podatkovnih centrih, zmanjšanje skupne porabe energije in izboljšanje učinkovitosti porabe energije (PUE) vključuje optimizacijo hladilnih sistemov, IT opreme in uporabo obnovljive energije. Ker je toplotna zmogljivost vode štirikrat večja od toplotne zmogljivosti zraka, je za izvedbo sistemov za hlajenje s tekočino potrebno le 1U prostora za ploščo za hlajenje s tekočino. Glede na teste NVIDIA lahko za doseganje enake računalniške moči tekoče hlajenje zmanjša število potrebnih omaric za 66 %, porabo energije za 28 % in PUE z 1,6 na 1,15, hkrati pa izboljša računalniško zmogljivost.

Uporaba ventilatorskih hladilnih modulov pri IV Supermicro je ključnega pomena

Tekočinsko hlajenje se nadalje deli na "vodno hlajenje" in "oljno hlajenje", pri čemer se trenutno najpogosteje uporablja vodno hlajenje. Lin Yushen je opozoril, da skoraj vsi strežniki AI zdaj uporabljajo rešitve za vodno hlajenje. Na primer, NVIDIA GH100, s TDP, ki presega 700 W, mora uporabljati vodno hlajenje. Čeprav vodno hlajenje trenutno predstavlja majhen delež prihodkov družbe Fanner, je povprečna prodajna cena (ASP) strežnikov z umetno inteligenco desetkrat višja od cene tradicionalnih strežnikov, kar bo pomagalo preoblikovati strukturo izdelkov podjetja Fanner v drugi polovici leta. Ocenjuje se, da bi lahko strežniki AI leta 2023 predstavljali 5-10 % njihovega poslovanja.

Lin Yushen je poudaril, da je ključni razlog, zakaj Supermicro uporablja module vodnega hlajenja podjetja Fanner za strežnike, opremljene z grafičnimi procesorji NVIDIA GH100, ta, da Fanner že več kot desetletje dela na rešitvah za tekoče hlajenje. Medtem ko izzivi izvajanja vodnega hlajenja v glavnem vključujejo stroške in preprečevanje puščanja, je Fannerjevo desetletno raziskovanje postopoma premagalo te težave z puščanjem. Fannerjevo dolgoročno vlaganje v module vodnega hlajenja jih je postavilo tako, da izkoristijo ta val umetne inteligence.

Supermicro Custom Liquid Cooling

▲ Tekočinsko hlajenje po meri Supermicro

Lin Yushen je poudaril, da so nenehno povečevanje TDP, ki ga poganja visokohitrostno računalništvo, in vse večje zahteve po hlajenju strežnikov z umetno inteligenco potisnile tradicionalno hlajenje s toplotnimi cevmi do meja, zaradi česar je bila potrebna uporaba modulov za vodno hlajenje. Fanner že ima več strank, vključno s Supermicro in Meto, ki so sprejele njihove rešitve. Kljub hitrejšemu sprejetju vodnega hlajenja, kot je bilo pričakovano, je malo verjetno, da bo v celoti uvedeno leta 2023. Vendar se pričakuje pomemben preboj do leta 2024, eksplozivna rast pa se pričakuje leta 2025.