NVIDIA-ini tako imenovani "vroči čipi" so pravzaprav "vroče platforme"
Sep 03, 2024
Pustite sporočilo
NVIDIA se osredotoča na inženirske projekte na ravni sistemov in podatkovnih centrov, katerih cilj je ustvariti napredne sisteme in platforme, ki se lahko soočajo s kompleksnimi generativnimi izzivi AI.
V začetku tega meseca je NVIDIA naletela na redke slabe novice, ko so se pojavila poročila, da bi lahko težko pričakovani pospeševalnik GPU "Blackwell" podjetja zamujal za kar tri mesece zaradi konstrukcijskih napak. Vendar je tiskovni predstavnik NVIDIA izjavil, da vse poteka po načrtih. Nekateri dobavitelji so navedli, da se ni nič spremenilo, medtem ko so drugi opazili nekaj običajnih zamud.
Poznavalci industrije pričakujejo, da bodo uporabniki, ko bo naslednjo sredo objavila svoje finančne rezultate za drugo četrtletje poslovnega leta 2025, pridobili več vpogleda v stanje Blackwella.
Sporočeno je, da bodo čipi Blackwell-B100, B200 in GB200-vrhunec letošnje konference Hot Chips, ki bo naslednji teden na univerzi Stanford v Kaliforniji. NVIDIA bo predstavila svojo arhitekturo, podrobno opisala nekatere nove inovacije, orisala uporabo umetne inteligence pri oblikovanju čipov in razpravljala o raziskavah tekočinskega hlajenja v podatkovnih centrih, ki se uporabljajo za izvajanje teh naraščajočih delovnih obremenitev umetne inteligence. Po besedah Dava Salvatorja, direktorja izdelkov za pospešeno računalništvo NVIDIA, bo podjetje predstavilo tudi čipe Blackwell, ki že delujejo v enem od svojih podatkovnih centrov.

▲ čips Blackwell
Velik del tega, o čemer NVIDIA razpravlja o Blackwellu, je že znanega, na primer Blackwell Ultra GPU, ki bo predstavljen naslednje leto, in naslednja generacija Rubin GPE in Vera CPE, ki se bosta začela uvajati leta 2026. Vendar je Salvator poudaril, da ko govori o Blackwellu, ključnega pomena je, da nanj gledamo kot na platformo in ne kot en sam čip. Salvator je to izpostavil na sestanku za novinarje in analitike ta teden kot del priprav na Hot Chips.
"Ko pomislite na NVIDIA in platforme, ki jih gradimo, so GPE, mreženje in celo naš CPE šele začetek," je dejal. "Izvajamo inženiring na ravni sistemov in podatkovnih centrov, da bi zgradili te sisteme in platforme, ki se lahko resnično spopadejo s temi res težkimi izzivi generativne umetne inteligence. Videli smo, da obseg modelov sčasoma raste in večina generativnih aplikacij AI je treba izvajati v realnem času, pri čemer so zahteve po sklepanju v zadnjih nekaj letih dramatično narasle. Sklepanje velikih jezikovnih modelov v realnem času zahteva več grafičnih procesorjev in v bližnji prihodnosti bo zahtevalo več strežniških vozlišč."

To ne vključuje samo grafičnih procesorjev Blackwell in procesorjev Grace, temveč tudi čipe NVLink Switch, Bluefield-3 DPU, ConnextX-7 in ConnectX-8 NIC, Spectrum-4 Ethernet stikala in Quantum -3 Stikala InfiniBand. Salvator je zagotovil tudi različne vpoglede za stikalo NVLink (spodaj), računanje, Spectrum-X800 in Quantum-X800.
NVIDIA je predstavila težko pričakovano arhitekturo Blackwell na svoji konferenci GTC 2024 marca letos, pri čemer so se hitro pridružili prodajalci in proizvajalci originalne opreme. Podjetje cilja na hitro rastoče generativno področje umetne inteligence, kjer postajajo veliki jezikovni modeli (LLM) še bolj množični. Metina Llama 3.1, ki je bila predstavljena junija, je dokaz tega trenda, saj vsebuje model s 4,05 bilijona parametrov. Salvator je opozoril, da ko LLM-ji rastejo, ostaja povpraševanje po sklepanju v realnem času, kar zahteva več računanja in nižjo zakasnitev, kar zahteva pristop platforme.
Tako kot pri večini drugih LLM-jev se pričakuje, da bodo storitve, ki jih poganja ta model, delovale v realnem času. Če želite to doseči, potrebujete več grafičnih procesorjev. Izziv je, kako najti ogromno ravnovesje med visoko zmogljivostjo GPE-jev, visoko izkoriščenostjo GPE-jev in zagotavljanjem dobre uporabniške izkušnje za končne uporabnike, ki uporabljajo te storitve, ki jih poganja AI,« je dejal.
Potreba po hitrosti
Z Blackwellom je NVIDIA podvojila pasovno širino vsakega stikala in jo povečala z 900 GB/s na 1,8 TB/s. Tehnologija podjetja Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) prinaša več računalništva v sisteme, ki se dejansko nahajajo znotraj stikal. Omogoča nam, da nekatere naloge razbremenimo GPE-ja, da pomagamo pospešiti delovanje, in pomaga tudi pri gladkem omrežnem prometu prek tkanine NVLink. To so inovacije, ki jih še naprej spodbujamo na ravni platforme.
GB200 NVL72 z več vozlišči je tekočinsko hlajeno ohišje, ki povezuje 72 grafičnih procesorjev Blackwell in 36 procesorjev Grace v zasnovi rack-scale. NVIDIA trdi, da zagotavlja višjo zmogljivost sklepanja za LLM z bilijoni parametrov, kot je GPT-MoE-1.8T, ki učinkovito delujejo kot en sam GPE. Njegova zmogljivost je 30-krat večja kot pri sistemu HGX H100, s hitrostjo vadbe pa je štirikrat hitrejša od H100.
NVIDIA je dodala tudi izvorno podporo za FP4 z uporabo Quasar Quantization System podjetja, ki zagotavlja enako natančnost kot FP16, hkrati pa zmanjša porabo pasovne širine za 75 %. Quantizacijski sistem Quasar je programska oprema, ki uporablja Blackwellov Transformer Engine za zagotavljanje natančnosti. Salvator je to pokazal s primerjavo generativnih slik umetne inteligence, ustvarjenih s FP4 in FP16, z malo ali nič opazne razlike med obema.
Z uporabo FP4 lahko modeli porabijo manj pomnilnika in delujejo celo bolje kot FP8 v Hopper GPU.
Tekočinski hladilni sistemi
Kar zadeva tekoče hlajenje, bo NVIDIA uvedla metodo neposrednega čipa na čip s toplo vodo, ki lahko zmanjša porabo energije v podatkovnem centru za 28 %.
Salvator je dejal: "Kar je zanimivo pri tej metodi, so nekatere njene prednosti, ki vključujejo povečano učinkovitost hlajenja, nižje operativne stroške, podaljšano življenjsko dobo strežnika in možnost ponovne uporabe zajete toplote za druge namene. Vsekakor pomaga izboljšati učinkovitost hlajenja. Eden od način, kako to dosežemo, je ta, da ta sistem dejansko ne uporablja hladilnikov, ampak deluje precej dobro Ni nam treba uporabljati hladilnikov, kar nam prihrani nekaj energije in zmanjša obratovalne stroške."
Druga tema je, kako NVIDIA izkorišča AI za oblikovanje svojih čipov AI z uporabo Veriloga, jezika za opisovanje strojne opreme, ki se že štirideset let uporablja za opisovanje vezij v kodi. NVIDIA pospešuje ta prizadevanja prek avtonomnega agenta Verilog, imenovanega VerilogCoder.

Rekel je: "Naši raziskovalci so razvili velik jezikovni model, ki lahko pospeši ustvarjanje kode Verilog, ki opisuje naše sisteme. Uporabili ga bomo v prihodnjih generacijah izdelkov za pomoč pri gradnji teh kod. Lahko naredi veliko stvari. Lahko pomaga pospeši proces načrtovanja in preverjanja. Lahko pospeši ročne operacije načrtovanja in bistveno avtomatizira številne naloge."
