今年Computex上,NVIDIA的多種“AI電腦”形態(tài)亮相——但和你想得不同,主角仍然不是GeForce...可能不少同學已經(jīng)忘了Computex是“臺北國際電腦展”——即便其定位也在隨著技術(shù)發(fā)展做調(diào)整,但最初它可是主要面向“電腦”或“個人計算機”的。而現(xiàn)在Computex展上,除了傳統(tǒng)意義上的“電腦”,你還能見到不少IoT、機器人、數(shù)據(jù)中心產(chǎn)品。
我們感覺在這種轉(zhuǎn)變上,頗具代表性的一個標志性事件是,黃仁勛(NVIDIA CEO)在今年Computex的主題演講中花了2分鐘發(fā)布GeForce RTX 5060,剩下的一個多小時都是在談AI基礎(chǔ)設(shè)施、Omniverse、機器人。
他在會上也挺有“自知之明”地說:“GeForce把我們帶到這里,雖然我們現(xiàn)在的主題演講90%都不是相關(guān)于GeForce?!薄爱斎辉虿皇俏覀儾辉贌釔跥eForce了?!比缓筠D(zhuǎn)頭就開始聊CUDA相關(guān)的行業(yè)生態(tài)了...(GeForce的發(fā)布會比重分明只有1%.....)
畢竟從營收規(guī)模角度,前不久我們也分析過Gaming業(yè)務當前在NVIDIA的比重大不如前了。不過實際上,從AI基礎(chǔ)設(shè)施的角度來看,在NVIDIA現(xiàn)如今的版圖下,采用RTX顯卡的PC也是其中一環(huán)——這一點我們在今年的GTC期間就談過。
從正兒八經(jīng)“電腦”的角度,下面這張圖展示了基于NVIDIA GPU的、不同規(guī)模的AI基礎(chǔ)設(shè)施——雖然稱不上全家福:其中就有作為個人電腦的RTX Laptop(雖然未必是采用消費級GeForce顯卡),也有今年上半年特別火的DGX Spark,當然還有核彈級、內(nèi)置72顆Blackwell數(shù)據(jù)中心GPU的Grace Blackwell NVL72系統(tǒng)...

這就是傳說中的“一個架構(gòu)”覆蓋各設(shè)備形態(tài)與應用場景。老黃在發(fā)布面向企業(yè)與工業(yè)的AI計算平臺RTX PRO Server服務器時,還特別提了一句“這上面能跑《孤島危機(Crisis)》”,以及順便問了句“臺下有GeForce游戲玩家嗎?”,也算是給“AI源起自GeForce”官方正名了。
何況老黃也始終是將DGX這樣的設(shè)備稱作“AI Computer”的,再大規(guī)模也依舊是“電腦”或“計算機”——算是給Computex的“電腦”主題點題了。
那么借著本次NVIDIA在Computex發(fā)布多款AI“計算機”的機會,本文就相對片面地試著談談NVIDIA不同規(guī)模的AI基礎(chǔ)設(shè)施布局;并且?guī)椭蠹液臀覀冏约?,從邊緣、個人,到企業(yè)、云,理解NVIDIA現(xiàn)如今的系統(tǒng)級產(chǎn)品在性能擴展上的邏輯與技術(shù)...
比肩當年超算的AI個人計算機
真正面向個人電腦的GeForce及專業(yè)視覺卡就不談了,電子工程專輯就GeForce顯卡產(chǎn)品也做過系列體驗。在“個人電腦”或者叫“桌面上的AI超算”范疇,今年CES之上大火的一款產(chǎn)品就是老黃拿在手里、看起來像是縮小版DGX服務器的小設(shè)備——當時還叫Project DIGITS,后正式定名DGX Spark。

今年CES的報道也特別聊過這臺設(shè)備:和Jetson這類面向邊緣的計算機不同,DGX Spark各方面的規(guī)格都相當認真和充沛:其中的GB10芯片,CPU部分是10個Cortex-X925核心 + 10個Cortex-A725核心(這顆CPU也被標注為Grace CPU);Blackwell GPU內(nèi)藏1000 TOPS算力(Tensor core,應該是指FP4算力1 PetaFLOPS);主內(nèi)存為128GB LPDDR5X,也有1TB/4TB NVMe SSD。
從外媒(Notebookcheck)泄露的跑分成績來看,GB10的CPU在單核性能表現(xiàn)上就已經(jīng)能夠和高端Arm/x86處理器比肩。加上對WiFi 7/藍牙5.3的支持,還配有RJ45以太網(wǎng)接口,似乎就和一臺PC相似;雖然DGX OS操作系統(tǒng),以及特別配的ConnectX-7 NIC(用于實現(xiàn)兩臺DGX Spark互聯(lián)是實現(xiàn)算力擴展),還是令其不同于傳統(tǒng)PC。
“這是專為AI原生開發(fā)者準備的?!薄皩﹂_發(fā)者、學生、研究人員而言,你可能期望有屬于自己的AI云,就擺在你身邊;用于原型設(shè)計、早期開發(fā)等等。”Computex上,老黃宣布DGX Spark已經(jīng)完全量產(chǎn),也會有包括Dell, HPI, 華碩, 微星, 技嘉, 聯(lián)想等在內(nèi)的OEM廠商推出不同的OEM設(shè)備。
比較有趣的是,黃仁勛在主題演講中特地將當年的DGX-1與DGX Spark放在一起做了尺寸上的對比?!皟烧叩男阅芎芟嘟,F(xiàn)在相同的工作也可以在這臺設(shè)備(DGX Spark)上干了?!薄皟H僅大約10年時間,就有如此進步。”既然NVIDIA常把DGX稱作Supercomputer(超級計算機),這一刻也算是這個時代下小臺式機(DGX Spark)AI性能媲美超算(DGX-1)了吧。
此前不少讀者好奇,DGX Spark能不能像GeForce設(shè)備那樣玩游戲。我們現(xiàn)在仍然不清楚GB10芯片的圖形渲染算力堆料多少。不過某些OEM廠商資料提到GB10芯片用上了6144個CUDA core,也配有RT core。
大致猜測,如果配套圖形渲染固定功能單元跟上的話,那么其游戲性能大約與GeForce RTX 5070相似。當然玩游戲的前提是解決Linux + Arm生態(tài)問題,就像我們此前試用Jetson Orin Nano時提到的那樣。

DGX Station內(nèi)部——這款產(chǎn)品大概主要會由OEM廠商來推
另外,今年GTC上NVIDIA還發(fā)布了一款相較DGX Spark規(guī)格更高、尺寸稍大的DGX Station,是我們3月份的報道未有提及的。NVIDIA對其定位是能跑1萬億參數(shù)模型的個人AI設(shè)備。
雖然還是“個人設(shè)備”,但DGX Station的配置就明顯更向服務器或企業(yè)產(chǎn)品靠攏了:無論是基于Neoverse V2的72核Grace CPU,還是為Blackwell Ultra GPU所配的288GB HBM3e顯存,和多一個層級的496GB LPDDR5X主內(nèi)存,以及CPU和GPU之間的互連動用到了NVLink-C2C。
注意,DGX Station可是用上了最新的GB300——NVIDIA官網(wǎng)稱其為GB300 Grace Blackwell Ultra Desktop Superchip。當然基于ConnectX-8的networking,DGX Station也支持多設(shè)備性能擴展。在我們看來,DGX Station明顯更像AI計算集群的微縮版。
除了同樣是AI原生計算機,“這可能是目前市場上性能最強,可直接從墻插(wall socket)取電的計算機了?!薄捌渚幊棠P团c我們的那些巨大系統(tǒng)是一樣的?!庇袥]有感覺,就形態(tài)和生態(tài)角度,DGX Spark和DGX Station作為更偏個人的AI原生計算機,的確還真是比隔壁的某AI Max+高上不少的?至少其思路更明確。
能玩《孤島危機》的企業(yè)服務器
理論上,這兩款產(chǎn)品往更高AI算力水平走,后面應該是DGX B200(8x Blackewell GPU)和GB200。不過有關(guān)同架構(gòu)算力擴展——不管是scale-up還是scale-out,我們都打算放到后文介紹GB300 NVL72的部分去談。Computex上發(fā)布的、相比上述DGX Spark和DGX Station,更高AI算力的新設(shè)備為NVIDIA RTX PRO Server。
嚴格意義上RTX PRO Server不應當與DGX系列相提并論。黃仁勛之所以開玩笑式的提了一句它能跑《孤島危機》,就在于其較高的RTX圖形性能(以及搭配x86 CPU),可用于實時的Omniverse數(shù)字孿生模擬(所以其實更像OVX?)。
RTX PRO系列芯片本身有面向服務器、工作站和移動工作站的不同產(chǎn)品;所以RTX相關(guān)產(chǎn)品的算力伸縮,往下也不是DGX Station/Spark,而應該是RTX Blackwell專業(yè)視覺工作站和GeForce游戲設(shè)備。
不過在“一個架構(gòu)”的指導思路下,在我們看來NVIDIA不同系列的芯片、系統(tǒng)及設(shè)備,硬件層面的確也就是AI, HPC, graphics之間的資源分配問題。所以即便OVX和RTX PRO Server也是面向Omniverse的計算機,但它們同樣也重AI性能。

本次發(fā)布的RTX PRO Server服務器,是面向“企業(yè)AI與工業(yè)AI的運算平臺”:總共8張RTX PRO 6000服務器版顯卡(單卡24,064 CUDA core, 752 Tensor core, 188 RT core, 96GB GDDR7顯存——即便不看連接,單卡的算力與存儲資源堆料顯然是超RTX 5090的,游戲自然是小意思);
基于ConnectX-8 SuperNIC交換(應該是4顆芯片),可實現(xiàn)800Gb/s的全連接帶寬(PCIe Gen 6?。唤M合出理論峰值FP4算力30 PFLOPS;用于Omniverse這樣的圖形數(shù)字孿生模擬場景時,提供3 PFLOPS的圖形性能;800GB顯存。
順帶一句,單卡GeForce RTX 5090的這一數(shù)值是104.9 TFLOPS。不考慮通信延遲、編程兼容性之類的實際問題,如果真的用RTX PRO Server服務器玩《孤島危機(Crysis Remastered Trilogy)》,那么在不開DLSS的情況下,大致預估并行跑10個4K+最高畫質(zhì)@60fps應該沒問題;算上AI加成的話,就沒法估計了…
當然肯定沒有企業(yè)會這么用:對于企業(yè)用戶而言,它能跑各種傳統(tǒng)Hypervisor,跑虛擬桌面等;當然也能跑Omniverse,以及企業(yè)AI——包括現(xiàn)在流行的Agentic AI。

尤為值得一提的是,這款服務器產(chǎn)品里頭除了8張GPU以外,還有張板子專門用于數(shù)據(jù)交換(上圖),基于ConnectX-8 NIC——“用于交換與networking(switch first, networking second)”,“也是目前全球最先進的networking芯片”?!懊總€GPU都有自己的networking接口,東西向(east-west traffic)網(wǎng)絡(luò)實現(xiàn)了GPU的全連接?!?/p>
GTC主題演講中,黃仁勛談過企業(yè)的生成式AI應用中,服務面向個體用戶的響應速度及整體AI吞吐能力(tks/s)這兩個無法兩全的變量。而軟硬件的性能與效率提升,有利于兩者的同時提升。前不久電子工程專輯的文章也探討過這個問題。
當將這兩個變量作為x和y軸畫在一張圖上,對于特定的硬件和AI模型而言,基于不同的配置,則可以得到一條類似拋物線的曲線(下圖)。曲線與坐標軸形成的面積越大,也就表明AI基礎(chǔ)設(shè)施為企業(yè)造就的價值越高。

針對本次新發(fā)布的RTX PRO Server,NVIDIA給出的數(shù)據(jù)是,在跑Llama 70B模型(8K ISL / 256 OSL)的時候,特定配置之下(通常是曲線上達成最大平衡的點),其表現(xiàn)是H200的1.7倍。如果換成DeepSeek R1(128K ISL / 4K OSL),則相比H100 HGX服務器領(lǐng)先4倍。
算力規(guī)模的scale-up與scale-out
算力需求再往上走,就該到機柜級別了。在談GB300 NVL72系統(tǒng)之前,這里先插入個有趣的話題:GTC 2025期間,黃仁勛曾著重明確過有關(guān)性能擴展的兩個詞:scale-up與scale-out。這兩個詞感覺要翻譯成中文有難度,后文就都用原單詞來指代對應概念。
一般我們對算力擴展的大方向理解是:芯片層面通過摩爾定律來提升算力水平,封裝層面可通過多die或chiplet再做算力擴展,板級可以用多芯(多封裝)方案;然后就是一張板子上插很多張卡,構(gòu)成服務器;服務器之間還可以通過networking互連,組成機柜、計算集群等等……
為什么現(xiàn)在常能聽到有人說,NVIDIA在AI領(lǐng)域的所謂“生態(tài)”優(yōu)勢絕不僅在CUDA和各種軟件上,還在于交換和networking技術(shù)?就因為NVIDIA在上述算力擴展/伸縮的每個環(huán)節(jié)都做到了幾乎是業(yè)界最佳,且競爭對手一時半會兒難以望其項背。
說穿了算力擴展也就是把一堆計算機(或芯片)合起來一塊兒工作,但怎么高效率地“合”是關(guān)鍵。單系統(tǒng)內(nèi)的算力擴展在NVIDIA的定義中就是scale-up;當涉及系統(tǒng)外的networking互連達成算力擴展則為scale-out。所以黃仁勛說在scale-out之前,首先要做scale-up。當然這里還涉及“系統(tǒng)”究竟是什么的問題。
我們理解老黃對于這兩個詞的界定為,一個完整的NVLink域內(nèi)的算力擴展就是scale-up,比如說Grace Blackwell NVL72系統(tǒng)。去年GTC上,NVIDIA發(fā)布GB200 NVL72——這就是個由72顆Blackwell GPU構(gòu)成的完整系統(tǒng),設(shè)備形態(tài)已經(jīng)是個機柜了。
本文不打算去談scale-out——前不久挺火的NVIDIA CPO硅光芯片就應當被劃歸到scale-out算力擴展范疇,所以顯然在scale-out方向上,NVIDIA也是在花功夫的。

至于NVLINK域內(nèi)的scale-up,“做scale-up非常難?!睆慕衲闓TC上NVIDIA的新品預告來看,后續(xù)NVIDIA還準備把scale-up范圍擴展到576片GPU die(Rubin Ultra NVL576)。好像NVIDIA在市場宣傳方向上,也熱衷于將一個充分scale-up過的系統(tǒng)稱作“一顆巨大的GPU”,以強調(diào)系統(tǒng)內(nèi)部協(xié)作的高效性。去年黃仁勛就說,GPU已經(jīng)從早期的那一小顆芯片,變成了現(xiàn)在這么這么大(NVL72機柜)…
今年黃仁勛對scale-up的比喻更有趣,他將NVLINK視作CoWoS封裝的上層技術(shù)——是不是挺形象的?既然說NVL72機柜是一整顆虛擬GPU,CoWoS作為臺積電的芯片先進封裝技術(shù)將chiplet連到一起;那么NVLINK作為連接這些GPU的技術(shù),也扮演了類似的角色,只不過層級不同罷了。

而GB NVL72系統(tǒng)在黃仁勛看來,也是突破半導體物理限制、構(gòu)建起的更大型AI計算機。
Computex上,NVIDIA發(fā)布的是更新的Grace Blackwell Ultra(GB300,主體1顆Grace CPU + 2顆Blackwell Ultra GPU)。Blackwell Ultra是Blackwell的改良款;GB300相比GB200則對應實現(xiàn)了FP4算力水平1.5倍提升(40 PFLOPS),HBM3e顯存性能1.5倍提升(567GB @16TB/s),ConnectX-8帶寬2倍提升(800Gb/s)。
一個有趣的數(shù)字——最近也被不少媒體提過,40 PFLOPS這個數(shù)字已經(jīng)超過了2018年采用18000個Volta架構(gòu)GPU的Sierra超算。也就是現(xiàn)在一個計算節(jié)點就能超越當年的整個超算。顯然這4000倍性能提升絕不單是芯片技術(shù)提升所能達成的了。

GB300(和基于x86的B300)服務器開始采用100%液冷方案;最右邊的是NVLINK交換設(shè)備,可達成7.2TB/s的交換速率;
當GB300再構(gòu)成GB300 NVL72系統(tǒng)時,72顆GPU再度構(gòu)建起完整scale-up過后的NVLINK域。每次黃仁勛都很喜歡強調(diào),NVLINK骨干帶寬130TB/s,超越整個互聯(lián)網(wǎng)峰值流量速率;有時候說NVLINK相當于把整個機柜變成一張主板,有時候說讓機柜變成一顆巨型GPU…總體都是要表明,自家NVLINK技術(shù)之優(yōu)秀。
不過就組建GB NVL72這樣一套AI計算機整體,在NVIDIA的介紹視頻中也還是明確了整個產(chǎn)業(yè)鏈所做的共同努力的。這樣一臺“AI電腦”機柜總體由1200萬個組件、2英里的銅纜、130萬億晶體管構(gòu)成,重達1800kg(這些形容的主要是GB200 NVL72)。
還有個“AI電腦”定制服務...
電子工程專輯現(xiàn)在也很難得的,在相關(guān)NVIDIA的產(chǎn)品與技術(shù)報道文章里,單純地只談硬件,畢竟人家反復在說自己“是家軟件公司”,以及軟件和生態(tài)才是上述硬件得以大賣的驅(qū)動力。
當然Computex主題演講中,黃仁勛也必然是把很大篇幅給到了為企業(yè)AI構(gòu)建的軟件中間層和工具、在存儲互連相關(guān)軟件上所做的努力;以及CUDA為基礎(chǔ)的各種庫的:量子計算、通信、氣象、CAE、光刻、數(shù)據(jù)科學,還有AI。這些可以說是NVIDIA賴以生存,及發(fā)展各應用領(lǐng)域的根本(游戲:???)。我們在以往的文章里也談得挺多的了。
不過談生態(tài)也未必要說軟件:NVLINK就是一種生態(tài),且能造成產(chǎn)品差異化。NVIDIA在今年的Computex上,又讓這種差異化更進一步了——雖然和本文要探討的AI計算機關(guān)系不是那么大——這部分我們后續(xù)還會做深入探討。

這次NVIDIA發(fā)布了名為“NVLink Fusion”的定制ASIC支持。對一般人理解的NVIDIA AI而言,芯片與系統(tǒng)產(chǎn)品是完全固定的。而在NVLink Fusion IP的支持下,客戶可以加入自己的ASIC——可以是專門的AI加速器或其他類型的加速器。
因為目前我們對于NVLink Fusion實踐的商業(yè)模式,具體怎么操作仍然不是那么清楚,所以這部分完全引用老黃在發(fā)布會上說的話:
“我們構(gòu)建了NVLink chiplet,作為數(shù)據(jù)交換使用緊靠你的(定制)芯片;會有融入半定制ASIC的IP。完成以后,它就能加入到計算板子、AI超算生態(tài)系統(tǒng)之中?!秉S仁勛解釋說,“或者你可能想用自己的CPU——可能你已經(jīng)為CPU構(gòu)建起了很龐大的生態(tài)系統(tǒng),然后期望把NVIDIA融入到生態(tài)中?,F(xiàn)在我們就為你提供了這種可能性?!?/p>

“我們會把NVLink接口放到你的ASIC之中,連接到NVLink chiplet上——然后直接與Blackwell或者Rubin芯片相鄰?!薄跋蛎總€人提供融合的靈活性和開放性。”如此一來,“AI基礎(chǔ)設(shè)施有屬于你自己的組成部分,也有NVIDIA GPU;還能用上NVLink基礎(chǔ)設(shè)施和生態(tài),比如連接到Spectrum-X?!?/p>
由于要真正完成NVLink Fusion合作,光有NVIDIA的支持還不行,所以加入到這項服務中的參與者也不少,包括Alchip, AsteraLabs, Marvell, 聯(lián)發(fā)科, 高通, Cadence, Synopsys, 富士通等。“這里面就有半定制ASIC供應商;有可構(gòu)建支持NVLink的CPU企業(yè);還有像Cadence, Synopsys這樣,將我們的IP給到他們,他們再與客戶合作,將這些IP應用到客戶的芯片之中?!?/p>

雖然目前我們對于NVLink Fusion的全貌仍舊知之甚少,也不知道這么做涉及的操作難度如何、定制成本怎樣;但NVLink Fusion的發(fā)布還是令我們頗感意外的——NVIDIA竟然要支持不同廠商的CPU,乃至其他ASIC加速器…
這或許也是NVIDIA針對AI時代應用多樣化、業(yè)務個性化需求的響應策略——以及在應用導向的芯片設(shè)計、軟件定義時代的具體動作;但這無論如何都是深度擴展NVLink與NVIDIA AI生態(tài)的一步,乃至在客戶啟動合作后產(chǎn)生生態(tài)依賴與粘性的關(guān)鍵。
“如果你什么都從NVIDIA買,當然沒什么比這讓我更高興的了;但如果你從NVIDIA買一部分產(chǎn)品,我也會很高興?!保ㄔ洌篘othing gives me more joy than when you buy everything from NVIDIA. But it gives me tremendous joy if you just buy something from NVIDIA.)所以NVLink Fusion的動向絕對是值得我們后續(xù)再做關(guān)注的。

回到AI計算機角度,這就是基于NVIDIA先進技術(shù)為客戶定制AI計算機了。用老黃的話來說:“我們不是在建AI服務器和數(shù)據(jù)中心,我們是在建AI工廠”,“我們不僅是在構(gòu)建下一代IT,更是在構(gòu)建全新的行業(yè)?!?/p>
常被黃仁勛拿來與電力基礎(chǔ)設(shè)施相比的AI工廠之所以叫“工廠”,就是因為在NVIDIA看來“智能”或token,就是未來人類賴以生存的基礎(chǔ)設(shè)施?!癗VIDIA不僅是一家科技企業(yè),還是一家關(guān)鍵基礎(chǔ)設(shè)施企業(yè)。”這高度拔的…
每次我們看NVIDIA的發(fā)布會,都有種從GeForce源起到如今不同規(guī)模AI計算機鋪陳于世的感慨。“1993年初創(chuàng)公司之時,我還在想我們究竟能有多大的市場機會。當時我推測NVIDIA的業(yè)務機會會非常巨大,應該有3億美金,我們會變得很富有?!?/p>
而現(xiàn)在我們知道,從游戲顯卡到1800kg的巨型GPU,面向數(shù)據(jù)中心乃至到基建的高度,哪還是最初3億估算可比的呢?