HBM被巨頭“壟斷”,芯片廠商瞄向CXL,能成功嗎?
AI大模型發(fā)展高歌猛進(jìn),從文本生成的ChatGPT,到文生視頻的Sora,多模態(tài)交互持續(xù)迭代。在大模型的演進(jìn)、落地過程中,數(shù)據(jù)存儲系統(tǒng)面臨性能挑戰(zhàn)、穩(wěn)定運(yùn)行和成本壓力等難題。
HBM市場有多火?
根據(jù)Yole Group的最新分析報(bào)告,由于人工智能服務(wù)器的需求超過了其他應(yīng)用,HBM 在整個 DRAM出貨量中所占的份額預(yù)計(jì)將從 2023 年的約 2% 上升到 2029 年的 6%,由于 HBM價格遠(yuǎn)高于 DDR5,就收入而言,其份額預(yù)計(jì)將從 2024 年的 140 億美元攀升至 2029 年的 380 億美元——而此前該份額已從 2023 年的約 55 億美元逐年飆升了 150% 以上。
Yole Group表示,內(nèi)存供應(yīng)商已經(jīng)增加了 HBM 晶圓產(chǎn)量,預(yù)估產(chǎn)量從 2022 年的每月 44,000 片晶圓 (WPM) 增加到 2023 年的 74,000 WPM,并可能在 2024 年增至 151,000 WPM。
在HBM這一蓬勃發(fā)展的市場中,雖然只有三個玩家,但競爭之激烈,超出了許多人的想象。簡而言之,旱的旱死澇的澇死,排行第一的海力士在技術(shù)和市場上遙遙領(lǐng)先,拿走了最多的利潤,排名第二的三星正在積極發(fā)起進(jìn)攻,又拿走了一部分,至于第三的美光,由于技術(shù)路線的判斷失誤,市場份額較小,目前還處于一個追趕狀態(tài),短期內(nèi)恐怕很難貢獻(xiàn)大額利潤。
而最新的新聞也從側(cè)面證明了這種差距。SK海力士在2月確認(rèn),自己在過去幾個月的HBM銷量創(chuàng)下了新紀(jì)錄,同時帶動第四季度實(shí)現(xiàn)盈利,并預(yù)測產(chǎn)業(yè)即將復(fù)蘇,SK海力士副社長金起臺(Kim Ki-tae)指出,生成式AI服務(wù)日益多樣并持續(xù)發(fā)展,作為AI存儲解決方案的HBM需求也出現(xiàn)爆炸性成長。
更重要的是,他提到今年海力士旗下HBM已經(jīng)全部售罄,雖然2024年才剛開始,但公司為了保持市場領(lǐng)先地位,已開始為2025年預(yù)作準(zhǔn)備。‘
2024年剛開始,SK海力士就已經(jīng)在考慮2025年的HBM市場了,隔壁三星和美光所背負(fù)的壓力也是巨大,在追趕技術(shù)和市場的同時,他們在思考,能否繞開HBM這項(xiàng)技術(shù),從另一個方向去搶占AI市場呢?
此時,CXL(Compute Express Link)再度進(jìn)入到了內(nèi)存廠商的視線當(dāng)中。
什么是CXL?
CXL的起源可追溯到數(shù)據(jù)中心和高性能計(jì)算領(lǐng)域?qū)Ω焖?、更高效互連技術(shù)的需求。過去,HDD磁盤和內(nèi)存之間差距很多,但隨著SSD、NVMe 設(shè)備的出現(xiàn)逐漸彌補(bǔ)了中間的鴻溝。然而即使采用了NVMe設(shè)備,其與內(nèi)存的差異仍然有10倍以上。傳統(tǒng)數(shù)據(jù)庫對于這一差異已經(jīng)不再敏感,原因是因?yàn)橄到y(tǒng)的瓶頸已經(jīng)來到了CPU側(cè),因此這幾年所有人都在關(guān)注列存、向量化等技術(shù)來降低內(nèi)存使用。對于許多應(yīng)用而言,盡管NVMe的延遲已經(jīng)足夠滿足要求,但是吞吐依然是很明顯的瓶頸,因此并不能完全替代內(nèi)存,這其中模型訓(xùn)練、向量數(shù)據(jù)都是非常典型的場景。
CXL的出現(xiàn)很好地解決了這個問題,通過將設(shè)備掛載到PCIe總線上,CXL實(shí)現(xiàn)了設(shè)備到CPU之間的互聯(lián),實(shí)現(xiàn)了存儲計(jì)算分離。CXL 還允許 CPU 以低延遲和高帶寬訪問連接設(shè)備上更大的內(nèi)存池,從而擴(kuò)展內(nèi)存。這可以增加 AI/ML 應(yīng)用程序的內(nèi)存容量和性能。
CXL利用靈活的處理器端口,可以在 PCIe 或 CXL 模式下運(yùn)行。這兩種設(shè)備類別均可在 PCIe5.0 中實(shí)現(xiàn) 32 GT/s 的數(shù)據(jù)速率,在 PCIe6.0 中實(shí)現(xiàn)高達(dá) 64 GT/s 的數(shù)據(jù)速率,為 AI/ML 應(yīng)用提供了額外的功能和優(yōu)勢。
為什么需要 CXL?
隨著可用數(shù)據(jù)量的增長,數(shù)據(jù)中心必須適應(yīng)更復(fù)雜、要求更高的工作負(fù)載。已有數(shù)十年歷史的服務(wù)器架構(gòu)正在發(fā)生變化,使高性能計(jì)算系統(tǒng)能夠處理人工智能/機(jī)器學(xué)習(xí)應(yīng)用程序產(chǎn)生的大量數(shù)據(jù)。
這就是 CXL 的用武之地。CXL提供有效的資源共享/池來提高性能,最大限度地減少對復(fù)雜軟件的需求,并降低系統(tǒng)總成本。
CXL 為企業(yè)和數(shù)據(jù)中心運(yùn)營商帶來多種優(yōu)勢,包括:
實(shí)現(xiàn)了計(jì)算和存儲資源的分離,不再局限于CPU,GPU、FPGA都可以實(shí)現(xiàn)CXL協(xié)議共享內(nèi)存資源并實(shí)現(xiàn)跟CPU的數(shù)據(jù)交互。
提供了比內(nèi)存插槽所能容納的更多的容量和帶寬。
通過 CXL 連接設(shè)備,計(jì)算資源的擴(kuò)展會變的更加容易。
內(nèi)存變得更加彈性,按需分配、動態(tài)遷移都將變成可能。
允許 CPU 結(jié)合 DRAM 內(nèi)存使用額外內(nèi)存 。
CXL協(xié)議具體能干啥?
從2019年發(fā)布CXL 1.0/1.1,到2020年11月發(fā)布CXL2.0,如今Intel已經(jīng)發(fā)布了CXL 3.0,它的功能一直在發(fā)生著變化。
首先我們來看下CXL是什么?CXL要如何解決問題呢?
如今,CXL有CXL.io、CXL.memory和CXL.cache三個協(xié)議:
其中,CXL.io就是原來的PCIe,在CXL的建立連接、設(shè)備發(fā)現(xiàn)、配置等過程中發(fā)揮重要作用,連接建立后,CXL.cache協(xié)議負(fù)責(zé)做cache一致性的工作,CXL.cache和CXL.memory配合起來用來做內(nèi)存擴(kuò)展。
CXL.cache和CXL.memory對于latency的要求會比較高,尤其CXL.cache對延遲要求非常高,因?yàn)檫@關(guān)系到計(jì)算的效率。
在CXL1.0和1.1規(guī)范定義了三種Device:
Type1Device主要的應(yīng)用場景是高性能計(jì)算里的網(wǎng)卡(PGAS NIC),它支持一些網(wǎng)卡的原子操作,主要利用的協(xié)議就是CXL.io和CXL.cache。
Type2Device主要指的是帶有內(nèi)存的加速器,包括GPU、FPGA等加速器,它使用的協(xié)議包括用來做鏈接的CXL.io,做cache一致性的CXL.cache,用來做內(nèi)存擴(kuò)展的CXL.memory。
Type3Device主要用作內(nèi)存的Buffer,做內(nèi)存的擴(kuò)展。它主要利用CXL.io和CXL.memory的協(xié)議。如圖所示,CPU除了可以用本地的DDR內(nèi)存,還可以通過CXL去擴(kuò)展遠(yuǎn)端內(nèi)存,遠(yuǎn)端內(nèi)存可以是一個大的內(nèi)存池,這里的內(nèi)存可以共享給不同的CPU來用。
CXL2.0規(guī)范實(shí)現(xiàn)了機(jī)架級別的資源池化。
云計(jì)算強(qiáng)調(diào)資源可以像水和電一樣按需獲取,云計(jì)算的技術(shù)潮流下,追求不同資源之間的松耦合,為的是提高使用效率,為了提高使用效率,要實(shí)現(xiàn)的是相同資源的池化。
隨著技術(shù)的發(fā)展,未來的服務(wù)器不再是傳統(tǒng)意義上的服務(wù)器,它不再具有現(xiàn)實(shí)的形態(tài),用戶從云服務(wù)商那里申請?jiān)浦鳈C(jī)的時候,主機(jī)的CPU是從CPU池里拿出來的,內(nèi)存是從內(nèi)存池里拿出來的,CPU池和內(nèi)存池通過CXL連起來的。
使用從資源池里拿出來資源組成邏輯上的服務(wù)器,這就是資源解耦和資源池化在未來能帶來的變化。
CXL2.0規(guī)范在資源池化方面有所強(qiáng)化,同時,也還增加了CXL switch功能,它可以在一個機(jī)架內(nèi)通過一套CXL交換機(jī)構(gòu)建成一個網(wǎng)絡(luò)。
2022年,新發(fā)布的CXL 3.0規(guī)范又新增很多特性。
首先,CXL 3.0 PCIe 6.0規(guī)范,它的速率從32GT提升到了64GT,在相同的鏈路時,帶寬翻倍。并且,Latency也沒有任何變化。
第二,CXL 3.0新增了對二層交換機(jī)的支持,也就是Leaf spine網(wǎng)絡(luò)架構(gòu),如此便可以更好地對資源進(jìn)行解耦和池化,做更多的資源池,比如CPU資源池、內(nèi)存資源池、網(wǎng)卡資源池和加速器資源池等,Leaf與Spine之間通過Fabric manager軟件構(gòu)建各種拓?fù)浜透鞣N路由方式。
CXL 3.0不但可以更好地在一個機(jī)柜內(nèi)實(shí)現(xiàn)計(jì)算資源和存儲資源的池化和解耦,而且,可以在多個機(jī)柜之間建立更大的資源池,如此一來,對于云計(jì)算服務(wù)商的資源管理效率和成本優(yōu)化都會帶來很大幫助。
CXL的未來發(fā)展方向?
說了那么多CXL的優(yōu)勢和好處,那么CXL的未來發(fā)展方向如何呢?
首先,CXL可以用來擴(kuò)展內(nèi)存的容量和帶寬,這是非常重要的一個方面。在使用服務(wù)器本地內(nèi)存的同時,還可以通過CXL利用遠(yuǎn)端內(nèi)存,遠(yuǎn)端內(nèi)存的成本和價格相對更低,而且,它能讓CPU和內(nèi)存之間的配比變得更靈活。
進(jìn)一步發(fā)展之后,未來完全可以取消近端本地內(nèi)存,全部都使用遠(yuǎn)端內(nèi)存,這有賴于摩爾定律的作用,讓計(jì)算芯片和存儲芯片都有更進(jìn)一步的發(fā)展。
與此同時,CPU上會有比DRAM更高速的內(nèi)存,比如可能會把HBM與處理器封裝到一個die里,使得CPU有更多的高速內(nèi)存。
另外,還有一個趨勢在于遠(yuǎn)端內(nèi)存的持久化。目前,英特爾就有傲騰持久內(nèi)存,但因?yàn)橐恍┰颍⑻貭栃疾辉倮^續(xù)研發(fā)了,不過,業(yè)界還有很多替代方案,比如NVDIMM,配合CXL將這些持久內(nèi)存作為遠(yuǎn)端內(nèi)存,還能夠提供多種實(shí)用功能。
除此之外,還能利用CXL技術(shù)實(shí)現(xiàn)Computational Storage,通過CXL利用內(nèi)存資源,在存儲上做一些壓縮或者解壓縮的操作,類似可以在遠(yuǎn)端實(shí)現(xiàn)的功能還有很多。
CXL帶來的改變從單節(jié)點(diǎn)開始,擴(kuò)展到機(jī)架規(guī)模,而后是Tor級別,最終會影響到數(shù)據(jù)中心級別,CXL將要重構(gòu)未來的數(shù)據(jù)中心。
數(shù)據(jù)中心利用CXL做解耦和池化,CXL技術(shù)能夠讓不同的資源從緊耦合變成松耦合,讓相同的資源變成池化資源,會形成CPU資源池、GPU資源池以及內(nèi)存資源池,各個資源池通過CXL連接。
在未來發(fā)展中,隨著CXL技術(shù)的逐步落地,IPU承擔(dān)的任務(wù)也會越來越多,既作為CXL的端點(diǎn),又作為以太網(wǎng)的端點(diǎn),會有很多功能和負(fù)載卸載到IPU上,架構(gòu)上會有很多變化,將會有很多新的創(chuàng)新。
寫在最后
就2024初來看,CXL標(biāo)準(zhǔn)落地仍有許多障礙需要克服。三星開發(fā)的 CXL 2.0 DRAM 與現(xiàn)有標(biāo)準(zhǔn)相比,可擴(kuò)展性有限。開發(fā)與 GPU、CPU 和 DRAM 兼容的 CXL 交換設(shè)備、設(shè)計(jì) CXL DRAM 模塊以及快速開發(fā)支持軟件等挑戰(zhàn)都是當(dāng)務(wù)之急。
而建立生態(tài)系統(tǒng)也同樣重要。CXL領(lǐng)域的知名企業(yè)包括與擁有 CXL 3.0 設(shè)計(jì)資產(chǎn)和集成解決方案的全球半導(dǎo)體公司合作的韓國初創(chuàng)企業(yè)Panmesia,以及擁有 CXL DRAM 控制器設(shè)計(jì)技術(shù)的中國的瀾起科技,業(yè)內(nèi)人士指出:"要在 CXL 3.0 中實(shí)現(xiàn)理想的可擴(kuò)展性,僅僅停頓在部分技術(shù)開發(fā)上是不夠的,必須要有涵蓋整個生態(tài)系統(tǒng)的整體技術(shù)。"
好消息是,截至目前,CXL內(nèi)存擴(kuò)充模組的應(yīng)用環(huán)境已經(jīng)較為完善,主要的內(nèi)存廠商均已推出自家的CXL內(nèi)存擴(kuò)充模組產(chǎn)品,雖然現(xiàn)在的服務(wù)器只能支持CXL 1.1標(biāo)準(zhǔn),但基本上已經(jīng)可以連接與運(yùn)行,等到下一代也就是支持CXL 2.0服務(wù)器上線后,就能更好地利用它的優(yōu)勢,從而實(shí)現(xiàn)這一標(biāo)準(zhǔn)的普及。
在2024年年初,我們可以用一句話來形容,就是萬事俱備,CXL只欠應(yīng)用這場東風(fēng)了。
當(dāng)然,關(guān)于CXL競爭依舊不可避免,有韓國業(yè)內(nèi)人士表示,“雖然公眾不知道,但三星電子和 SK 海力士都‘全力以赴’確保在 CXL 技術(shù)方面取得領(lǐng)先地位,就像他們對 HBM 所做的那樣?!?/span>
卷完了HBM,內(nèi)存廠商又瞄上了CXL,一場新的內(nèi)存戰(zhàn)爭,即將展開。
