網(wǎng)卡“升職”記!DPU是如何成為算力芯片的中流砥柱的?
在算力需求高漲的今天,CPU和GPU作為算力底座,漲勢(shì)兇猛。英偉達(dá)憑借GPU在AI時(shí)代一騎絕塵,市值節(jié)節(jié)高升直沖2萬(wàn)億美元。然而,隨著人工智能、大數(shù)據(jù)分析、云計(jì)算等技術(shù)的發(fā)展,CPU和GPU在處理現(xiàn)代數(shù)據(jù)中心的復(fù)雜負(fù)載方面逐漸顯露出局限性。
DPU,以其專(zhuān)門(mén)針對(duì)數(shù)據(jù)流和網(wǎng)絡(luò)流量進(jìn)行優(yōu)化的能力,在解決數(shù)據(jù)中心的效率和靈活性問(wèn)題方面展現(xiàn)出巨大的潛力和價(jià)值。特別是在如今如日中天的AI大模型時(shí)代,DPU已成為算力集群中重要的參與者。
在萬(wàn)億級(jí)的算力產(chǎn)業(yè)市場(chǎng)中,DPU雖然是后來(lái)者,但其增長(zhǎng)速度迅猛。據(jù)中科馭數(shù)高級(jí)副總裁張宇介紹:“自2020年下半年起,DPU的發(fā)展勢(shì)頭逐漸加速,并在近幾年逐步進(jìn)入了更為理性和穩(wěn)健的發(fā)展階段,成長(zhǎng)步伐更加迅速而扎實(shí)。”
大模型時(shí)代,DPU不可或缺
隨著信息技術(shù)的持續(xù)發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)帶寬從100G邁入400G,甚至將提升至800G或1.6T。受限于通用CPU的結(jié)構(gòu)的馮諾依曼瓶頸、摩爾定律逐漸失效等因素的影響,以CPU為網(wǎng)絡(luò)核心的數(shù)據(jù)處理能力難以支持大規(guī)模新型數(shù)據(jù)中心的網(wǎng)絡(luò)和數(shù)據(jù)的算力需求。
“AI的出現(xiàn)對(duì)于GPU或者DPU都是一個(gè)千載難逢的機(jī)會(huì)?!睆堄钪赋?,AI需要的不僅是GPU,大模型訓(xùn)練所需要算力的三大核心來(lái)源將是CPU+GPU+DPU“三U一體”的算力芯片組合。CPU提供通用算力,GPU提供智能算力,DPU負(fù)責(zé)基礎(chǔ)IO算力,三者各司其職。一個(gè)通用智算架構(gòu)需要擁有強(qiáng)大算力的基礎(chǔ)設(shè)施支撐,而通用智算中心解決方案則要依靠DPU來(lái)疏導(dǎo)海量數(shù)據(jù)交互。
張宇介紹到,以AIGC應(yīng)用來(lái)看,DPU在智算中心中的關(guān)鍵作用與價(jià)值主要有四大方面:1)AI 大模型/超大模型訓(xùn)練往往同時(shí)使用數(shù)千或數(shù)萬(wàn)個(gè) GPU 卡訓(xùn)練,整個(gè)服務(wù)器集群規(guī)模達(dá)到10萬(wàn)+,DPU可以支持超大規(guī)模組網(wǎng)算力互連;2)機(jī)內(nèi) GPU 通信方面,千億參數(shù)規(guī)模的 AI 模型產(chǎn)生的 AllReduce通信數(shù)據(jù)量會(huì)達(dá)到100GB+,機(jī)間通信方面,流水線并行、數(shù)據(jù)并行及張量并行等網(wǎng)絡(luò)帶寬需求也會(huì)達(dá)到100GB +,而DPU能夠支持100G+超高帶寬;3)以1750 億參數(shù)規(guī)模的GPT- 3 模型訓(xùn)練為例,當(dāng)動(dòng)態(tài)時(shí)延從 10us 提升至1000us 時(shí),GPU 有效計(jì)算時(shí)間占比將降低接近 10%,當(dāng)網(wǎng)絡(luò)丟包率為千分之一時(shí), GPU有效計(jì)算時(shí)間占比將下降 13%,在這個(gè)過(guò)程中,DPU能夠通過(guò)使用RDMA來(lái)降低網(wǎng)絡(luò)延遲和抖動(dòng),顯著提高GPU的有效計(jì)算時(shí)間,進(jìn)而提升模型訓(xùn)練的效率;4)自然語(yǔ)言處理模型GPT-1到GPT-3,參數(shù)規(guī)模從1.17 億發(fā)展到1750 億個(gè),需要的預(yù)訓(xùn)練數(shù)據(jù)量也從最初的5GB 發(fā)展到45TB,模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模越來(lái)越龐大,DPU的NVMe- oF技術(shù)可提供更高效的存儲(chǔ)讀取和處理能力。
如果將數(shù)據(jù)中心中的每一臺(tái)服務(wù)器比喻為一座“城市”,在每個(gè)城市人口不斷膨脹,城市間交互需求爆炸式增長(zhǎng)的背景下,對(duì)比傳統(tǒng)網(wǎng)卡,DPU幫助數(shù)據(jù)中心完成了從“鄉(xiāng)間公路”到“高速鐵路”的轉(zhuǎn)變。DPU提供的高吞吐、低時(shí)延、基礎(chǔ)設(shè)施卸載能力,幫助數(shù)據(jù)中心完美的規(guī)避了“信息孤島”問(wèn)題。DPU已被證明是支撐下一代數(shù)據(jù)中心IaaS及PaaS的重要基礎(chǔ)設(shè)施。
DPU的產(chǎn)業(yè)價(jià)值已成共識(shí)。2023年10月,工信部、中央網(wǎng)信辦、國(guó)務(wù)院國(guó)資委等六部門(mén)2023年10月聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》中指出,截至2023年6月底,我國(guó)算力總規(guī)模達(dá)到近200EFLOPS,智能算力規(guī)模占比達(dá)25.4%。預(yù)計(jì)2025年,我國(guó)算力總規(guī)模達(dá)到300EFLOPS,智能算力規(guī)模占比達(dá)35%。計(jì)劃還將數(shù)據(jù)處理器 (DPU) 設(shè)為重要任務(wù)之一。
因此,國(guó)內(nèi)市場(chǎng)DPU規(guī)模巨大,根據(jù)2023年《中國(guó)數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展白皮書(shū)》,預(yù)計(jì)至 2025 年“十四五”規(guī)劃期末,擬實(shí)現(xiàn)數(shù)據(jù)中心機(jī)架規(guī)模增長(zhǎng)至 1400 萬(wàn)架,規(guī)模總量翻兩倍,總增量投資約 7000 億元。
如果按照服務(wù)器規(guī)模預(yù)計(jì),未來(lái)幾年云與數(shù)據(jù)中心領(lǐng)域每年國(guó)內(nèi)服務(wù)器出貨量將維持在500萬(wàn)臺(tái)左右,其中DPU滲透率在10%左右,單臺(tái)服務(wù)器可以配置一塊到多塊DPU板卡,預(yù)計(jì)每年DPU需求量將在100萬(wàn)片左右。
DPU:從網(wǎng)卡升級(jí)成算卡
DPU最早的前身是基礎(chǔ)功能網(wǎng)卡,也就是計(jì)算機(jī)當(dāng)中最常見(jiàn)的普通網(wǎng)卡?;A(chǔ)功能網(wǎng)卡提供2x10G或2x25G帶寬吞吐,具有較少的硬件卸載能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多隊(duì)列能力。
之后,隨著網(wǎng)絡(luò)數(shù)據(jù)量的增長(zhǎng)和業(yè)務(wù)復(fù)雜性的提升,CPU無(wú)法獨(dú)自承擔(dān)所有的數(shù)據(jù)處理任務(wù),為了更多地減輕CPU在數(shù)據(jù)處理這方面的負(fù)擔(dān),就出現(xiàn)了第一代智能網(wǎng)卡。第一代智能網(wǎng)卡具有豐富的硬件卸載能力,并以數(shù)據(jù)平面的卸載為主。因此,這一代智能網(wǎng)卡開(kāi)始協(xié)助CPU處理網(wǎng)絡(luò)負(fù)載,通過(guò)硬件卸載技術(shù)來(lái)提升計(jì)算效率。
再后來(lái),隨著網(wǎng)絡(luò)安全、人工智能、工業(yè)互聯(lián)網(wǎng)等多個(gè)領(lǐng)域不斷普及,數(shù)據(jù)量超大幅增長(zhǎng)使得處理壓力越來(lái)越大。此時(shí),智能網(wǎng)卡通過(guò)智能進(jìn)化,融入了通用算力芯片,可進(jìn)行安全與存儲(chǔ)卸載功能;并通過(guò)對(duì)網(wǎng)絡(luò)、儲(chǔ)存、算力等資源的有效調(diào)度,以提升計(jì)算效率來(lái)滿(mǎn)足算力資源優(yōu)化的需求??傊@代智能網(wǎng)卡就是當(dāng)今的DPU,也就是數(shù)據(jù)處理單元,它具有比第一代智能網(wǎng)卡更豐富的硬件卸載能力,還可以用來(lái)卸載控制平面的任務(wù)和一些更加復(fù)雜的數(shù)據(jù)平面任務(wù)。
總之,隨著需求側(cè)的變化,DPU的發(fā)展前景毋庸置疑。作為新型數(shù)據(jù)中心最重要的芯片之一,DPU必將在未來(lái)計(jì)算系統(tǒng)中成為一個(gè)重要組成部分,以助力數(shù)據(jù)中心更高效地應(yīng)對(duì)多元化的算力需求,對(duì)于支撐下一代數(shù)據(jù)中心起到至關(guān)重要的作用。
國(guó)產(chǎn)正在實(shí)現(xiàn)全產(chǎn)業(yè)鏈替代
民生證券呂偉3月2日研報(bào)中表示,全球DPU產(chǎn)業(yè)市場(chǎng)規(guī)模呈現(xiàn)逐年增長(zhǎng)的趨勢(shì),并隨著Intel、NVIDIA等廠商的DPU大規(guī)模量產(chǎn),預(yù)計(jì)DPU市場(chǎng)將迎來(lái)快速增長(zhǎng)。根據(jù)賽迪顧問(wèn)數(shù)據(jù),2020年全球DPU產(chǎn)業(yè)市場(chǎng)規(guī)模達(dá)30.5億美元,預(yù)計(jì)到2025年全球DPU產(chǎn)業(yè)市場(chǎng)規(guī)模將超過(guò)245.3億美元,期間CAGR高達(dá)51.73%。
得益于數(shù)據(jù)中心升級(jí)和邊緣計(jì)算、新能源汽車(chē)、IoT、工業(yè)物聯(lián)網(wǎng)等產(chǎn)業(yè)的發(fā)展所帶來(lái)的需求增長(zhǎng),中國(guó)DPU產(chǎn)業(yè)市場(chǎng)規(guī)模呈現(xiàn)逐年增長(zhǎng)的趨勢(shì),預(yù)計(jì)中國(guó)DPU市場(chǎng)將迎來(lái)快速增長(zhǎng)。根據(jù)賽迪顧問(wèn)數(shù)據(jù),2020年中國(guó)DPU產(chǎn)業(yè)市場(chǎng)規(guī)模達(dá)3.9億元,預(yù)計(jì)到2025年中國(guó)DPU產(chǎn)業(yè)市場(chǎng)規(guī)模將超過(guò)565.9億元,期間CAGR高達(dá)170.6%。
從行業(yè)格局上看,DPU行業(yè)市場(chǎng)集中度較高。根據(jù)頭豹研究院數(shù)據(jù),2020年國(guó)內(nèi)DPU市場(chǎng)中,國(guó)際三大巨頭英偉達(dá),博通,Intel的份額分別達(dá)到55%、36%、9%。
國(guó)內(nèi)廠商中,華為,阿里,百度,騰訊也在近幾年針對(duì)自身服務(wù)器進(jìn)行自研與外購(gòu)DPU,針對(duì)的主要功能在于數(shù)據(jù),存儲(chǔ)與安全方面。初創(chuàng)企業(yè)中科馭數(shù)、星云智聯(lián)、大禹智芯、芯啟源等都在加速各自在DPU賽道的布局。上市公司中,左江科技DPU已完成封裝測(cè)試工作,功能均符合設(shè)計(jì)標(biāo)準(zhǔn),目前正在與潛在客戶(hù)進(jìn)行溝通。神州數(shù)碼擬建設(shè)信創(chuàng)實(shí)驗(yàn)室,研發(fā)新型DPU算力設(shè)備。
中銀證券楊思睿研報(bào)中表示,DPU行業(yè)雖處早期,但產(chǎn)業(yè)鏈成熟。同時(shí)DPU的制程挑戰(zhàn)略低,適合新入局者。建議關(guān)注明確有DPU布局的上市公司左江科技、通信芯片相關(guān)的紫光股份以及國(guó)產(chǎn)異構(gòu)計(jì)算芯片公司景嘉微、紫光國(guó)微等。
從產(chǎn)業(yè)鏈看,DPU上游涉及如EDA設(shè)計(jì)軟件、IP核、封裝測(cè)試、代工等環(huán)節(jié),下游則主要對(duì)應(yīng)數(shù)據(jù)中心/云計(jì)算、智能駕駛、數(shù)據(jù)通信、網(wǎng)絡(luò)安全等領(lǐng)域需求。從產(chǎn)業(yè)趨勢(shì)來(lái)看,DPU下游需求有望持續(xù)放量,國(guó)內(nèi)廠商與海外龍頭有望在未來(lái)同臺(tái)競(jìng)技。
其中EDA軟件方面,目前海外三巨頭Cadence、Synopsys和Mentor Graphics合計(jì)占據(jù)國(guó)內(nèi)市場(chǎng)份額近77.7%,國(guó)產(chǎn)廠商在細(xì)分領(lǐng)域逐步突破,涉及上市公司包括華大九天、概倫電子、廣立微等。IP核方面,目前ARM、Synopsys合計(jì)占據(jù)全球IP核約60%的市場(chǎng)份額,同時(shí)第三名Cadence的市場(chǎng)份額為6%。國(guó)內(nèi)公司包括芯力旺電子、原微電子、芯微電子等。
封裝測(cè)試方面國(guó)內(nèi)封裝業(yè)已率先實(shí)現(xiàn)國(guó)產(chǎn)替代,并逐步向技術(shù)壁壘更高、產(chǎn)品附加值更大的先進(jìn)封裝發(fā)展。涉及上市公司包括中芯國(guó)際、臺(tái)積電、長(zhǎng)電科技、通富微電等。
興業(yè)證券吳鳴遠(yuǎn)表示,DPU在可預(yù)見(jiàn)未來(lái),將主要應(yīng)用于數(shù)據(jù)中心/云計(jì)算、智能駕駛、數(shù)據(jù)通信等領(lǐng)域,同時(shí)網(wǎng)絡(luò)安全、信創(chuàng)、國(guó)防軍工等細(xì)分市場(chǎng)滲透率亦有望提升。涉及上市公司包括騰訊、阿里巴巴、比亞迪、蔚來(lái)、小鵬汽車(chē)、理想汽車(chē)、中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通等。
值得注意的是,分析人士表示,技術(shù)路線的多樣化、應(yīng)用場(chǎng)景的多樣化決定了軟件棧的多樣化。復(fù)雜的應(yīng)用環(huán)境讓DPU公司不得不投入大量精力在解決軟件適配問(wèn)題,導(dǎo)致DPU落地時(shí)的應(yīng)用開(kāi)發(fā)和部署的成本都非常高,阻礙了DPU的普及。
