國產(chǎn)GPU火種初現(xiàn),開啟螞蟻憾大象之旅
最近ChatGPT大火,推動算力板塊爆紅,包括CPU、GPU、ASIC等相關(guān)廠商。
在GPU板塊,國產(chǎn)企業(yè)目前只有景嘉微一家上市公司,其當(dāng)前產(chǎn)品也并未涉及高性能AI計(jì)算。算力擴(kuò)張的實(shí)際受益者仍然是國外巨頭NVDIA、AMD、Intel,以NVDIA為最。
但一眾中國創(chuàng)業(yè)企業(yè),已在各市場領(lǐng)域布局,開啟了國產(chǎn)GPU的螞蟻憾大象之旅。目前以摩爾線程的布局最為全面,其他企業(yè)大都采用點(diǎn)式突破。
火種初現(xiàn)的中國廠商
作為全球算力硬件當(dāng)之無愧的龍頭公司,英偉達(dá)每年的GTC大會都吸引著眾多尖端科技工作者的目光,尤其是在2023這個(gè)ChatGPT的出圈元年,作為人工智能硬件的主要提供商,英偉達(dá)GTC的曝光量更是得到了顯著的增加。
而在此次大會中,英偉達(dá)展示了其針對訓(xùn)練、推理、云服務(wù)等多維度的ChatGPT領(lǐng)域布局。
在AI訓(xùn)練領(lǐng)域,英偉達(dá)助力算力持續(xù)提升,賦能大模型突破。
基于GPU并行計(jì)算的特性以及英偉達(dá)在AI領(lǐng)域的前瞻布局,英偉達(dá)在AI訓(xùn)練領(lǐng)域擁有絕對優(yōu)勢,同時(shí)十分重視人工智能賽道,不斷提升其人工智能硬件的計(jì)算能力。
并且,隨著GPT大模型對于算力需求的提升,全球科技巨頭均已開始或即將搭載英偉達(dá)的H100產(chǎn)品:Meta已在內(nèi)部為團(tuán)隊(duì)部署了基于H100的Grand Teton AI超級計(jì)算機(jī);OpenAI將在其Azure超級計(jì)算機(jī)上使用H100來為其持續(xù)的AI研究提供動力。
而在此次GTC 2023上,基于Hopper架構(gòu)及其內(nèi)置Transformer Engine,英偉達(dá)H100針對生成式AI、大型語言模型(LLM)和推薦系統(tǒng)的開發(fā)、訓(xùn)練和部署都進(jìn)行了優(yōu)化,利用FP8精度在LLM上提供較上一代A100更快的訓(xùn)練及推理速度,助力簡化AI開發(fā)。
而在AI推理領(lǐng)域,AI視頻、圖像生成、大型語言模型部署及推薦系統(tǒng)也在加速部署。
在今年的GTC 2023中,英偉達(dá)推出了全新的GPU推理平臺:基于加速AI視頻、圖像生成、大型語言模型部署和推薦系統(tǒng),形成了4種配置、1個(gè)體系架構(gòu)和1個(gè)軟件棧的產(chǎn)品體系。
其中H100 NVL GPU受到了市場較為廣泛的關(guān)注:英偉達(dá)在GTC 2023公開表示,該產(chǎn)品將配備雙GPU NVLink,或?qū)?shí)現(xiàn)比現(xiàn)用A100快10倍的速度,可處理擁有1750億參數(shù)的GPT-3大模型,并支持商用PCIe服務(wù)器擴(kuò)展,適用于訓(xùn)練大型語言模型。
黃仁勛稱,相較于目前唯一可以實(shí)時(shí)處理ChatGPT的HGX A100,一臺搭載四對H100和雙NVLink的標(biāo)準(zhǔn)服務(wù)器能將速度提升10倍,并且還可以將大語言模型的處理成本降低一個(gè)數(shù)量級。黃仁勛也將NVIDIA DGX H100稱作全球客戶構(gòu)建AI基礎(chǔ)設(shè)施的藍(lán)圖。
黃仁勛也表示,ChatGPT僅僅是人工智能第一個(gè)出圈的應(yīng)用,也只是一個(gè)起點(diǎn)。在人工智能浪潮來臨之時(shí),全球范圍內(nèi)必將出現(xiàn)一批進(jìn)軍人工智能大模型硬件的企業(yè)。但英偉達(dá)在短期內(nèi)擁有絕對的技術(shù)優(yōu)勢,未來也將持續(xù)發(fā)力。
毫無疑問,英偉達(dá)發(fā)布的最新硬件對于人工智能企業(yè)來說,是解決算力問題的最大福音,但對于中國企業(yè)來說,這卻并非是一則喜訊。
2022年8月,美國監(jiān)管機(jī)構(gòu)以國家安全為由,對NVIDIA A100、H100兩款GPU實(shí)施禁令,不得銷售給中國企業(yè),意在通過“卡脖子”的方法來降低國內(nèi)AI模型的傳輸速度,拖延中國人工智能發(fā)展。
從長遠(yuǎn)來看,未來大模型的研發(fā)和部署是必然趨勢,而每個(gè)大模型訓(xùn)練和部署的背后,都有幾萬個(gè) GPU 芯片在支持。因此,未來隨著這方面的研發(fā)和應(yīng)用的普及,通用 GPU 市場需求將會迎來爆發(fā)式增長。
而中國能獲得的最佳替代品,則是英偉達(dá)專供中國的A800芯片,也是A100的“閹割版”,其傳輸速度只有A100的70%,而在H100大規(guī)模供貨后,中美AI公司的差距則將進(jìn)一步拉大。
高性能的GPU,已經(jīng)成為了限制中國AI行業(yè)發(fā)展的最直接因素之一。
但也正是在算力需求激增、硬件供給被切斷、難以真正“市場化”的背景下,國內(nèi)才涌現(xiàn)了一批GPU的“火種”企業(yè)。
這些新興的企業(yè)中,核心團(tuán)隊(duì)基本都是業(yè)內(nèi)頂尖專家,許多技術(shù)專家來自英偉達(dá)、AMD 等國際龍頭企業(yè)。初創(chuàng)企業(yè)們接連完成新融資,并陸續(xù)推出新品加速商業(yè)化。
首先,是借軍工信息化之風(fēng)邁向全面國產(chǎn)替代的GPU企業(yè)——景嘉微(SZ:300474)。
景嘉微的技術(shù)核心團(tuán)隊(duì)來自于國防科技大學(xué),公司業(yè)務(wù)也是依靠軍工業(yè)務(wù)圖形顯控模塊芯片起家,持續(xù)投入研發(fā)布局全自主研發(fā)GPU芯片的圖形顯控傳統(tǒng)業(yè)務(wù)。
在后續(xù)的發(fā)展中,伴隨著國家專項(xiàng)基金的支持與企業(yè)芯片研發(fā)的推進(jìn),公司的GPU芯片業(yè)務(wù)逐漸“開枝散葉”,滲透入了民用市場,在“8+N”個(gè)行業(yè)中進(jìn)行著快速的發(fā)展。
截止目前,公司是國內(nèi)首家成功研制國產(chǎn)GPU芯片并實(shí)現(xiàn)大規(guī)模工程應(yīng)用的企業(yè),也是國內(nèi)唯一具備完全自主研發(fā)GPU能力并產(chǎn)業(yè)化的上市公司,目前已擁有267項(xiàng)專利,在圖形顯控領(lǐng)域走在行業(yè)前列。
而公司的產(chǎn)品,也正在從“能用”邁向“好用”的階段。
根據(jù)景嘉微2021年公告,公司研發(fā)的JM9系列圖形處理芯片將支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps 視頻解碼。
其核心頻率至少為1.5GHz,配備8GB顯存,浮點(diǎn)性能約 1.5 TFlops,與英偉達(dá)GeForce GTX 1050 相近。
而在與公司的交流中,相關(guān)人員表示,之前的7系列分為多個(gè)版本,根據(jù)客戶的需求、價(jià)格和價(jià)位承受能力來配合出貨,所以取得了較大的成功。而9系目前還在談價(jià)的過程中,也相信9系列會促使全球顯卡價(jià)格的下行。
并且對方還表示,公司對標(biāo)的是海外競爭對手幾年前的產(chǎn)品,而當(dāng)利潤低于一定程度后,海外的公司會主動放棄市場。公司也會從相對的低端做起,隨著技術(shù)的進(jìn)步,逐漸追趕英特爾、AMD的步伐。
盡管目前景嘉微的產(chǎn)品與國際尖端GPU存在著極大的差距,但作為一顆由中國企業(yè)完全獨(dú)立研發(fā)、采用正向設(shè)計(jì)、具有自主知識產(chǎn)權(quán)的GPU,已經(jīng)邁出了國產(chǎn)自主道路上的一大步,成為中國算力的“希望之火”。
接著,是依靠CPU、DCU雙輪驅(qū)動,深度受益國產(chǎn)化替代的企業(yè)——海光信息(SH:688041)。
海光信息成立于2014年,主營業(yè)務(wù)為研發(fā)、設(shè)計(jì)和銷售應(yīng)用于服務(wù)器、工作站等計(jì)算、存儲設(shè)備中的高端處理器,目前擁有海光通用處理器(CPU)和海光協(xié)處理器(DCU)兩條產(chǎn)品線。
而其中,DCU作為專注通用計(jì)算、單純提供人工智能算力的產(chǎn)品,成為了企業(yè)新的業(yè)績增長極。
海光信息于2018年切入DCU領(lǐng)域,堅(jiān)持自主研發(fā),目前已經(jīng)成功掌握高端協(xié)處理器微結(jié)構(gòu)設(shè)計(jì)等核心技術(shù),并以此為基礎(chǔ)推出了性能優(yōu)異的DCU產(chǎn)品,具備強(qiáng)大的計(jì)算能力和高速并行數(shù)據(jù)處理能力,性能基本能與國際同類型主流產(chǎn)品同臺競技。
選取公司深算一號產(chǎn)品和國際領(lǐng)先的GPU廠商英偉達(dá)的高端GPU產(chǎn)品(A100)及AMD高端GPU產(chǎn)品(MI100)進(jìn)行對比,在典型應(yīng)用場景下,海光信息深算一號單顆芯片的指標(biāo)基本達(dá)到國際上同類型高端產(chǎn)品的水平。
對標(biāo)目前國際主流人工智能企業(yè)都在使用的NVIDIA A100產(chǎn)品,海光DCU單芯片產(chǎn)品基本能達(dá)到其70%的性能水平,同時(shí),公司DCU產(chǎn)品的片間互聯(lián)性能還有較大的提升空間。
而在硬件之外,海光信息也為打破CUDA生態(tài)專門制作了軟件配置:海光 DCU 協(xié)處理器全面兼容 ROCm GPU計(jì)算生態(tài),由于ROCm與CUDA的高度相似性,CUDA用戶可以以較低代價(jià)快速遷移至 ROCm平臺。
因此,海光DCU協(xié)處理器能夠較好地適配、適應(yīng)國際主流商業(yè)計(jì)算軟件和人工智能軟件,軟硬件生態(tài)豐富。
此外,海光還積極參與開源軟件項(xiàng)目,加快了DCU產(chǎn)品的推廣速度,并成功實(shí)現(xiàn)了與GPGPU主流開發(fā)平臺的兼容。
近些年來,在國內(nèi)諸多創(chuàng)企的努力下,GPU硬件的突破捷報(bào)頻傳,但目前我國CPU廠商距離英偉達(dá)等國際頭部廠商的距離仍然還有很遠(yuǎn)。
所以對于中國GPU企業(yè)來說,做好國產(chǎn)的Plan B,再謀求發(fā)展,或許才是正確的方向。
但可以確定的是,隨著科技的進(jìn)步,中國GPU算力行業(yè)一定要、也一定會擺脫被“卡脖子”的問題,讓中國的AI企業(yè)用上中國的GPU,打贏這場算力之戰(zhàn)。
國產(chǎn)廠商將面臨哪些機(jī)遇和挑戰(zhàn)?
首先我們要知道GPU的核心競爭力是在于架構(gòu)等因素決定的性能先進(jìn)性和計(jì)算生態(tài)壁壘。一方面,性能先進(jìn)性體現(xiàn)在高精度浮點(diǎn)計(jì)算能力。訓(xùn)練需要密集的計(jì)算得到模型,沒有訓(xùn)練,就不可能會有推理。而訓(xùn)練需要更高的精度,一般來說需要float型,如FP32,32位的浮點(diǎn)型來處理數(shù)據(jù)。
另一方面,生態(tài)也是GPU發(fā)展需要解決的問題。其中英偉達(dá)早在CUDA問世之初就開始生態(tài)建設(shè),AMD和Intel也推出了自研生態(tài)ROCm和one API,但CUDA憑借先發(fā)優(yōu)勢早已站穩(wěn)腳跟。為解決應(yīng)用問題,AMD和Intel通過工具將CUDA代碼轉(zhuǎn)換成自己的編程模型,從而實(shí)現(xiàn)針對 CUDA 環(huán)境的代碼編譯。
憑借核心競爭力優(yōu)勢,目前英偉達(dá)和AMD(美國超威半導(dǎo)體)已經(jīng)是國際上非常成熟的GPU巨頭了。英偉達(dá)公司的GPU被廣泛應(yīng)用于計(jì)算機(jī)圖形學(xué)、科學(xué)計(jì)算、深度學(xué)習(xí)等領(lǐng)域,而AMD公司則是全球第二大獨(dú)立半導(dǎo)體設(shè)計(jì)師,涉及CPU、GPU、服務(wù)器等多個(gè)領(lǐng)域。
但由于CUDA的閉源特性,以及快速的更新,后來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導(dǎo)致在性價(jià)比上持續(xù)落后英偉達(dá),之前國內(nèi)廠商面臨的困境也是來源于此。所以國內(nèi)GPU廠商紛紛大力投入研發(fā)迭代架構(gòu),謀求構(gòu)建自主軟硬件生態(tài)。
但近年來,國產(chǎn)GPU也逐漸進(jìn)入了主流市場。并且自2020年開始,國內(nèi)GPU行業(yè)融資環(huán)境有較大改善,初創(chuàng)公司遍地開花,2021年,中國加速服務(wù)器市場規(guī)模達(dá)到53.9億美元(約合人民幣350.3億元),同比增長68.6%。其中GPU服務(wù)器以91.9%的份額占國內(nèi)加速服務(wù)器市場的主導(dǎo)地位;神經(jīng)網(wǎng)絡(luò)處理器(NPU)、ASIC和FPGA等非GPU加速服務(wù)器占比8.1%。預(yù)計(jì)2024年中國GPU服務(wù)器市場規(guī)模將達(dá)到64億美元。
在技術(shù)研發(fā)、市場推廣、科技創(chuàng)新等方面也均有積極的發(fā)展態(tài)勢。在國產(chǎn)GPU進(jìn)化方面,華為早在2013年就開始了其異構(gòu)計(jì)算芯片的研發(fā)工作,例如華為的麒麟系列芯片,包括麒麟970和麒麟970 AI,都集成了自家研發(fā)的AI芯片NPU,這使得華為手機(jī)等移動設(shè)備也具備了很高的AI算力。
可仍需要承認(rèn)的是,國產(chǎn)GPU產(chǎn)品離高端市場還有距離,存在與國外領(lǐng)先水平的差距,尤其在科學(xué)計(jì)算、人工智能和新型圖形渲染方面。同時(shí)美國政府還限制高端的GPGPU售賣給中國客戶,要求英偉達(dá)的A100、H100系列和AMD的MI 250系列及未來的高端GPU產(chǎn)品售賣前需要先獲得美國政府的許可。而這幾款芯片均為用于通用計(jì)算的高端GPGPU,通常應(yīng)用在人工智能計(jì)算的云端訓(xùn)練和推理場景以及超級計(jì)算機(jī)中。
并且除了技術(shù)差距,國內(nèi)GPU企業(yè)的發(fā)展還面臨著資金壓力。新創(chuàng)企業(yè)不僅面臨原材料和制造能力的供應(yīng)緊張問題,還必須承受來自國內(nèi)外同業(yè)的競爭壓力,而對于GPU創(chuàng)企而言,巨大的研發(fā)費(fèi)用和資本開支是必需,但長期、持續(xù)的利潤支撐才是GPU跨代發(fā)展的強(qiáng)勁驅(qū)動力。
總之,隨著中國GPU市場的轉(zhuǎn)型和升級、國內(nèi)GPU企業(yè)的迅猛發(fā)展,國產(chǎn)GPU在迎來黃金發(fā)展期的同時(shí)還面臨著更多的挑戰(zhàn)和機(jī)遇。但相信這些企業(yè)在技術(shù)上的不斷突破相信會進(jìn)一步刺激市場需求,推動市場進(jìn)一步擴(kuò)大。未來,國產(chǎn)GPU有望在人工智能應(yīng)用領(lǐng)域迎來更加廣闊的發(fā)展空間。
