美國禁止高端GPU“外流”,卻也給了國產(chǎn)GPU又一次發(fā)展機遇
被美國商務(wù)部將其列入“實體清單”后,國產(chǎn)顯卡大廠摩爾線程表現(xiàn)的十分不爽。
11月6日,摩爾線程創(chuàng)始人兼首席執(zhí)行官張建中給公司全體員工發(fā)出一封信,信中寫道:在這個挑戰(zhàn)與機遇并存的時間點,我想說的是,中國GPU不存在“至暗時刻”,只有星辰大海。
摩爾線程從始至終只有一項事業(yè):打造中國最好的全功能GPU,我們會將這項事業(yè)進行到底,任何事情都不會影響我們堅定走下去的決心。
按照摩爾的說法,加快自主研發(fā)與創(chuàng)新。目前他們的已獲授權(quán)專利數(shù)量暫時實現(xiàn)了國內(nèi)領(lǐng)先,但是距離公司的目標還需更努力。
張建中還表示,要打造高效團隊。加強組織管理,聚焦全功能GPU核心技術(shù)研發(fā),保持團隊高效和敏捷。
國產(chǎn)GPU的發(fā)展浪潮
要論國內(nèi)的芯片熱潮,主要是兩次發(fā)展。第一次是在智能算法和技術(shù)加持下的AI芯片,其中包括圖形處理器單元(GPU)、現(xiàn)場可編程門陣列(FPGA)以及專門用于人工智能的特定應(yīng)用集成電路(ASIC)。
不管是早期入門的寒武紀,還是斥巨資入局的比特大陸、云知聲等企業(yè),都已經(jīng)獲得了數(shù)千萬美元的投資,是指近日,有的已經(jīng)成長為行業(yè)獨角獸,有的成功上市,還有的被成功并購。
第二波浪潮是在2020年,芯片行業(yè)在GPU領(lǐng)域的創(chuàng)業(yè)熱潮。眾所周知,GPU主要被用作圖形計算領(lǐng)域,在人工智能技術(shù)的加持下,GPU也因為擁有大規(guī)模運行并計算的能力而吸引了更多資本的入局,定義了GPU的英偉達就在2021年成為全球市值最高的芯片公司。
在芯片短缺的當下,我國也越來越認識到擁有國產(chǎn)芯片的重要性,于是推出了各種政策支持國產(chǎn)GPU的發(fā)展。同時,GPU也比一般科技領(lǐng)域的探索更加燒錢,因此需要大量的資本扶持。目前已經(jīng)有很多早進入、已有陳品的公司開始和客戶一起落地合作,不斷完善其軟件系統(tǒng),后成立的公司也在研發(fā)過程中積極尋找自己潛在的合作伙伴,在GPU芯片創(chuàng)業(yè)浪潮的推動下,芯片的“落地”成為了重要需求。
我國的芯片黃金時代已經(jīng)來臨,國產(chǎn)GPU正在強勢崛起,不管是GPU芯片、AI芯片還是計算芯片“新貴”DPU賽道,都熱鬧非凡。但不管是在那個領(lǐng)域,只有擁有真獲贈的技術(shù)和拿的出售的產(chǎn)品才能掌握市場的話語權(quán)。
CPU+GPU都要才不被卡脖子
2022 年 10 月 7 日美國商務(wù)部工業(yè)安全局(BIS)發(fā)布《美國商務(wù)部對中華人民共和國(PRC)關(guān)于先進計算和半導(dǎo)體實施新的出口管制制造》細則中管制物項包含高性能 AI 芯片產(chǎn)品, Nvidia A100 和 H100 均在管制行列。在此背景下,Nvidia推出性能閹割的中國特供版芯片A800和H800天價向國內(nèi)出售,而隨著A800和H800的停產(chǎn),Nvidia將對中國提供進一步閹割的A40和T40。未來在AI芯片,特別是 GPU上這種受制于人的狀態(tài)勢必會對中國 AI 產(chǎn)業(yè)提出極大的挑戰(zhàn)。因此在國內(nèi)自主可控的大背景下,國內(nèi)AI產(chǎn)業(yè)對國產(chǎn)GPU芯片的需求也同樣迫切。
當代人工智能建立在統(tǒng)計學(xué)基礎(chǔ)上,是數(shù)據(jù)驅(qū)動型的表現(xiàn),本質(zhì)是在AI芯片上運行算法計算海量數(shù)據(jù),訓(xùn)練AI模型,推理結(jié)論。在人工智能領(lǐng)域,AI芯片可以分為大概分為GPGPU、FPGA和ASIC。GPGPU芯片采用統(tǒng)一渲染架構(gòu),計算通用性最強,可以適用于多種算法,在很多算法前言的領(lǐng)域,GPGPU是最佳選擇。 GPGPU服務(wù)器占據(jù)86%的市場份額,在人工智能的計算市場銷售額占比最大,其中Nvidia約占96.1%。FPGA是一種半定制芯片,對芯片硬件層可以靈活編譯,缺點是當處理的任務(wù)重復(fù)性不強、邏輯較為復(fù)雜時,效率會比較差。ASIC是一種為專門目的而設(shè)計的芯片(全定制),是根據(jù)特定算法定制的芯片架構(gòu),針對特性算法算力強大,但算法一旦改變,計算能力會大幅下降,如:基于神經(jīng)網(wǎng)絡(luò)算法與加速的 NPU。
根據(jù)參與運算數(shù)據(jù)精度的不同,可把算力分為雙精度算力(64位,F(xiàn)P64)、單精度算力(32位,F(xiàn)P32)、半精度算力(16位,F(xiàn)P16)及整型算力(INT8、INT4)。數(shù)字位數(shù)越高,意味著精度越高,能夠支持的運算復(fù)雜程度就越高,適配的應(yīng)用場景也就越廣。在需要處理的數(shù)字范圍大而且需要精確計算的科學(xué)計算、工程計算領(lǐng)域,都需要雙精度算力(FP64)的支持;在AI大模型、自動駕駛、深度學(xué)習(xí)等人工智能模型的訓(xùn)練領(lǐng)域,一般需要單精度算力(FP32)的支持;而像數(shù)字孿生、人臉識別等利用訓(xùn)練完畢的模型進行推理的業(yè)務(wù),適用于半精度算力(FP16)或者整型算力(INT8、INT4)。
我們國產(chǎn)的GPU廠商,包括GPGPU架構(gòu)的海光、天數(shù)智芯壁仞科技、摩爾線程等,其中海光是目前唯一一家大規(guī)模量產(chǎn)出貨且規(guī)模應(yīng)用的GPGPU芯片,能實現(xiàn)64位雙精度、32位單精度、16位半精度和8位整型算力的全面覆蓋;另外就是NPU架構(gòu)體系的華為、燧原、寒武紀等。而不同架構(gòu)體系對精度的實現(xiàn)也是不同的:
GPGPU芯片一般會布局大量的雙精度和單精度的計算區(qū)域,同時也覆蓋到半精和整形算力。GPGPU的算力精度涵蓋較廣,應(yīng)用的領(lǐng)域也更廣泛,整個產(chǎn)業(yè)的生態(tài)相對完整,但是芯片設(shè)計相對比較復(fù)雜,前一陣美國限制向中國出口的AI芯片也是高端的GPGPU芯片。
NPU的優(yōu)勢是大部分時間集中在低精度的算法,芯片算力一般以半精度算力(FP16)和整型算力(INT8、INT4)為主,擅長處理視頻、圖像類的海量多媒體數(shù)據(jù),不涉及高精度算力應(yīng)用的領(lǐng)域。因此NPU芯片主要是覆蓋低精度,應(yīng)用領(lǐng)域比較受限,特別是很多NVIDIA的業(yè)務(wù)如果遷移到NPU環(huán)境下,在需要大量的遷移適配工作的同時,也會面臨模型遷移后而遇到的算法和引擎識別精度下降的問題。
值得注意的是,現(xiàn)階段AI應(yīng)用中,大量的算法、模型、庫、開發(fā)框架、軟件和應(yīng)用都基于通用加速卡架構(gòu)開發(fā)出來,且具備較高的成熟度。在國產(chǎn)AI產(chǎn)業(yè)發(fā)展之路上,隨著超大規(guī)模預(yù)訓(xùn)練模型對算力需求的持續(xù)攀升,使用GPGPU的通用架構(gòu)對Nvidia進行替換和業(yè)務(wù)模型的高效便捷移植,建設(shè)CPU+高精度通用GPGPU的算力中心,是自主可控發(fā)展的必由之路。
軟件是更高的壁壘
比起硬件性能上可接受的差異,軟件適配與兼容讓客戶接受更難。
當大模型和應(yīng)用層面的競爭拉響,從商業(yè)角度思考,采用國產(chǎn)AI芯片參戰(zhàn)并不是好的選擇。
從硬件性能上,使用國產(chǎn)AI芯片計算會比采用英偉達A100慢,在分秒必爭的當下,“慢”是企業(yè)最不愿意看到的場景。
此外,哪怕能通過堆芯片的方式堆出一個算力相當?shù)漠a(chǎn)品,從服務(wù)器運營的角度,它的主板開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數(shù)據(jù)中心的運營成本。
因為算力資源常需要以池化的形式呈現(xiàn),數(shù)據(jù)中心通常更愿意采用同一種芯片,或者同一公司的不同芯片,來降低算力池化難度。
對客戶而言,把國產(chǎn)AI芯片用起來并不容易。
算力的釋放需要復(fù)雜的軟硬件配合,才能將芯片的理論算力變?yōu)橛行懔Αa(chǎn)AI芯片想要替換英偉達的GPU,需要突破CUDA生態(tài)和整個產(chǎn)業(yè)生態(tài)的壁壘。
摩爾線程有著自己的全功能GPU芯片,且推出了AIGC平臺,李豐告訴36氪:“最難的是生態(tài)的建立,我們要兼顧很多的生態(tài)兼容性。
先說CUDA,為了把GPU的算力能力進一步發(fā)揮,英偉達花了10年時間,投入3000多人打造了一個CUDA框架。這套框架里集成了很多調(diào)用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。
如果沒有這套編碼語言,軟件工程師發(fā)揮硬件價值的難度會變得極大。一位關(guān)注基礎(chǔ)軟件的投資人告訴36氪:“沒有CUDA ,調(diào)用GPU的代碼會寫到地老天荒,不可能所有的東西都自己寫。”
尚處于創(chuàng)業(yè)階段的芯片設(shè)計公司,很難在生態(tài)上投入如此大的人力財力。大多會選擇兼容CUDA架構(gòu),來降低客戶使用門檻。
也有部分公司會選擇自研加速器,如寒武紀就構(gòu)建了自己的加速平臺;昆侖芯也面向開發(fā)者提供了類似英偉達CUDA的軟件棧,希望打造自己的生態(tài),也能擺脫硬件需受CUDA更新的困擾。
即使有了這個編程框架,整個產(chǎn)業(yè)生態(tài)上的人也很難把這個芯片用起來。
目前世界上主流的深度學(xué)習(xí)框架都有基于CUDA進行加速的,整個產(chǎn)業(yè)中下游軟件、驅(qū)動廠家等都基于此進行適配。這構(gòu)成了一個極強大的生態(tài)壁壘,就像蘋果系統(tǒng)內(nèi)部的閉環(huán)生態(tài),和window操作系統(tǒng)+上層應(yīng)用軟件一樣。
對于企業(yè)來說,更換云端 AI 芯片要承擔(dān)一定的遷移成本和風(fēng)險,除非新產(chǎn)品存在性能優(yōu)勢,或者能在某個維度上提供其他人解決不了的問題,否客戶更換的意愿很低。
祥峰投資管理合伙人夏志進也告訴36氪:“軟件生態(tài)是好用不好用的問題,沒有CUDA會提高門檻,不是不可以用,只是需要花很多額外的功夫?!?/span>
芯片需要適配硬件系統(tǒng)、工具鏈、編譯器等多個層級,需要很強的適配性,否則會出現(xiàn)這款芯片在某個場景能跑出90%的算力,在另一場景只能跑出80%效能的情景。
即使英偉達,為了更好發(fā)揮硬件的功效,對于大客戶也會提供一些人力,幫忙做軟件適配調(diào)試,軟硬兩方仍需要針對客戶做部署、調(diào)試。
對性能要求較高的大廠,還會設(shè)置專門的軟件部署師對硬件進行適配,來發(fā)揮硬件的最大性能。這也是很多手機廠商會自研芯片來更好適配產(chǎn)品的原因。
共建生態(tài),尋求解法
目前,國內(nèi)從業(yè)者已經(jīng)在構(gòu)建生態(tài)上做努力。
在一個AI生態(tài)中,支撐大模型訓(xùn)練需求,需要底層硬件、中間深度學(xué)習(xí)平臺、上層應(yīng)用軟件的整體適配,互相支持。
硬件對上層軟件的支持情況,必須代碼寫出后,有人一步步躺坑,才能知道問題所在,改進硬件對軟件的支持效果。
一家C輪應(yīng)用型軟件公司告訴36氪,自己需要對不同類型、不同版本的基礎(chǔ)軟硬件進行適配,每年花在適配上的支出超出千萬元。
百度飛槳已在推動和國內(nèi)芯片適配。
2022年4月時,百度飛槳已完成和包括百度昆侖芯、華為昇騰在內(nèi)的22家國內(nèi)外硬件廠商,31種芯片的適配和優(yōu)化,基本覆蓋國內(nèi)主流芯片。
目前,昆侖芯和飛槳完成3級兼容性適配,登臨科技和飛槳也完成2級適配,沐曦集成電路和飛槳完成1級兼容性測試。
近期,華為的MindSpore被報道和愛可生向量數(shù)據(jù)庫兼容。有信息顯示,沐曦之前也已加入昇思MindSpore社區(qū)。
另一個大模型領(lǐng)域重要玩家,智源研究院,其九鼎智算平臺也在和多家國內(nèi)AI芯片公司合作。
未來,大模型訓(xùn)練對算力的需求會越來越大。比如,科研場景或訓(xùn)練視頻類信息,都需要更大的算力支持。
英偉達等廠商也會不斷追求研發(fā)更高性能的芯片,海外企業(yè)可以購買英偉達算力更高的芯片,推動大模型訓(xùn)練。比如,微軟已經(jīng)和宣布加強和英偉達和合作,將GPU 從此前的 A100 升級到 H100。
參戰(zhàn)大模型競賽,算法、算力、數(shù)據(jù)環(huán)環(huán)相扣。在最卡脖子的環(huán)節(jié),如何縮小GAP,成為一個求共解的命題。
