算力需求不是越高越好,先搞懂這些算力芯片才能做好選擇
根據《中國算力發(fā)展指數(shù)白皮書》中的定義,算力是設備通過處理數(shù)據,實現(xiàn)特定結果輸出的計算能力。
算力實現(xiàn)的核心是CPU、GPU等各類計算芯片,并由計算機、服務器和各類智能終端等承載,海量數(shù)據處理和各種數(shù)字化應用都離不開算力的加工和計算。
那么,不同的算力芯片分別適用于何種應用場景,不同的算力芯片又有哪些區(qū)別?
小至耳機、手機、PC,大到汽車、互聯(lián)網、人工智能、數(shù)據中心、超級計算機、航天火箭等,“算力”都在其中發(fā)揮著核心作用,而不同的算力場景,對芯片的要求也各不同。
不同終端對應的算力要求不同
數(shù)據中心作為數(shù)字時代的核心基礎設施,承載著大量的數(shù)據處理、存儲和傳輸任務。因此,它們需要強大的算力來應對各種復雜的計算需求。數(shù)據中心和超算需要高于1000TOPS的高算力芯片。當前,超算中心算力已經進入E級算力(百億億次運算每秒)時代,并正在向Z(千E)級算力發(fā)展。數(shù)據中心對于芯片的低功耗、低成本、可靠性以及通用性的要求都極高。
智能自動駕駛涉及人機交互、視覺處理、智能決策等眾多方面,車載傳感器(激光雷達、攝像頭、毫米波雷達等)的不斷增加,數(shù)據處理的實時性、復雜性和準確性要求不斷提高,都對車載算力提出了更高的要求。
通常,業(yè)內認為實現(xiàn)L2級自動輔助駕駛需要的算力在10TOPS以下,L3級需要30~60TOPS,L4級需要超過300TOPS,L5級需要超過1000TOPS,甚至4000+TOPS。所以自動駕駛領域的車載算力是遠遠大于生活中常見的手機、電腦的計算能力。在智能駕駛中,安全至關重要,因此該場景對算力芯片的可靠性有著極高的要求,對于芯片通用性的要求也較高,對于功耗和成本的要求就相對沒有那么苛刻。
為了應對當前視頻處理、人臉識別以及異常檢測等復雜任務的挑戰(zhàn),同時確保系統(tǒng)在未來技術升級和拓展時擁有充足的計算資源。智能安防系統(tǒng)需要大約4-20TOPS的算力,這一數(shù)值雖然相較數(shù)據中心要小得多,但是也足以保障智能安防系統(tǒng)的高效穩(wěn)定運作。隨著AI安防進入下半場,算力的重要性愈發(fā)凸顯,這一數(shù)值也在不斷上漲。智能安防對低成本和可靠性的需求比較高,功耗和通用性的要求則相對中等。
在智能移動終端中,可穿戴設備等小型產品對算力的需求相對不高,但智能手機、筆記本電腦等產品對算力的需求正在大幅提升。智能移動終端也是一個對低功耗和低成本有著高要求的應用場景,對可靠性的要求相對較高,對通用性則沒有太多的限制。
當下的基礎算力主要由基于CPU芯片的服務器提供,面向基礎通用計算。智能算力主要基于GPU、FPGA、ASIC等芯片的加速計算平臺提供,面向人工智能計算。高性能計算算力主要基于融合CPU芯片和GPU芯片打造的計算集群提供,主要面向科學工程計算等應用場景。
GPU——高性能計算的引領者
GPU,英文為Graphics Processing Unit,又稱顯示核心、視覺處理器、顯示芯片。GPU核心技術包括雙重紋理四像素256位渲染引擎、立方環(huán)境材質貼圖和頂點混合、硬件T&L(幾何轉換和光照處理)、紋理壓縮和凹凸映射貼圖。GPU是專門為處理圖形數(shù)據而創(chuàng)建和調整的處理器。
GPU除作為獨立顯卡的核心用于個人電腦,為高清視頻、大型游戲提供高質量3D圖形渲染,基于GPU構建的專業(yè)顯卡還配置在高端工作站上做復雜的三維設計和工程仿真。但當前GPU最重要的應用場景還是AI計算,支撐AI大模型的訓練和推理。那為什么CPU不行,非GPU不可?
前面已經講過,GPU的推出就是為了接手原本由CPU負責的圖形顯示處理工作。因而GPU架構有其先天的計算特征,就是完全為3D圖形處理而設計,就是在CPU的控制指令下,為大量的實時的圖形圖像顯示提供計算。由于是聽候CPU安排,因此GPU的控制單元比較少,計算單元卻非常多,CPU和GPU的架構如下圖所示。如果CPU是孤膽英雄,能獨當一面,那么GPU就是無數(shù)的小兵,靠規(guī)模致勝。
由于CPU指令相對復雜,它需要做好資源的調度和控制,支持操作系統(tǒng)的中斷處理、內存管理、I/O處理等,運算過程需要大量的邏輯控制,因此內部的控制單元較多,極大擠壓了計算單元數(shù)量,使計算性能受到很大限制,還需要預留空間為數(shù)據建立多級緩存;GPU運算就不需要考慮這些,也無需太多的控制單元,芯片上大部分空間都留給了計算單元,因此適合并行計算任務和大規(guī)模數(shù)據訪問,通常具有更高的帶寬和更低的延遲。
試想一下,有個計算任務需要進行1000個加減運算,你說是一個人做快呢,還是讓1000個人每個人算一個加減運算快呢,結果很顯然。如何理解GPU所做的功?再舉個例子:
現(xiàn)在電腦顯示器的分辨率越來越高,以4K顯示器來說,分辨率就達到了3840*2160,就是829萬4400個像素點,按照RGB三色顯示,單個像素的字節(jié)位就達到了24bit,也就是顯示器刷新一次就要處理高達1.99億個bit。如果再乘以顯示器刷新率,一般高端顯示器刷新率最低也在120Hz,一秒鐘僅GPU就得處理240億個bit。
可見,僅圖形顯示處理就對計算性能要求很高。如果全部依賴CPU來處理,即使性能再強也會不堪重負,并嚴重拖慢正常軟件應用的計算效率。當然現(xiàn)在的CPU也發(fā)展出了多核心和多線程,英特爾最新發(fā)布的至強處理器就有64核心128線程,但比起英偉達H100的18432個CUDA核心,仍然是小巫見大巫。
隨著人工智能應用的不斷深入,為AI大模型提供訓練和推理運算已成為當前及未來一段時間高性能計算發(fā)展的主流。由于英偉達早在十多年前就開啟人工智能計算布局,GPU已成為各大AI應用的首選。而CPU受限于架構問題,在這場人工智能競爭中已經成為協(xié)助角色,但盡管GPU風光無限,卻仍然存在強大的競爭者,而它就是ASIC!
ASIC——GPU面臨最強競爭
去年12月,谷歌官宣了多模態(tài)大模型Gemini,包含了三個版本,其中Gemini Ultra版本甚至在大部分測試中完全擊敗了OpenAI的GPT-4。同時還丟出另一個重磅炸彈——TPU v5p,號稱是現(xiàn)在最強大的AI自研芯片。
TPU,全稱Tensor Processing Unit,即張量處理單元。所謂“張量(tensor)”,是一個包含多個數(shù)字(多維數(shù)組)的數(shù)學實體。目前,幾乎所有的機器學習系統(tǒng),都使用張量作為基本數(shù)據結構。所以,張量處理單元,我們可以簡單理解為“AI處理單元”。
谷歌TPU就是基于ASIC專用芯片開發(fā),為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據算法需要進行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優(yōu)越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但ASIC芯片的算法是固定的,一旦算法變化就可能無法使用。
隨著人工智能算法不斷涌現(xiàn),ASIC專用芯片如何做到適應各種算法是最個大問題,如果像GPU那樣,通過架構來適應各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒有優(yōu)勢了。這意味著玩AISC芯片需要強大實力,包括雄厚的資金,強大的技術實力和豐富的應用場景。
這里請注意,谷歌去年發(fā)布TPU v5p的時候,一同發(fā)布了多模態(tài)大模型Gemini,該模型在圖像、音頻、視頻和文本領域擁有強大的功能。與英偉達開放GPU購買策略不同,谷歌高端TPU主要供自家產品和服務運用,這才是關鍵。換句話說,谷歌高端TPU是基于自家多模態(tài)大模型Gemini開發(fā)的專用AI芯片,在自家的產品和服務上做到最優(yōu),性能表現(xiàn)絲毫不輸GPU。
公開的信息顯示,TPU v5p每個模塊有8960顆芯片,較之上代v4的4096有所提升,且每塊架構內的總浮點運算次數(shù)(FLOPs)增加至原來的四倍,吞吐能力達到驚人的4800Gbps。新型架構在內存及帶寬方面更為出色,高達95GB的高帶寬內存(HBM)遠超TPU v4的32GB。
根據官方數(shù)據顯示,谷歌的TPU v5p在訓練大規(guī)模語言模型上性能表現(xiàn),達到了A100 GPU四倍,比起英偉達的頂配H100顯卡性能也絲毫不落下風。當然這只是谷歌基于自身的Gemini模型做的測試,肯定在研發(fā)階段就做了優(yōu)化和匹配。但足見TPU v5p性能之強,同時也可以說明,ASIC芯片在AI大模型應用方面有著絲毫不輸GPU的優(yōu)勢。
截至目前,谷歌、英特爾、英偉達都相繼發(fā)布TPU、DPU等ASIC芯片,國內ICG、寒武紀、比特大陸、地平線、阿里巴巴等也都推出了深度神經網絡加速的ASIC芯片。目前GPU應用范圍廣,市場非常成熟,但并不意味著其他的芯片就沒有機會,ASIC的發(fā)展勢頭依然很猛,正在成為GPU最強大的挑戰(zhàn)者。
FPGA——CPU智算的最佳伴侶
FPGA全稱是可編程邏輯門陣列,內部結構由大量的數(shù)字(或模擬)電路組成,可以實現(xiàn)各種功能。FPGA是ASIC的一種,只是ASIC是全定制電路芯片,F(xiàn)PGA是半定制電路芯片,它解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。
數(shù)據計算包括兩種方式:一種是利用CPU或GPU基于指令的架構編寫計算所需的軟件,另一種是針對特定計算需求設計制造出一套專用的電路,比如ASIC、FPGA。但不同的是,對FPGA進行編程要使用硬件描述語言,硬件描述語言描述的邏輯可以直接被編譯為晶體管電路的組合。所以FPGA實際上直接用晶體管電路實現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯。
相比于CPU 和GPU數(shù)據處理需先讀取指令和完成指令譯碼,F(xiàn)PGA不采用指令和軟件,是軟硬件合一的器件。因而計算效率更高、功耗更低,且更接近IO。
舉個例子,假如拿一塊主頻 3GHz的CPU和一塊主頻 200MHz的FPGA做運算,若做某個特定運算,CPU需要30個時鐘周期,F(xiàn)PGA只需一個,則耗時情況:CPU:30/3GHz =10ns;FPGA:1/200MHz =5ns。就是說,F(xiàn)PGA 做這個特定運算速度比CPU塊,能幫助加速。
除了計算效率更高,有機構對FPGA與CPU在執(zhí)行深度學習算法時的耗能進行了對比。在執(zhí)行一次深度學習運算,使用 CPU耗能 36 焦,而使用 FPGA只耗能10焦,取得了3.5 倍左右的節(jié)能比。通過用FPGA 加速與節(jié)能,讓深度學習實時計算更容易在移動端運行。
這就是為什么AMD和英特爾不惜重金收購FPGA廠商的原因所在。在智能計算路線布局上,AMD實際上比英特爾更完善。傳統(tǒng)CPU時代,AMD得到了英特爾X86架構授權,成為與英特爾并行而立CPU大商,而后通過收購顯卡廠商ATI入主GPU賽道,成為英偉達的最大競爭者,到2022年通過收購FPGA領域老大賽靈思,AMD最終完成“CPU+GPU+FPGA”的智能算力戰(zhàn)略布局。
而英特爾由于未能在GPU時競開發(fā)出能與英偉達同臺競爭的超算產品,只能選擇在2015年收購FPGA領域的老二Altera,最終形成“CPU+FPGA”的智能計算組合,雖非優(yōu)選,但的確開拓了一條新智算發(fā)展新路線。
相比CPU和GPU,F(xiàn)PGA 憑借比特級細粒度定制的結構、流水線并行計算的能力和高效的能耗,在深度學習應用中展現(xiàn)出獨特的優(yōu)勢,在大規(guī)模服務器部署或資源受限的嵌入式應用方面有巨大潛力。
此外,F(xiàn)PGA 架構靈活,使得研究者能夠在諸如GPU的固定架構之外進行模型優(yōu)化探究。特別是在采用FPGA后,即便芯片產品已經制造出來,但依然可以對其重新編程或進行功能升級。
中國高算力芯片發(fā)展仍落后于算力產業(yè)發(fā)展
根據2022年《中國算力白皮書》,2022年中國整體算力達到150 EOPS,占全球總算力的31%,在全世界僅落后于美國(36%),中國算力產業(yè)發(fā)展對高算力芯片需求強勁。一方面,高算力芯片作為底層算力池,賦能萬千行業(yè)和新興產業(yè),市場發(fā)展造成了對高算力芯片的強勁需求;另一方面,國家布局和政策引導也推動了高算力芯片的需求。除了“東數(shù)西算”工程外,“十四五”規(guī)劃和2035年遠景目標綱要明確提出要“建設若干國家樞紐節(jié)點和大數(shù)據中心集群,建設E級和10E級超算計算中心”,國家發(fā)展和改革委員會也出臺了一系列政策文件,全國多個地區(qū)進行數(shù)據中心建設和布局。市場發(fā)展和政策實施都對大力發(fā)展高算力芯片技術提出需求。
然而,中國高算力芯片的發(fā)展從知識產權、市場占有率與自主制造角度依然面臨嚴峻挑戰(zhàn)。浪潮、華為、新華三、聯(lián)想等國產服務器品牌位居中國服務器市場前5名,整體份額達到74%,然而底層的通用高算力芯片卻嚴重依賴進口。在以中央處理器(CPU)為核心的通用數(shù)據中心產業(yè),仍以美國英特爾和AMD主導的x86架構CPU主導,市場占比超過96%。華為鯤鵬系列服務器芯片是中國自主研發(fā)的基于ARM指令集的高性能芯片,但是高度依賴先進制造工藝。在智能芯片領域,GPU仍是智能數(shù)據中心的主流算力芯片,2020年中國智能數(shù)據中心約95%的市場份額由美國英偉達的芯片占據。近年來,中國涌現(xiàn)了壁仞、天數(shù)智芯、沐曦、摩爾線程等國產GPU產品以及華為昇騰、寒武紀思元、百度昆侖芯、燧原等自主人工智能(Artificial Intelligence, AI)芯片產品,但都過度依靠國內尚無法自主可控的先進制造工藝。
因此,亟須探索符合國情的高算力芯片的創(chuàng)新發(fā)展途徑,保障中國產業(yè)戰(zhàn)略布局實施,助推數(shù)字經濟發(fā)展。
