明明為圖形處理而生,GPU為何能逆襲成為AI算力主力軍
在人工智能(AI)大模型時代下,算力扮演著越來越重要的角色,成為關鍵生產(chǎn)力。
艾瑞咨詢發(fā)布的《2023年中國智能算力行業(yè)發(fā)展白皮書》報告顯示,2023年大模型算力需求集中爆發(fā),AI 大模型相關行業(yè)占中國智能算力總需求的58.8%,接近60%,是智能算力的最大需求方;排名第二的是算法推薦,占比14.2%。
報告還顯示,2022年中國算力結構中,智能算力規(guī)模占比達22.8%,但同期中國服務器結構中,AI服務器出貨量占比僅6.8%。這意味著,智算資源存在稀缺性,而智算中心建設將有效改善中國智算資源供需結構。
艾瑞咨詢產(chǎn)業(yè)數(shù)字化研究院負責人徐樊磊表示,未來,通用人工智能(AGI)技術將不斷發(fā)展,將推動整體智算需求提升,因此需要擁有足夠的高端智能算力和不斷優(yōu)化的軟硬件融合解決方案,以及可以構建生態(tài)匯聚上下游、全鏈條、各領域的參與者,并使用門檻足夠低和便利。
事實上,過去一年多,以ChatGPT為代表的生成式 AI 技術風靡全球。而作為以95%的市場占有率壟斷了全球 Al 訓練芯片的英偉達,成為了這輪 AI 混戰(zhàn)的最大贏家,其研發(fā)的A100/A800、H100/H800等多個 AI 芯片成為 AI 熱潮中的“爆品”。
正如英偉達自己所說:“GPU 已經(jīng)成為人工智能的稀有金屬,甚至是黃金,因為它們是當今生成式 AI 時代的基礎?!?/span>
從技術角度來說,GPU優(yōu)于CPU(通用處理器),特別是在并行計算能力、能耗效率和CUDA生態(tài)等方面,它的高算力和可擴展性使英偉達GPU成為AI加速芯片市場的首選。
根據(jù)斯坦福大學最近發(fā)布的一項報告顯示,自2003年以來,過去20年GPU性能提高了約7000倍,單位性能價格也提高了5600倍。該報告還指出,GPU是推動 AI 技術進步的關鍵動力。
如今,算力正加速向政務、工業(yè)、交通、醫(yī)療等各行業(yè)應用加速演進,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等與實體經(jīng)濟深度融合,極大地激發(fā)了數(shù)據(jù)要素創(chuàng)新活力。
什么是GPU(圖形處理器)?
GPU是顯卡的核心部件,英文全名叫Graphics Processing Unit,圖形處理單元(圖形處理器)。GPU并不能和顯卡劃等號。顯卡除了GPU之外,還包括顯存、VRM穩(wěn)壓模塊、MRAM芯片、總線、風扇、外圍設備接口等。
1999年,英偉達(NVIDIA)公司率先提出了GPU的概念。之所以要提出GPU,是因為90年代游戲和多媒體業(yè)務高速發(fā)展。這些業(yè)務給計算機的3D圖形處理和渲染能力提出了更高的要求。傳統(tǒng)CPU搞不定,所以引入了GPU,分擔這方面的工作。
根據(jù)形態(tài),GPU可分為獨立GPU(dGPU,discrete/dedicated GPU)和集成GPU(iGPU,integrated GPU),也就是常說的獨顯、集顯。
GPU也是計算芯片。所以,它和CPU一樣,包括了運算器、控制器和寄存器等組件。但是,因為GPU主要負責圖形處理任務,所以,它的內(nèi)部架構和CPU存在很大的不同。
如上圖所示,CPU的內(nèi)核(包括了ALU)數(shù)量比較少,最多只有幾十個。但是,CPU有大量的緩存(Cache)和復雜的控制器(CU)。
這樣設計的原因,是因為CPU是一個通用處理器。作為計算機的主核心,它的任務非常復雜,既要應對不同類型的數(shù)據(jù)計算,還要響應人機交互。
復雜的條件和分支,還有任務之間的同步協(xié)調(diào),會帶來大量的分支跳轉和中斷處理工作。它需要更大的緩存,保存各種任務狀態(tài),以降低任務切換時的時延。它也需要更復雜的控制器,進行邏輯控制和調(diào)度。
CPU的強項是管理和調(diào)度。真正干活的功能,反而不強(ALU占比大約5%——20%)。
如果我們把處理器看成是一個餐廳的話,CPU就像一個擁有幾十名高級廚師的全能型餐廳。這個餐廳什么菜系都能做,但是,因為菜系多,所以需要花費大量的時間協(xié)調(diào)、配菜,上菜的速度相對比較慢。
而GPU則完全不同。GPU為圖形處理而生,任務非常明確且單一。它要做的,就是圖形渲染。圖形是由海量像素點組成的,屬于類型高度統(tǒng)一、相互無依賴的大規(guī)模數(shù)據(jù)。所以,GPU的任務,是在最短的時間里,完成大量同質(zhì)化數(shù)據(jù)的并行運算。所謂調(diào)度和協(xié)調(diào)的“雜活”,反而很少。
并行計算,當然需要更多的核啊,如前圖所示,GPU的內(nèi)核數(shù),遠遠超過CPU,可以達到幾千個甚至上萬個(也因此被稱為“眾核”)。
GPU的核,稱為流式多處理器(Stream Multi-processor,SM),是一個獨立的任務處理單元。
在整個GPU中,會劃分為多個流式處理區(qū)。每個處理區(qū),包含數(shù)百個內(nèi)核。每個內(nèi)核,相當于一顆簡化版的CPU,具備整數(shù)運算和浮點運算的功能,以及排隊和結果收集功能。
GPU的控制器功能簡單,緩存也比較少。它的ALU占比,可以達到80%以上。
雖然GPU單核的處理能力弱于CPU,但是數(shù)量龐大,非常適合高強度并行計算。同等晶體管規(guī)模條件下,它的算力,反而比CPU更強。
還是以餐廳為例。GPU就像一個擁有成千上萬名初級廚師的單一型餐廳。它只適合做某種指定菜系。但是,因為廚師多,配菜簡單,所以大家一起炒,上菜速度反而快。
GPU集群:人工智能計算的重型裝備
GPU群集,也稱為圖形處理單元群集,是一個并行計算系統(tǒng),它利用多個GPU來增強計算功能。這種方法可以通過大規(guī)模并行化來加速各種應用和模擬。 GPU群集的組成由幾個關鍵組件組成。首先,GPU本身是集群的核心,是專門為并行計算任務設計的。與用于順序處理的傳統(tǒng)CPU不同,GPU同時執(zhí)行多個任務,使其成為并行工作負載的理想選擇。此外,GPU群集通常合并多個節(jié)點,每個節(jié)點包含一個或多個GPU,一個CPU,內(nèi)存,存儲和網(wǎng)絡功能。這些節(jié)點之間的有效溝通和協(xié)作對于集群的整體性能至關重要。
CPU充當協(xié)調(diào)員,管理和協(xié)調(diào)集群中的任務,尤其是那些不適合并行處理的任務。內(nèi)存在GPU群集中也起著至關重要的作用,每個GPU在計算過程中都有自己的高速內(nèi)存(VRAM)用于數(shù)據(jù)存儲。此外,節(jié)點還配備了GPU和CPU之間共享的系統(tǒng)內(nèi)存(RAM),以促進有效的數(shù)據(jù)傳輸。為了容納數(shù)據(jù)集,應用程序和結果的存儲,GPU群集需要大量的存儲空間。高性能存儲解決方案(例如SSD)通常用于最大程度地減少數(shù)據(jù)檢索時間并確保實現(xiàn)平穩(wěn)的工作流程。
互連是指節(jié)點之間的通信路徑,在GPU群集中也至關重要。高速互連技術(例如Infiniband或Nvidia Nvlink)通常用于最大程度地減少延遲并最大化數(shù)據(jù)傳輸速率。 GPU群集的利用率擴展到各個字段??茖W研究,特別是在物理,化學和生物學方面,從GPU群集的平行處理能力中受益匪淺,啟用了諸如分子動力學模擬,天氣預測和粒子物理模擬之類的任務。對人工智能和機器學習的需求激增也驅動了GPU群集的采用,因為它們非常適合培訓深層神經(jīng)網(wǎng)絡并提高AI應用的效率。在石油和天然氣行業(yè)中,GPU群集用于諸如需要密集計算的地震數(shù)據(jù)處理和收集模擬等任務。財務建模,計算機輔助設計和繪圖行業(yè)還采用GPU集群來加快復雜的數(shù)學建模,渲染高質(zhì)量的圖像和視頻,并促進更好的決策過程。在醫(yī)學領域,GPU集群在醫(yī)學成像,藥物發(fā)現(xiàn)和基因組學等任務中起著至關重要的作用,加速了大型數(shù)據(jù)集的分析,并推進了個性化醫(yī)學和基因組研究。
盡管GPU群集提供了重要的計算能力,但仍然存在諸如功耗,散熱和編程復雜性之類的挑戰(zhàn)。但是,預計硬件設計,互連技術和軟件優(yōu)化的進步將解決這些挑戰(zhàn)并增強GPU群集的能力。最終,GPU群集代表了各種科學,工業(yè)和技術領域的平行計算和驅動突破的最前沿,將GPU集成到群集系統(tǒng)中,塑造了高性能計算的前景。
GPU如何成為AI計算的主流?
早在2005年和2006年就有研究采用GPU進行兩層的神經(jīng)網(wǎng)絡(NN/CNN)計算,并且對比了GPU和CPU上的性能差異,不過那時在GPU上的加速效果并沒有現(xiàn)在這樣明顯,通常在1-3倍左右,在CPU上采用特定的加速工具也能取得不錯的效果,可能正是因為GPU上的加速效果有限,在那個時候GPU并沒有成為AI計算的主流,也就是在研究層面做些嘗試和探索。
2011年Dan等的研究采用英特爾Core i7-920的CPU,以及英偉達GTX 480和GTX 580的GPU,進行CNN模型的計算,結果顯示GPU的加速效果達到了CPU的10-60倍,其中網(wǎng)絡規(guī)模小的模型加速效果10倍速左右,對于網(wǎng)絡規(guī)模大的模型加速效果達到60倍。GPU在AI計算中的加速效果已經(jīng)非常顯著,為進一步擴大GPU在AI計算領域應用創(chuàng)造了有利條件。
2012年,Hinton和Alex Krizhevsky設計的AlexNet,使用了兩塊英偉達GTX 580訓練了兩周的模型,將計算機圖像識別的正確率提升了一個數(shù)量級,并獲得了2012年ImageNet競賽冠軍,充分展示了GPU在AI計算中的巨大潛力。此前,在谷歌使用1000臺CPU服務器,完成了貓臉識別的任務,2012年吳恩達等采用3臺GTX680-GPU服務器完成了同樣的任務。毋庸置疑,AlexNet和吳恩達等工作在業(yè)界和學界都產(chǎn)生了良好的示范效應?;蛟S從這段時間開始,學術界關于AI相關的研究逐漸更多的采用了GPU,互聯(lián)網(wǎng)頭部廠商也陸續(xù)開始引入GPU到各自的生產(chǎn)研發(fā)環(huán)境。
2016年AlphaGo戰(zhàn)勝李世石,2017年AlphaGo又戰(zhàn)勝柯潔,標志著新一波AI發(fā)展熱潮的開始,帶動了全球AI產(chǎn)業(yè)發(fā)展。也是在AlphaGo之后,以深度學習為核心的AI技術逐漸在越來越多的應用場景落地,AI領域的創(chuàng)新創(chuàng)業(yè)也不斷涌現(xiàn),差不多從這時候開始,GPU基本開始成為AI計算的標配。最近隨著AI技術的應用領域不斷擴大,對GPU算力需求也是不斷增加,目前還呈現(xiàn)出GPU供不應求的局面。
從2005/2006年開始有人嘗試用GPU進行AI計算,到2012/2013年GPU被更大范圍的接受,以及到2016/2017年GPU成本AI計算的標配,具有一定的偶然性,發(fā)現(xiàn)深度學習網(wǎng)絡層次越深、網(wǎng)絡規(guī)模越大,GPU的加速效果越顯著。然而這又注定會是個必然的結果,AI經(jīng)歷三起三落的發(fā)展,每一次“落”的過程都為下一次“起”積蓄能量,第三“落”似乎算力不足是重要的因素,GPU的工作原理正好很大程度上契合了AI計算的需求,GPU算力的不斷提升,以及2016年英偉達新的GPU架構專門針對AI計算場景進行優(yōu)化和支持,對更多的AI計算場景采納GPU都有重要推動作用。
