談到AI算力,不僅僅只有GPU,這些芯片也是重要角色
與任何人談?wù)撛浦械纳墒饺斯ぶ悄埽掝}很快就會(huì)轉(zhuǎn)到 GPU(圖形處理單元)。但這可能是一個(gè)錯(cuò)誤的目標(biāo)。GPU 并不像人們想象的那么重要,幾年后,話題可能會(huì)轉(zhuǎn)向?qū)τ谠浦猩墒?AI 系統(tǒng)的開發(fā)和部署更為重要。
目前的假設(shè)是 GPU 對(duì)于促進(jìn)生成 AI 模型所需的復(fù)雜計(jì)算是不可或缺的。雖然 GPU 在推進(jìn)人工智能方面發(fā)揮著關(guān)鍵作用,但過(guò)分強(qiáng)調(diào)它們可能會(huì)妨礙探索和利用同樣有效且可能更可持續(xù)的替代方案。事實(shí)上,GPU 可能會(huì)像人工智能系統(tǒng)所需的其他資源(例如存儲(chǔ)和處理空間)一樣迅速成為單純的一個(gè)商品。重點(diǎn)應(yīng)該放在設(shè)計(jì)和部署這些系統(tǒng)上,而不僅僅是它們運(yùn)行的硬件上。
GPU淘金熱
GPU 的重要性在英偉達(dá)身上得到了很好的體現(xiàn)。在最近一個(gè)季度,英偉達(dá)公布了創(chuàng)紀(jì)錄的數(shù)據(jù)中心收入 145 億美元,比上一季度增長(zhǎng) 41%,比去年同期增長(zhǎng) 279%。它的 GPU 現(xiàn)在是人工智能處理的標(biāo)準(zhǔn),甚至比游戲更重要。
GPU 最初是為了在 20 世紀(jì) 90 年代加速游戲中的 3D 圖形而設(shè)計(jì)的,早期的 GPU 架構(gòu)高度專門用于圖形計(jì)算,主要用于渲染圖像和處理與 3D 渲染相關(guān)的密集并行處理任務(wù)。這使得它們非常適合人工智能,因?yàn)樗鼈兩瞄L(zhǎng)需要同時(shí)計(jì)算的任務(wù)。
GPU 真的很重要嗎?
GPU 需要CPU來(lái)協(xié)調(diào)操作。盡管這簡(jiǎn)化了現(xiàn)代 GPU 架構(gòu)的復(fù)雜性和功能,但其效率也低于應(yīng)有的水平。GPU 與 CPU結(jié)合運(yùn)行,將特定任務(wù)卸載給 GPU。此外,這些CPU還管理軟件程序的整體操作。
除了效率問(wèn)題之外,還需要完成不同部件的通信;拆卸模型、對(duì)模型進(jìn)行部分處理,然后重新組裝輸出以進(jìn)行綜合分析或推理的挑戰(zhàn);以及使用 GPU 進(jìn)行深度學(xué)習(xí)和人工智能所固有的復(fù)雜性。這種分割和重新集成過(guò)程是分配計(jì)算任務(wù)以優(yōu)化性能的一部分,但它也有其自身的效率問(wèn)題。
需要設(shè)計(jì)用于抽象和管理這些操作的軟件庫(kù)和框架。英偉達(dá)的 CUDA(統(tǒng)一計(jì)算設(shè)備架構(gòu))等技術(shù)提供了開發(fā)可利用 GPU 加速功能的軟件所需的編程模型和工具包。
人們對(duì)英偉達(dá)高度感興趣的一個(gè)核心原因是它提供了一個(gè)軟件生態(tài)系統(tǒng),使 GPU 能夠更有效地與應(yīng)用程序一起工作,包括游戲、深度學(xué)習(xí)和生成式人工智能。如果沒(méi)有這些生態(tài)系統(tǒng),CUDA 和其他生態(tài)系統(tǒng)就不會(huì)具有相同的潛力。因此,焦點(diǎn)集中在英偉達(dá)身上,它目前擁有處理器和生態(tài)系統(tǒng)。
ASIC——GPU面臨最強(qiáng)競(jìng)爭(zhēng)
去年12月,谷歌官宣了多模態(tài)大模型Gemini,包含了三個(gè)版本,其中Gemini Ultra版本甚至在大部分測(cè)試中完全擊敗了OpenAI的GPT-4。同時(shí)還丟出另一個(gè)重磅炸彈——TPU v5p,號(hào)稱是現(xiàn)在最強(qiáng)大的AI自研芯片。
TPU,全稱Tensor Processing Unit,即張量處理單元。所謂“張量(tensor)”,是一個(gè)包含多個(gè)數(shù)字(多維數(shù)組)的數(shù)學(xué)實(shí)體。目前,幾乎所有的機(jī)器學(xué)習(xí)系統(tǒng),都使用張量作為基本數(shù)據(jù)結(jié)構(gòu)。所以,張量處理單元,我們可以簡(jiǎn)單理解為“AI處理單元”。
谷歌TPU就是基于ASIC專用芯片開發(fā),為了某種特定的需求而專門定制的芯片。ASIC芯片的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,所以ASIC與通用芯片相比,具有以下幾個(gè)方面的優(yōu)越性:體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低。但ASIC芯片的算法是固定的,一旦算法變化就可能無(wú)法使用。
隨著人工智能算法不斷涌現(xiàn),ASIC專用芯片如何做到適應(yīng)各種算法是最個(gè)大問(wèn)題,如果像GPU那樣,通過(guò)架構(gòu)來(lái)適應(yīng)各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒(méi)有優(yōu)勢(shì)了。這意味著玩AISC芯片需要強(qiáng)大實(shí)力,包括雄厚的資金,強(qiáng)大的技術(shù)實(shí)力和豐富的應(yīng)用場(chǎng)景。
這里請(qǐng)注意,谷歌去年發(fā)布TPU v5p的時(shí)候,一同發(fā)布了多模態(tài)大模型Gemini,該模型在圖像、音頻、視頻和文本領(lǐng)域擁有強(qiáng)大的功能。與英偉達(dá)開放GPU購(gòu)買策略不同,谷歌高端TPU主要供自家產(chǎn)品和服務(wù)運(yùn)用,這才是關(guān)鍵。換句話說(shuō),谷歌高端TPU是基于自家多模態(tài)大模型Gemini開發(fā)的專用AI芯片,在自家的產(chǎn)品和服務(wù)上做到最優(yōu),性能表現(xiàn)絲毫不輸GPU。
公開的信息顯示,TPU v5p每個(gè)模塊有8960顆芯片,較之上代v4的4096有所提升,且每塊架構(gòu)內(nèi)的總浮點(diǎn)運(yùn)算次數(shù)(FLOPs)增加至原來(lái)的四倍,吞吐能力達(dá)到驚人的4800Gbps。新型架構(gòu)在內(nèi)存及帶寬方面更為出色,高達(dá)95GB的高帶寬內(nèi)存(HBM)遠(yuǎn)超TPU v4的32GB。
根據(jù)官方數(shù)據(jù)顯示,谷歌的TPU v5p在訓(xùn)練大規(guī)模語(yǔ)言模型上性能表現(xiàn),達(dá)到了A100 GPU四倍,比起英偉達(dá)的頂配H100顯卡性能也絲毫不落下風(fēng)。當(dāng)然這只是谷歌基于自身的Gemini模型做的測(cè)試,肯定在研發(fā)階段就做了優(yōu)化和匹配。但足見TPU v5p性能之強(qiáng),同時(shí)也可以說(shuō)明,ASIC芯片在AI大模型應(yīng)用方面有著絲毫不輸GPU的優(yōu)勢(shì)。
截至目前,谷歌、英特爾、英偉達(dá)都相繼發(fā)布TPU、DPU等ASIC芯片,國(guó)內(nèi)ICG、寒武紀(jì)、比特大陸、地平線、阿里巴巴等也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。目前GPU應(yīng)用范圍廣,市場(chǎng)非常成熟,但并不意味著其他的芯片就沒(méi)有機(jī)會(huì),ASIC的發(fā)展勢(shì)頭依然很猛,正在成為GPU最強(qiáng)大的挑戰(zhàn)者。
DPU:數(shù)據(jù)中心算力基座
隨著信息技術(shù)的持續(xù)發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)帶寬從100G邁入400G,甚至將提升至800G或1.6T。然而,作為提供算力的物理載體,受限于通用CPU的結(jié)構(gòu)的馮諾依曼瓶頸、摩爾定律逐漸失效等因素的影響,以CPU為網(wǎng)絡(luò)核心的數(shù)據(jù)處理能力難以支持大規(guī)模新型數(shù)據(jù)中心的網(wǎng)絡(luò)和數(shù)據(jù)的算力需求。
由此,DPU已經(jīng)成為繼CPU、GPU之后未來(lái)數(shù)據(jù)中心的第三顆主力芯片。DPU提供的高吞吐、低時(shí)延、基礎(chǔ)設(shè)施卸載能力,幫助數(shù)據(jù)中心完美的規(guī)避了“信息孤島”問(wèn)題。未來(lái)的技術(shù)發(fā)展趨勢(shì)將會(huì)是高度集成化的片上數(shù)據(jù)中心的模式(Data Center Infrastructure on a chip),即一個(gè)GPU、CPU、DPU共存的時(shí)代。
聯(lián)通研究院曹暢博士曾在2023中國(guó)計(jì)算機(jī)大會(huì)上表示,DPU是銜接計(jì)算和網(wǎng)絡(luò)兩大領(lǐng)域的重要樞紐,云、網(wǎng)、算協(xié)同,通過(guò)資源的深度感知與一體化編排,可以實(shí)現(xiàn)算力發(fā)現(xiàn)和跨域互通,打通數(shù)據(jù)與計(jì)算節(jié)點(diǎn)的通路。DPU作為網(wǎng)絡(luò)和計(jì)算的銜接點(diǎn),可解決數(shù)據(jù)傳輸?shù)摹白詈笠幻住眴?wèn)題。通過(guò)DPU可以實(shí)現(xiàn)虛擬化層的全卸載和定制化的業(yè)務(wù)加速能力,具有更強(qiáng)的可編程能力。
