GPU雖撿了AI時(shí)代的紅利,但它才是AI芯片真正的“適配者”
圖形處理單元(GPU)可能已經(jīng)成為人工智能領(lǐng)域令人垂涎的硬件,但它們作為最受歡迎組件的地位可能會減弱。
對 GPU 前所未有的需求使 NVIDIA 成為價(jià)值數(shù)萬億美元的公司。然而,Tenstorrent 首席運(yùn)營官 Keith Witek 表示,就連 NVIDIA 也開始放棄他們最初創(chuàng)建的圖形芯片。
“他們甚至將其架構(gòu)轉(zhuǎn)向異構(gòu)計(jì)算,這看起來更像張量計(jì)算機(jī)。所以是的,我認(rèn)為它會朝著這個(gè)方向發(fā)展。甚至人工智能圖形業(yè)務(wù)領(lǐng)域的人士也意識到將他們的架構(gòu)向這個(gè)方向發(fā)展的好處,”Witek在獨(dú)家采訪中告訴AIM 。
他主張采用包含張量單元、圖形單元和 CPU 的片上系統(tǒng) (SoC) 架構(gòu),并聲稱利用 CPU 和圖形處理器的異構(gòu)計(jì)算是處理未來工作負(fù)載的最佳方法。
最近,NVIDIA 最大的企業(yè)客戶之一的微軟和 AWS 等大型科技公司開發(fā)了自己的 AI 芯片,以減少對 NVIDIA GPU 的依賴,同時(shí)降低成本。
在最近舉行的 Google I/O 2024 上,這家科技巨頭宣布推出 Trillium TPU,這是其第六代芯片,旨在更有效地處理人工智能工作負(fù)載。
有趣的是,AWS、微軟和谷歌設(shè)計(jì)的芯片也有異構(gòu)架構(gòu)。例如,Azure Maia AI Accelerator 和 Azure Cobalt CPU 在同一芯片上集成了不同的專用計(jì)算引擎和加速器。
同樣,AWS Inferentia 和 Trainium 也在同一芯片上集成了不同的專用計(jì)算引擎和加速器。
然而,這些芯片主要供內(nèi)部使用。另一方面,Tenstorrent 將其芯片出售給企業(yè)客戶,使其與 NVIDIA 形成直接競爭。
NPU和異構(gòu)計(jì)算更適用于生成式AI
首先來說一說NPU。NPU也叫神經(jīng)網(wǎng)絡(luò)處理器, 這是一種專門設(shè)計(jì)用于加速深度學(xué)習(xí)任務(wù)和機(jī)器學(xué)習(xí)算法的處理器。深度學(xué)習(xí)是AI的一個(gè)分支,在機(jī)器學(xué)習(xí)中占據(jù)核心地位,它在處理圖像識別、語音識別、自然語言處理等神經(jīng)網(wǎng)絡(luò)模型場景時(shí)發(fā)揮著重要作用,而NPU能夠顯著加速深度學(xué)習(xí)模型的推理和訓(xùn)練過程,另外NPU有更高的能效比,更適用于邊緣計(jì)算設(shè)備和移動終端。
異構(gòu)計(jì)算是指在一個(gè)計(jì)算系統(tǒng)中使用不同類型的處理器或者計(jì)算單元來協(xié)同完成計(jì)算任務(wù)的技術(shù),這些單元包括CPU、GPU、以及如NPU這樣的專用加速器。它的目的在于通過結(jié)合不同處理器的優(yōu)勢,來提高系統(tǒng)的整體性能、效率和適應(yīng)各種復(fù)雜計(jì)算場景的能力,同時(shí)解決單一架構(gòu)在功耗、散熱等方面的局限性。
簡單地說,就是通過異構(gòu)計(jì)算將生成式AI任務(wù)中不同類型的計(jì)算任務(wù)分配給最適合的計(jì)算單元。例如,面對豐富的生成式AI用例,CPU適用于需要低時(shí)延的應(yīng)用場景,或者相對較小的傳統(tǒng)模型,如卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),以及一些特定的大語言模型(LLM);GPU擅長面向高精度格式的并行處理,比如對畫質(zhì)要求非常高的圖像以及視頻處理;在持續(xù)型用例中,需要以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高峰值性能,NPU可以發(fā)揮其最大優(yōu)勢。
那么NPU和異構(gòu)計(jì)算會更適用于生成式AI嗎?
答案是肯定的。實(shí)際上,生成式AI涉及大量的數(shù)據(jù)處理和復(fù)雜的計(jì)算任務(wù),尤其是深度學(xué)習(xí)模型的訓(xùn)練和推理。
這些任務(wù)對計(jì)算資源的要求極高,單獨(dú)依靠傳統(tǒng)的CPU或GPU可能無法滿足性能要求。NPU專為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì),能夠模擬人類神經(jīng)元和突觸的工作方式,對AI計(jì)算涉及的大量神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特殊優(yōu)化,從而提高處理效率和降低能耗。
其次,異構(gòu)計(jì)算的出現(xiàn)進(jìn)一步提升了生成式AI的計(jì)算能力。異構(gòu)計(jì)算通過整合不同架構(gòu)的計(jì)算單元(如CPU、GPU、NPU等),使它們能夠并行工作,從而充分發(fā)揮各自的優(yōu)勢。
此外,隨著生成式AI應(yīng)用的不斷擴(kuò)展和復(fù)雜化,對算力的需求也在持續(xù)增長。NPU和異構(gòu)計(jì)算的結(jié)合能夠更好地滿足這種需求,以高通為例,CPU、GPU等計(jì)算單元每年都有迭代,并且每一次迭代都會帶來巨大的性能升級,推動生成式AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。
AI算力競賽,巨頭加碼,誰主沉浮
AI芯片可是AI發(fā)展的核心動力,沒了它,就別想實(shí)現(xiàn)真正的智能化。現(xiàn)在各大科技巨頭都在狂砸資金研發(fā)AI芯片,可謂是不遺余力啊。
比如說英偉達(dá),作為顯卡之王,它們家的GPU可是AI訓(xùn)練的利器。最新的H100就集成了超過8萬億晶體管,算力爆表,專門為大規(guī)模AI模型量身定制。再比如谷歌的TPU,憑借定制化設(shè)計(jì),在推理加速方面效率極高。
英特爾、AMD這些傳統(tǒng)芯片巨頭也在加緊部署,紛紛推出面向AI優(yōu)化的CPU和GPU產(chǎn)品線。就連蘋果、亞馬遜這些公司,也在AI芯片領(lǐng)域布局。
這些巨頭們可都不是吃素的,各自都有自家的拳頭產(chǎn)品和技術(shù)優(yōu)勢。比如異構(gòu)計(jì)算架構(gòu)、專用AI加速器、先進(jìn)制程工藝等等,都是提升AI算力的法寶。誰能在這場算力大戰(zhàn)中脫穎而出,將主導(dǎo)AI的未來發(fā)展方向,實(shí)在令人期待啊。
說到這些科技巨頭在AI芯片領(lǐng)域的布局,你可能會好奇:他們都推出了啥拳頭產(chǎn)品啊?
咱先說說英偉達(dá)吧。作為顯卡一哥,它家的GPU可是AI訓(xùn)練的利器。最新的H100芯片集成了超過80億晶體管,算力爆表,就是為大規(guī)模AI模型量身定制的。
再看看谷歌的TPU吧,這可是推理加速的專業(yè)戶。通過定制化設(shè)計(jì),在推理效率上遠(yuǎn)超同類產(chǎn)品。
英特爾和AMD這些老牌芯片巨頭也不甘示弱。英特爾的Ponte Vecchio就是專門針對AI優(yōu)化的高性能GPU;AMD的InstinctMI200則融合了CPU、GPU和矩陣引擎,異構(gòu)計(jì)算架構(gòu)提升了AI算力。
就連蘋果和亞馬遜這些公司,也在AI芯片領(lǐng)域躍躍欲試呢。蘋果的M系列芯片就內(nèi)置了神經(jīng)網(wǎng)絡(luò)加速器;亞馬遜的Inferentia則是推理專用芯片,在云端AI服務(wù)中大顯身手。
各自都有自家的拳頭產(chǎn)品和技術(shù)優(yōu)勢,比如異構(gòu)架構(gòu)、專用AI加速器、先進(jìn)制程工藝等等,都是提升AI算力的法寶。誰能在這場算力大戰(zhàn)中脫穎而出,將主導(dǎo)AI的未來發(fā)展方向,實(shí)在令人期待啊。
