CPU、GPU、NPU,究竟誰才是[AI PC]的主角?
[CPU+NPU+GPU]將成為AI PC的算力基座
不同類型的處理器擅長的工作領域各異,這正是異構計算的核心原理——讓專業(yè)的人做專業(yè)的事。
CPU擅長順序控制,適用于需要低延時的場景,同時也能夠處理較小的傳統(tǒng)模型,如卷積神經(jīng)網(wǎng)絡(CNN)或特定的大語言模型(LLM)。
而GPU更擅長處理高精度格式的并行任務,例如對畫質要求極高的視頻和游戲。
CPU和GPU作為通用處理器,設計靈活,易于編程,主要負責操作系統(tǒng)、游戲和其他應用。
然而,對于處理大規(guī)模的神經(jīng)網(wǎng)絡計算,CPU的效率相對較低。
NPU則采用數(shù)據(jù)驅動并行計算的架構,模擬人類神經(jīng)元和突觸,特別擅長處理視頻、圖像等海量多媒體數(shù)據(jù)。
與遵循馮諾依曼架構的CPU和GPU不同,NPU通過突觸權重實現(xiàn)存儲計算一體化,運行效率更高,尤其擅長推理。
鑒于終端的功耗和散熱限制,通用CPU和GPU難以滿足生成式AI應用嚴苛且多樣化的計算需求。
這些應用不斷演進和多樣化,單一硬件部署并不合理。
因此,NPU和異構計算成為硬件廠商應對終端側生成式AI挑戰(zhàn)的關鍵。
值得注意的是,盡管GPU在并行計算能力上具有優(yōu)勢,但仍需與CPU協(xié)同工作。
神經(jīng)網(wǎng)絡模型的構建和數(shù)據(jù)流傳遞主要在CPU上完成。
然而,GPU存在功耗高、體積大、價格昂貴等缺陷。
性能越高的GPU功耗越高,體積越大,價格也越高昂,這使得一些小型設備和移動設備無法使用。
NPU將在AI PC落地生花
網(wǎng)絡處理單元(NPU)能夠基于網(wǎng)絡運算的特性,借助軟件或硬件編程,實現(xiàn)多樣化的網(wǎng)絡功能。
相較于傳統(tǒng)的中央處理器(CPU)和圖形處理器(GPU),NPU在執(zhí)行神經(jīng)網(wǎng)絡任務時展現(xiàn)出更高的效率和更低的功耗。
與現(xiàn)場可編程門陣列(FPGA)相比,NPU在成本方面更具優(yōu)勢。
雖然FPGA在靈活性和可編程性方面同樣出色,但主流的FPGA芯片制程節(jié)點通常在14納米至45納米之間;
而NPU的制程節(jié)點往往低于10納米,因此更適合應用于小型、低功耗的消費級設備,如個人電腦和手機等。
在軟件層面,NPU具備與主流軟件的高度兼容性。通過標準化的接口,如OpenCL、CUDA、OpenVX等,NPU能夠輕松與各種人工智能框架進行交互,并順利集成到不同的軟件環(huán)境中。
這使得開發(fā)者在模型開發(fā)和部署方面更加便捷,同時支持多種編程語言和框架,進一步降低了開發(fā)門檻。
綜上所述,NPU的高效能、低功耗、易于編程以及廣泛的軟件兼容性,使其成為人工智能應用中不可或缺的關鍵組件。
趨勢看好,各大廠紛紛推出相關產(chǎn)品
英特爾近期發(fā)布了第14代酷睿Ultra移動處理器,該處理器內置了神經(jīng)網(wǎng)絡處理單元(NPU)。
據(jù)英特爾官方透露,預計至2024年,將有超過230款機型搭載這款酷睿Ultra處理器。
另一方面,蘋果計劃在2024年發(fā)布搭載M3處理器的MacBook。
據(jù)該公司透露,M3處理器的NPU性能相較于前代產(chǎn)品M1提升了60%。
此外,AMD亦將在2024年初正式推出其首款內置獨立NPU的銳龍8040處理器。
AMD表示,該處理器的加入使得大語言模型性能提升了40%。
值得一提的是,AMD于2023年12月率先發(fā)布了銳龍8040系列處理器。這一系列處理器的核心變化之一便是新增了AI計算單元。
隨后,英特爾亦發(fā)布了其新一代酷睿Ultra移動處理器。
這款處理器是英特爾40年來的首款內置NPU的產(chǎn)品,旨在在PC上提供高效能的AI加速和本地推理體驗。
此舉被業(yè)界視為英特爾客戶端處理器路線圖的重大轉折點。
英特爾將NPU、CPU和GPU共同視為AI PC的三個核心算力引擎。
據(jù)公司預測,至2024年,將有超過230款機型搭載酷睿Ultra處理器。
此外,微軟計劃在Windows 12中為AI PC設定最低門檻,要求至少具備40TOPS的算力和16GB的內存。
因此,PC芯片算力達到40TOPS門檻將成為行業(yè)的主要目標。
[算力融合]只是美好的理想
在GPU領域,英偉達RTX系列、AMD RX7000系列以及英特爾ARC系列獨立顯卡均內置獨立的AI計算單元。
然而,英偉達并不生產(chǎn)消費級PC CPU,因此其顯卡AI功能更新主要圍繞顯卡本身,如AI視頻超分、AI色彩強化、AI音頻降噪及AI語音聊天等,似乎主張[AI PC僅需顯卡算力]。
英特爾ARC獨顯雖有XMX矩陣計算單元,但新一代集成于CPU的ARC核顯已取消此設計,使其MTL架構CPU僅依賴內置NPU作為獨立AI計算單元。
即便搭配ARC獨顯,亦無法實現(xiàn)核顯與獨顯AI算力的[疊加]。
AMD在CPU中采用源自其企業(yè)級計算卡的XDNA成熟架構作為NPU單元,理論上具有軟件適配優(yōu)勢。
然而,在RDNA 3獨顯架構中,AMD似乎采用了不同的AI單元設計,導致尚未實現(xiàn)基于AI代碼的游戲畫面超分功能。
此前許多顯卡AI用例主要依賴GPU本身的浮點算力,相較于僅使用顯卡內置AI單元的處理方式,功耗更高。
理論上,CPU、GPU和NPU均可參與AI運算,并根據(jù)代碼類型和任務負載實現(xiàn)自動分配的[異構協(xié)同]設計,如高通即將上市的驍龍X Elite系列所示。
然而,這種協(xié)同運算的實現(xiàn)受到當前硬件方案[各自為戰(zhàn)]的產(chǎn)品構成限制。
英特爾和AMD未來可能通過架構修正解決[算力不統(tǒng)一]問題,而英偉達雖無消費級x86 CPU產(chǎn)品線,但仍有可能通過ARM CPU進入Windows on ARM生態(tài)。
結尾:
根據(jù)現(xiàn)有證據(jù),NPU因其對神經(jīng)網(wǎng)絡計算的獨特優(yōu)化,在端側和邊緣側處理復雜神經(jīng)網(wǎng)絡算法時展現(xiàn)出卓越的效率與節(jié)能特性。
這一現(xiàn)象正推動AI手機、AI PC及端側AI市場的快速發(fā)展,預示著NPU的大規(guī)模商用時代即將到來。
