端側AI即將大爆發(fā),本地運行大模型離不開這類芯片
自生成式AI爆火以來,我們接觸和使用更多的其實是所謂的云端AI,如OpenAI的ChatGPT、百度的文心一言等,他們都是部署在提供商的服務器上,用戶通過網(wǎng)頁或應用的程序等方式進行訪問并使用,最重要的一點是他們都要聯(lián)網(wǎng)才能使用。
而為了讓生成式AI更接地氣,一種叫做端側AI的概念應運而生。相對于需要聯(lián)網(wǎng)才能使用的云端AI而言,端側AI可以將大模型(LLM)以輕量形式部署在本地,從而使搭載端側AI的設備即便在斷網(wǎng)情況下也能實現(xiàn)AI功能,與設備對話,提高工作及生活效率。
但是,就目前來說并非所有的設備都滿足端側AI的硬件條件,尤其是當微軟和蘋果接連發(fā)布Colipot+PC和Apple Intelligence平臺和功能后,要求設備中必須有這樣一塊芯片,NPU。而什么是NPU,它在端側AI中又能起到什么作用?
什么是NPU?
NPU是Neural Processing Unit(神經(jīng)網(wǎng)絡處理器)的首字母縮寫。NPU 專用于運行與神經(jīng)網(wǎng)絡/機器學習/AI 任務相關的數(shù)學函數(shù)。雖然這些可以是獨立的芯片,但它們越來越多地與更熟悉的CPU和GPU組件一起直接集成到片上系統(tǒng) (SoC)中。
NPU有各種形狀和尺寸,通常根據(jù)芯片廠商而略有不同?,F(xiàn)在已有不同的型號的NPU出現(xiàn)在智能手機領域,比如高通在其驍龍?zhí)幚砥髦邪惭b了Hexagon,谷歌擁有用于云和移動Tensor芯片的TPU,三星則在自己的Exynos集成NPU。
這個趨勢現(xiàn)在也在筆記本電腦和PC領域興起。例如,最新的Apple M4內(nèi)置了神經(jīng)引擎,Snapdragon X Elite平臺中采用了高通的Hexagon功能,AMD和英特爾已開始將NPU集成到其最新的芯片組中。
正如我們所見,NPU是專門為處理機器學習工作負載(以及其他數(shù)學繁重的任務)而構建的。通俗地說,NPU是一個非常有用的,甚至是必不可少的組件,用于在設備上而不是在云中運行AI。毫無疑問,如今人工智能幾乎無處不在,將AI直接整合到設備中是這一過程的關鍵一步。
今天的許多人工智能處理都是在云中完成的,但由于幾個原因,這并不理想。首先是延遲和網(wǎng)絡要求,我們無法在離線時訪問工具,或者在高峰時段可能需要等待漫長的處理時間。通過互聯(lián)網(wǎng)發(fā)送數(shù)據(jù)也不太安全,尤其是在自己的設備上運行時。
簡而言之,AI最好能直接在設備上運行。然而,人工智能任務的計算量非常大,在傳統(tǒng)硬件上運行不佳。如果你有嘗試在筆記本電腦上通過Stable Diffusion生成圖像,你可能已經(jīng)注意到了這一點。對于更高級的任務來說,它可能會非常慢,盡管CPU可以很好地運行許多“更簡單”的AI任務。
解決方案是采用專用硬件來加速這些高級任務,而NPU在這方面無疑比CPU更高效,它們的性能通常以每秒數(shù)萬億次操作 (TOPS) 表示。說到TOPS,智能手機和早期的筆記本電腦NPU的額定值為數(shù)十TOPS。從廣義上講,這意味著它們可以加速基本的AI任務,例如相機物體檢測以應用散景模糊或摘要文本。如果想運行大型語言模型或使用生成式AI快速生成媒體,將需要數(shù)百或數(shù)千TOPS范圍內(nèi)更強大的加速器/GPU。
生成式AI革新人機交互界面,端側大模型應用有望迎來爆發(fā)
近年來,大模型不僅在對話式文本方面取得巨大成功,也在圖像處理、音視頻生成等多模態(tài)領域展現(xiàn)出強大的潛能。隨著生成式AI在人們?nèi)粘9ぷ骷吧钪斜粡V泛應用,數(shù)據(jù)處理和存儲需求急劇增加,使得智能計算體系結構發(fā)生根本性轉變。
大模型對人機交互界面產(chǎn)生了深刻的影響,生成式AI已成為人與終端設備的最新交互界面。在生成式AI加持下,從寫作、編程、繪畫到視頻創(chuàng)作,多種模態(tài)的內(nèi)容創(chuàng)作門檻正被前所未有地降低,人機交互的流程也被大大簡化。
在楊磊看來,端側設備的核心交互問題關乎入口,這是爭奪用戶時間、持續(xù)時長、資金投入的關鍵所在,也是業(yè)內(nèi)競爭的焦點。以典型的端側設備——手機為例,在本地設備上運行大模型已是兵家必爭之地,各家手機大廠都在想方設法占據(jù)這一入口。
在此過程中,一方面,多模態(tài)模型正成為大勢所趨;另一方面,針對不同的應用場景、設備或成本考量,眾多廠商都推出了不同參數(shù)規(guī)模的模型。以智能手機為例,旗艦手機芯片算力可達40~50TOPS,中檔手機的算力在10~20TOPS的范圍內(nèi),而入門級手機目前尚未專門配備AI能力,更多地依賴于CPU的通用計算能力。
據(jù)楊磊預測,隨著半導體技術的持續(xù)演進,旗艦手機的算力水平有望達到100TOPS,入門級手機也將從當前的無算力水平提升至5~10TOPS范圍。預計兩年后,不論是高價位段的手機,還是性價比優(yōu)良的千元機,都有望具備本地部署AI大模型的硬件計算能力。
此外,在楊磊看來,除智能手機和PC等終端設備外,如今智能化水平不斷提速的新能源汽車以及目前炙手可熱的人形機器人也是大模型落地的硬件載體之一。在大會現(xiàn)場,楊磊列舉了一些數(shù)字:目前智能汽車的算力已經(jīng)能達到500TOPS左右,一些機器人方案也在按照這一算力規(guī)模進行相應的技術規(guī)劃。
盡管AI大模型的應用日趨普及,比如手機上安裝了Kimi、豆包、文心一言等諸多應用,但這些應用尚未達到殺手級應用的水平,實際上很多端側硬件的計算能力已經(jīng)領先于相關應用的發(fā)展。很多用戶更多是出于獵奇心理來試用這類應用,并沒有產(chǎn)生持續(xù)、頻繁且高度黏性的使用需求。
“我們目前仍處于硬件先行、應用后發(fā)的階段。安謀科技則希望結合自身獨特的技術優(yōu)勢,打造軟硬一體且極具競爭力的解決方案,推動AI大模型在端側設備加速落地。”楊磊談道。
芯片廠商積極布局異構算力
當前,CPU+GPU+NPU協(xié)同的混合算力架構已成為AI PC的算力基礎。
其中,英特爾開發(fā)的XPU混合算力是代表性解決方案,其CPU+GPU+NPU異構方案,通過嵌入獨立NPU的強算力性能大幅提升終端AI能力;基于XPU混合架構,英特爾推出了Meteor Lake第一代酷睿Ultra 處理器,疊加OpenVINO等工具鏈,開發(fā)者能夠?qū)崿F(xiàn)XPU三種算力的混合部署和調(diào)度;高通則在2023年10月發(fā)布了集成ARM CPU與AI引擎NPU芯片X Elite,針對AI性能進行優(yōu)化,單NPU模塊算力達到16TOPS、總算力達到75TOPS,支持AI PC運行百億級參數(shù)本地大模型,首發(fā)廠商覆蓋聯(lián)想、戴爾、惠普等頭部PC廠商;
AMD推出AI PC芯片銳龍8040系處理器,主要面向客戶端和消費端PC設計,CES 2024上AMD則于2023年12月發(fā)布第一款集成NPU模塊的桌面級CPU——Ryzen 8000G CPU,算力達到單NPU16 TOPS、總共39 TOPS;
蘋果發(fā)布的M3圖形處理器則在功耗減半的情況下,即可達到與M1相當?shù)男阅?,而在峰值功耗下更可實現(xiàn)高達65%的性能提升,同時,具備16核CPU、40核GPU的M3 Max將可以被用于研發(fā)AI軟件,性能表現(xiàn)出色。
總的來看,AI手機、AI PC有望成為未來手機和個人電腦的重要升級方向,而NPU則是AI手機、AI PC中最重要的硬件增量方向之一,值得重視。
端側AI產(chǎn)業(yè)鏈受益
中信建投指出,端側AI核心在于手機和PC,AI Phone和AI PC將開啟新時代。
“從今年2月份舉行的世界移動通信大會,高通展示了其手機端離線運行大模型,到5月份微軟開發(fā)者大會高通展示其PC運行AI大模型,再到近期英特爾、聯(lián)想等發(fā)布AI PC加速計劃、發(fā)布首款AI PC等,可以看出,國內(nèi)外廠商持續(xù)發(fā)力AI Phone和AI PC,端側AI將走入新的時代。”
同時,AI PC核心升級在于芯片。
AI PC不同于傳統(tǒng)PC的主要之處在于其SoC芯片中要有AI模塊,通過AI芯片中的NPU等模塊為硬件終端提供算力支撐,從而運行端側AI大模型。過去PC芯片主要是以Intel為代表的x86架構芯片,AIPC的提出要求了SOC芯片有AI算力,在端側AI推理能力方面,過去手機上就搭載了NPU,高通經(jīng)驗積累深厚,Intel的筆記本芯片則是CPU+GPU。生態(tài)上,Windows也開始全力支持ARM體系,自去年開始了多輪支持Arm架構芯片的操作系統(tǒng)更新,高通大概率會在PC市場上拿到部分份額。除芯片外,DRAM、計算模組等有望迎來新的升級與市場機遇。
此外,大模型向智能終端(邊緣端)滲透,模型壓縮和邊緣側計算性能提升是兩大關鍵。目前從這兩個方向上,都可以看到不錯的進展預期,大模型在邊緣端滲透初見端倪。這類場景我們認為率先會在手機、PC、智能駕駛、具身智能、元宇宙、工業(yè)控制等場景落地。
產(chǎn)業(yè)鏈角度,邊緣AI核心在于引入邊緣側的AI能力,進一步增強邊緣側的算力能力、連接能力。重點包括AI芯片、算力/連接模組、邊緣網(wǎng)關/邊緣服務器/邊緣控制器等硬件、AI算法/邊緣計算平臺等軟件環(huán)節(jié)。從投資角度來看,建議優(yōu)先圍繞這幾類產(chǎn)業(yè)鏈環(huán)節(jié)、兼顧業(yè)績彈性優(yōu)選標的。
中信建投強調(diào),“我們看好端側AI產(chǎn)業(yè)進展,尤其是AI Phone和AI PC領域,其已有相關產(chǎn)品落地,將傳統(tǒng)PC、Phone結合上AI能力有望帶動整個PC、Phone產(chǎn)業(yè)鏈復蘇;通過將大模型賦能終端硬件,AI應用浪潮將有望開啟?!?/span>
