九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

“群模共舞”的AI芯片怨念,千呼萬喚的“存算一體”能否成為新頂流?

2024-01-11 來源:賢集網(wǎng)
965

關(guān)鍵詞: 人工智能 云計(jì)算 芯片

2023是“群模共舞”的元年。先是ChatGPT的橫空出世給予眾人致命震撼,隨后國內(nèi)諸多AI、互聯(lián)網(wǎng)公司迅速加大資源投入“練?!薄?br style="white-space: normal; color: rgb(102, 102, 102); font-family: 宋體; font-size: 12px;"/>
在這場“模型大戰(zhàn)”中,算力作為不可或缺的重武器,一度成為眾公司爭搶的關(guān)鍵要素。

作為人工智能的三駕馬車之一,算力是訓(xùn)練AI模型、推理任務(wù)的關(guān)鍵。倘若把訓(xùn)練模型當(dāng)作是做一道精致的菜肴,算力就好比一套稱手的烹飪工具。

世人皆知巧婦難為無米之炊,但再好的廚子,沒有一口好鍋、一把好刀,面對(duì)鮮美的食材也只能望而興嘆。

“大模型動(dòng)輒百億級(jí)的參數(shù),倉庫里沒有幾百張A100、H100,都談不上入圍?!?br style="white-space: normal; color: rgb(102, 102, 102); font-family: 宋體; font-size: 12px;"/>
所謂兵馬未動(dòng)、糧草先行。為了練模,模型廠商們對(duì)算力芯片的購買達(dá)到了前所未有的水平。大模型這波風(fēng)潮下,最先受益的,既不是躬身入局的企業(yè),也非下游場景用戶,而是以Nvidia為代表的算力芯片廠商。


1、芯片發(fā)展面臨“三座大山”

當(dāng)前AI技術(shù)的快速更新迭代對(duì)芯片提出了多個(gè)挑戰(zhàn),尤其繞不過“存儲(chǔ)墻”、“能耗墻”和“編譯墻”三座大山。



首先,在傳統(tǒng)馮·諾依曼架構(gòu)下,芯片在執(zhí)行計(jì)算密集型任務(wù)時(shí)面臨“存儲(chǔ)墻”問題,這導(dǎo)致計(jì)算芯片的功耗和性能都受限于處理器和存儲(chǔ)器之間的數(shù)據(jù)搬運(yùn),嚴(yán)重限制了AI芯片在計(jì)算規(guī)模、密度、效率等方面的提升。

其次,由于“存儲(chǔ)墻”的存在,數(shù)據(jù)需要頻繁搬運(yùn),在存儲(chǔ)、計(jì)算單元間來回轉(zhuǎn)移,導(dǎo)致嚴(yán)重的功耗損失,撞到“能耗墻”上。

英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit,占總功耗的63.7%。另有統(tǒng)計(jì)表明,在大算力的AI應(yīng)用中,數(shù)據(jù)搬運(yùn)操作消耗90%的時(shí)間和功耗,數(shù)據(jù)搬運(yùn)的功耗是運(yùn)算的650倍。

最后,“編譯墻”隱于二者之中,極短時(shí)間下的大量數(shù)據(jù)搬運(yùn)使得編譯器無法在靜態(tài)可預(yù)測的情況下對(duì)算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,手動(dòng)優(yōu)化又消耗了大量時(shí)間。

過去,憑借先進(jìn)制程不斷突破,這三座“大山”的弊病還能通過快速提升的算力來彌補(bǔ)。

但一個(gè)殘酷的現(xiàn)實(shí)是,過去數(shù)十年間,通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——

摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯(lián)等傳統(tǒng)“解法”也“治標(biāo)不治本”,晶體管微縮越來越難,提升算力性能兼具降低功耗這條路越走越艱辛。

隨著大模型時(shí)代來臨,激增的數(shù)據(jù)計(jì)算,無疑進(jìn)一步放大了“三道墻”的影響。


2、大模型呼喚“存算一體”

大模型的出現(xiàn),促使AI對(duì)大規(guī)模芯片算力的需求更加強(qiáng)烈,按照傳統(tǒng)技術(shù)路線簡單堆砌芯片無法實(shí)現(xiàn)期待的算力規(guī)模增長。

同時(shí),芯片能效問題變得更加突出。當(dāng)前AI芯片能效依然低下,大模型每次訓(xùn)練和推斷的電費(fèi)成本昂貴,導(dǎo)致當(dāng)前大模型的應(yīng)用經(jīng)濟(jì)性較低。

雖然說現(xiàn)在很多大模型訓(xùn)練使用GPU,但GPU的架構(gòu)演進(jìn)并未解決大算力和大模型的挑戰(zhàn)。

一方面,存儲(chǔ)在GPU中所占比例越來越大。從GPU架構(gòu)的演進(jìn)趨勢,可以看到存儲(chǔ)在計(jì)算芯片中所占的比例越來越大。計(jì)算芯片從以計(jì)算單元為核心演變到以存儲(chǔ)/數(shù)據(jù)流為核心的架構(gòu)設(shè)計(jì)理念。

另一方面,數(shù)據(jù)傳輸功耗仍是提升算力和算力密度的瓶頸,本質(zhì)上就是馮·諾依曼計(jì)算機(jī)體系結(jié)構(gòu)計(jì)算與存儲(chǔ)的分離設(shè)計(jì)所致。

總體而言,大模型對(duì)于算力的需求呈現(xiàn)指數(shù)型增長,但GPU又貴功耗又高,GPU集群的線性度也隨規(guī)模增大而下降,探索非馮諾依曼架構(gòu)已經(jīng)非?;馃?。

AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示,下一代技術(shù)的儲(chǔ)備和演進(jìn)的方向是在“存算一體”技術(shù)架構(gòu)中尋找新的發(fā)展動(dòng)能。



例如,阿里達(dá)摩院就曾表示,相比傳統(tǒng)CPU計(jì)算系統(tǒng),存算一體芯片的性能可以提升10倍以上,能效提升超過300倍。

那么,“存算一體”技術(shù)到底有何優(yōu)勢?

存算一體與經(jīng)典的馮諾依曼架構(gòu)不同,它是在存儲(chǔ)器中嵌入計(jì)算能力,將存儲(chǔ)單元和計(jì)算單元合為一體,省去了計(jì)算過程中數(shù)據(jù)搬運(yùn)環(huán)節(jié),消除了由于數(shù)據(jù)搬運(yùn)帶來的功耗和延遲,從而進(jìn)一步提升計(jì)算能效。

同時(shí),由于計(jì)算編程模型被降低,編譯器也可以感知每一層的數(shù)據(jù)狀態(tài),編譯效率也將大幅度提升,“編譯墻”的問題也得到了解決,具體而言:

首先,運(yùn)算的性能更高

存算一體芯片的計(jì)算能力取決于存儲(chǔ)器的容量規(guī)模。所有電子設(shè)備當(dāng)中都會(huì)集成存儲(chǔ)器,存儲(chǔ)與計(jì)算相伴而行,有運(yùn)算的地方就需要對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。

如果采用存算一體芯片,隨著存儲(chǔ)容量規(guī)模的提高,其運(yùn)算能力也會(huì)隨之提高。

其次,功耗更低

由于數(shù)據(jù)傳輸路徑的優(yōu)化,存算一體技術(shù)在提高傳輸效率的同時(shí),節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗,帶來更好的能效比、低功耗。在相同算力下,AI部分能效比將有2-3個(gè)數(shù)量級(jí)的提升,更低散熱成本,更高可靠性。

最后,成本更低

單位算力成本遠(yuǎn)低于傳統(tǒng)計(jì)算芯片。同時(shí),存算一體可以采用更成熟的制造工藝,大算力芯片往往需要采用先進(jìn)工藝,這使存算一體芯片的晶圓成本低得多。

再考慮到配套的外圍芯片、元器件等因素,整個(gè)系統(tǒng)成本將有5倍左右降低。

正是因?yàn)檫@些基于基礎(chǔ)架構(gòu)革新所帶來的性能提升,存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn)。

特別是針對(duì)大模型的推理,存算一體保持權(quán)重的特點(diǎn)與大模型中大規(guī)模的參數(shù)部署需求相匹配,可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場景之一。


3、大模型「下半場」:邊緣計(jì)算成為重點(diǎn)

如果說大模型「上半場」是技術(shù)的較量,那么「下半場」則是商業(yè)化的比拼。

無可置疑,大模型將解決掣肘AI落地的碎片化難題,并極大地削減研發(fā)成本,給AI帶來質(zhì)的飛躍,使其具備更大的想象空間。但這只能算是階段性勝利,只有客戶乖乖掏出錢包里的金幣,并持續(xù)復(fù)購,產(chǎn)生價(jià)值,AI才算取得成功。

這個(gè)AI商業(yè)閉環(huán)中,還涉及到一個(gè)部署成本的問題。

AI不是消費(fèi)電子,即買即用,盡管其常常被嵌入至各類電子設(shè)備中。但AI的消費(fèi)大戶,仍是以降本增效為目的的B/G客戶。這類客戶對(duì)于AI的最后一公里交付尤為重視,他們并不愿意為AI方案的部署花費(fèi)任何多余的金幣。

傳統(tǒng)AI部署常見于云端一體,主要通過云端進(jìn)行計(jì)算,感知端僅有微弱算力,數(shù)據(jù)在端側(cè)采,算法在云上跑。這種模式存在幾個(gè)問題:

云計(jì)算固然有大算力的好處,但對(duì)于一些需要快速響應(yīng)、計(jì)算的場景,其存在的時(shí)滯現(xiàn)象非常致命;

云服務(wù)器費(fèi)用高昂,許多企業(yè)并不需要大算力,盲目上云反而會(huì)造成算力浪費(fèi),性價(jià)比不高;

數(shù)據(jù)上云,存在一定安全風(fēng)險(xiǎn);

為此,AI公司們?cè)谠贫艘惑w之間,增加了邊緣計(jì)算,來解決云端算力浪費(fèi)及端側(cè)算力不足的問題。

邊緣計(jì)算的靈感得益于章魚的八只觸手。作為云端計(jì)算的協(xié)同和補(bǔ)充,邊緣計(jì)算能夠在數(shù)據(jù)源頭附近的網(wǎng)關(guān)執(zhí)行數(shù)據(jù)處理、分析,這種獨(dú)特的優(yōu)勢可以實(shí)現(xiàn)各單元之間執(zhí)行不同的任務(wù)并實(shí)現(xiàn)多任務(wù)協(xié)同,既滿足碎片化場景的算力調(diào)度需求,又具備低延時(shí)、安全等特點(diǎn)。

并且,邊緣計(jì)算設(shè)備的部署成本相對(duì)較低,客戶不需要部署昂貴的云服務(wù)器就能用上AI,這一核心優(yōu)勢使得邊緣計(jì)算備受青睞,已然成為AI落地的重要途徑之一。

但要真正讓算法模型在邊緣計(jì)算設(shè)備上跑起來,仍有兩個(gè)比較重要的難點(diǎn)。

第一,邊緣設(shè)備的算力比云端服務(wù)器弱,而大部分的算法模型,是在服務(wù)器上訓(xùn)練的,算法模型要實(shí)現(xiàn)遷移,需要做大量的優(yōu)化工作。

第二,算法模型要在邊緣設(shè)備上部署、執(zhí)行推理任務(wù),需要一顆強(qiáng)大的AI算力芯片,并針對(duì)芯片做適配,才能保證算法模型的運(yùn)行效率。也就是說,AI算力芯片的生態(tài)極其重要,但現(xiàn)階段比較尷尬的是,AI算力芯片廠商較為分散。

可以預(yù)見的是,在大模型時(shí)代,第一個(gè)問題較為容易解決,因?yàn)榇竽P妥詭O強(qiáng)的泛化能力。至于第二個(gè)點(diǎn),則要比想象中難得多,其涉及到底層芯片技術(shù)的研發(fā)和攻關(guān),以及對(duì)應(yīng)的生態(tài)協(xié)同。如何讓邊緣設(shè)備運(yùn)行大模型,對(duì)于AI芯片廠商而言,這既是機(jī)遇,也是挑戰(zhàn)。


4、大模型時(shí)代下,AI芯片的國產(chǎn)替代潮

AI芯片功能上分兩類,分別是訓(xùn)練芯片和推理芯片。

訓(xùn)練芯片主要用于大模型的訓(xùn)練、學(xué)習(xí)和優(yōu)化,側(cè)重于計(jì)算性能,而推理芯片則主要為模型的推理運(yùn)算提供算力。二者之間的區(qū)別在于,訓(xùn)練芯片重計(jì)算,推理芯片重效率(時(shí)延、功耗)。并且,從云邊端協(xié)同的角度看,訓(xùn)練芯片多用于服務(wù)器,推理芯片則主要部署在邊端設(shè)備之上。

當(dāng)前,國內(nèi)大模型正處于“練?!彪A段,需要極強(qiáng)的算力支撐,因此AI公司們將目光更多放在了訓(xùn)練芯片上,即購買大量的GPU算力來訓(xùn)練算法模型。這也直接成就了Nvidia的萬億市值神話,其H100、H800等芯片一騎絕塵,國內(nèi)則有華為、寒武紀(jì)等廠商在努力追趕。

一旦大模型成熟,與之而來的便是落地應(yīng)用,這時(shí)必然要用到邊端設(shè)備,從而滋生出對(duì)推理芯片的龐大需求。

然而,由于不可抗力因素,現(xiàn)階段的訓(xùn)練芯片和推理芯片皆受到貿(mào)易管制,在此背景下,AI芯片的國產(chǎn)替代提上了日程。

作為深圳AI第一股,云天勵(lì)飛在邊緣側(cè)AI芯片的布局已經(jīng)成果初顯。2020年,云天勵(lì)飛第一代AI推理芯片DeepEye1000實(shí)現(xiàn)商用,并落地到AI相機(jī)、安全PC、商業(yè)機(jī)器人等邊緣計(jì)算場景。

云天勵(lì)飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍告訴雷峰網(wǎng),大模型作為AI的進(jìn)階態(tài),本質(zhì)上還是要落地到具體業(yè)務(wù)場景才能產(chǎn)生價(jià)值,而邊緣計(jì)算則是不可逆的趨勢,因此做好邊緣計(jì)算的推理芯片,對(duì)于未來大模型的應(yīng)用至關(guān)重要。

在過去三年多的時(shí)間中,DeepEye1000廣泛落地到各行各業(yè),但同時(shí)也帶來了諸多反饋:算力碎片化、算法長尾化、產(chǎn)品非標(biāo)化、規(guī)模碎片化等痛點(diǎn)依舊存在,傳統(tǒng)以追求單一場景PPA的傳統(tǒng)芯片模式難以適應(yīng)AI邊緣計(jì)算場景下人工智能落地的需求。

基于此,云天勵(lì)飛打造了新一代的邊緣計(jì)算芯片平臺(tái)DeepEdge10。

DeepEdge10屬于主控級(jí)SoC,可以滿足絕大部分場景的控制需要,同時(shí)基于云天勵(lì)飛自研的新一代的處理器NNP400T,可以高效支持Transformer。在架構(gòu)方面,DeepEdge10采用了D2D Chiplet封裝結(jié)構(gòu),可以實(shí)現(xiàn)算力靈活擴(kuò)展,并通過C2CMesh互聯(lián)擴(kuò)展,可以支持千億級(jí)大模型部署。

相較于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整體算力提升了4倍以上,采用D2D Chiplet封裝,實(shí)現(xiàn)從12T到48T的算力覆蓋,總體性能比上一代芯片超過20倍。

在DeepEdge10的基礎(chǔ)上,云天勵(lì)飛還打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的內(nèi)存帶寬,以及512GB統(tǒng)一內(nèi)存。目前,DeepEdge10已經(jīng)支持主流開源模型超過100種,模型支持的數(shù)量還在更新,同時(shí)支持客戶模型定制化的部署。

具體性能上,在Edge Device 端,DeepEdge10Max運(yùn)行端側(cè)70億參數(shù)的大模型可以獲得每秒27Token/s,最高可兼容130億參數(shù)的大模型。而在Edge Server上,采用C2C Mesh互聯(lián),多卡協(xié)同,運(yùn)行700億參數(shù)大模型可獲得42Token/s的生成速度,最高兼容千億級(jí)別參數(shù)的大模型。

據(jù)了解,DeepEdge10芯片平臺(tái)核心競爭力在于邊緣計(jì)算,可以針對(duì)不同的場景提供差異化算力,從而滿足碎片化、多樣化需求。目前,DeepEdge10已經(jīng)進(jìn)入了大規(guī)模的應(yīng)用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的產(chǎn)品合作伙伴,均可在線下載更新云天超過100多種算法。

李愛軍表示,大模型未來落地到機(jī)器人、無人駕駛汽車等場景,都需要用到推理芯片,而推理芯片正處于百家爭鳴的過程。而在國內(nèi),如何基于國產(chǎn)工藝實(shí)現(xiàn)推理芯片的研發(fā)、流片和商用至關(guān)重要。

現(xiàn)階段,國內(nèi)芯片的成熟工藝處于14nm的節(jié)點(diǎn)。對(duì)于千億級(jí)、萬億級(jí)別的大模型,其推理芯片不但需要極強(qiáng)的計(jì)算能力,還要保持超低的功耗和超低的成本,對(duì)芯片制程的工藝達(dá)到了5nm、2nm。顯然,國產(chǎn)芯片離最高端的芯片還有一段距離。

不過,結(jié)合當(dāng)前國內(nèi)的生產(chǎn)工藝,云天勵(lì)飛與合作伙伴于2020年開始技術(shù)攻關(guān),在ChipletD2D的技術(shù)上定制了一系列IP,實(shí)現(xiàn)了可以在14nm芯片上運(yùn)行千億大模型的功能。雖然成本、功耗會(huì)高一些,但這已經(jīng)是國產(chǎn)芯片的最優(yōu)水平。至于更高工藝的芯片,國內(nèi)芯片廠商既需要資源,也需要時(shí)間。

“我們志在打造國產(chǎn)工藝自主可控的AI芯片。”李愛軍告訴雷峰網(wǎng),這條路道阻且長,但云天勵(lì)飛會(huì)堅(jiān)定地走下去。