英偉達(dá)放話沒有對(duì)手!這底氣來(lái)自于哪里?
關(guān)鍵詞: 英偉達(dá) 人工智能 半導(dǎo)體
英偉達(dá) CEO 黃仁勛最近聲稱英偉達(dá)的 GPU“非常好,即使競(jìng)爭(zhēng)對(duì)手的芯片是免費(fèi)的,但它也不夠便宜”。
黃仁勛進(jìn)一步解釋說(shuō),就 AI 數(shù)據(jù)中心的總擁有成本(TCO)而言,英偉達(dá) GPU 的定價(jià)并不重要。
根據(jù)斯坦福經(jīng)濟(jì)政策研究所(SIEPR)放出的一段會(huì)議視頻,SIEPR 前 Trione 主任、斯坦福大學(xué) Charles R. Schwab 經(jīng)濟(jì)學(xué)名譽(yù)教授 John Shoven 問(wèn)道:“你們制造了完全先進(jìn)的芯片,這是有可能的嗎?你將面臨足夠好而且便宜得多的競(jìng)爭(zhēng),這是威脅嗎?”
黃仁勛表示:“我們的競(jìng)爭(zhēng)比地球上任何公司都激烈,在某些情況下,甚至英偉達(dá)的客戶也是競(jìng)爭(zhēng)對(duì)手。此外,英偉達(dá)還積極幫助正在設(shè)計(jì)替代 AI 處理器的客戶,甚至向他們透露了即將推出的英偉達(dá)芯片路線圖?!?/span>
黃仁勛稱,英偉達(dá)以“完全開放的方式”運(yùn)作,同時(shí)與業(yè)內(nèi)幾乎所有其他人合作。買賣芯片的人會(huì)考慮芯片的價(jià)格,而運(yùn)營(yíng)數(shù)據(jù)中心的人會(huì)考慮運(yùn)營(yíng)成本。當(dāng)然,公司會(huì)很清楚總體擁有成本,這基本上意味著英偉達(dá)的優(yōu)勢(shì),如部署時(shí)間、性能、利用率和靈活性。即使競(jìng)爭(zhēng)對(duì)手的芯片是免費(fèi)的,它也不夠便宜。
黃仁勛在結(jié)束對(duì) Shoven 的回答時(shí)強(qiáng)調(diào),英偉達(dá)的目標(biāo)是“以無(wú)與倫比的 TCO 保持領(lǐng)先地位”。
英偉達(dá),憑什么遙遙領(lǐng)先?
和其它半導(dǎo)體企業(yè)相比,英偉達(dá)是“遙遙領(lǐng)先”的,起碼在市值上如此。
如今,在全球前十的半導(dǎo)體企業(yè)中,不算臺(tái)積電和阿斯麥這樣的純代工廠和光刻機(jī)廠商,英偉達(dá)的市值約等于剩下七家市值的總和,甚至還有富余。
撐起英偉達(dá)市值的,是其全球領(lǐng)先的AI計(jì)算芯片,包括A100、H100和即將上市的H200。根據(jù)富國(guó)銀行的統(tǒng)計(jì),英偉達(dá)目前在全球數(shù)據(jù)中心AI加速市場(chǎng)擁有98%的份額,處于絕對(duì)的統(tǒng)治地位。
很多時(shí)候,這些芯片花錢也都很難買到。早在2023年8月的時(shí)候,就有媒體報(bào)道,英偉達(dá)的訂單排到了2024年。其芯片的交付周期,也曾一度高達(dá)8~11個(gè)月(如今已經(jīng)縮短為3~4個(gè)月)。產(chǎn)能不足,供不應(yīng)求,這些需求應(yīng)該自然溢出到其他廠商。從供應(yīng)鏈安全的角度考慮,面對(duì)如此集中的市場(chǎng),企業(yè)似乎也不應(yīng)該只選擇英偉達(dá)這一家的產(chǎn)品。
但全球的企業(yè)排著隊(duì)將訂單送到英偉達(dá)手中,難道,除了英偉達(dá)的芯片之外,AMD、英特爾這些企業(yè)的芯片都辦法訓(xùn)練大模型嗎?
答案當(dāng)然不是,但使用英偉達(dá)的芯片,目前仍然是訓(xùn)練和運(yùn)行大模型的最優(yōu)選擇。這種優(yōu)勢(shì)體現(xiàn)在四個(gè)方面,包括硬件性能、軟件生態(tài)、適用范圍和整體性價(jià)比。
首先是硬件性能。
以英偉達(dá)在2020年5月發(fā)布的NVIDIA A100 GPU為例,這款芯片采用7nm制程和NVIDIA Ampere架構(gòu),擁有540億個(gè)晶體管和6912個(gè)CUDA核心,最高可以提供80GB的GPU顯存,以及2TB/s的全球超快顯存帶寬。在大模型訓(xùn)練和推理常用的FP16(半精度浮點(diǎn)運(yùn)算)Tensor Core峰值性能可以達(dá)到312TF,使用稀疏計(jì)算的情況下,可以達(dá)到624TF。
很多人對(duì)這些指標(biāo)沒什么概念,我們來(lái)簡(jiǎn)單解釋一下。
芯片的制程決定著同樣大小的芯片能夠放下的晶體管的數(shù)量,而晶體管的數(shù)量越多,芯片的計(jì)算能力越強(qiáng),這也是5納米的芯片一定比7納米的芯片先進(jìn)的原因。
至于CUDA核心,即CUDA線程,是英偉達(dá)CUDA平臺(tái)編程模型中的基本執(zhí)行單元。我們都知道,GPU最強(qiáng)的能力是并行計(jì)算,而CUDA核心越多,意味著芯片能同時(shí)并行計(jì)算的數(shù)量也就越多,芯片的性能更強(qiáng),完成同樣任務(wù)的速度更快。
需要注意的是,芯片的計(jì)算能力強(qiáng)和計(jì)算效率高是兩個(gè)概念。制程和晶體管的數(shù)量代表著計(jì)算能力,而CUDA核心的數(shù)量,代表著計(jì)算效率。
至于顯存和帶寬,則決定了GPU在運(yùn)行時(shí)的效率。其中顯存決定GPU同時(shí)能夠存儲(chǔ)的最大數(shù)據(jù),而顯存帶寬,則決定顯存和顯卡之間的數(shù)據(jù)傳輸速度。
舉一個(gè)簡(jiǎn)單直白的例子,在一個(gè)流水線上,原材料需要從庫(kù)房運(yùn)送到車間進(jìn)行裝備,然后將成品再運(yùn)回庫(kù)房。顯存決定了庫(kù)房能夠放多少原材料,而顯存帶寬,則決定每次從庫(kù)房送原材料的速度。如果庫(kù)房不夠大,或者材料傳輸速度不夠快,那車間的生產(chǎn)能力再?gòu)?qiáng),也無(wú)法生產(chǎn)出成品。所以顯存和帶寬,其實(shí)決定芯片能夠參與訓(xùn)練多大參數(shù)規(guī)模的大模型,以及訓(xùn)練大模型的速度。
明白了這些基本概念,我們?cè)儆米钣写硇缘膬杉移髽I(yè),進(jìn)行對(duì)比。
首先是AMD,目前主打的芯片是MI250X,發(fā)布于2021年年底,采用7nm工藝,擁有582億個(gè)晶體管,顯存128G,顯存帶寬3.2768 TB/s,F(xiàn)P16峰值性能為369 TF,只有60個(gè)計(jì)算單元。
其次是英特爾,目前主打芯片Ponte Vecchio,同樣發(fā)布于2021年,采用7nm工藝,宣稱晶體管數(shù)量達(dá)到1020億,是全世界晶體管數(shù)量最多的芯片。這款芯片顯存128GB,顯存帶寬3.2TB/s,F(xiàn)P16峰值性能184TF,計(jì)算單元102個(gè)。
我們會(huì)發(fā)現(xiàn),即使從單純的數(shù)據(jù)上看,英特爾和AMD也沒有完全被英偉達(dá)甩開,甚至在某些領(lǐng)域,這兩家的芯片還領(lǐng)先英偉達(dá)的A100。
但是這里有兩個(gè)誤區(qū),第一個(gè)誤區(qū)是,英特爾和AMD這兩款芯片的發(fā)布時(shí)間比A100都要晚一年,他們真正對(duì)標(biāo)的對(duì)手,其實(shí)應(yīng)該是英偉達(dá)在2022年初發(fā)布的H100,而現(xiàn)在英偉達(dá)的芯片已經(jīng)更新到H200了。
第二個(gè)誤區(qū)在于,硬件指標(biāo)并不完全等于芯片的整體能力,軟件生態(tài)是決定芯片性能和使用的第二個(gè)關(guān)鍵指標(biāo)。
這就像手機(jī)和操作系統(tǒng)一樣,手機(jī)的硬件配置再好,沒有一個(gè)好的操作系統(tǒng),對(duì)于消費(fèi)者來(lái)說(shuō)仍然不是一款好的手機(jī)。而這里需要提到的,就包括英偉達(dá)的CUDA平臺(tái)、NVLink和Tensor Core等軟件生態(tài)。
比如CUDA平臺(tái),我們前面提到的CUDA核心就是這個(gè)平臺(tái)的產(chǎn)物,它可以提高芯片的并行計(jì)算能力;它可以通過(guò)編程,提高GPU的能效比,讓同樣的工作耗費(fèi)更少的能源。
此外,CUDA平臺(tái)還支持廣泛的應(yīng)用程序,包括科學(xué)計(jì)算、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、圖像處理、視頻處理等等,它還允許技術(shù)人員通過(guò)C++等常用的編程語(yǔ)言來(lái)編寫GPU代碼。打一個(gè)不恰當(dāng)?shù)谋确?,這相當(dāng)于中國(guó)人不用學(xué)習(xí)英文,直接使用中文指揮外國(guó)人做事情,幫助技術(shù)人員節(jié)省了巨大成本。
但目前市面上大多數(shù)程序員已經(jīng)深度依賴CUDA平臺(tái)和開發(fā)工具,就像我們使用微信許多年了,你的朋友、聊天記錄、朋友圈都在這個(gè)微信上,即使現(xiàn)在出現(xiàn)一個(gè)更好用的社交軟件,你也很難遷移。
CUDA帶來(lái)的生態(tài)壁壘也類似這個(gè)道理,其他平臺(tái)雖然也有自己的軟件生態(tài),比如AMD有自己的GCN 架構(gòu),英特爾有Xe架構(gòu),甚至為開發(fā)者提供類似“一鍵換機(jī)”遷移功能,但都很難與英偉達(dá)競(jìng)爭(zhēng)。
當(dāng)然,這里面也有一些曲線救國(guó)的做法,比如以AMD為首,越來(lái)越多的芯片企業(yè)采用了“打不過(guò)就加入”的策略,選擇將自己的芯片兼容到CUDA平臺(tái),早在2012年的時(shí)候,AMD就與Nvidia 達(dá)成了一項(xiàng)協(xié)議,允許AMD在其GCN架構(gòu)GPU中使用 CUDA 技術(shù),所以現(xiàn)在我們?cè)贏MD的芯片中,也會(huì)看到CUDA核心。
當(dāng)然,對(duì)于英偉達(dá)來(lái)說(shuō),CUDA也只是護(hù)城河的一部分,其他的技術(shù)如NVLink也至關(guān)重要。
作為大模型訓(xùn)練的GPU,沒有哪家企業(yè)會(huì)單獨(dú)使用一張GPU,每次都會(huì)使用至少幾百?gòu)埧ǎ踔辽先f(wàn)張卡一起建立計(jì)算集群。NVLink是一種鏈接技術(shù),可以實(shí)現(xiàn)GPU之間的高速、低延遲的互聯(lián)。如果沒有這種技術(shù),整個(gè)芯片算力的集群就無(wú)法實(shí)現(xiàn)1+1>3的效果,而且會(huì)增加GPU之間的通信延遲,執(zhí)行任務(wù)的效率會(huì)降低,芯片的功耗會(huì)增加,最終增加整個(gè)系統(tǒng)的運(yùn)行成本。
大模型訓(xùn)練實(shí)際上是一個(gè)非常消耗能源的事情,國(guó)盛證券做過(guò)一個(gè)計(jì)算,假設(shè)每天約有1300萬(wàn)獨(dú)立訪客使用ChatGPT,那每天的電費(fèi)就需要5萬(wàn)美元。而如果沒有NVLink,這筆成本還會(huì)指數(shù)級(jí)上升。
芯片某種程度上就像購(gòu)車一樣,購(gòu)車只是第一次成本,之后的油費(fèi)、保養(yǎng)、保險(xiǎn)才是成本的大頭。所以黃仁勛才說(shuō),“AI系統(tǒng)最重要的不是硬件組成的成本,而是訓(xùn)練和運(yùn)用AI的費(fèi)用?!?/span>
所以,雖然AMD、英特爾在某些芯片上把價(jià)格定得比英偉達(dá)更低,但是從長(zhǎng)期成本來(lái)考慮,具有更優(yōu)軟件生態(tài)和協(xié)同、配套工具的英偉達(dá)芯片仍然是性價(jià)比最高的選擇。
當(dāng)然,這里面還要考慮到使用場(chǎng)景的問(wèn)題。
比如英偉達(dá)的大客戶,主要是以Meta、微軟、亞馬遜、Google為代表的云計(jì)算平臺(tái)。有媒體報(bào)道,頭部云計(jì)算廠商在英偉達(dá)H100 GPU整體市場(chǎng)份額中的占比達(dá)到50%。
而云廠商采購(gòu)芯片的邏輯,主要是構(gòu)建算力集群,然后通過(guò)云服務(wù)平臺(tái)將這些算力再賣出去。但這里就會(huì)存在一個(gè)問(wèn)題,就是云廠商并不知道客戶會(huì)拿這些算力來(lái)做些什么,比如有的企業(yè)會(huì)用來(lái)做機(jī)器學(xué)習(xí),有企業(yè)需要大模型訓(xùn)練,也有企業(yè)需要做大模型推理。
不同的需求,背后對(duì)應(yīng)的算力配置也不盡相同,它需要底層的芯片能夠支持多種編程模型,支持多種數(shù)據(jù)類型,有較好的可拓展性和良好的性能和功耗等等。而這些,恰恰是英偉達(dá)硬件能力加軟件生態(tài)帶來(lái)的優(yōu)勢(shì)。
綜合來(lái)看,無(wú)論是從硬件性能,還是軟件生態(tài);無(wú)論是從開發(fā)工具和部署工具,到長(zhǎng)期使用的成本和可開發(fā)應(yīng)用場(chǎng)景。對(duì)比同類競(jìng)爭(zhēng)對(duì)手,英偉達(dá)都屬于最有性價(jià)比,且遙遙領(lǐng)先的存在。
這就是為什么明明需要排著長(zhǎng)隊(duì)、忍受長(zhǎng)時(shí)間等待,大家卻仍然執(zhí)著于英偉達(dá)芯片的原因。
AI芯片新貴,各出奇招
最近兩年的人工智能繁榮,讓英偉達(dá)憑借GPU登上了芯片之巔。于是包括AMD、Intel、Graphcore、Cerebras和Tenstorrent等在內(nèi)的傳統(tǒng)和新貴芯片企業(yè)試圖在這個(gè)領(lǐng)域?qū)⒂ミ_(dá)拉下馬。
不過(guò),雖然他們都非常努力,但似乎依然難動(dòng)英偉達(dá)分毫。于是,市場(chǎng)上又冒出來(lái)了一群AI芯片新公司,他們希望用不同的架構(gòu)和思路,以期將英偉達(dá)趕下神壇。
韓國(guó)AI芯片:功耗和尺寸大幅下降
來(lái)自韓國(guó)科學(xué)技術(shù)院 (KAIST) 的科學(xué)家團(tuán)隊(duì)在最近的 2024 年國(guó)際固態(tài)電路會(huì)議 (ISSCC) 上詳細(xì)介紹了他們的“Complementary-Transformer”人工智能芯片。新型C-Transformer芯片據(jù)稱是全球首款能夠進(jìn)行大語(yǔ)言模型(LLM)處理的超低功耗AI加速器芯片。
在一份新聞稿中,研究人員對(duì)瘋狂叫板Nvidia ,聲稱 C-Transformer 的功耗比綠色團(tuán)隊(duì)的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它還表明,三星晶圓代工芯片的成就很大程度上源于精細(xì)的神經(jīng)擬態(tài)計(jì)算技術(shù)。
盡管我們被告知 KAIST C-Transformer 芯片可以完成與 Nvidia 強(qiáng)大的A100 GPU之一相同的 LLM 處理任務(wù),但我們?cè)谛侣劵驎?huì)議材料中都沒有提供任何直接的性能比較指標(biāo)。這是一個(gè)重要的統(tǒng)計(jì)數(shù)據(jù),由于它的缺失而引人注目,憤世嫉俗的人可能會(huì)猜測(cè)性能比較不會(huì)給 C-Transformer 帶來(lái)任何好處。
上面的圖片有一張“芯片照片”和處理器規(guī)格的摘要。您可以看到,C-Transformer 目前采用三星 28nm 工藝制造,芯片面積為 20.25mm2。它的最高運(yùn)行頻率為 200 MHz,功耗低于 500mW。最好的情況下,它可以達(dá)到 3.41 TOPS。從表面上看,這比 Nvidia A100 PCIe 卡聲稱的 624 TOPS 慢 183 倍(但 KAIST 芯片據(jù)稱使用的功率低 625 倍)。然而,我們更喜歡某種基準(zhǔn)性能比較,而不是查看每個(gè)平臺(tái)聲稱的 TOPS。
C-Transformer 芯片的架構(gòu)看起來(lái)很有趣,其特點(diǎn)是三個(gè)主要功能塊:首先,Homogeneous DNN-Transformer / Spiking-transformer Core (HDSC) 和混合乘法累加單元 (HMAU:Hybrid Multiplication-Accumulation Unit) 可以有效處理動(dòng)態(tài)變化的分布能量。其次,我們有一個(gè)輸出尖峰推測(cè)單元(OSSU:Output Spike Speculation Unit)來(lái)減少尖峰域處理的延遲和計(jì)算量。第三,研究人員實(shí)施了帶有擴(kuò)展符號(hào)壓縮(ESC:Extended Sign Compression)的隱式權(quán)重生成單元(IWGU:Implicit Weight Generation Unit),以減少外部存儲(chǔ)器訪問(wèn)(EMA)能耗。
據(jù)解釋,C-Transformer 芯片不僅僅添加了一些現(xiàn)成的神經(jīng)擬態(tài)處理作為其壓縮 LLM 大參數(shù)的“special sauce”。韓國(guó)科學(xué)技術(shù)院的新聞稿稱,此前,神經(jīng)擬態(tài)計(jì)算技術(shù)對(duì)于法學(xué)碩士的使用不夠準(zhǔn)確。然而,研究團(tuán)隊(duì)表示,它“成功提高了該技術(shù)的準(zhǔn)確性,以匹配[深度神經(jīng)網(wǎng)絡(luò)]DNN”。
盡管由于沒有與行業(yè)標(biāo)準(zhǔn)人工智能加速器進(jìn)行直接比較,第一款 C-Transformer 芯片的性能存在不確定性,但毫無(wú)疑問(wèn),它將成為移動(dòng)計(jì)算的一個(gè)有吸引力的選擇。同樣令人鼓舞的是,研究人員利用三星測(cè)試芯片和廣泛的 GPT-2 測(cè)試取得了如此大的進(jìn)展。
徹底改變?nèi)斯ぶ悄艿男酒?/span>
最近,普林斯頓大學(xué)的先進(jìn)人工智能芯片項(xiàng)目由DARPA和 EnCharge AI 支持,有望顯著提高能源效率和計(jì)算能力,旨在徹底改變?nèi)斯ぶ悄艿目杉靶院蛻?yīng)用。
普林斯頓大學(xué)電氣和計(jì)算機(jī)工程教授納文·維爾馬 (Naveen Verma) 表示,新硬件針對(duì)現(xiàn)代工作負(fù)載重新設(shè)計(jì)了人工智能芯片,并且可以使用比當(dāng)今最先進(jìn)的半導(dǎo)體少得多的能源運(yùn)行強(qiáng)大的人工智能系統(tǒng)。領(lǐng)導(dǎo)該項(xiàng)目的維爾馬表示,這些進(jìn)步突破了阻礙人工智能芯片發(fā)展的關(guān)鍵障礙,包括尺寸、效率和可擴(kuò)展性。
“最好的人工智能僅存在于數(shù)據(jù)中心,有一個(gè)非常重要的限制,”維爾馬說(shuō)?!拔艺J(rèn)為,你從中解鎖了它,我們從人工智能中獲取價(jià)值的方式將會(huì)爆炸?!?/span>
在普林斯頓大學(xué)領(lǐng)導(dǎo)的項(xiàng)目中,研究人員將與 Verma 的初創(chuàng)公司EnCharge AI合作。EnCharge AI 總部位于加利福尼亞州圣克拉拉,正在將基于 Verma 實(shí)驗(yàn)室發(fā)現(xiàn)的技術(shù)商業(yè)化,其中包括他早在 2016 年與電氣工程研究生共同撰寫的幾篇重要論文。
根據(jù)項(xiàng)目提案,Encharge AI“在強(qiáng)大且可擴(kuò)展的混合信號(hào)計(jì)算架構(gòu)的開發(fā)和執(zhí)行方面處于領(lǐng)先地位”。Verma于 2022 年與前 IBM 院士 Kailash Gopalakrishnan 和半導(dǎo)體系統(tǒng)設(shè)計(jì)領(lǐng)域的領(lǐng)導(dǎo)者 Echere Iroaga 共同創(chuàng)立了該公司。
Gopalakrishnan 表示,當(dāng)人工智能開始對(duì)計(jì)算能力和效率產(chǎn)生大量新需求時(shí),現(xiàn)有計(jì)算架構(gòu)的創(chuàng)新以及硅技術(shù)的改進(jìn)開始放緩。即使是用于運(yùn)行當(dāng)今人工智能系統(tǒng)的最好的圖形處理單元 (GPU),也無(wú)法緩解行業(yè)面臨的內(nèi)存和計(jì)算能源瓶頸。
“雖然 GPU 是當(dāng)今最好的可用工具,”他說(shuō),“但我們得出的結(jié)論是,需要一種新型芯片來(lái)釋放人工智能的潛力。”
普林斯頓大學(xué) 凱勒工程教育創(chuàng)新中心主任 Verma 表示,從 2012 年到 2022 年,人工智能模型所需的計(jì)算能力實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng)。為了滿足需求,最新的芯片封裝了數(shù)百億個(gè)晶體管,每個(gè)晶體管之間的寬度只有一個(gè)小病毒的寬度。然而,這些芯片的計(jì)算能力仍然不足以滿足現(xiàn)代需求。
當(dāng)今的領(lǐng)先模型將大型語(yǔ)言模型與計(jì)算機(jī)視覺和其他機(jī)器學(xué)習(xí)方法相結(jié)合,每個(gè)模型都使用超過(guò)一萬(wàn)億個(gè)變量來(lái)開發(fā)。推動(dòng)人工智能熱潮的英偉達(dá)設(shè)計(jì)的 GPU 變得非常有價(jià)值,據(jù)報(bào)道,各大公司都通過(guò)裝甲車運(yùn)輸它們。購(gòu)買或租賃這些芯片的積壓已經(jīng)達(dá)到了消失的程度。
為了創(chuàng)建能夠在緊湊或能源受限的環(huán)境中處理現(xiàn)代人工智能工作負(fù)載的芯片,研究人員必須完全重新構(gòu)想計(jì)算的物理原理,同時(shí)設(shè)計(jì)和封裝可以使用現(xiàn)有制造技術(shù)制造并且可以與現(xiàn)有計(jì)算技術(shù)良好配合的硬件,例如中央處理單元。
“人工智能模型的規(guī)模呈爆炸式增長(zhǎng),”維爾馬說(shuō),“這意味著兩件事。” 人工智能芯片需要在數(shù)學(xué)計(jì)算方面變得更加高效,在管理和移動(dòng)數(shù)據(jù)方面也需要更加高效。
他們的方法分為三個(gè)關(guān)鍵部分。
幾乎每臺(tái)數(shù)字計(jì)算機(jī)的核心架構(gòu)都遵循 20 世紀(jì) 40 年代首次開發(fā)的看似簡(jiǎn)單的模式:在一個(gè)地方存儲(chǔ)數(shù)據(jù),在另一個(gè)地方進(jìn)行計(jì)算。這意味著在存儲(chǔ)單元和處理器之間傳輸信息。在過(guò)去的十年中,Verma 率先研究了一種更新方法,其中計(jì)算直接在內(nèi)存單元中完成,稱為內(nèi)存計(jì)算。這是第一部分。內(nèi)存計(jì)算有望減少移動(dòng)和處理大量數(shù)據(jù)所需的時(shí)間和能源成本。
但到目前為止,內(nèi)存計(jì)算的數(shù)字方法還非常有限。維爾馬和他的團(tuán)隊(duì)轉(zhuǎn)向了另一種方法:模擬計(jì)算。那是第二部分。
“在內(nèi)存計(jì)算的特殊情況下,你不僅需要高效地進(jìn)行計(jì)算,”Verma 說(shuō),“你還需要以非常高的密度進(jìn)行計(jì)算,因?yàn)楝F(xiàn)在它需要適合這些非常小的內(nèi)存單元?!?模擬計(jì)算機(jī)不是將信息編碼為一系列 0 和 1,然后使用傳統(tǒng)邏輯電路處理該信息,而是利用設(shè)備更豐富的物理特性。
數(shù)字信號(hào)在 20 世紀(jì) 40 年代開始取代模擬信號(hào),主要是因?yàn)殡S著計(jì)算的指數(shù)級(jí)增長(zhǎng),二進(jìn)制代碼可以更好地?cái)U(kuò)展。但數(shù)字信號(hào)并沒有深入了解設(shè)備的物理原理,因此,它們可能需要更多的數(shù)據(jù)存儲(chǔ)和管理。這樣他們的效率就較低。模擬通過(guò)利用設(shè)備的固有物理特性處理更精細(xì)的信號(hào)來(lái)提高效率。但這可能會(huì)犧牲精度。
維爾馬說(shuō):“關(guān)鍵在于找到適合該工作的物理原理,使設(shè)備能夠被很好地控制并大規(guī)模制造?!?/span>
他的團(tuán)隊(duì)找到了一種方法,使用專門設(shè)計(jì)用于精確開關(guān)的電容器生成的模擬信號(hào)來(lái)進(jìn)行高精度計(jì)算。這是第三部分。與晶體管等半導(dǎo)體器件不同,通過(guò)電容器傳輸?shù)碾娔懿灰蕾囉诓牧现械臏囟群碗娮舆w移率等可變條件。
“它們只依賴于幾何形狀,”維爾馬說(shuō)。“它們?nèi)Q于一根金屬線和另一根金屬線之間的空間。” 幾何形狀是當(dāng)今最先進(jìn)的半導(dǎo)體制造技術(shù)可以控制得非常好的一件事。
光芯片,速度驚人
賓夕法尼亞大學(xué)的工程師開發(fā)了一種新芯片,它使用光波而不是電力來(lái)執(zhí)行訓(xùn)練人工智能所必需的復(fù)雜數(shù)學(xué)。該芯片有可能從根本上加快計(jì)算機(jī)的處理速度,同時(shí)降低能耗。
該硅光子 (SiPh) 芯片的設(shè)計(jì)首次將本杰明·富蘭克林獎(jiǎng)?wù)芦@得者和 H. Nedwill Ramsey 教授 Nader Engheta 在納米級(jí)操縱材料方面的開創(chuàng)性研究結(jié)合在一起,利用光(可能是最快的通信方式)進(jìn)行數(shù)學(xué)計(jì)算SiPh 平臺(tái)使用硅,硅是一種廉價(jià)且豐富的元素,用于大規(guī)模生產(chǎn)計(jì)算機(jī)芯片。
光波與物質(zhì)的相互作用代表了開發(fā)計(jì)算機(jī)的一種可能途徑,這種計(jì)算機(jī)可以取代當(dāng)今芯片的局限性,這些芯片本質(zhì)上與 20 世紀(jì) 60 年代計(jì)算革命初期的芯片相同的原理。
在《自然光子學(xué)》雜志上發(fā)表的一篇論文中,Engheta 的團(tuán)隊(duì)與電氣和系統(tǒng)工程副教授 Firooz Aflatouni 的團(tuán)隊(duì)一起描述了新芯片的開發(fā)過(guò)程。
“我們決定聯(lián)手,”Engheta 說(shuō)道,他利用了 Aflatouni 的研究小組率先開發(fā)納米級(jí)硅器件的事實(shí)。
他們的目標(biāo)是開發(fā)一個(gè)平臺(tái)來(lái)執(zhí)行所謂的向量矩陣乘法,這是神經(jīng)網(wǎng)絡(luò)開發(fā)和功能中的核心數(shù)學(xué)運(yùn)算,神經(jīng)網(wǎng)絡(luò)是當(dāng)今人工智能工具的計(jì)算機(jī)架構(gòu)。
Engheta 解釋說(shuō),“你可以將硅做得更薄,比如 150 納米”,而不是使用高度均勻的硅晶片,但僅限于特定區(qū)域。這些高度的變化(無(wú)需添加任何其他材料)提供了一種控制光在芯片中傳播的方法,因?yàn)楦叨鹊淖兓梢苑植家允构庖蕴囟ǖ膱D案散射,從而使芯片能夠執(zhí)行數(shù)學(xué)計(jì)算以光速。
Aflatouni 表示,由于生產(chǎn)芯片的商業(yè)代工廠施加的限制,該設(shè)計(jì)已經(jīng)為商業(yè)應(yīng)用做好了準(zhǔn)備,并且有可能適用于圖形處理單元 (GPU),隨著廣泛應(yīng)用,圖形處理單元 (GPU) 的需求猛增。對(duì)開發(fā)新的人工智能系統(tǒng)的興趣。
“他們可以采用硅光子平臺(tái)作為附加組件,”Aflatouni 說(shuō),“然后就可以加快訓(xùn)練和分類速度?!?/span>
除了更快的速度和更少的能耗之外,Engheta 和 Aflatouni 的芯片還具有隱私優(yōu)勢(shì):由于許多計(jì)算可以同時(shí)進(jìn)行,因此無(wú)需在計(jì)算機(jī)的工作內(nèi)存中存儲(chǔ)敏感信息,使得采用此類技術(shù)的未來(lái)計(jì)算機(jī)幾乎無(wú)法被黑客攻擊。
