英特爾推定制版AI芯片,中國客戶會(huì)買單嗎?
7月11日,英特爾召開芯片發(fā)布會(huì),針對(duì)中國市場推出高端AI處理器Gaudi 2,一款支持加速AI訓(xùn)練和推理任務(wù)的芯片。
自大模型和生成式AI興起后,尚未出現(xiàn)能與英偉達(dá)GPU一較高下的產(chǎn)品。今年6月,AMD推出了針對(duì)AI需求的Instinct MI300,但芯片發(fā)布后,AMD股價(jià)反而下跌。
Gaudi 2的推出意味著英特爾的新一輪進(jìn)攻開始。發(fā)布會(huì)上,英特爾沒有介紹Gaudi 2的具體參數(shù),但從訓(xùn)練時(shí)間、性價(jià)比、可擴(kuò)展性、易用性等多個(gè)角度,將Gaudi 2和英偉達(dá)的A100、H100一一作對(duì)比,只為凸顯一個(gè)主題——Gaudi 2可用,Gaudi 2具有性價(jià)比,Gaudi 2很強(qiáng)。
Gaudi 2出自以色列人工智能公司Habana Labs團(tuán)隊(duì),該公司在2019年被英特爾收購,之后獨(dú)立運(yùn)營。
Habana Labs首席運(yùn)營官Eitan Medina表示,在2023年6月的國際性AI芯片測試MLPerf上“Gaudi2是目前僅有的兩個(gè)提交GPT-3模型訓(xùn)練結(jié)果的半導(dǎo)體解決方案之一,另一個(gè)是Nvidia H100。”
發(fā)布會(huì)上,英特爾還帶來了浪潮基于Gaudi2的新一代 AI 服務(wù)器 NF5698G7,并表示在未來,國內(nèi)的新華三、超聚變等公司也會(huì)參與合作。
英特爾的產(chǎn)品性能具體如何,市場是否會(huì)買單,中國作為最大的人工智能芯片市場,對(duì)其接受度如何呢?
比H100有性價(jià)比,比A100性能強(qiáng)?
自AI大模型火熱以來,英偉達(dá)一家獨(dú)大。對(duì)于英特爾在人工智能領(lǐng)域的策略,市場期待已久。
2023年年初,英特爾中國區(qū)董事長王銳就在戰(zhàn)略媒體溝通會(huì)上回應(yīng),英特爾高層正認(rèn)真對(duì)待人工智能浪潮,并適時(shí)推出產(chǎn)品。
本次發(fā)布Gaudi 2芯片是由Habana團(tuán)隊(duì)制作的產(chǎn)品。事實(shí)上,該芯片曾于去年在海外發(fā)布,此次發(fā)布的是針對(duì)中國市場的定制版本。
Gaudi 2采用7nm制程,有24個(gè)張量處理器核心,集成了96GB的HBM高性能存儲(chǔ)和48MB的SRAM靜態(tài)隨機(jī)存儲(chǔ)器,是專門為訓(xùn)練大語言模型而生的產(chǎn)品。

Gaudi 2產(chǎn)品性能
針對(duì)不同精度的峰值數(shù)據(jù),英特爾并未做過多介紹。Eitan Medina告訴36氪,英特爾并不希望專門比算力或者數(shù)字,而是將重心放在應(yīng)用上,“我們的產(chǎn)品和整體解決方案能為客戶提供很好的性能?!?/span>
在發(fā)布會(huì)上,Eitan Medina通過MLPerf基準(zhǔn)測試結(jié)果來展現(xiàn)Gaudi 2的性能。MLPerf基準(zhǔn)測試是一個(gè)專門針對(duì)AI芯片進(jìn)行測評(píng)的國際測試,此前,壁仞科技就曾參與該測試,與英偉達(dá)一較高下。
MLPerf每年會(huì)進(jìn)行兩次測評(píng),在距離最近的2023年6月測評(píng)中,Gaudi 2是除了Nvidia H100以外,唯一提供了GPT-3模型訓(xùn)練結(jié)果的半導(dǎo)體解決方案。

Gaudi2與H100對(duì)比
根據(jù)英特爾提供的信息,Gaudi2的性能低于H100,但高于A100。
Gaudi2在384個(gè)加速器上訓(xùn)練GPT-3需要311分鐘,而英偉達(dá)用512個(gè)H100 GPU訓(xùn)練GPT-3的時(shí)間只需要64分鐘,也就是說,H100的性能領(lǐng)先于Gaudi2 芯片3.6倍。
在8個(gè)加速器情況下,Gaudi2跑計(jì)算機(jī)視覺模型ResNet-50和Unet3D的效果不錯(cuò),和H100的差距會(huì)比運(yùn)行GPT-3時(shí)小很多。
針對(duì)和H100的差距,英特爾認(rèn)為,Gaudi2的優(yōu)勢在于性價(jià)比。Gaudi2服務(wù)器的成本要比H100低得多。
相較A100,Eitan Medina表示,根據(jù)MLPerf的報(bào)告,Gaudi2在每個(gè)模型上的訓(xùn)練效果都優(yōu)于A100。且Gaudi2具有成本優(yōu)勢,它運(yùn)行 ResNet-50 的每瓦性能約是英偉達(dá) A100 的 2 倍,運(yùn)行 1760 億參數(shù) BLOOMZ 模型的每瓦性能約達(dá) A100 的 1.6 倍。

Gaudi2與A100性能對(duì)比
為了合規(guī),Gaudi 2與國際版存在區(qū)別。但英特爾Habana Labs首席運(yùn)營官Eltan Medina告訴36氪,相比于國際版 Gaudi2,中國版Gaudi 2推出的加速卡在性能上差別不會(huì)很大,只是以太網(wǎng)端口數(shù)量從24個(gè)改為21個(gè),整體計(jì)算性能未有下降。未來,Gaudi2 及下一代 5nm的Gaudi3 都會(huì)在合法合規(guī)的情況下繼續(xù)支持中國客戶。
目前,英特爾內(nèi)部有多款可用于人工智能市場的產(chǎn)品,如何看待不同產(chǎn)品的功能和市場?
英特爾公司執(zhí)行副總裁 數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera認(rèn)為,客戶有不同的產(chǎn)品需求,中小型模型客戶可以選擇至強(qiáng)作推理,生成一張圖片只需要5秒鐘;而客戶做千億級(jí)新模型的訓(xùn)練需要更大算力,可以采用Gaudi芯片。
在發(fā)布會(huì)上,Sandra Rivera也對(duì)至強(qiáng)芯片做了介紹。在AI推理工作負(fù)載中,至強(qiáng)的推理性能與英偉達(dá)A100 GPU相比可超5倍,與AMD的64核EPYC CPU相比可超2倍。在執(zhí)行訓(xùn)練工作時(shí),至強(qiáng)CPU的性能較英偉達(dá)A100 GPU有近3倍的性能提升,可以在幾秒鐘或幾分鐘內(nèi)完成訓(xùn)練,能降低客戶成本。
發(fā)布會(huì)上,英特爾還展示了至強(qiáng)芯片對(duì)于Stable Diffusion模型的生成效果。Stable Diffusion模型能夠文生圖和圖生圖,結(jié)果顯示基于至強(qiáng)芯片運(yùn)轉(zhuǎn)后,該模型在5.34秒生成了一張圖像。
為更好抓住推理市場,英特爾正優(yōu)化基于至強(qiáng)的推理平臺(tái),以便在云、網(wǎng)絡(luò)或智能邊緣部署多樣化的AI應(yīng)用程序。
英特爾Habana的 GPU,客戶會(huì)買單嗎?
沒有一家AI芯片公司,愿意錯(cuò)過大模型和生成式AI帶來的巨大市場。
從大模型熱潮以來,國內(nèi)的GPU公司紛紛加強(qiáng)在生成式AI相關(guān)能力上的投入和研發(fā)。然而,至今沒有出現(xiàn)一款能和A100、H100對(duì)打的產(chǎn)品。
英特爾內(nèi)部有 GPU MAX產(chǎn)品,但英特爾選擇將Habana的產(chǎn)品作為王牌推向市場,希望以此逐鹿人工智能市場。
Habana可能更能給市場信心。2019年,英特爾以20億美元高價(jià)收購了以色列AI芯片制造商Habana Labs,Habana作為獨(dú)立業(yè)務(wù)部門運(yùn)營,希望在數(shù)據(jù)中心AI領(lǐng)域挑戰(zhàn)英偉達(dá)。
Habana同時(shí)有面向數(shù)據(jù)中心的AI訓(xùn)練芯片 Gaudi (高迪)和AI推理芯片Goya(戈雅),以及完整的SynapseAI軟件棧,且其第一代產(chǎn)品就體現(xiàn)出了能耗與時(shí)延的優(yōu)勢。
它的創(chuàng)始人Avigdo是一個(gè)技術(shù)大牛,曾成立了交換機(jī)芯片公司Galileo,后來賣給了Marvel;2011,Avigdor又成立了網(wǎng)絡(luò)智能公司Annapurna Labs,2015年以3.7億美元的價(jià)格被亞馬遜收購。
這樣的基因,讓Habana的產(chǎn)品在性能上能有所保障。不過,Habana lab被收購后,需要融合進(jìn)英特爾公司,在一段時(shí)間內(nèi)后繼表現(xiàn)相對(duì)乏力。
除了硬件產(chǎn)品,另一個(gè)構(gòu)成英偉達(dá)壁壘的,是其Cuda軟件生態(tài)。英特爾的產(chǎn)品如何應(yīng)對(duì)Cuda生態(tài)?
Sandra Rivera認(rèn)為,在數(shù)據(jù)中心的軟件生態(tài)中,一個(gè)是X86的軟件生態(tài),一個(gè)是CUDA。在做人工智能或者是AI運(yùn)算時(shí),大部分的開發(fā)者不會(huì)做那么底層的開發(fā),更多在PyTorch、TensorFlow上做創(chuàng)新。Gaudi2的軟件生態(tài)本身支持PyTorch、TensorFlow這兩個(gè)深度學(xué)習(xí)最常見的兩個(gè)框架,同時(shí)支持Megatron和DeepSpeed這兩個(gè)當(dāng)今在大模型當(dāng)中最主流的大模型訓(xùn)練框架。
為適配更多大模型,英特爾與專門做大模型的開源社區(qū)叫Hugging Face達(dá)成合作,可以在幾十秒時(shí)間內(nèi)調(diào)通現(xiàn)有模型。
浪潮信息AI&HPC產(chǎn)品線總經(jīng)理劉軍也在發(fā)布會(huì)上表示,“按照我們算法工程師實(shí)際使用的體驗(yàn),使用Gaudi2和在GPU上使用基本上沒有太大區(qū)別,客戶可以非常絲滑地把自己的訓(xùn)練負(fù)載運(yùn)行在Gaudi2的訓(xùn)練集群上?!?/span>
浪潮信息也在會(huì)上發(fā)布了支持8顆Gaudi2深度學(xué)習(xí)加速器進(jìn)行高速互連的加速的基板,新一代AI服務(wù)器NF5698G7。

浪潮AI服務(wù)器NF5698G7
英特爾還透露,Gaudi2國內(nèi)首批還將與百度智能云、紫光新華三、超聚變等公司合作。
中國有著龐大的AI計(jì)算市場,國內(nèi)大模型公司是否愿意買單?
某AI模型層創(chuàng)企的CTO告訴36氪,目前存在顧慮?!霸谟?xùn)練100億參數(shù)規(guī)模模型10輪情況下,其他公司的芯片訓(xùn)練速度,普遍比A100多出10幾天,寧愿多花錢買點(diǎn)A100或H100,也不想耽誤訓(xùn)練的時(shí)間。而英特爾披露的信息主要宣傳在ResNet模型上的性能提高,但ResNet和Transformer類模型存在較大區(qū)別。且Gaudi2在2022年已經(jīng)發(fā)布,市場的選擇已經(jīng)說明問題。”
另一家大模型公司則表示,已與國內(nèi)GPU產(chǎn)品達(dá)成合作,如果采用英特爾的產(chǎn)品,還需要重新測試,暫時(shí)無法確定是否會(huì)采購英特爾的產(chǎn)品。
在人工智能計(jì)算市場,英偉達(dá)獨(dú)占鰲頭,要么一卡難求,要么難以購買,無論是從產(chǎn)品供應(yīng)角度,還是從能使用更優(yōu)秀產(chǎn)品,縮減與國外大模型廠商的算力支持角度,市場期待第二款A(yù)I芯片。
英特爾、AMD躍躍欲試,國內(nèi)的GPU公司也紛紛抓住訓(xùn)練市場,或通過大型集群的方式希望支持國內(nèi)公司發(fā)展。
Habana Gaudi 2是否會(huì)成為下一個(gè)A100,仍需市場的回應(yīng)。
