英特爾推定制版AI芯片，中國客戶會(huì)買單嗎？

2023-07-13 來源： 36氪

918

7月11日，英特爾召開芯片發(fā)布會(huì)，針對(duì)中國市場推出高端AI處理器Gaudi 2，一款支持加速AI訓(xùn)練和推理任務(wù)的芯片。

自大模型和生成式AI興起后，尚未出現(xiàn)能與英偉達(dá)GPU一較高下的產(chǎn)品。今年6月，AMD推出了針對(duì)AI需求的Instinct MI300，但芯片發(fā)布后，AMD股價(jià)反而下跌。

Gaudi 2的推出意味著英特爾的新一輪進(jìn)攻開始。發(fā)布會(huì)上，英特爾沒有介紹Gaudi 2的具體參數(shù)，但從訓(xùn)練時(shí)間、性價(jià)比、可擴(kuò)展性、易用性等多個(gè)角度，將Gaudi 2和英偉達(dá)的A100、H100一一作對(duì)比，只為凸顯一個(gè)主題——Gaudi 2可用，Gaudi 2具有性價(jià)比，Gaudi 2很強(qiáng)。

Gaudi 2出自以色列人工智能公司Habana Labs團(tuán)隊(duì)，該公司在2019年被英特爾收購，之后獨(dú)立運(yùn)營。

Habana Labs首席運(yùn)營官Eitan Medina表示，在2023年6月的國際性AI芯片測試MLPerf上“Gaudi2是目前僅有的兩個(gè)提交GPT-3模型訓(xùn)練結(jié)果的半導(dǎo)體解決方案之一，另一個(gè)是Nvidia H100。”

發(fā)布會(huì)上，英特爾還帶來了浪潮基于Gaudi2的新一代 AI 服務(wù)器 NF5698G7，并表示在未來，國內(nèi)的新華三、超聚變等公司也會(huì)參與合作。

英特爾的產(chǎn)品性能具體如何，市場是否會(huì)買單，中國作為最大的人工智能芯片市場，對(duì)其接受度如何呢？

比H100有性價(jià)比，比A100性能強(qiáng)？

自AI大模型火熱以來，英偉達(dá)一家獨(dú)大。對(duì)于英特爾在人工智能領(lǐng)域的策略，市場期待已久。

2023年年初，英特爾中國區(qū)董事長王銳就在戰(zhàn)略媒體溝通會(huì)上回應(yīng)，英特爾高層正認(rèn)真對(duì)待人工智能浪潮，并適時(shí)推出產(chǎn)品。

本次發(fā)布Gaudi 2芯片是由Habana團(tuán)隊(duì)制作的產(chǎn)品。事實(shí)上，該芯片曾于去年在海外發(fā)布，此次發(fā)布的是針對(duì)中國市場的定制版本。

Gaudi 2采用7nm制程，有24個(gè)張量處理器核心，集成了96GB的HBM高性能存儲(chǔ)和48MB的SRAM靜態(tài)隨機(jī)存儲(chǔ)器，是專門為訓(xùn)練大語言模型而生的產(chǎn)品。

Gaudi 2產(chǎn)品性能

針對(duì)不同精度的峰值數(shù)據(jù)，英特爾并未做過多介紹。Eitan Medina告訴36氪，英特爾并不希望專門比算力或者數(shù)字，而是將重心放在應(yīng)用上，“我們的產(chǎn)品和整體解決方案能為客戶提供很好的性能?！?/span>

在發(fā)布會(huì)上，Eitan Medina通過MLPerf基準(zhǔn)測試結(jié)果來展現(xiàn)Gaudi 2的性能。MLPerf基準(zhǔn)測試是一個(gè)專門針對(duì)AI芯片進(jìn)行測評(píng)的國際測試，此前，壁仞科技就曾參與該測試，與英偉達(dá)一較高下。

MLPerf每年會(huì)進(jìn)行兩次測評(píng)，在距離最近的2023年6月測評(píng)中，Gaudi 2是除了Nvidia H100以外，唯一提供了GPT-3模型訓(xùn)練結(jié)果的半導(dǎo)體解決方案。

Gaudi2與H100對(duì)比

根據(jù)英特爾提供的信息，Gaudi2的性能低于H100，但高于A100。

Gaudi2在384個(gè)加速器上訓(xùn)練GPT-3需要311分鐘，而英偉達(dá)用512個(gè)H100 GPU訓(xùn)練GPT-3的時(shí)間只需要64分鐘，也就是說，H100的性能領(lǐng)先于Gaudi2 芯片3.6倍。

在8個(gè)加速器情況下，Gaudi2跑計(jì)算機(jī)視覺模型ResNet-50和Unet3D的效果不錯(cuò)，和H100的差距會(huì)比運(yùn)行GPT-3時(shí)小很多。

針對(duì)和H100的差距，英特爾認(rèn)為，Gaudi2的優(yōu)勢在于性價(jià)比。Gaudi2服務(wù)器的成本要比H100低得多。

相較A100，Eitan Medina表示，根據(jù)MLPerf的報(bào)告，Gaudi2在每個(gè)模型上的訓(xùn)練效果都優(yōu)于A100。且Gaudi2具有成本優(yōu)勢，它運(yùn)行 ResNet-50 的每瓦性能約是英偉達(dá) A100 的 2 倍，運(yùn)行 1760 億參數(shù) BLOOMZ 模型的每瓦性能約達(dá) A100 的 1.6 倍。

Gaudi2與A100性能對(duì)比

為了合規(guī)，Gaudi 2與國際版存在區(qū)別。但英特爾Habana Labs首席運(yùn)營官Eltan Medina告訴36氪，相比于國際版 Gaudi2，中國版Gaudi 2推出的加速卡在性能上差別不會(huì)很大，只是以太網(wǎng)端口數(shù)量從24個(gè)改為21個(gè)，整體計(jì)算性能未有下降。未來，Gaudi2 及下一代 5nm的Gaudi3 都會(huì)在合法合規(guī)的情況下繼續(xù)支持中國客戶。

目前，英特爾內(nèi)部有多款可用于人工智能市場的產(chǎn)品，如何看待不同產(chǎn)品的功能和市場？

英特爾公司執(zhí)行副總裁數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera認(rèn)為，客戶有不同的產(chǎn)品需求，中小型模型客戶可以選擇至強(qiáng)作推理，生成一張圖片只需要5秒鐘；而客戶做千億級(jí)新模型的訓(xùn)練需要更大算力，可以采用Gaudi芯片。

在發(fā)布會(huì)上，Sandra Rivera也對(duì)至強(qiáng)芯片做了介紹。在AI推理工作負(fù)載中，至強(qiáng)的推理性能與英偉達(dá)A100 GPU相比可超5倍，與AMD的64核EPYC CPU相比可超2倍。在執(zhí)行訓(xùn)練工作時(shí)，至強(qiáng)CPU的性能較英偉達(dá)A100 GPU有近3倍的性能提升，可以在幾秒鐘或幾分鐘內(nèi)完成訓(xùn)練，能降低客戶成本。

發(fā)布會(huì)上，英特爾還展示了至強(qiáng)芯片對(duì)于Stable Diffusion模型的生成效果。Stable Diffusion模型能夠文生圖和圖生圖，結(jié)果顯示基于至強(qiáng)芯片運(yùn)轉(zhuǎn)后，該模型在5.34秒生成了一張圖像。

為更好抓住推理市場，英特爾正優(yōu)化基于至強(qiáng)的推理平臺(tái)，以便在云、網(wǎng)絡(luò)或智能邊緣部署多樣化的AI應(yīng)用程序。

英特爾Habana的 GPU，客戶會(huì)買單嗎？

沒有一家AI芯片公司，愿意錯(cuò)過大模型和生成式AI帶來的巨大市場。

從大模型熱潮以來，國內(nèi)的GPU公司紛紛加強(qiáng)在生成式AI相關(guān)能力上的投入和研發(fā)。然而，至今沒有出現(xiàn)一款能和A100、H100對(duì)打的產(chǎn)品。

英特爾內(nèi)部有 GPU MAX產(chǎn)品，但英特爾選擇將Habana的產(chǎn)品作為王牌推向市場，希望以此逐鹿人工智能市場。

Habana可能更能給市場信心。2019年，英特爾以20億美元高價(jià)收購了以色列AI芯片制造商Habana Labs，Habana作為獨(dú)立業(yè)務(wù)部門運(yùn)營，希望在數(shù)據(jù)中心AI領(lǐng)域挑戰(zhàn)英偉達(dá)。

Habana同時(shí)有面向數(shù)據(jù)中心的AI訓(xùn)練芯片 Gaudi （高迪）和AI推理芯片Goya（戈雅），以及完整的SynapseAI軟件棧，且其第一代產(chǎn)品就體現(xiàn)出了能耗與時(shí)延的優(yōu)勢。

它的創(chuàng)始人Avigdo是一個(gè)技術(shù)大牛，曾成立了交換機(jī)芯片公司Galileo，后來賣給了Marvel；2011，Avigdor又成立了網(wǎng)絡(luò)智能公司Annapurna Labs，2015年以3.7億美元的價(jià)格被亞馬遜收購。

這樣的基因，讓Habana的產(chǎn)品在性能上能有所保障。不過，Habana lab被收購后，需要融合進(jìn)英特爾公司，在一段時(shí)間內(nèi)后繼表現(xiàn)相對(duì)乏力。

除了硬件產(chǎn)品，另一個(gè)構(gòu)成英偉達(dá)壁壘的，是其Cuda軟件生態(tài)。英特爾的產(chǎn)品如何應(yīng)對(duì)Cuda生態(tài)？

Sandra Rivera認(rèn)為，在數(shù)據(jù)中心的軟件生態(tài)中，一個(gè)是X86的軟件生態(tài)，一個(gè)是CUDA。在做人工智能或者是AI運(yùn)算時(shí)，大部分的開發(fā)者不會(huì)做那么底層的開發(fā)，更多在PyTorch、TensorFlow上做創(chuàng)新。Gaudi2的軟件生態(tài)本身支持PyTorch、TensorFlow這兩個(gè)深度學(xué)習(xí)最常見的兩個(gè)框架，同時(shí)支持Megatron和DeepSpeed這兩個(gè)當(dāng)今在大模型當(dāng)中最主流的大模型訓(xùn)練框架。

為適配更多大模型，英特爾與專門做大模型的開源社區(qū)叫Hugging Face達(dá)成合作，可以在幾十秒時(shí)間內(nèi)調(diào)通現(xiàn)有模型。

浪潮信息AI&HPC產(chǎn)品線總經(jīng)理劉軍也在發(fā)布會(huì)上表示，“按照我們算法工程師實(shí)際使用的體驗(yàn)，使用Gaudi2和在GPU上使用基本上沒有太大區(qū)別，客戶可以非常絲滑地把自己的訓(xùn)練負(fù)載運(yùn)行在Gaudi2的訓(xùn)練集群上?！?/span>

浪潮信息也在會(huì)上發(fā)布了支持8顆Gaudi2深度學(xué)習(xí)加速器進(jìn)行高速互連的加速的基板，新一代AI服務(wù)器NF5698G7。

浪潮AI服務(wù)器NF5698G7

英特爾還透露，Gaudi2國內(nèi)首批還將與百度智能云、紫光新華三、超聚變等公司合作。

中國有著龐大的AI計(jì)算市場，國內(nèi)大模型公司是否愿意買單？

某AI模型層創(chuàng)企的CTO告訴36氪，目前存在顧慮?！霸谟?xùn)練100億參數(shù)規(guī)模模型10輪情況下，其他公司的芯片訓(xùn)練速度，普遍比A100多出10幾天，寧愿多花錢買點(diǎn)A100或H100,也不想耽誤訓(xùn)練的時(shí)間。而英特爾披露的信息主要宣傳在ResNet模型上的性能提高，但ResNet和Transformer類模型存在較大區(qū)別。且Gaudi2在2022年已經(jīng)發(fā)布，市場的選擇已經(jīng)說明問題。”

另一家大模型公司則表示，已與國內(nèi)GPU產(chǎn)品達(dá)成合作，如果采用英特爾的產(chǎn)品，還需要重新測試，暫時(shí)無法確定是否會(huì)采購英特爾的產(chǎn)品。

在人工智能計(jì)算市場，英偉達(dá)獨(dú)占鰲頭，要么一卡難求，要么難以購買，無論是從產(chǎn)品供應(yīng)角度，還是從能使用更優(yōu)秀產(chǎn)品，縮減與國外大模型廠商的算力支持角度，市場期待第二款A(yù)I芯片。

英特爾、AMD躍躍欲試，國內(nèi)的GPU公司也紛紛抓住訓(xùn)練市場，或通過大型集群的方式希望支持國內(nèi)公司發(fā)展。

Habana Gaudi 2是否會(huì)成為下一個(gè)A100，仍需市場的回應(yīng)。