半導(dǎo)體營(yíng)收之王三十年來(lái)或?qū)⑹状我字鞯谌?，一招GPU打敗天下！

2024-01-04 來(lái)源：賢集網(wǎng)

1373

在社會(huì)上快速滲透的生成式AI（人工智能）已開(kāi)始改寫(xiě)半導(dǎo)體行業(yè)的勢(shì)力格局。領(lǐng)先一步的美國(guó)英偉達(dá)的業(yè)績(jī)飛速增長(zhǎng)，2023年在營(yíng)業(yè)收入方面首次躍居世界首位的可能性正在增強(qiáng)。

有觀點(diǎn)預(yù)測(cè)稱(chēng)，AI半導(dǎo)體的市場(chǎng)規(guī)模到2027年將達(dá)到60萬(wàn)億日元，包括云計(jì)算巨頭在內(nèi)的競(jìng)爭(zhēng)也在日益激烈。

英偉達(dá)將首次捧起半導(dǎo)體行業(yè)冠軍寶座

“AI是過(guò)去50年來(lái)最大的技術(shù)創(chuàng)新。與之相近的是互聯(lián)網(wǎng)，但AI普及速度更快”，美國(guó)半導(dǎo)體巨頭AMD的首席執(zhí)行官（CEO）蘇姿豐（Lisa Su）12月6日在美國(guó)硅谷舉行的技術(shù)說(shuō)明會(huì)的開(kāi)頭這樣強(qiáng)調(diào)。

數(shù)據(jù)中心對(duì)高性能CPU（中央處理器）的需求很大，但在AI的開(kāi)發(fā)和利用方面，則需要能夠高效并行處理大量數(shù)據(jù)的半導(dǎo)體。AMD此前預(yù)測(cè)這種AI半導(dǎo)體的市場(chǎng)規(guī)模到2027年將擴(kuò)大到1500億美元，后來(lái)提高到4000億美元。

英國(guó)調(diào)查公司Omdia的溫璟如（Claire Wen）指出，“市場(chǎng)正在超預(yù)期擴(kuò)大這一點(diǎn)是確定無(wú)疑的”。

首先受益的是在擅長(zhǎng)并行處理的圖形處理器（GPU）領(lǐng)域擁有很高市場(chǎng)份額的英偉達(dá)。QUICK FactSet統(tǒng)計(jì)的市場(chǎng)預(yù)測(cè)顯示，英偉達(dá)2023財(cái)年（截至2024年1月）的營(yíng)業(yè)收入將達(dá)到上財(cái)年的2.2倍，增至588億美元。另一方面，韓國(guó)三星電子2023財(cái)年（截至2023年12月）半導(dǎo)體部門(mén)的營(yíng)業(yè)收入預(yù)計(jì)為490億美元，比上財(cái)年減少34%。預(yù)計(jì)美國(guó)英特爾也將減少14%，僅為539億美元。

美國(guó)調(diào)查公司高德納咨詢(xún)（Gartner）的統(tǒng)計(jì)顯示，在1992年開(kāi)始的四分之一世紀(jì)里，英特爾長(zhǎng)期位居半導(dǎo)體營(yíng)收世界第一，2017年以后則維持著該公司和三星交替居首的局面。2022年三星位居榜首。如果英偉達(dá)在2023年躍居首位，將是時(shí)隔約30年由“新面孔”獲得業(yè)界盟主的寶座。

十年間投入百億構(gòu)筑生態(tài)護(hù)城河

GPU芯片在超級(jí)計(jì)算和全球巨頭大模型訓(xùn)練戰(zhàn)中地位舉足輕重，而掌握全球80%GPU市場(chǎng)份額的英偉達(dá)賺得盆滿(mǎn)缽滿(mǎn)。然而，這種壟斷式的市場(chǎng)占有率不是一夜砌成的“城墻”。

據(jù)Tractica數(shù)據(jù)，預(yù)計(jì)到2025年全球AI硬件市場(chǎng)收入將達(dá)到2349億美元，其中GPU的收入占23.2%。

英偉達(dá)在GPU市場(chǎng)的構(gòu)筑的護(hù)城河，CUDA是其中至關(guān)重要的一環(huán)。

英偉達(dá)憑借CUDA幾乎壟斷了訓(xùn)練芯片市場(chǎng)，業(yè)界也幾乎沒(méi)有巨頭對(duì)CUDA生態(tài)造成顛覆性沖擊。

英偉達(dá)為CUDA生態(tài)鋪墊了十余年。

2007年，英偉達(dá)的GPU研發(fā)技術(shù)已占據(jù)強(qiáng)勢(shì)地位，次年英特爾的大客戶(hù)蘋(píng)果將MacBook除CPU外直接替換成英偉達(dá)Tesla架構(gòu)的GPU便印證了這一點(diǎn)。

據(jù)報(bào)道，經(jīng)年累計(jì)英偉達(dá)對(duì)CUDA總投入早已超過(guò)100億美元。

在黃仁勛商業(yè)化考慮之下，CUDA生態(tài)需要培養(yǎng)潛在開(kāi)發(fā)者，成為受到程序員和企業(yè)歡迎的技術(shù)平臺(tái)。

在2006年推出CUDA后，英偉達(dá)的第一個(gè)戰(zhàn)略便瞄準(zhǔn)了“軟件開(kāi)發(fā)人員”，投入巨資讓開(kāi)發(fā)者習(xí)慣使用CUDA平臺(tái)。

初期，開(kāi)發(fā)者社區(qū)有這樣一句話(huà)：CUDA在編程語(yǔ)言和共享存儲(chǔ)器兩個(gè)層次的并行都簡(jiǎn)化了編程，使得本科生也能使用CUDA寫(xiě)出大規(guī)模高性能計(jì)算程序。

為擴(kuò)大覆蓋率，英偉達(dá)將CUDA引入大學(xué)課堂，與伊利諾伊大學(xué)等高校合作完善函數(shù)庫(kù)。在2010年時(shí)，已有250所大學(xué)開(kāi)放CUDA的教學(xué)課程，并有相關(guān)論文數(shù)千篇。以此為基礎(chǔ)完善生態(tài)，英偉達(dá)建立研究中心、教學(xué)中心、認(rèn)證計(jì)劃，到2015年已有800所大學(xué)開(kāi)發(fā)相關(guān)課程。

再?gòu)臉I(yè)界來(lái)看，英偉達(dá)投入資金做inception計(jì)劃（初創(chuàng)加速計(jì)劃），讓初創(chuàng)公司運(yùn)用CUDA做項(xiàng)目鋪墊基礎(chǔ)。

至今，已有超過(guò)100家初創(chuàng)公司利用了CUDA。此外，英偉達(dá)開(kāi)源了Cub、NCCL等通用場(chǎng)景下的開(kāi)發(fā)庫(kù)，并優(yōu)化中間件性能的基礎(chǔ)庫(kù)給廠家使用，再次擴(kuò)大了生態(tài)系統(tǒng)。

因此，許多開(kāi)發(fā)者依賴(lài)于CUDA，同時(shí)憑借強(qiáng)大的核心能力在消費(fèi)市場(chǎng)上受到青睞。

2012年，在ImageNet競(jìng)賽一舉奪冠的AlexNet面世后，CUDA已迭代至5.0版本，支持了動(dòng)態(tài)庫(kù)和GPU指針。

2016年，OpenAI成立之時(shí)，CUDA8.0已經(jīng)支持半精度浮點(diǎn)數(shù)和張量核心，軟件生態(tài)已由學(xué)界和業(yè)界人士熟知、互相推薦。

2022年底，ChatGPT的發(fā)布將生成式AI送到人們眼前，CUDA12.0支持了新的NVIDIA Hopper 和 NVIDIA Ada Lovelace 架構(gòu)功能，并為所有GPU提供了額外的編程模型增強(qiáng)。

等到大模型熱度吹進(jìn)各家企業(yè)時(shí)，英偉達(dá)已經(jīng)深化了他們?cè)谛袠I(yè)中的差異化，成為市場(chǎng)玩家購(gòu)物籃的第一選擇。

目前為止，基于CUDA的GPU銷(xiāo)量超過(guò)百萬(wàn)。

而眾多GPU芯片廠家中，為什么是英偉達(dá)做出了唯一的CUDA開(kāi)發(fā)環(huán)境？

從虧錢(qián)生意到利潤(rùn)1000%

回顧世紀(jì)初期，英偉達(dá)與微軟、ATI、AMD、英特爾五家巨頭的混戰(zhàn)，英偉達(dá)在圖形處理市場(chǎng)中逐漸占據(jù)優(yōu)勢(shì)。

2006年7月，AMD以54億美元溢價(jià)收購(gòu)ATI，芯片市場(chǎng)重新洗牌。同年，英偉達(dá)的首席科學(xué)家David Kirk提出了“將GPU技術(shù)通用化”的思路，從主要做3D渲染的任務(wù)中脫離出來(lái)，探索通用計(jì)算任務(wù)。

這個(gè)思路就是CUDA。而當(dāng)時(shí)，愿意擔(dān)起這門(mén)費(fèi)錢(qián)費(fèi)力的技術(shù)活的也是英偉達(dá)。

幾大家芯片公司中，老對(duì)手AMD買(mǎi)下ATI后GPU研發(fā)進(jìn)入弱勢(shì)地位，英特爾取消了自研GPU計(jì)劃。英偉達(dá)則在GPU技術(shù)方面將巨頭們甩在了身后。

17年前，研發(fā)CUDA是一個(gè)超前的決定，英偉達(dá)的CUDA進(jìn)化并非一帆風(fēng)順，黃仁勛則堅(jiān)持“加速計(jì)算”是未來(lái)。

英偉達(dá)和英特爾在2006年秋天共同開(kāi)發(fā)了基于CUDA的新型GPU，即G80 GPU。而兩者的合作持續(xù)不長(zhǎng)久，CUDA的研發(fā)決策需要英偉達(dá)長(zhǎng)久地投入大量資金。

從產(chǎn)品特性上來(lái)說(shuō)，CUDA邏輯電路在硬件產(chǎn)品中增加會(huì)導(dǎo)致芯片的散熱需求增高，由此也會(huì)帶來(lái)成本上升、故障增多的風(fēng)險(xiǎn)。

從財(cái)報(bào)表現(xiàn)來(lái)看，CUDA也是一門(mén)虧錢(qián)生意，在2008年金融危機(jī)前后表現(xiàn)得更為明顯。

在最艱難的時(shí)候，黃仁勛也沒(méi)有中斷CUDA，直到2012年辛頓教授帶隊(duì)以GPU代替CPU訓(xùn)練AI模型做出了AlexNet。

2020年，黃仁勛在接受Barron周刊時(shí)強(qiáng)調(diào)：“英偉達(dá)將推動(dòng)下一個(gè)人工智能大爆炸。”

這5年，為了迎接人工智能，英偉達(dá)做了3件事。

第一，2019年3月，英偉達(dá)以69億美元收購(gòu)了高性能計(jì)算互聯(lián)技術(shù)公司Mellanox 。這家公司的主要產(chǎn)品InfiniBand，被認(rèn)為速度更快、帶寬更高，是數(shù)據(jù)傳輸?shù)挠行Х绞?，而Mellanox是唯一的InfiniBand規(guī)范提供商。

第二，英偉達(dá)于2022年9月發(fā)布新一代AI芯片“Drive Thor”，專(zhuān)為大規(guī)模GPU集群協(xié)調(diào)設(shè)計(jì)，是英偉達(dá)一款完全集成的解決方案。

第三，英偉達(dá)推出專(zhuān)為加速計(jì)算和生成式AI打造的Hopper架構(gòu)，H100便是基于此架構(gòu)的GPU。市場(chǎng)消息稱(chēng)，H100是英偉達(dá)利潤(rùn)率高達(dá)1000%的產(chǎn)品，出貨量超過(guò)900噸。

隨著ChatGPT發(fā)布，帶動(dòng)AI服務(wù)器出貨量和價(jià)格上漲，英偉達(dá)的GPU芯片價(jià)格水漲船高。英偉達(dá)的DGX H100售價(jià)總價(jià)為268495美元，包含8GPU+4NVSwitch基板等，每臺(tái)毛利率接近190000美元。

英偉達(dá)的財(cái)務(wù)收入令人矚目，據(jù)悉，過(guò)去3個(gè)財(cái)年的復(fù)合年增長(zhǎng)率（CAGR）達(dá)到35.2%，預(yù)計(jì)2023年收入將飆升51.4%至408億美元。

GPU市場(chǎng)迎來(lái)更多競(jìng)爭(zhēng)者

Google

谷歌報(bào)告稱(chēng)，云計(jì)算收入增長(zhǎng)了22%，達(dá)到84.1億美元，低于預(yù)計(jì)的86.4億美元。6月份，谷歌的云計(jì)算業(yè)務(wù)增長(zhǎng)了28%。

2023年，谷歌發(fā)布了最新的自主研發(fā)芯片TPU V4，其性能比上一代芯片顯著提高了2.1倍。通過(guò)集成4096個(gè)這樣的芯片，超級(jí)計(jì)算性能大幅提升了10倍，令人印象深刻。

谷歌表示，在規(guī)模相當(dāng)?shù)南到y(tǒng)中，TPU V4的性能是英偉達(dá)A100的1.7倍，能效也提高了1.9倍。與前代產(chǎn)品TPU V3相似，每個(gè)TPU V4由兩個(gè)張量核 (TC) 單元組成。每個(gè)TC單元由四個(gè)128x128矩陣乘法單元（MXU）、一個(gè)配備128個(gè)通道（每個(gè)通道包含16個(gè)ALU）的矢量處理單元（“VPU”）和16 MiB的矢量存儲(chǔ)器（“VMEM”）組成。

除了下一代TPU，谷歌還在2023年底開(kāi)始向開(kāi)發(fā)人員全面提供英偉達(dá)的H100 GPU，作為其A3系列虛擬機(jī)的一部分。

亞馬遜AWS

在過(guò)去的六個(gè)季度里，亞馬遜網(wǎng)絡(luò)服務(wù)部的業(yè)績(jī)一直在下滑，但第三季度的業(yè)績(jī)卻趨于穩(wěn)定，保持了12%的同比增長(zhǎng)。該部門(mén)的營(yíng)業(yè)收入也同比激增29%，達(dá)到約70億美元。

今年5月，AWS推出了基于英偉達(dá) H100 GPU的EC2 P5虛擬機(jī)實(shí)例。該配置包括八個(gè)英偉達(dá) H100 Tensor Core GPU，每個(gè)都配備了640 GB的高帶寬GPU內(nèi)存。它還擁有第三代AMD EPYC處理器、2 TB系統(tǒng)內(nèi)存、30 TB本地NVMe存儲(chǔ)、令人印象深刻的3200 Gbps總網(wǎng)絡(luò)帶寬以及對(duì)GPUDirect RDMA的支持。后者可實(shí)現(xiàn)節(jié)點(diǎn)與節(jié)點(diǎn)之間的直接通信，無(wú)需使用CPU，從而降低了延遲，提高了橫向擴(kuò)展性能。

此外，亞馬遜EC2 P5實(shí)例可部署在第二代超大規(guī)模集群（稱(chēng)為亞馬遜EC2 UltraClusters）中。這些集群包括高性能計(jì)算、網(wǎng)絡(luò)資源和云存儲(chǔ)。這些集群可容納多達(dá)20,000個(gè)H100 Tensor Core GPU，使用戶(hù)能夠部署參數(shù)高達(dá)數(shù)十億或數(shù)萬(wàn)億的機(jī)器學(xué)習(xí)模型。

微軟公司

微軟的云計(jì)算收入增長(zhǎng)了24%，9月份達(dá)到318億美元。在微軟的三大業(yè)務(wù)部門(mén)中，智能云的表現(xiàn)最為突出，收入增長(zhǎng)了19%，達(dá)到243億美元。該部門(mén)包括服務(wù)器產(chǎn)品和云服務(wù)，其中Azure實(shí)現(xiàn)了29%的強(qiáng)勁增長(zhǎng)，超過(guò)了華爾街的預(yù)期的26%。

今年3月，微軟在一篇博客文章中宣布，計(jì)劃對(duì)Azure進(jìn)行重大升級(jí)。此次升級(jí)將采用數(shù)以萬(wàn)計(jì)的英偉達(dá)尖端H100圖形卡，以及速度更快的InfiniBand網(wǎng)絡(luò)互連技術(shù)。

ND H100 v5實(shí)例還采用了英特爾公司最新的第四代英特爾至強(qiáng)可擴(kuò)展中央處理器，并通過(guò)英偉達(dá)的Quantum-2 CX7 InfiniBand技術(shù)實(shí)現(xiàn)低延遲聯(lián)網(wǎng)。它們還采用了PCIe Gen5，為每個(gè)GPU提供每秒64千兆字節(jié)的帶寬，以及可實(shí)現(xiàn)更快數(shù)據(jù)傳輸速度的DDR5內(nèi)存，以處理最大的人工智能訓(xùn)練數(shù)據(jù)集。

成功的初創(chuàng)企業(yè)

ChatGPT等應(yīng)用進(jìn)一步鞏固了英偉達(dá)在人工智能行業(yè)的地位。其GPU芯片已成為各種人工智能應(yīng)用的關(guān)鍵。因此，任何希望在這一領(lǐng)域挑戰(zhàn)英偉達(dá)的初創(chuàng)公司都面臨著巨大的壓力，因?yàn)橛ミ_(dá)已經(jīng)確立了自己的技術(shù)的主導(dǎo)地位和可靠性。

Cerebras

英偉達(dá)的A100 GPU已經(jīng)相當(dāng)可觀，芯片面積826平方毫米。相比之下，Cerebras的新WSE-2芯片則非常巨大，面積達(dá)45225平方毫米，基本上覆蓋了8英寸硅晶片的整個(gè)表面。自2016年成立以來(lái)，Cerebras已成功獲得7.3億美元的融資。根據(jù)CB Insights全球獨(dú)角獸俱樂(lè)部的數(shù)據(jù)，該公司目前的估值為40億美元。

Cerebras與Abu Dhabi的G42合作，建造了九臺(tái)人工智能超級(jí)計(jì)算機(jī)中的第一臺(tái)，該項(xiàng)目耗資超過(guò)1億美元。此外，Cerebras還在生成式人工智能領(lǐng)域積極尋找機(jī)會(huì)。雖然它的CS-2模型在GPT環(huán)境下的訓(xùn)練速度令人印象深刻，但尚未獲得業(yè)內(nèi)主要制造商的采用。

SambaNova

SambaNova成立于2017年，是人工智能芯片行業(yè)中資金最雄厚的公司之一。它已成功融資10億美元之巨，其著名支持者包括軟銀和英特爾。這不僅使SambaNova成為融資最多的AI芯片初創(chuàng)公司，也使其成為英偉達(dá)最強(qiáng)大的新興競(jìng)爭(zhēng)對(duì)手之一，估值高達(dá)50億美元。

SambaNova最近推出了最新的第四代SN40L處理器。這款尖端芯片采用臺(tái)積電先進(jìn)的5納米工藝制造，擁有超過(guò)1,020億個(gè)晶體管，計(jì)算速度高達(dá)638 teraflops。它采用獨(dú)特的三層內(nèi)存系統(tǒng)，包括片上內(nèi)存、高帶寬內(nèi)存和大容量?jī)?nèi)存，所有這些設(shè)計(jì)都是為了高效處理與人工智能工作負(fù)載相關(guān)的大量數(shù)據(jù)流。SambaNova聲稱(chēng)，一個(gè)節(jié)點(diǎn)中僅有八個(gè)這樣的芯片就能支持多達(dá)50萬(wàn)億個(gè)參數(shù)的模型，幾乎是OpenAI的GPT-4 LLM報(bào)告的三倍。

Tenstorrent

Tenstorrent是人工智能芯片行業(yè)的另一家著名初創(chuàng)公司，成立于2016年。迄今為止，該公司已獲得近3.35億美元的融資，最近還獲得了三星和現(xiàn)代汽車(chē)等大公司的投資，目前估值約為10億美元。

Tenstorrent正瞄準(zhǔn)挑戰(zhàn)英偉達(dá)在人工智能領(lǐng)域的主導(dǎo)地位，開(kāi)發(fā)采用RISC-V和Chiplet技術(shù)的人工智能CPU。值得注意的是，該公司最近與三星達(dá)成了生產(chǎn)合作，打算利用三星先進(jìn)的4nm工藝制造芯片。這一合作彰顯了Tenstorrent致力于推動(dòng)其技術(shù)發(fā)展并參與人工智能芯片市場(chǎng)競(jìng)爭(zhēng)的承諾。