存儲芯片巨頭打響HBM爭霸戰(zhàn)！美光、新思科技多位行業(yè)大牛解讀功耗挑戰(zhàn)

2024-04-12 來源：芯東西

3363

消息，美國半導體行業(yè)雜志EE Times（《電子工程專輯》）周二報道，在2023年生成式AI熱潮下，隨著HBM3的量產(chǎn)，適用于AI應用與數(shù)據(jù)計算的HBM內(nèi)存的功耗受到越來越多關注。

隨著AI技術的迅猛發(fā)展，企業(yè)對AI服務器內(nèi)存帶寬的需求正持續(xù)上升，但數(shù)據(jù)中心電力成本的不斷上漲使企業(yè)開始將每瓦帶寬作為重要的指標。企業(yè)在選擇內(nèi)存時面臨成本和性能的平衡考量。

作為能夠滿足AI對高帶寬內(nèi)存需求的關鍵技術，HBM成為企業(yè)的首選內(nèi)存。美光、三星等HBM供應商正探索創(chuàng)新解決方案，降低HBM功耗，確保HBM在未來高性能計算和AI應用中發(fā)揮關鍵作用。

EE Times專訪了美國著名半導體技術供應商Rambus硅IP產(chǎn)品營銷高級總監(jiān)Lou Ternullo、美國市場研究和咨詢公司Objective Analysis首席分析師Jim Handy、全球最大半導體IP接口供應商新思科技高級產(chǎn)品經(jīng)理Graham Allan、以及美光產(chǎn)品管理高級總監(jiān)Girish Cherussery，討論了在當前AI持續(xù)發(fā)展下，HBM面臨的功耗問題和供應商可以采取的技術措施等話題。

一、電力能耗持續(xù)上漲，內(nèi)存選擇受到成本限制

Lou Ternullo在接受采訪時稱，AI對內(nèi)存帶寬的需求不斷增加，與HBM帶寬的增加直接相關。他說：“在整個市場上，我們看到數(shù)據(jù)集和訓練模型的參數(shù)越來越大，2023年的生成式AI熱潮只是加速了這一趨勢?！?/span>

他認為，人們對AI服務器的性能、內(nèi)存帶寬和內(nèi)存大小等需求呈指數(shù)級增長，這給下一代HBM帶來了更高的期望和壓力。

此外，雖然每瓦帶寬這一概念并不新鮮，HBM對每瓦帶寬進行了優(yōu)化以提高服務器效率，但AI數(shù)據(jù)中心的能耗一直在上升。Ternullo稱：“2023年各企業(yè)對生成式AI的巨額投資和部署讓一些人預測到2026年數(shù)據(jù)中心的用電量將翻一番?！?/span>

Ternullo補充說，數(shù)據(jù)中心快速增長的電力成本意味著，對于需要監(jiān)控運營成本的企業(yè)來說，每瓦帶寬正在成為一個更加重要的指標。隨著社會對可持續(xù)發(fā)展倡議的日益關注，這一點變得更加重要。

與HBM相關的高成本和內(nèi)存本身的高價格意味著，在決定超大功率內(nèi)存是否需要應用時，企業(yè)總體擁有成本成為決定性因素，即企業(yè)整個數(shù)據(jù)中心的成本之和。客戶在決定需要哪種內(nèi)存時，首先會考慮內(nèi)存的密度、性能和功耗等因素。

二、AI性能需求沒有上限，HBM成AI服務器最佳內(nèi)存

與其他存儲芯片相比，AI或機器學習是極少數(shù)能夠將更昂貴的HBM商業(yè)化的應用之一。Ternullo稱：“像AI這樣的應用對內(nèi)存帶寬有著無盡的渴求，這些應用能為企業(yè)帶來更高的投資回報率，這就證明了HBM成本較高的合理性?！?/span>

不過，AI需求增加并不直接導致HBM成本上升。這是因為，AI需求主要推動企業(yè)對GPU使用的增加，但GPU通常需要HBM的使用才能達到AI服務器的預期性能。

Jim Handy稱，企業(yè)需要明確的使用HBM的理由。對于某些圖形應用，類似AMD這樣的公司會在某些GPU上使用GDDR顯存，因為GDDR相較HBM更加便宜。

Handy解釋，在AI場景外，GPU主要用于圖形處理，尤其是用于游戲和計算機動畫后期特效。他說：“許多公司都在使用GPU，而且數(shù)量還不少。他們會有一個裝滿GPU的大型數(shù)據(jù)中心?！彪m然GDDR最初為圖形工作而設計，但多年來的新興應用已使其他應用場景對GDDR產(chǎn)生了競爭性需求。

同樣，Graham Allan認為，考慮到AI發(fā)展，昂貴的HBM現(xiàn)在也很難買到。雖然HBM仍有邊緣應用，但大部分應用集中在AI領域。

即使HBM的第三次迭代已進入大批量生產(chǎn)階段，Allan也不認為這項技術已經(jīng)成熟。“HBM在DRAM方面是獨一無二的，因為它是唯一不安裝在處理器旁邊主板上的DRAM?！彼f，“不過，HBM的2.5D封裝技術需要額外的技術步驟，這給整個行業(yè)帶來了挑戰(zhàn)?！?/span>

三、HBM需要集成在處理器上，多家供應商抓緊量產(chǎn)

Allan認為DRAM的實現(xiàn)非常簡單。他說：“如果你想設計一個具有DDR5接口的SoC，你可以去查看開源的任何一種參考設計，例如找到英特爾批準的DDR5 DIMM，便可獲得所有零部件號。這是一項成熟的技術?！?/span>

但對于HBM來說，包括DRAM在內(nèi)的所有部分都封裝在SoC內(nèi)。企業(yè)可以從美光、三星和SK海力士等多家供應商中選擇HBM，同時必須解決如何設計Interposer（中介層）組裝以及其他問題，包括信號路徑和信號完整性。

新思科技為客戶提供控制HBM所需的IP，包括控制器（Controllers）、物理層接口（PHY）以及驗證IP（verification IP）。Allan說：“客戶正在尋求在HBM專業(yè)技術和特定參考設計方面的幫助。我們共享參考設計方案和一些最常見的中介層技術。此外，我們還協(xié)助硅片測試，包括中介層及組件的連接。這樣一來，我們可以為客戶提供完全定制的測試芯片?！?/span>

他認為硅片測試對于HBM尤為重要，因為企業(yè)一旦投入設計并將HBM應用到系統(tǒng)中，再進行更改就會非常耗時。

“HBM正在走向成熟，但仍遠不及DDR和LPDDR技術成熟。盡管HBM4的邏輯方法與HBM3相似，但從DDR4到DDR5是一個巨大的飛躍?！盇llan說，“選擇使用HBM是一項重大承諾，因為它更加復雜，而且是一種低容量產(chǎn)品?？蛻粝ＭM可能降低決策風險?！?/span>

Allan還稱，客戶之所以選擇HBM，是因為其他產(chǎn)品都無法滿足他們的要求。在HBM之下，對于一些應用來說，GDDR內(nèi)存可能是足夠的，并且GDDR7的容量是GDDR6的兩倍，數(shù)據(jù)傳輸率也有所提高。但數(shù)據(jù)傳輸率高是因為數(shù)據(jù)傳輸?shù)耐ǖ老鄬^窄。

“你可以達到更高的數(shù)據(jù)傳輸率，但你必須非常小心地設計你的系統(tǒng)，因為你的系統(tǒng)運行速度非?？??！彼f。

不過，GDDR7是2026年的技術，并且去年推出的HBM3帶寬潛力較GDRR7還要高出3倍。Allan認為帶寬的發(fā)展空間非常大。

他補充道，這并不意味著這樣的帶寬潛力足夠滿足企業(yè)對AI的需求，并且還有其他因素在影響整個服務器能完成多少任務。例如，中介層有可能成為瓶頸。如果服務器的PCB布線不佳，串擾過多，那么服務器性能最終可能會下降。

微電子產(chǎn)業(yè)領導標準機構固態(tài)技術協(xié)會（JEDEC）目前正在制定HBM4規(guī)范，但不愿說明這一規(guī)范的進展情況。SK海力士副總裁金基泰（Kim Chun-hwan）在2024年韓國半導體展（Semicon Korea 2024）上發(fā)表主題演講時透露，該公司計劃在2026年之前開始量產(chǎn)HBM4。

美光最近開始量產(chǎn)其HBM3E內(nèi)存，今年HBM產(chǎn)能已基本售罄。該公司的首款HBM3E具備8層堆疊和24GB容量，并具有1024位接口、9.2GT/s的數(shù)據(jù)傳輸速率和1.2TB/s的總帶寬。

undefined

▲美光HBM3E規(guī)格（圖源：Micron Technology）

四、數(shù)據(jù)中心更加注重功耗，美光、三星采用不同方式降低內(nèi)存功耗

Girish Cherussery稱，HBM剛進入市場時，美光審查了HBM適用的工作負載，并決定將HBM性能目標定為比行業(yè)需求高出30%?！拔覀兪墙?jīng)得起未來考驗的?！盋herussery說，“一個關鍵指標是每瓦性能，這是一個關鍵的功耗邊界條件。我們專注于確保每瓦性能顯著提高?！?此外，客戶還希望HBM靠近計算單元。

Cherussery解釋道，包括大語言模型在內(nèi)的許多AI工作負載正變得越來越受內(nèi)存約束，而不是受計算約束。如果你的服務器有足夠的計算能力，那么服務器內(nèi)存帶寬和容量就會成為制約因素。AI工作負載給數(shù)據(jù)中心帶來了很大壓力。

此外，內(nèi)存利用率高意味著內(nèi)存功率是數(shù)據(jù)中心的耗電大戶，因此節(jié)省5瓦的電量就能提高內(nèi)存利用的效率。越來越多的數(shù)據(jù)中心看重瓦特數(shù)而不是服務器的數(shù)量。使用HBM時，冷卻HBM也是一個重要因素，因為它是一種堆疊式內(nèi)存。HBM運轉產(chǎn)生的熱量需要散發(fā)出去。

除了帶寬、功耗和整體散熱情況外，易于集成是所有HBM最關鍵的特性。Cherussery稱，美光擁有自己的專利，可以將其HBM集成到主機系統(tǒng)中。

“業(yè)界已經(jīng)為HBM3E做好了準備，它可以很容易地被集成到使用HBM的系統(tǒng)中?！彼f，“我們的產(chǎn)品可以無縫集成到相同的插槽中，無需任何改動。它的占位面積與上一代產(chǎn)品相同?！?/span>

更高的帶寬和更大的容量將是HBM4的特點。隨著AI大模型的增長，企業(yè)對HBM容量和帶寬的要求也呈線性增長。

“內(nèi)存行業(yè)整體處于一個有趣的階段，因為從未出現(xiàn)過某種工作負載如生成式AI和普通AI一般，與內(nèi)存帶寬和內(nèi)存容量的增長呈線性關系。這意味著對于計算和內(nèi)存，企業(yè)將不得不開始考慮與過去略有不同的系統(tǒng)。數(shù)據(jù)中心本身正變得越來越異構?！彼f。

三星也見證了數(shù)據(jù)中心里異構計算和更多以AI為重點的服務的顯著增長。負責三星產(chǎn)品規(guī)劃和業(yè)務支持的副總裁金仁東（Indong Kim）說：“這種增長似乎與同時提供直接和間接AI解決方案的超大型企業(yè)的崛起相吻合。”

他認為，數(shù)據(jù)中心正在不斷發(fā)展，以便將計算資源的最大潛力用于包括AI在內(nèi)的特定工作負載，實現(xiàn)這樣潛力的重點在于DRAM帶寬和容量。尤其令人興奮的是，采用CPU和專用加速器這兩種不同類型處理器的異構架構，在提升內(nèi)存方面的目標是一致的。他相信，這一趨勢將為DRAM制造商提供巨大的增長機會。

在Memcon 2024大會上，三星展示了該公司所稱的全球首款12堆棧HBM3E DRAM。它采用了三星先進的熱壓非導電膜（TC NCF）技術，內(nèi)部垂直密度較前代產(chǎn)品提高了20%以上，同時還提高了產(chǎn)品良率。隨著大規(guī)模并行計算在高性能計算（HPC）環(huán)境中越來越普及，Kim稱HBM需求還將激增。

三星的HBM3E DRAM專為滿足高性能計算和苛刻的AI應用而設計。該公司還推出了基于Compute Express Link（CXL）開放互連協(xié)議的Memory Module-Box（CMM-B）內(nèi)存盒模組，旨在支持需要大容量內(nèi)存的應用，例如AI、內(nèi)存數(shù)據(jù)庫和數(shù)據(jù)分析。CMM-B還支持內(nèi)存池（memory pooling），這是異構計算的一個關鍵要素。

undefined

▲三星推出CXL Memory Module-Box內(nèi)存盒模組（圖源：Samsung Electronics）

金仁東稱，AI對內(nèi)存容量和帶寬的需求不斷增長，模型的參數(shù)規(guī)模不斷增長，加速了存儲芯片玩家對不同存儲技術研發(fā)的步伐。CXL協(xié)議與HBM相互交織，為應對不斷增長的AI需求提供最佳特性，促進現(xiàn)有的DRAM-SSD存儲層次結構的發(fā)展。

他說：“我們相信，CXL將成為不斷增長的容量需求的完美補充，提供最佳特性，彌合現(xiàn)有的DRAM-SSD層次結構?！?/span>

結語：HBM發(fā)展前景廣闊，幫助企業(yè)降低成本

隨著AI對內(nèi)存帶寬需求的持續(xù)增長，HBM作為一種高性能內(nèi)存技術受到越來越多的關注。盡管HBM面臨著成本高、集成復雜等挑戰(zhàn)，但其在AI數(shù)據(jù)中心和其他應用場景中的重要性不斷凸顯。HBM供應商也在采取不同的技術降低HBM功耗，以幫助節(jié)省數(shù)據(jù)中心電力成本。

在此背景下，HBM逐漸走向成熟，但仍需面臨DDR和LPDDR等成熟技術的挑戰(zhàn)。隨著HBM4、HBM3E的開發(fā)和部署，預計HBM將繼續(xù)在高性能計算和AI應用中發(fā)揮重要作用。