數(shù)據(jù)互聯(lián)在AI時(shí)代愈發(fā)重要,芯片之間及內(nèi)部的互聯(lián)技術(shù)有哪些?
訓(xùn)練和部署大模型需要強(qiáng)而有力的硬件支持,而這也是人工智能時(shí)代芯片成為核心技術(shù)的原因,因?yàn)榇竽P托枰乃懔w根到底來自于芯片,同時(shí)人工智能市場(chǎng)的發(fā)展也極大地推動(dòng)了芯片行業(yè)的市場(chǎng)規(guī)模,以及相關(guān)芯片技術(shù)的演進(jìn)。
在給人工智能大模型提供足夠的算力用于訓(xùn)練和部署的核心芯片技術(shù)中,數(shù)據(jù)互聯(lián)正在占據(jù)越來越重要的位置。芯片互聯(lián)越來越重要主要出于兩個(gè)原因:
首先,隨著大模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)容量快速提升,訓(xùn)練和部署最新的大模型一定會(huì)使用分布式計(jì)算,因?yàn)閱螜C(jī)幾乎不可能提供運(yùn)行大模型的足夠算力。在分布式計(jì)算中,隨著分布式計(jì)算節(jié)點(diǎn)數(shù)量提升,理想情況下計(jì)算能力是隨著計(jì)算節(jié)點(diǎn)數(shù)量線性提升,但是現(xiàn)實(shí)中由于不同計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)交互需要額外的開銷,因此只能接近而無法真正實(shí)現(xiàn)計(jì)算能力隨著計(jì)算節(jié)點(diǎn)增加而線性增加。換句話說,隨著模型規(guī)模越來越大,需要的分布式節(jié)點(diǎn)數(shù)量越來越多,對(duì)于這類分布式計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)互聯(lián)需求(帶寬,延遲,成本等)也就越來越高,否則這類分布式計(jì)算中的數(shù)據(jù)互聯(lián)將會(huì)成為整體計(jì)算中的效率瓶頸。
其次,從芯片層面考慮,隨著摩爾定律越來越接近物理極限,目前以chiplet(芯片粒)為代表的高級(jí)封裝技術(shù)正在成為芯片性能提升的重要方式。使用chiplet可以把單個(gè)復(fù)雜的大芯片系統(tǒng)分成多個(gè)小的芯片粒,每個(gè)芯片粒都可以用最合適的工藝去單獨(dú)制造,因此確保復(fù)雜的芯片系統(tǒng)可以以合理的成本和良率來制造。對(duì)于人工智能大模型而言,用于訓(xùn)練和部署的芯片的規(guī)模都非常大,因此chiplet將會(huì)成為支持人工智能芯片的核心技術(shù)。而在chiplet方案中,多個(gè)chiplet之間的數(shù)據(jù)通信也需要數(shù)據(jù)互聯(lián)技術(shù),換句話說高帶寬、高密度的數(shù)據(jù)互聯(lián)將會(huì)成為使用chiplet搭建的人工智能加速芯片中的核心組件。
如上所述,在人工智能時(shí)代,數(shù)據(jù)互聯(lián)將會(huì)成為核心技術(shù),而其中最關(guān)鍵同時(shí)也是未來將會(huì)有最多發(fā)展的數(shù)據(jù)互聯(lián)方案,就是用于分布式計(jì)算中的中長(zhǎng)距離數(shù)據(jù)互聯(lián),以及用于chiplet場(chǎng)景中的超短距離數(shù)據(jù)互聯(lián)。
超越 PCIe:AI 芯片廠商自研互聯(lián)技術(shù)
由于PCIe技術(shù)的發(fā)展速度跟不上時(shí)代需求,目前主流的AI芯片廠商都已經(jīng)自研了互聯(lián)技術(shù),其中較為代表的就是英偉達(dá)的NVLink和AMD的Infinity Fabric。
英偉達(dá)的NVLink
自2014年開始,英偉達(dá)在其GPU中引入了NVLink互聯(lián)技術(shù)。NVLink 是由 Nvidia 開發(fā)的一種高帶寬、低延遲的點(diǎn)對(duì)點(diǎn)數(shù)據(jù)傳輸通道。它的主要用途是連接 Nvidia GPU,或者 GPU 與 CPU 之間的通信,允許它們以高速率共享數(shù)據(jù)。這對(duì)于那些要求高數(shù)據(jù)吞吐量和低通信延遲的應(yīng)用至關(guān)重要,如深度學(xué)習(xí)、科學(xué)計(jì)算和大規(guī)模模擬。過去十年間,NVLink已成為英偉達(dá)GPU芯片的核心技術(shù)及其生態(tài)系統(tǒng)的重要組成部分。
讓我們?cè)賮砑?xì)細(xì)回顧下NVLink這一技術(shù)的發(fā)展歷程。2014年,NVLink 1.0發(fā)布并在P100 GPU芯片之間實(shí)現(xiàn),兩個(gè)GPU之間有四個(gè)NVLink,每個(gè)鏈路由八個(gè)通道組成,每個(gè)通道的速度為20Gb/s,系2統(tǒng)整體雙向帶寬為160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍;
2017年英偉達(dá)推出了第二代NVLink,兩個(gè)V100 GPU芯片之間通過六個(gè)NVLink 2.0連接,每個(gè)鏈路也是由八個(gè)通道組成,不過每個(gè)通道的速度提升至為25Gb/s,從而實(shí)現(xiàn)300GB/s的雙向系統(tǒng)帶寬(25*8*6*2)/8=300GB/s),幾乎是NVLink1.0的兩倍。此外,為了實(shí)現(xiàn)八個(gè)GPU之間的完全互連,Nvidia引入了NVSwitch技術(shù)。NVSwitch1.0有18個(gè)端口,每個(gè)端口的帶寬為50GB/s,總帶寬為900GB/s。每個(gè)NVSwitch保留兩個(gè)用于連接CPU的端口。通過使用6個(gè)NVSwitch,可以在8個(gè)GPUV100芯片之間建立一個(gè)全連接的網(wǎng)絡(luò)。
2020年,推出NVLink 3.0技術(shù)。它通過12個(gè)NVLink連接連接兩個(gè)GPU A100芯片,每個(gè)鏈路由四個(gè)通道組成。每個(gè)通道以50Gb/s的速度運(yùn)行,從而產(chǎn)生600GB/s的雙向系統(tǒng)帶寬,是NVLink2.0的兩倍。隨著NVLink數(shù)量的增加,NVSwitch上的端口數(shù)量也增加到36個(gè),每個(gè)端口的運(yùn)行速度為50GB/s。
2022年,NVLink技術(shù)升級(jí)到第四代,允許兩個(gè)GPU H100芯片通過18條NVLink鏈路互連。每個(gè)鏈路由2個(gè)通道組成,每個(gè)通道支持100Gb/s(PAM4)的速度,從而使雙向總帶寬增加到900GB/s。NVSwitch也升級(jí)到了第三代,每個(gè)NVSwitch支持64個(gè)端口,每個(gè)端口的運(yùn)行速度為 50GB/s。
2024年,隨著英偉達(dá)全新Blackwell架構(gòu)的發(fā)布,NVLink 5.0也隨之而來。NVLink 5.0以每秒100 GB的速度在處理器之間移動(dòng)數(shù)據(jù)。每個(gè) GPU 有 18 個(gè) NVLink 連接,Blackwell GPU 將為其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的總帶寬,這是 NVLink 4.0 帶寬的兩倍,是行業(yè)標(biāo)準(zhǔn) PCIe Gen5 總線帶寬的 14 倍。NVSwitch升級(jí)到了第四代,每個(gè)NVSwitch支持144個(gè)NVLink 端口,無阻塞交換容量為 14.4TB/s。
NVLink設(shè)計(jì)之初,就是為了解決傳統(tǒng)的PCI Express (PCIe) 總線在處理高性能計(jì)算任務(wù)時(shí)帶寬不足的問題。從下面兩幅圖的對(duì)比中,可以發(fā)現(xiàn),從單通道速度的角度來看,NVLink的速度通常是同代PCle的兩倍左右??値挼膬?yōu)勢(shì)更加明顯,NVLink提供的總帶寬約為PCle的五倍。
除了NVLink,另外一個(gè)值得一提的互聯(lián)技術(shù)是InfiniBand。英偉達(dá)收購的Mellanox在InfiniBand領(lǐng)域也處于佼佼者。自收購Mellanox以來,NVIDIA也開始將NVLink技術(shù)與InfiniBand(IB)技術(shù)相結(jié)合,推出新一代NVSwitch芯片和具有SHARP功能的交換機(jī),針對(duì)外部GPU服務(wù)器網(wǎng)絡(luò)進(jìn)行了優(yōu)化。
InfiniBand是一種開放標(biāo)準(zhǔn)的網(wǎng)絡(luò)互連技術(shù),具有高帶寬、低延遲、高可靠性的特點(diǎn)。該技術(shù)由 IBTA(InfiniBand 貿(mào)易聯(lián)盟)定義。該技術(shù)廣泛應(yīng)用于超級(jí)計(jì)算機(jī)集群領(lǐng)域。同時(shí),隨著人工智能的興起,它也是GPU服務(wù)器的首選網(wǎng)絡(luò)互連技術(shù)。由于 RDMA(遠(yuǎn)程直接內(nèi)存訪問)等功能,InfiniBand 在人工智能等數(shù)據(jù)密集型任務(wù)中通常優(yōu)于以太網(wǎng)。據(jù)Dell'Oro 估計(jì),約90%的AI部署都是使用Nvidia/Mellanox的InfiniBand,而不是以太網(wǎng)。這些部署將 Nvidia 的網(wǎng)絡(luò)收入推至每年100億美元。
傳奇CPU設(shè)計(jì)師兼Tenstorrent首席執(zhí)行官 Jim Keller是開放標(biāo)準(zhǔn)的堅(jiān)定支持者,他建議 Nvidia應(yīng)該在基于 Blackwell 的GB200 GPU 中使用以太網(wǎng)協(xié)議芯片到芯片連接,而不是專有的NVLink,背后的主要原因是,這可能會(huì)使軟件移植到其他硬件平臺(tái)變得更加復(fù)雜。而凱勒認(rèn)為,使用以太網(wǎng)協(xié)議可以為英偉達(dá)及其硬件用戶節(jié)省大量資金。
AMD的Infinity Fabric
與英偉達(dá)的NVLink相似,AMD則推出了其Infinity Fabric技術(shù),支持芯片間、芯片對(duì)芯片,以及即將推出的節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的數(shù)據(jù)傳輸。Infinity Fabric是AMD在其“Zen”微架構(gòu)中引入的一個(gè)關(guān)鍵特性,旨在提高整體系統(tǒng)性能,特別是在多核心處理器和數(shù)據(jù)中心環(huán)境中。
Infinity Fabric由兩部分組成:數(shù)據(jù)布線(Data Fabric)和控制布線(Control Fabric)。數(shù)據(jù)布線用于處理器內(nèi)部和處理器之間的數(shù)據(jù)傳輸,而控制布線則負(fù)責(zé)處理器的功耗、時(shí)鐘和安全性等方面的管理。Infinity Fabric的主要特點(diǎn)包括:1)高效率:Infinity Fabric設(shè)計(jì)用于提供高效率的數(shù)據(jù)傳輸,支持多個(gè)設(shè)備之間的高速通信;2)模塊化:Infinity Fabric支持AMD的小芯片(chiplet)架構(gòu),允許不同功能的芯片模塊通過高速互連進(jìn)行組合;3)內(nèi)存共享:Infinity Fabric支持CPU和GPU之間的內(nèi)存共享,有助于提高異構(gòu)計(jì)算的效率;4)擴(kuò)展性:Infinity Fabric的設(shè)計(jì)允許它隨著技術(shù)進(jìn)步和需求增長(zhǎng)而擴(kuò)展。
AMD最新的AI加速器Instinct MI300X 平臺(tái),就通過第四代AMD Infinity Fabric鏈路將 8 個(gè)完全連接的 MI300X GPU OAM 模塊集成到行業(yè)標(biāo)準(zhǔn) OCP 設(shè)計(jì)中,為低延遲 AI 處理提供高達(dá) 1.5TB HBM3 容量。第四代 Infinity Fabric支持每通道高達(dá) 32Gbps,每鏈路產(chǎn)生 128GB/s 的雙向帶寬。
不同于英偉達(dá)NVLink僅限于內(nèi)部使用,AMD已經(jīng)開始向新合作伙伴開放其 Infinity Fabric 生態(tài)系統(tǒng)。在去年年末AMD MI3000的發(fā)布會(huì)上,Broadcom宣布其下一代PCIe交換機(jī)將支持XGMI/Infinity Fabric。不僅如此,AMD還希望Arista、博通、Cisco等合作伙伴能推出適用于 Infinity Fabric 等產(chǎn)品的交換機(jī),能夠方便MI3000在單一系統(tǒng)外實(shí)現(xiàn)芯片間通信。這類似于英偉達(dá)的NVSwitch。
英特爾:以太網(wǎng)的堅(jiān)實(shí)擁護(hù)者
英特爾的用于生成式AI的Gaudi AI芯片則一直沿用傳統(tǒng)的以太網(wǎng)互聯(lián)技術(shù)。Gaudi 2 每個(gè)芯片使用了24 個(gè) 100Gb以太網(wǎng)鏈路;Gaudi 3也使用了24 個(gè) 200 Gbps 以太網(wǎng) RDMA NIC,但是他們將這些鏈路的帶寬增加了一倍,達(dá)到 200Gb/秒,使芯片的外部以太網(wǎng) I/O 總帶寬達(dá)到 8.4TB/秒。
在近日的intel vision峰會(huì)上,英特爾還宣布正在開發(fā)一款用于超以太網(wǎng)聯(lián)盟(UEC)兼容網(wǎng)絡(luò)的 AI NIC ASIC 以及一款 AI NIC 小芯片,這些創(chuàng)新的AI高速互聯(lián)技術(shù)(AI Fabrics)將用于其未來的 XPU 和 Gaudi 3 處理器。這些創(chuàng)新旨在革新可大規(guī)??v向(scale-up)和橫向(scale-out)擴(kuò)展的AI高速互聯(lián)技術(shù)。
一直以來,英特爾都希望通過采用純以太網(wǎng)交換機(jī)來贏得那些不想投資 InfiniBand 等專有/替代互連技術(shù)的客戶。InfiniBand非常適合那些運(yùn)行少量非常大的工作負(fù)載(例如 GPT3 或數(shù)字孿生)的用戶。但在更加動(dòng)態(tài)的超大規(guī)模和云環(huán)境中,以太網(wǎng)通常是首選。Nvidia 最新的 Quantum InfiniBand 交換機(jī)的最高速度為 51.2 Tb/s,端口為 400 Gb/s。相比之下,以太網(wǎng)交換在近兩年前就達(dá)到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。
雖然InfiniBand在很多情況下表現(xiàn)都不錯(cuò),但它也有缺點(diǎn),比如只能在特定范圍內(nèi)使用,而且成本也不低,將整個(gè)網(wǎng)絡(luò)升級(jí)到 InfiniBand 需要大量投資。相比之下,以太網(wǎng)因?yàn)榧嫒菪詮?qiáng),成本適中,以及能夠勝任大多數(shù)工作負(fù)載,所以在網(wǎng)絡(luò)技術(shù)領(lǐng)域里一直很受歡迎,建立了一個(gè)龐大的“以太網(wǎng)生態(tài)”。
Dell'Oro 預(yù)計(jì) InfiniBand將在可預(yù)見的未來保持其在 AI 交換領(lǐng)域的領(lǐng)先地位,但該集團(tuán)預(yù)測(cè)在云和超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商的推動(dòng)下,以太網(wǎng)將取得大幅增長(zhǎng),到2027 年大約將占據(jù)20%的市場(chǎng)份額。
不僅是英特爾,在2023年的AI Day上,AMD也表示將重點(diǎn)支持以太網(wǎng),特別是超級(jí)以太網(wǎng)聯(lián)盟。雖然 Infinity Fabric提供了GPU之間的一致互連,但AMD正在推廣以太網(wǎng)作為其首選的 GPU 到 GPU網(wǎng)絡(luò)。
此外,英特爾還提出了一種開放性互聯(lián)協(xié)議Compute Express Link(CXL)。關(guān)于CXL互聯(lián)技術(shù),業(yè)界看法不一。英偉達(dá)的GPU一向單打獨(dú)斗,并不支持CXL;AMD透露其MI300A會(huì)支持CXL。目前來看,像三星、SK海力士、美光等存儲(chǔ)廠商更加青睞于CXL。
互連在先進(jìn)封裝中的重要性
首先,需要注意的是,互連技術(shù)是封裝中關(guān)鍵且必要的部分。芯片通過封裝互連以接收電力、交換信號(hào)并最終進(jìn)行操作。由于半導(dǎo)體產(chǎn)品的速度、密度和功能根據(jù)互連方式而變化,因此互連方法也在不斷變化和發(fā)展。
除了開發(fā)各種工藝以在晶圓廠實(shí)現(xiàn)精細(xì)圖案外,還全面努力推進(jìn)封裝工藝中的互連技術(shù)。因此,開發(fā)了以下四種類型的互連技術(shù):引線鍵合、倒裝芯片鍵合、硅通孔 (TSV) 鍵合以及小芯片混合鍵合。
引線鍵合
引線鍵合是第一種開發(fā)的互連方法。通常,具有良好電性能的材料(例如金、銀和銅)被用作連接芯片和基板的導(dǎo)線。這是最具成本效益且可靠的互連方法,但由于其電氣路徑較長(zhǎng),因此不適合需要高速操作的較新設(shè)備。因此,這種方法被用于不需要快速操作的移動(dòng)設(shè)備中使用的移動(dòng) DRAM 和 NAND 芯片。
倒裝芯片鍵合
倒裝芯片接合 克服了引線鍵合的缺點(diǎn)。其電氣路徑的長(zhǎng)度是引線鍵合的十分之幾,使其適合高速操作。與在芯片級(jí)執(zhí)行的引線鍵合相比,在晶圓級(jí)進(jìn)行處理的倒裝芯片鍵合還提供了卓越的生產(chǎn)率。因此,它被廣泛應(yīng)用于CPU、GPU和高速DRAM芯片的封裝。此外,由于可以在芯片的整個(gè)側(cè)面形成凸塊,因此可以比引線鍵合擁有更多的輸入和輸出 (I/O),從而有可能提供更高的數(shù)據(jù)處理速度。然而,倒裝芯片接合也有其自身的缺點(diǎn)。首先,難以進(jìn)行多芯片堆疊,這對(duì)于需要高密度的存儲(chǔ)產(chǎn)品來說是不利的。此外,盡管倒裝芯片鍵合可以比引線鍵合連接更多的 I/O,和有機(jī) PCB 間距阻止連接更多數(shù)量的 I/O。為了克服這些限制,開發(fā)了 TSV 鍵合技術(shù)。
硅通孔 (TSV) 鍵合
TSV不采用傳統(tǒng)的布線方法來連接芯片與芯片,而是通過在芯片上鉆孔并填充金屬等導(dǎo)電材料以容納電極來垂直連接芯片。制作帶有TSV的晶圓后,通過封裝在其頂部和底部形成微凸塊,然后連接這些凸塊。由于 TSV 允許凸塊垂直連接,因此可以實(shí)現(xiàn)多芯片堆疊。最初,使用 TSV 接合的堆棧有四層,后來增加到八層。最近,一項(xiàng)技術(shù)使得堆疊 12 層成為可能,并于 2023 年 4 月SK hynix 開發(fā)了其 12 層 HBM3。雖然 TSV 倒裝芯片接合方法通常使用基于熱壓的非導(dǎo)電薄膜 (TC-NCF),但 SK hynix 使用 MR-MUF 4 工藝,可以減少堆疊壓力并實(shí)現(xiàn)自對(duì)準(zhǔn)。5這些特性使 SK hynix 能夠開發(fā)出世界上第一個(gè) 12 層 HBM3。
如上所述,引線、倒裝芯片和 TSV 鍵合在封裝工藝的各個(gè)領(lǐng)域中發(fā)揮著各自的作用。盡管如此,最近出現(xiàn)了一種新的互連技術(shù),稱為銅對(duì)銅直接鍵合,它是混合鍵合的一種。
與小芯片的混合鍵合
術(shù)語“混合”用于表示同時(shí)形成兩種類型的界面結(jié)合6。界面結(jié)合的兩種類型是:氧化物界面之間的結(jié)合和銅之間的結(jié)合。這項(xiàng)技術(shù)并不是新開發(fā)的技術(shù),但多年來已經(jīng)用于 CMOS 圖像傳感器的大規(guī)模生產(chǎn)。然而,由于小芯片的使用增加,它最近引起了更多關(guān)注。Chiplet技術(shù)將各個(gè)芯片按功能分離,然后通過封裝將它們重新連接起來,在單個(gè)芯片上實(shí)現(xiàn)多種功能。
盡管小芯片的功能是該技術(shù)的一個(gè)明顯優(yōu)勢(shì),但采用它們的主要原因是成本效益。當(dāng)所有功能都在單個(gè)芯片上實(shí)現(xiàn)時(shí),芯片尺寸會(huì)增加,并且不可避免地導(dǎo)致晶圓生產(chǎn)過程中良率的損失。此外,雖然芯片的某些區(qū)域可能需要昂貴且復(fù)雜的技術(shù),但其他區(qū)域可以使用更便宜的傳統(tǒng) 技術(shù)來完成。因此,由于芯片無法分離,制造工藝變得昂貴,因此即使只有很小的面積需要精細(xì)技術(shù),也要將精細(xì)技術(shù)應(yīng)用于整個(gè)芯片。然而,小芯片技術(shù)能夠分離芯片功能,從而可以使用先進(jìn)或傳統(tǒng)的制造技術(shù),從而節(jié)省成本。
雖然chiplet技術(shù)的概念已經(jīng)存在十多年了,但由于缺乏能夠互連芯片的封裝技術(shù)的發(fā)展,它并沒有被廣泛采用。然而,芯片到晶圓 (C2W) 混合鍵合的最新進(jìn)展顯著加速了小芯片技術(shù)的采用。C2W 混合鍵合具有多種優(yōu)勢(shì)。首先,它允許無焊料鍵合,從而減少鍵合層的厚度、縮短電氣路徑并降低電阻。因此,小芯片可以高速運(yùn)行而無需任何妥協(xié)——就像單個(gè)芯片一樣。其次,通過直接將銅與銅接合,可以顯著減小凸塊上的間距。目前,使用焊料時(shí)很難實(shí)現(xiàn) 10 微米 (μm) 或更小的凸塊間距。然而,銅對(duì)銅直接鍵合可以將間距減小到小于一微米,從而提高芯片設(shè)計(jì)的靈活性。第三,它提供了先進(jìn)的散熱功能,這一封裝功能在未來只會(huì)繼續(xù)變得越來越重要。最后,上述的薄粘合層和細(xì)間距影響了封裝的形狀因數(shù),因此可以大大減小封裝的尺寸。
然而,與其他鍵合技術(shù)一樣,混合鍵合仍然需要克服挑戰(zhàn)。為了確保穩(wěn)定的質(zhì)量,必須在納米尺度上改進(jìn)顆??刂?,而控制粘合層的平整度仍然是一個(gè)主要障礙。同時(shí),SK海力士計(jì)劃使用最高功率的封裝解決方案來開發(fā)混合鍵合,以便將其應(yīng)用于未來的HBM產(chǎn)品。
