華為“四芯片封裝”專利曝光，或用于下一代 AI 芯片昇騰 910D

2025-06-18 來源：電子工程專輯

192

分析指出，華為四芯片封裝架構(gòu)與NVIDIA 2026年計劃推出的Rubin Ultra平臺存在技術(shù)相似性。后者采用臺積電CoWoS-L技術(shù)實現(xiàn)四顆GPU與六顆HBM3E內(nèi)存的集成，而華為專利通過自研封裝工藝達(dá)成類似效果。

近日，華為公開了一項名為“四芯片（quad-chiplet）封裝設(shè)計”的專利技術(shù)文件，引發(fā)半導(dǎo)體行業(yè)高度關(guān)注。該技術(shù)被外媒猜測將應(yīng)用于其下一代AI加速器昇騰910D（Ascend 910D），或成為華為突破美國技術(shù)封鎖、追趕NVIDIA AI GPU的關(guān)鍵布局。

根據(jù)國家知識產(chǎn)權(quán)局公開信息，華為于2024年4月提交的“一種集成裝置、通信芯片和通信設(shè)備”專利（國際申請?zhí)朠CT/CN2024/086375）已進(jìn)入實質(zhì)審查階段。華為提交的這項專利采用的是類似于晶圓上基片本地封裝 (Chip on Wafer on Substrate-Local，CoWoS-L)橋接的技術(shù)方案，而非簡單的中介層（Interposer）結(jié)構(gòu)，專利描述了一種基于硅中介層的四芯片堆疊方案，通過垂直互連技術(shù)實現(xiàn)芯片間超高速數(shù)據(jù)傳輸，單封裝內(nèi)可集成四顆計算芯片。

技術(shù)亮點包括：

中介層架構(gòu)優(yōu)化接口連接：通過中介層實現(xiàn)裸片交換邏輯塊、線路邏輯塊與接口的交叉連接，解決傳統(tǒng)合封的線路交叉問題，支持接口路徑動態(tài)配置。
重布線層與有源器件增效：中介層集成重布線層（RDL）降低布線成本，搭配寄存器等有源器件增強(qiáng)長距離信號傳輸性能。
嵌入式與多層設(shè)計提升集成度：中介層嵌入式基板設(shè)計縮減封裝厚度與成本，多層結(jié)構(gòu)滿足高密度布線需求。
多裸片與單元級接口交換：通信芯片內(nèi)多裸片及同構(gòu)單元通過中介層交叉連接，適配交換單元 / 光傳輸單元等場景。
成熟工藝降本與性能平衡：依托中介層技術(shù)，使用成熟制程制造裸片，在降低工藝依賴的同時保障系統(tǒng)性能。

對標(biāo)NVIDIA：繞過制裁的技術(shù)突圍

外媒Tom's Hardware分析指出，華為四芯片封裝架構(gòu)與NVIDIA 2026年計劃推出的Rubin Ultra平臺存在技術(shù)相似性。后者采用臺積電CoWoS-L技術(shù)實現(xiàn)四顆GPU與六顆HBM3E內(nèi)存的集成，而華為專利通過自研封裝工藝達(dá)成類似效果。

專利內(nèi)容顯示，華為的封裝方式預(yù)計會搭配多組高帶寬內(nèi)存（HBM），并通過中介層實現(xiàn)高效互聯(lián)。這種設(shè)計可以滿足 AI 訓(xùn)練對計算能力的高需求，同時在架構(gòu)上與某些國際廠商的產(chǎn)品類似。

盡管在芯片工藝方面，華為目前仍落后于國際領(lǐng)先水平約一代，但在封裝技術(shù)層面，華為已展現(xiàn)出與業(yè)內(nèi)頂尖企業(yè)相當(dāng)?shù)哪芰?。關(guān)鍵差異在于供應(yīng)鏈自主化，華為方案完全基于中芯國際14nm制程與長電科技封裝產(chǎn)線，規(guī)避美國對先進(jìn)制程設(shè)備的出口管制。

其次在成本上也有優(yōu)勢，據(jù)估算，單顆昇騰910D芯片組成本較NVIDIA H200低約40%，主要得益于本土化供應(yīng)鏈與簡化設(shè)計。這意味著，即便使用相對成熟的制造工藝生產(chǎn)多個芯片，再通過先進(jìn)封裝進(jìn)行整合，也能在整體性能上實現(xiàn)顯著提升，從而縮小與采用最先進(jìn)工藝芯片之間的差距。

行業(yè)專家觀點

業(yè)內(nèi)人士認(rèn)為，若該技術(shù)量產(chǎn)成功，華為將實現(xiàn)算力密度躍升和生態(tài)兼容性兩大突破。四芯片封裝可使單卡FP16算力提升至1,400 TFLOPS，接近NVIDIA H100水平，而通過支持CUDA-X AI軟件棧，降低用戶遷移成本，直擊NVIDIA核心優(yōu)勢。

此前，華為創(chuàng)始人任正非在接受《人民日報》采訪時曾表示，芯片技術(shù)的發(fā)展并不一定完全依賴最尖端的制造工藝，通過疊加、集群等方式，同樣可以達(dá)到與高端芯片相近的計算效果。

這一觀點得到了 NVIDIA CEO 黃仁勛的解讀和認(rèn)同。黃仁勛指出，AI 任務(wù)本身具有高度并行的特性，即便單個芯片性能不足，也可以通過增加芯片數(shù)量來彌補(bǔ)算力缺口。他還提到，中國的能源資源較為充足，這為大規(guī)模部署計算設(shè)備提供了可能。因此，即便當(dāng)前在技術(shù)上仍存在一定差距，但通過系統(tǒng)級優(yōu)化和規(guī)?；瘧?yīng)用，中國依然能夠?qū)崿F(xiàn)高效的 AI 計算能力。

先進(jìn)封裝成破局關(guān)鍵，生態(tài)與量產(chǎn)難題待解

據(jù)悉，華為目前已經(jīng)與清華大學(xué)成立“三維集成聯(lián)合實驗室”，聚焦混合鍵合、玻璃轉(zhuǎn)接板等前沿技術(shù)。華為的封裝技術(shù)布局正引發(fā)連鎖反應(yīng)，尤其是臺積電的警覺。據(jù)《電子時報》報道，臺積電已將CoWoS產(chǎn)能優(yōu)先級向NVIDIA傾斜，并加速研發(fā)FOPLoS（Fan-Out Package-on-Substrate）技術(shù)應(yīng)對競爭。

與此同時，深南電路、興森科技等國產(chǎn)供應(yīng)鏈正在積極跟進(jìn)。一些封裝基板廠商已啟動高密度線路板擴(kuò)產(chǎn)計劃，目標(biāo)2026年實現(xiàn)月產(chǎn)10萬片產(chǎn)能。

盡管技術(shù)前景被看好，華為仍需突破多重壁壘。軟件生態(tài)是最大短板，由于昇騰CANN架構(gòu)僅支持主流AI框架的子集，所以與CUDA兼容性差距明顯。芯片面積方面也是難點，單顆昇騰 910B 芯片面積約 665 平方毫米，四芯片組總芯片面積達(dá) 2660 平方毫米，若每顆芯片配置 4 顆 HBM 內(nèi)存，16 顆 HBM 將占約 1366 平方毫米面積，昇騰910D整體封裝尺寸或達(dá) 4020 平方毫米，遠(yuǎn)超臺積電目前約 858 平方毫米的光罩極限尺寸，相當(dāng)于五個 EUV 光罩面積。