近日,華為公開了一項名為“四芯片(quad-chiplet)封裝設(shè)計”的專利技術(shù)文件,引發(fā)半導(dǎo)體行業(yè)高度關(guān)注。該技術(shù)被外媒猜測將應(yīng)用于其下一代AI加速器昇騰910D(Ascend 910D),或成為華為突破美國技術(shù)封鎖、追趕NVIDIA AI GPU的關(guān)鍵布局。
根據(jù)國家知識產(chǎn)權(quán)局公開信息,華為于2024年4月提交的“一種集成裝置、通信芯片和通信設(shè)備”專利(國際申請?zhí)朠CT/CN2024/086375)已進(jìn)入實質(zhì)審查階段。華為提交的這項專利采用的是類似于晶圓上基片本地封裝 (Chip on Wafer on Substrate-Local,CoWoS-L)橋接的技術(shù)方案,而非簡單的中介層(Interposer)結(jié)構(gòu),專利描述了一種基于硅中介層的四芯片堆疊方案,通過垂直互連技術(shù)實現(xiàn)芯片間超高速數(shù)據(jù)傳輸,單封裝內(nèi)可集成四顆計算芯片。
技術(shù)亮點包括:
中介層架構(gòu)優(yōu)化接口連接:通過中介層實現(xiàn)裸片交換邏輯塊、線路邏輯塊與接口的交叉連接,解決傳統(tǒng)合封的線路交叉問題,支持接口路徑動態(tài)配置。
重布線層與有源器件增效:中介層集成重布線層(RDL)降低布線成本,搭配寄存器等有源器件增強(qiáng)長距離信號傳輸性能。
嵌入式與多層設(shè)計提升集成度:中介層嵌入式基板設(shè)計縮減封裝厚度與成本,多層結(jié)構(gòu)滿足高密度布線需求。
多裸片與單元級接口交換:通信芯片內(nèi)多裸片及同構(gòu)單元通過中介層交叉連接,適配交換單元 / 光傳輸單元等場景。
成熟工藝降本與性能平衡:依托中介層技術(shù),使用成熟制程制造裸片,在降低工藝依賴的同時保障系統(tǒng)性能。
對標(biāo)NVIDIA:繞過制裁的技術(shù)突圍
外媒Tom's Hardware分析指出,華為四芯片封裝架構(gòu)與NVIDIA 2026年計劃推出的Rubin Ultra平臺存在技術(shù)相似性。后者采用臺積電CoWoS-L技術(shù)實現(xiàn)四顆GPU與六顆HBM3E內(nèi)存的集成,而華為專利通過自研封裝工藝達(dá)成類似效果。
專利內(nèi)容顯示,華為的封裝方式預(yù)計會搭配多組高帶寬內(nèi)存(HBM),并通過中介層實現(xiàn)高效互聯(lián)。這種設(shè)計可以滿足 AI 訓(xùn)練對計算能力的高需求,同時在架構(gòu)上與某些國際廠商的產(chǎn)品類似。
盡管在芯片工藝方面,華為目前仍落后于國際領(lǐng)先水平約一代,但在封裝技術(shù)層面,華為已展現(xiàn)出與業(yè)內(nèi)頂尖企業(yè)相當(dāng)?shù)哪芰?。關(guān)鍵差異在于供應(yīng)鏈自主化,華為方案完全基于中芯國際14nm制程與長電科技封裝產(chǎn)線,規(guī)避美國對先進(jìn)制程設(shè)備的出口管制。
其次在成本上也有優(yōu)勢,據(jù)估算,單顆昇騰910D芯片組成本較NVIDIA H200低約40%,主要得益于本土化供應(yīng)鏈與簡化設(shè)計。這意味著,即便使用相對成熟的制造工藝生產(chǎn)多個芯片,再通過先進(jìn)封裝進(jìn)行整合,也能在整體性能上實現(xiàn)顯著提升,從而縮小與采用最先進(jìn)工藝芯片之間的差距。
行業(yè)專家觀點
業(yè)內(nèi)人士認(rèn)為,若該技術(shù)量產(chǎn)成功,華為將實現(xiàn)算力密度躍升和生態(tài)兼容性兩大突破。四芯片封裝可使單卡FP16算力提升至1,400 TFLOPS,接近NVIDIA H100水平,而通過支持CUDA-X AI軟件棧,降低用戶遷移成本,直擊NVIDIA核心優(yōu)勢。
此前,華為創(chuàng)始人任正非在接受《人民日報》采訪時曾表示,芯片技術(shù)的發(fā)展并不一定完全依賴最尖端的制造工藝,通過疊加、集群等方式,同樣可以達(dá)到與高端芯片相近的計算效果。
這一觀點得到了 NVIDIA CEO 黃仁勛的解讀和認(rèn)同。黃仁勛指出,AI 任務(wù)本身具有高度并行的特性,即便單個芯片性能不足,也可以通過增加芯片數(shù)量來彌補(bǔ)算力缺口。他還提到,中國的能源資源較為充足,這為大規(guī)模部署計算設(shè)備提供了可能。因此,即便當(dāng)前在技術(shù)上仍存在一定差距,但通過系統(tǒng)級優(yōu)化和規(guī)?;瘧?yīng)用,中國依然能夠?qū)崿F(xiàn)高效的 AI 計算能力。
先進(jìn)封裝成破局關(guān)鍵,生態(tài)與量產(chǎn)難題待解
據(jù)悉,華為目前已經(jīng)與清華大學(xué)成立“三維集成聯(lián)合實驗室”,聚焦混合鍵合、玻璃轉(zhuǎn)接板等前沿技術(shù)。華為的封裝技術(shù)布局正引發(fā)連鎖反應(yīng),尤其是臺積電的警覺。據(jù)《電子時報》報道,臺積電已將CoWoS產(chǎn)能優(yōu)先級向NVIDIA傾斜,并加速研發(fā)FOPLoS(Fan-Out Package-on-Substrate)技術(shù)應(yīng)對競爭。
與此同時,深南電路、興森科技等國產(chǎn)供應(yīng)鏈正在積極跟進(jìn)。一些封裝基板廠商已啟動高密度線路板擴(kuò)產(chǎn)計劃,目標(biāo)2026年實現(xiàn)月產(chǎn)10萬片產(chǎn)能。
盡管技術(shù)前景被看好,華為仍需突破多重壁壘。軟件生態(tài)是最大短板,由于昇騰CANN架構(gòu)僅支持主流AI框架的子集,所以與CUDA兼容性差距明顯。芯片面積方面也是難點,單顆昇騰 910B 芯片面積約 665 平方毫米,四芯片組總芯片面積達(dá) 2660 平方毫米,若每顆芯片配置 4 顆 HBM 內(nèi)存,16 顆 HBM 將占約 1366 平方毫米面積,昇騰910D整體封裝尺寸或達(dá) 4020 平方毫米,遠(yuǎn)超臺積電目前約 858 平方毫米的光罩極限尺寸,相當(dāng)于五個 EUV 光罩面積。
最后是良率,超大尺寸的四芯片堆疊封裝良率目前不足65%,大規(guī)模量產(chǎn)需良率提升至85%以上,散熱設(shè)計也是個問題??紤]到頭部互聯(lián)網(wǎng)廠商的測試驗證周期長達(dá)6-9個月,這款芯片方案的商業(yè)化進(jìn)度或晚于預(yù)期。
公布的專利文件鏈接:
https://patentimages.storage.googleapis.com/66/fd/f7/a7f894b0022c64/WO2024222427A1.pdf