美國企圖扼住我國超算“命運”,自研處理器再次打臉老美
在2009年的時候,中國基于intel的CPU、AMD的GPU研發(fā)出了第一代天河一號超級計算機,在2009年時排名全球第四。
而在2013年的時候,中國將天河一號升級為天河二號,使用的是Intel Xeon E5-2692 12核處理器及Xeon Phi 31S1P加速卡,當(dāng)年中國的天河二號排名全球第一,峰值性能是54.9PFLOPS,也就是5.49億億次。
并且在2013年至2016年間,中國的天河2號,連續(xù)6次排名TOP500的第一名。
超級計算機有多重要,就不用大家多說了,所以美國肯定不愿意看到中國的超級計算機這么牛,于是在2015年年的時候,美國禁止intel、AMD等公司,向中國出口高性能計算芯片。
那中國的超級計算機怎么辦?
用國產(chǎn)芯片頂上
后來中國采用Alpha架構(gòu),再拓展SW64指令集,研究出了申威處理器26010。
基于26010這款國產(chǎn)CPU,中國在2016年就推出了神威.太湖之光,在2016年6月20日的TOP500榜單中,太湖之光算力全球第一,達到125PFLOPS,也就是12.5億億次每秒,并且是超第二名近三倍的運算速度奪得第一。
后來從2016年到2017年,神威.太湖之光,連續(xù)4次TOP500榜上排名全球第一。直到2018年才被美國的“頂點”超過。
但事實上,太湖之光的規(guī)模還可以擴大,如果擴大到120個機柜,那么其峰值性能將達到1.72 Exaflops,超過當(dāng)前最強的美國“Frontier”(1.68 Exaflops),排名全球第一。而在160個機柜的條件下,可以達到性能2.3 Exaflops。
前段時間網(wǎng)上還曝光了申威26010芯片的加強版SW26010 Pro,性能更強,且已用于超算神威.海洋之光,性能早超過了百億億次,只是沒對外公開。
除了神威太湖之光之外,曾經(jīng)最牛的天河二號,在intel芯片被禁用后,也走出了自研之路,后來推出了國產(chǎn)加速器Matrix 2000,用來取代原本的Intel Xeon Phi加速器。
使用這款國產(chǎn)CPU后,天河二號的升級版本叫做天河2A,峰值性能從之前的54.9PFLOPS提升到了100PFLOPS左右。
而近日,天河2A的升級版本,“天河星逸”超級計算機正式發(fā)布,這臺超級計算機采用的是Matrix 3000處理器,純國產(chǎn)。
“天河星逸”的性能革命!
相比于前代的“天河二號”,“天河星逸”在通用CPU計算能力、網(wǎng)絡(luò)能力、存儲能力以及應(yīng)用服務(wù)能力等方面實現(xiàn)了倍增。
據(jù)國家超算廣州中心主任盧宇彤介紹,“天河星逸”支持高性能計算、AI大模型訓(xùn)練以及大數(shù)據(jù)分析等多種應(yīng)用場景的需求,其強大的高端算力與平臺支撐將為廣州市、廣東省乃至整個粵港澳大灣區(qū)的前沿科技突破、戰(zhàn)略工程建設(shè)和產(chǎn)業(yè)升級轉(zhuǎn)型注入強大動力。
然而,“天河星逸”的威力遠不止于此。國家超算廣州中心副主任陳志廣透露,這款超算系統(tǒng)采用了最先進的超算技術(shù),相比原有系統(tǒng),在通用算力上提升了5倍,并且強調(diào)了應(yīng)用能力的提升。這意味著,“天河星逸”的峰值算力已經(jīng)達到了約600 PFlop/s(每秒50億億次)的驚人水平。
2017年9月份,廣州超算中心宣布升級天河二號超算系統(tǒng),使用國產(chǎn)加速器Matrix 2000取代原本的Intel Xeon Phi加速器。Matrix 2000的整數(shù)架構(gòu)基于ARM,但矢量單元是我們自定義的256bit VFU矢量單元。每個Matrix 2000由128個內(nèi)核組成,頻率為1.2GHz,每周期能執(zhí)行16個雙精度運算,處理器峰值性能為2.45TFLOPS。升級后的天河二號被稱為天河2A,峰值性能提升到了100PFLOPS左右。
如今,“天河星逸”的出現(xiàn),無疑是這一發(fā)展歷程中的又一座里程碑。它不僅在性能上實現(xiàn)了質(zhì)的飛躍,更展示了我國在超算領(lǐng)域的自主創(chuàng)新能力和堅定決心。
下一代神威
除了天河外,中國的另一大超算系列神威也沒有閑著。在今年的 SC23 上,雖然我們沒有看到新的中國超算上榜,但申威終于展示了新SW26010 Pro 眾核處理器以及下一代神威超算的性能。
此次SW26010 Pro 依然是采用異構(gòu)眾核的設(shè)計,與 SW26010 4個 Core Group 的設(shè)計相比,SW26010 Pro采用了 6 個 Core Group 的設(shè)計,每個 Core Group由 64 個CPE計算核心和一個MPE 管理核心組成,單芯片核心數(shù)達到了 390 個。根據(jù)申威提供的數(shù)據(jù),其峰值 16bit 浮點算力可達55.296Tflop/s。
相較上一代 SW26010 DDR3-2133所提供的136.5GB/s 總內(nèi)存帶寬,此次 SW26010 Pro 升級支持了 DDR4-3200,理論內(nèi)存帶寬可達 307.2GB/s。這與其他超算芯片的內(nèi)存帶寬表現(xiàn)還是有著較大的差距,也就導(dǎo)致了計算和網(wǎng)絡(luò)活動爭搶內(nèi)存帶寬的局面,同步內(nèi)存訪問下,NIC 只能實現(xiàn) 9.87GB/s 的帶寬,離理論網(wǎng)絡(luò)帶寬 56.25GB/s相差甚遠。
不過在具體性能表現(xiàn)上,基于這一處理器的新神威超算卻在 HPL-MxP榜單上排到第二的位置。從其數(shù)據(jù)來看,新的神威超算核心數(shù)達到 4114萬224 個,在 HPC 與 AI 計算同等重要的 HPL-MxP 測試下可以達到 5.048Eflop/s 的性能,僅次于 Frontier。峰值半精度性能達 5.92Eflop/s,半精度浮點效率高達 85%,這樣的銷量也是一眾異構(gòu)超算系統(tǒng)中最高的,僅次于非異構(gòu)的富岳超算。
寫在最后
在推動數(shù)字經(jīng)濟持續(xù)發(fā)展的當(dāng)下,算力并網(wǎng)已經(jīng)成為了解決算力分布不均、供需失衡的關(guān)鍵方案之一,而超算恰恰是除了通算、智算之外的另一大重要應(yīng)用。目前粵港澳大灣區(qū)擁有較為豐富的超算資源,打造多模式的融合應(yīng)用支撐平臺,加快多方并網(wǎng)生態(tài)構(gòu)建,將成為推動算力規(guī)模突破 10Eflops 的關(guān)鍵路徑。
