華為芯片和硬件戰(zhàn)略Fellow艾偉:把握ARM架構未來黃金十年
華為芯片和硬件戰(zhàn)略Fellow艾偉分析了新時期算力架構的發(fā)展趨勢。他認為未來十年是屬于ARM架構的黃金十年,而且會重寫X86的輝煌,而華為現(xiàn)在能夠提供基于全ARM的開發(fā)平臺,希望工程師們在新的計算架構中建立自己的新技能。
ARM正在重演X86的輝煌歷史
艾偉說,從2000年到2020年算力架構在發(fā)生變化。
第一,2000年X86占據(jù)市場第一的份額,總算力輸出達到了70%。到了2020年,算力架構發(fā)生了逆轉(zhuǎn),世界上最大算力架構變成了ARM平臺,基于ARM指令的處理器總算力輸出達到了全球82%。
第二,上游產(chǎn)業(yè)產(chǎn)生端到端變化。一是半導體先進工藝的發(fā)展,已經(jīng)不再由PC機牽引,而轉(zhuǎn)向了ARM架構的智能手機,ARM成為半導體產(chǎn)業(yè)的主要驅(qū)動力。二是基于ARM的產(chǎn)品形態(tài)更加豐富多彩,在這種情況下,軟件工程師就擁有了一個更加開放、多樣化的創(chuàng)新平臺,現(xiàn)在ARM平臺上的軟件越來越多。
艾偉表示,人們的質(zhì)疑點是ARM現(xiàn)在還是下里巴人,性能比X86要低。但追溯歷史,可以看到當年X86與UNIX相比,性能也要遜色,但自PC機從上世紀80年代開始興起之后,1993年基于X86架構的PC機的總算力輸出超過了基于UNIX的大型機和小型機。1998年英特爾推出的至強處理器達到服務器水平,量變轉(zhuǎn)化成質(zhì)變,到現(xiàn)在X86依然占據(jù)整個數(shù)據(jù)中心90%以上的市場份額,整個替換過程是顛覆性變化。
如今,這個歷史可能會再次被重復。而主角換成了ARM。
2007年智能手機上市,很快到了2013年,智能手機的算力輸出超過了X86,2019年,基于ARM架構的鯤鵬920處理能力達到了高端服務器的水平。從量變到質(zhì)變的故事會再次發(fā)生。
工程師要在新計算架構中建立技能
“對于每一位工程師來說,在這個時候需要把自己的技能轉(zhuǎn)移到新的計算架構中去。”艾偉這樣建議。
目前半導體的摩爾定律遇到了瓶頸。以前處理器主頻升高會使性能越來越好,但當處理器性能達到一定水平時,再提高主頻會碰到巨大的功耗約束。如何突破這個瓶頸,繼續(xù)提高CPU的算力呢?
艾偉說,我們已經(jīng)看到了一條路徑——多核并行。這個路徑在ARM架構上走得比較快。從手機看,很早就實現(xiàn)了四核到八核的處理器;從服務器來看,華為推出第一代鯤鵬910時,推出了32核的處理器,去年發(fā)布的鯤鵬920,再次把處理器CPU核數(shù)提高到64核,其中CPU的核心架構也是華為自研的。
“這種情況帶來整個產(chǎn)業(yè)趨勢的變化,我們看到現(xiàn)在不只是華為,已經(jīng)上市的多個ARM處理器都在增加更多的核數(shù)?!卑瑐フf。其中也包括英特爾、AMD。利用多核處理器提升算力,軟件工程師也因此面臨新挑戰(zhàn)。
除了處理器的多核趨勢,新的計算架構里,還需要一個高速低時延的總線,能夠?qū)崿F(xiàn)更加快捷的訪問數(shù)據(jù)、訪問外設、訪問網(wǎng)絡。所以最底層的物理技術也要提升。艾偉說,鯤鵬920支持8通道內(nèi)存訪問,整個性能提升了64%,可以用更多的數(shù)據(jù)及時喂養(yǎng)給CPU做計算。華為提供了PCIe4.0總線性能,支持64G總線性能,可以用更多的方式連接外設和網(wǎng)絡。
“當我們把先進半導體工藝、多核架構、高速內(nèi)存訪問、高速總線連接在一起,我們?yōu)檎麄€軟件產(chǎn)業(yè)提供了更加開放而且持續(xù)實現(xiàn)性能提升的平臺?!卑瑐フf,“這個平臺意味著我們?nèi)匀豢梢垣@得更加廉價充沛的算力支持?!?/p>
半個世紀以前的大型機和小型機時代,用戶少、應用數(shù)目少;PC機時代,每年可以達到上億新增用戶,應用數(shù)目達到十萬級別;智能手機時代和云手機時代,用戶數(shù)增長達到了十億級別,軟件達到了百萬級別。艾偉說,所有這些上層應用的繁榮、軟件的繁榮,都是從底層開始改變,讓單位成本所購買的算力,提升了十億倍,這是一個非常驚人的數(shù)據(jù),而且今后華為還會持續(xù)提升性價比,提供更加充沛的算力。
華為提供基于全ARM的開發(fā)平臺
讓一個產(chǎn)業(yè)接受一個新的指令架構,需要做很多底層工作。艾偉說,我們從操作系統(tǒng)到中間件,再到軟件開發(fā)工具,各個方面都逐步充實了ARM上基本的軟件平臺支持。從早期只有少數(shù)的幾十個應用,到現(xiàn)在有2000多個應用,而且應用量呈現(xiàn)加速發(fā)展勢頭,這得益于我們具備了完整的軟件開發(fā)平臺和工具環(huán)境。
把一個軟件從一個CPU遷移到另外一個CPU,除了可能會帶來性能提升、成本下降、功耗降低的好處,最關鍵的是在新的CPU上做出的創(chuàng)新功能和創(chuàng)新價值如何體現(xiàn)?
艾偉認為,答案在5G網(wǎng)絡。5G網(wǎng)絡可以用更寬的帶寬、更低的時間實現(xiàn)對終端、對云計算、對數(shù)據(jù)中心的連接,而且5G網(wǎng)絡不只是一個簡單的通用計算,它會面向人工智能。
在4G網(wǎng)絡上,中國各個產(chǎn)業(yè)得到大發(fā)展,如移動互聯(lián)網(wǎng)、移動支付、共享經(jīng)濟、微信、短視頻等等。4G網(wǎng)絡的空口時延是10毫秒,從終端發(fā)起一個呼叫到返回到被呼叫終端的響應時間是100毫秒,手機游戲的玩家可以清晰地看到時延數(shù)據(jù),這個時延數(shù)據(jù)匹配了人體的手、眼、腦的反映時間,所以我們覺得很流暢。
在5G網(wǎng)絡中,帶寬和時延的性能改進了10倍。艾偉說,5G網(wǎng)絡的時延降低到1毫秒,端到端的請求響應時間降到10毫秒,這個時延超過了人體神經(jīng)的反應,會給AR、VR應用帶來新的體驗。同時在智能終端上,在機器人的應用上,會更廣泛。利用5G網(wǎng)絡,數(shù)字世界和物理世界能夠更緊密地連接起來,通過軟件算法的運算給出高價值的信息,優(yōu)化物理世界,這個世界會發(fā)生不可逆轉(zhuǎn)的變化。
為實現(xiàn)這樣的變化,華為提供了一個更加全面的、基于全ARM的開發(fā)平工具平臺。“我們可能不再需要買一個X86的PC了,只要是基于ARM的手機、基于ARM的PC,甚至于基于ARM的智能電視,都可以實現(xiàn)編程功能。”艾偉說,“我們可以實現(xiàn)隨時隨地的編程和創(chuàng)造,我們可以得到觸手可得的開發(fā)工具,讓靈感創(chuàng)造持續(xù)發(fā)揮出來?!倍匾氖?,在掌握這些軟件技能后,應用可以部署在終端、部署在邊緣計算、部署在數(shù)據(jù)中心的云計算,所有這些部署場景,都是機會。
艾偉說,我們相信在一個全ARM的開發(fā)環(huán)境,以及全ARM的應用運行部署環(huán)境上,軟件工程師會得到更高效率,以及更廣闊的職業(yè)發(fā)展前景。
