即使對手不少,它們也不是英偉達!
在早前的臺灣computex上,英偉達創(chuàng)始人黃仁勛接受了媒體采訪。在被問到:“Meta、谷歌和微軟等云服務提供商正在制造自己的 AI 芯片。這會對 NVIDIA 產生什么影響?NVIDIA 會進入定制 ASIC 業(yè)務嗎?”這個問題時。
黃仁勛回應道:是的,我們會這么做。但 NVIDIA 非常不同——NVIDIA 不是一家加速器公司,而是一家加速計算公司。NVIDIA 的加速計算非常通用,因此利用率更高,實用性更高,實際成本更低。人們認為你的智能手機很貴,但想想它取代的所有東西——一臺設備的實際成本要取代那么多臺設備,NVIDIA 加速計算也是如此。
NVIDIA 架構用途廣泛,無處不在 - 公共、私人、國家等。這是因為我們的覆蓋范圍非常廣,所以我們是任何開發(fā)人員的首要目標。如果你為 CUDA 編程,它可以在任何地方運行,如果你為加速器編程,它只能在那里運行,這是有道理的。當云客戶使用 NVIDIA 時,我們會將 CUDA 客戶帶到云端,我們對此感到高興。
在問到對 UALink的看法時,黃仁勛表示,世界已經意識到了 NVLink 的重要性。NVLink 現(xiàn)已發(fā)展到第五代,并且 NVLink 的連接速度令人難以置信。NVLink 內部包含許多軟件和復雜的東西,而不僅僅是 SERDES。它連接到我們的 GPU - 它們以 NVLink 開始和結束,因此軟件只能看到一個 GPU。
“經過 7 年,人們現(xiàn)在才意識到 NVLink 的重要性。今天他們有一個提案,但要過幾年他們才會有一個功能齊全的 NVLink 競爭對手。有些人更喜歡購買現(xiàn)成的產品 - 如果它存在并且足夠好,那為什么不呢?但我的感覺是‘我們得拭目以待’”。黃仁勛強調。
什么是CUDA?
CUDA(Compute Unified Device Architecture),統(tǒng)一計算設備架構,英偉達推出的基于其GPU的通用高性能計算平臺和編程模型。借助CUDA,開發(fā)者可以充分利用英偉達GPU的強大計算能力加速各種計算任務。
軟件生態(tài)的基石:CUDA構成了英偉達軟件生態(tài)的基礎,諸多前沿技術均基于CUDA構建。例如,TensorRT、Triton和Deepstream等,這些技術解決方案都是基于CUDA平臺開發(fā)的,展示了CUDA在推動軟件創(chuàng)新方面的強大能力。
軟硬件的橋梁:英偉達的硬件性能卓越,但要發(fā)揮其最大潛力,離不開與之相匹配的軟件支持。CUDA正是這樣一個橋梁,它提供了強大的接口,使得開發(fā)者能夠充分利用GPU硬件進行高性能計算加速。就像駕駛一輛高性能汽車,CUDA就像是一位熟練的駕駛員,能夠確保硬件性能得到充分發(fā)揮。
深度學習框架的加速器:CUDA不僅在構建英偉達自身的軟件生態(tài)中扮演關鍵角色,在推動第三方軟件生態(tài)發(fā)展方面也功不可沒。特別是在深度學習領域,CUDA為眾多深度學習框架提供了強大的加速支持。例如,在Pytorch、TensorFlow等流行框架中,CUDA加速功能成為標配。
開發(fā)者只需簡單設置,即可利用GPU進行高效的訓練和推理任務,從而大幅提升計算性能。
華為也有自己的護城河
達芬奇架構,作為華為自研的AI計算架構,其起源與華為對AI未來應用的深遠洞察密切相關。早在幾年前,華為就預測到2025年,全球智能終端的數量將達到400億臺,智能助理的普及率將達到90%,企業(yè)數據的使用率將達到86%。基于這樣的預測,華為在2018年全聯(lián)接大會上提出全棧全場景AI戰(zhàn)略,并設計了達芬奇計算架構,以在不同體積和功耗條件下提供強勁的AI算力。
達芬奇架構的發(fā)展可以追溯到2018年,華為推出的AI芯片Ascend 310(昇騰310)首次亮相,標志著達芬奇架構的正式應用。緊接著,華為在2019年6月發(fā)布了全新8系列手機SoC芯片麒麟810,首次采用達芬奇架構NPU,實現(xiàn)了業(yè)界領先的端側AI算力。麒麟810在AI Benchmark榜單中表現(xiàn)卓越,證明了達芬奇架構的實力。
達芬奇架構是專為AI計算特征而設計的全新計算架構,具備高算力、高能效、靈活可裁剪的特性。其核心優(yōu)勢在于采用3D Cube針對矩陣運算做加速,每個AI Core可以在一個時鐘周期內實現(xiàn)4096個MAC操作,相比傳統(tǒng)的CPU和GPU實現(xiàn)數量級的提升。此外,達芬奇架構還集成了向量、標量、硬件加速器等多種計算單元,并支持多種精度計算,支撐訓練和推理兩種場景的數據精度要求。
達芬奇架構的應用領域廣泛,覆蓋了從端側到云端的全場景AI應用。在端側,麒麟810芯片的AI算力已經在智能手機中得到應用,為消費者提供了豐富的AI應用體驗。在邊緣側和云端,Ascend系列AI處理器可以滿足從幾十毫瓦到幾百瓦的訓練場景,提供最優(yōu)的AI算力。達芬奇架構的靈活性和高效性,使其在智慧城市、自動駕駛、工業(yè)制造等多個領域中發(fā)揮著重要作用。
誠然,達芬奇架構在華為的AI市場布局中占據了核心的位置。它不僅是華為AI芯片的技術基礎,也是華為實現(xiàn)全棧全場景AI戰(zhàn)略的重要支撐。通過達芬奇架構,華為能夠提供從硬件到軟件的全棧AI解決方案,加速AI技術的產業(yè)化和應用落地。此外,達芬奇架構的統(tǒng)一性也為開發(fā)者帶來了便利,降低了開發(fā)和遷移成本,促進了AI應用的創(chuàng)新和發(fā)展。
華為GPU快成了,但離構建自己的CUDA還很遙遠
目前看,華為GPU發(fā)展態(tài)勢較好。
根據公開信息,2023年華為算力GPU的出貨量大約為十萬片。隨著產能的增加,預計到2024年,這個數字將翻幾番,達到幾十萬片的規(guī)模。盡管產能有所提升,市場上的訂單需求依然非常旺盛,僅在2024年1月份的下單量就已經達到了數十萬片。目前,下單需求已經達到上百萬片,遠超華為當前的供應能力。
在國內購買情況方面,華為算力GPU受到了市場的熱烈追捧。華為算力GPU的客戶主要分為三個梯隊:第一類是三大運營商和政務類客戶,第二類是互聯(lián)網客戶,第三類是其他公司。由于算力GPU的緊缺,客戶為了盡快拿到產品,都在努力成為第一梯隊的客戶,甚至采取與地方政府合作等措施以確保優(yōu)先供應。
價格方面,華為算力GPU自2023年8月上市以來,價格已經經歷了至少兩次提價。最初上市的價格約為7萬元人民幣,而目前市場價格已經上漲至約12萬元人民幣。
總體來看,華為GPU的發(fā)展態(tài)勢良好,市場需求強勁,盡管供應緊張,但這也反映出華為GPU在性能和國產化方面的優(yōu)勢,使其成為市場中的熱門選擇。隨著技術的不斷進步和產能的進一步提升,預計華為GPU將在未來市場中占據更重要的位置。
在一次專訪中,黃仁勛表示:“華為是個好公司”。此外,英偉達在財報中將華為列為主要競爭對手,這反映了華為在GPU及相關技術領域的競爭力正在增強。
盡管華為GPU發(fā)展態(tài)勢良好,但CUDA作為GPU領域占主導地位的框架,其生態(tài)系統(tǒng)的成熟度和廣泛接受度遠遠超過了其他框架,包括AMD開發(fā)的框架。華為的AI計算框架在生態(tài)建設方面確實還有很長的路要走,需要持續(xù)的技術創(chuàng)新和市場推廣才能逐步構建起與CUDA相匹敵的生態(tài)系統(tǒng)。
然而,英偉達不想給華為成長起來的時間了。
近期,英偉達對其CUDA平臺的兼容性政策進行了調整,限制了CUDA軟件在非英偉達硬件平臺上的運行行為,這一決策始于2021年,并在隨后的時間里逐步加強。具體來說,英偉達通過更新其最終用戶許可協(xié)議(EULA),明確禁止了使用轉換層或模擬層在非英偉達GPU上運行CUDA代碼的行為。
這一政策變動主要影響了那些試圖通過轉譯技術實現(xiàn)CUDA兼容性的第三方項目,例如ZLUDA等。ZLUDA是一個允許在非英偉達硬件上運行CUDA程序的轉譯庫,它提供了一種相對簡單的方式,使得開發(fā)者能夠在性能略有損失的情況下,運行CUDA程序。
英偉達此舉,被廣泛認為是保護其市場份額和維護其技術控制權的戰(zhàn)略舉措。通過限制在其他芯片上使用CUDA軟件的方式,英偉達確保其GPU仍然是開發(fā)人員和依賴其并行計算平臺的企業(yè)的首選。
然而,這一決策在業(yè)界引起了不小的震動,并引發(fā)了廣泛的討論。不少人指責英偉達借助封鎖政策壟斷市場,壓制競爭對手的發(fā)展機會。
面對英偉達的限制政策,一些國內GPU企業(yè)如摩爾線程選擇了遵守EULA規(guī)定,并表態(tài)采用重新編譯代碼的方式與EULA保持一致,以避免違反英偉達的限制條款。
此外,業(yè)界其他力量,包括AMD、英特爾等廠商,并未因英偉達的限制而止步,他們正在積極推動開放、可移植的生態(tài)系統(tǒng)建設,以試圖打破英偉達的市場壟斷。
面對英偉達的出牌,華為在發(fā)展自己的GPU技術時,需要更多地依賴自主研發(fā)的軟件工具和開發(fā)環(huán)境,而不是依賴于CUDA這樣的成熟平臺。這意味著華為需要投入更多的資源來構建自己的軟件生態(tài)系統(tǒng),包括開發(fā)與CUDA性能相匹敵的編程工具、庫和API。
可以預見,在未來較長一段時間內,由于CUDA的廣泛使用和對高性能計算、AI等領域的深遠影響,英偉達的這一政策可能會限制華為GPU的市場接受度,特別是在那些已經深度依賴于CUDA的領域。
這加強了華為構建自身AI計算架構和AI生態(tài)的緊迫性,就像當初安卓斷供成就了鴻蒙一樣,CUDA的收緊會否成為華為達芬奇架構的神助攻呢?現(xiàn)在還不好評判,讓子彈飛一會吧。
