科技巨頭都想要研發(fā)自己的AI芯片,哪條技術路線最有戲?
近日,2023年世界人工智能大會落下帷幕,這場“有史以來”最受矚目的AI盛會,齊聚30多款大模型,除了阿里通義、百度文心、復旦MOSS等通用大模型,垂直行業(yè)的大模型應用也紛紛亮相,標志著行業(yè)進入了大模型主導的新階段。
只不過對于大模型公司而言,發(fā)布模型只是開始。硅谷風險資本的調查顯示,初創(chuàng)大模型公司普遍需要支付一筆“AI稅”,即拿出早期融資金額的80%-90%用于購買AI芯片,以此為大模型提供算力支撐,可見算力對于大模型發(fā)展是尤為重要的。只不過目前為國內大模型提供算力的英偉達A100 GPU,由于種種原因將受到限制。因此國內大模型公司將目光轉向國內的AI芯片廠商,寄希望于它們能夠提供國產替代的算力新選擇。
AI芯片競爭路線
目前,隨著人工智能的發(fā)展逐步深入后,算力成了AI發(fā)展的核心資源。必然導致許多公司都在開發(fā)自己的AI芯片,在AI算力領域能搶占至高點。一些傳統(tǒng)的芯片制造商,如英特爾、三星、博通和高通,正在投入大量資金開發(fā)這項技術。當然,一些大型科技公司,如蘋果和谷歌,也在努力創(chuàng)新AI芯片領域。
TPU(Tensor Processing Unit):這是谷歌專門為機器學習設計的AI加速芯片,用于加速tensor(張量)相關的運算,尤其對大規(guī)模神經網絡模型的訓練和推理有非常好的加速效果。TPU采用了專門的矩陣運算單元,數據流水線等架構。谷歌使用TPU獲得了很大的AI計算優(yōu)勢。
NPU(Neural Processing Unit):這是用于加速神經網絡模型運算的專用芯片。通常被集成在部分智能手機、IoT設備中,用于本地的神經網絡推理。主要由移動芯片廠商設計,如高通、蘋果、華為的自研NPU。優(yōu)化了針對移動端AI算法的算力、功耗、成本等指標。
GPU(Graphics Processing Unit):圖形處理器,具有大規(guī)模并行計算能力,被廣泛應用于AI模型訓練中。知名的有NVIDIA Tesla系列GPU,針對深度學習進行了架構優(yōu)化。AMD、Intel等也有專門的AI加速GPU??梢蕴峁┖軓姷乃懔碛柧殢碗s的AI模型。
FPGA(Field-Programmable Gate Array):現場可編程門陣列,可在場地靈活編程,覆蓋面廣。英特爾、賽靈思等公司提供了專用于AI加速的FPGA解決方案??梢跃幊虒崿F不同的加速功能,但編程復雜度較高。
ASIC(Application Specific Integrated Circuit):應用專用集成電路,專門針對特定應用和算法設計,如Graphcore和Cerebras的AI芯片。性能和效率可以做到極致optimization,但不靈活。
SoC(System on a Chip):把CPU、GPU、NPU、DSP等多種處理器集成在一顆芯片上,如華為的麒麟系列芯片。SoC可以提供綜合算力,但設計和驗證復雜。
英偉達的競爭對手們
AI這個巨大的千億市場,不只是英偉達一家的游戲,AMD和英特爾也在加速追趕,希望分得一杯羹。
英特爾在2019年以約20億美元價格收購了人工智能芯片制造商HABANA實驗室,進軍AI芯片市場。今年8月,在英特爾最近的財報電話會議上,英特爾首席執(zhí)行官Pat Gelsinger表示,英特爾正在研發(fā)下一代Falcon Shores AI超算芯片,暫定名為Falcon Shores 2,該芯片預計將于2026年發(fā)布。
除了Falcon Shores 2之外,英特爾還推出AI芯片Gaudi2,已經開始銷售,而Gaudi3則正在開發(fā)中。業(yè)界認為,目前Gaudi2芯片的熱度不及預期,這主要在于Gaudi2性能難以對英偉達H100和A100形成有效競爭。
英特爾研究院副總裁、英特爾中國研究院院長宋繼強近日表示:“在這一波大模型浪潮當中,什么樣的硬件更好并沒有定論?!彼J為,GPU并非大模型唯一的硬件選擇,半導體廠商更重要的戰(zhàn)場在軟件生態(tài)上。芯片可能花兩三年時間就做出來了,但是要打造芯片生態(tài)需要花兩倍甚至三倍的時間。英特爾的開源生態(tài)oneAPI比閉源的英偉達CUDA發(fā)展可能更快。
AMD也在加速追趕。今年6月,AMD舉行了新品發(fā)布會,發(fā)布了面向下一代數據中心的APU加速卡產品Instinct MI300,直接對標H100。這顆芯片將CPU、GPU和內存全部封裝為一體,從而大幅縮短了DDR內存行程和CPU-GPU PCIe行程,從而大幅提高了其性能和效率。
Instinct MI300將于2023年下半年上市。AMD稱Instinct MI300可帶來MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基準測試),可以將ChatGPT和DALL-E等超大型AI模型的訓練時間從幾個月減少到幾周,從而節(jié)省數百萬美元的電費。
此外,谷歌、亞馬遜、特斯拉等也都在設計自己的定制人工智能推理芯片。除了國外大廠,國內的芯片企業(yè)也迅速入局,其中,昆侖芯AI加速卡RG800、天數智芯的天垓100加速卡、燧原科技第二代訓練產品云燧T20/T21均表示能夠具有支持大模型訓練的能力。
國產替代者有望出現
與此同時,國內AI芯片產業(yè)進入快速發(fā)展階段,產業(yè)前行者們正在快研發(fā)進程,新興廠商也不斷涌現。這也導致國內AI芯片廠商在架構選擇上有了不同的看法,國內AI芯片產業(yè)也由此劃分出多元的技術路線。
眼下最有機會實現國產替代的,當屬以海光為代表選擇了GPGPU架構的廠商。這不僅是因為GPGPU大約占了90%的市場份額,更是因為GPGPU是目前唯一能運行大模型訓練的架構。而基于架構的優(yōu)勢,海光也推出了國內唯一支持全精度計算的——深算系列DCU產品。目前海光還正基于GPUGP架構,加速DCU產品的自主創(chuàng)新迭代。
而另外一條路線就是以寒武紀為代表選擇ASIC架構的廠商。因為ASIC架構的定制性,讓它具備特定場景下具有計算快,能耗低的優(yōu)勢。但定制化也導致ASIC芯片的通用性差,在硬件架構強相關場景中存在限制。因此寒武紀、昇騰等ASIC芯片目前還只是在深度調優(yōu)后適用于相對成熟、場景固化的模型,難以作為核心算力支撐眾多新興大模型。
國內大模型目前多處于發(fā)展階段,而GPGPU架構依然是首選的最優(yōu)解。而且隨著未來AI在視頻、圖片、語音等多模態(tài)領域的應用逐步深入,GPGPU架構的通用性優(yōu)勢也將更加突顯。
