從龐大到精巧　讓AI大模型更接地氣

2024-08-01 來源：新華網(wǎng)

3188

人工智能大模型以其龐大的參數(shù)規(guī)模和海量的訓練數(shù)據(jù)量著稱，需要由數(shù)千塊AI芯片組成的服務器集群來支撐其運算。相關數(shù)據(jù)顯示，在10天內(nèi)訓練1000億參數(shù)規(guī)模、1PB訓練數(shù)據(jù)集，約需1.08萬個英偉達A100GPU。這一數(shù)字揭示了AI大模型背后巨大的經(jīng)濟成本。

近日，AI初創(chuàng)企業(yè)Anthropic的CEO兼總裁達里奧·阿莫代（Dario Amodei）在一檔播客節(jié)目中表示，目前公司正在開發(fā)的AI模型訓練成本高達10億美元，他預計，AI模型的訓練成本在2027年之前提升到100億美元，甚至是1000億美元。

在此背景下，輕量化大模型的概念應運而生，對大模型進行量化、剪枝等壓縮操作，已成為模型部署過程中常用的策略。這些技術旨在降低模型的計算復雜度和減少存儲需求，從而加快模型推理速度，降低運行成本，并使其更易于在邊緣設備或資源受限的環(huán)境中部署。這一理念不僅有利于實現(xiàn)“雙碳”目標，也為AI技術的普及和落地應用開辟了新的道路。

知識蒸餾技術助力降低算力成本。近日，谷歌DeepMind開源了Gemma 2，這是其小型語言模型系列的下一代產(chǎn)品。谷歌團隊在Gemma 2的架構上進行了多項改進，特別是引入了知識蒸餾（Knowledge Distillation，簡稱KD）技術。這是一種機器學習技術，主要用于模型壓縮和遷移學習，其核心思想是通過將大型模型（即“教師模型”）的知識傳遞給小型模型（即“學生模型”），以提高小型模型的性能。這種技術在不犧牲性能的前提下，大幅減少了模型的計算資源需求，使得Gemma 2不僅在同類規(guī)模的模型中表現(xiàn)出眾，甚至能與兩倍于其大小的模型性能相媲美。

Gemma 2的發(fā)布，無疑延續(xù)了近年來小型、開源語言模型家族蓬勃發(fā)展的行業(yè)趨勢。微軟的Phi和Meta的Llama等模型，同樣通過引入創(chuàng)新的架構改進（如GQA等）以及利用高質(zhì)量的訓練數(shù)據(jù)，實現(xiàn)了遠超傳統(tǒng)小型模型的卓越性能。這一系列模型的涌現(xiàn)，不僅是技術進步的結果，更是為了滿足更廣泛應用場景的需求。通過軟硬件協(xié)同、算法優(yōu)化和模型壓縮等多種手段，大模型正逐步實現(xiàn)更高效、更經(jīng)濟、更親民的目標，從而推動人工智能技術的廣泛應用和發(fā)展。

創(chuàng)新模型量化方法，讓大模型“瘦身”90％。此前，清華大學和哈工大的一項聯(lián)合研究提出了大模型1bit極限壓縮框架OneBit，包括全新的1bit線性層結構、基于量化感知知識蒸餾的深度遷移學習等。1bit量化模型在計算上具有優(yōu)勢，參數(shù)的純二進制表示，不但可以節(jié)省大量的空間，還能降低矩陣乘法對硬件的要求。該架構首次實現(xiàn)大模型權重壓縮超越90％并保留大部分（83％）能力，對于實現(xiàn)大模型在PC端甚至智能手機上的部署意義非凡。

輕量化大模型在端側AI中的應用尤為重要。它降低了邊緣計算的成本門檻，使更多應用程序和用戶能夠使用大模型進行推理計算，從而推動了AI向端側場景的落地。小米集團NLP首席科學家王斌此前指出，大模型將逐漸演進為小模型，并在本地部署中發(fā)揮重要作用。這不僅符合技術發(fā)展的趨勢，也有利于滿足差異化的應用需求。

輕量化大模型之所以受到如此廣泛的關注，是因為它解決了AI技術在實際應用中的諸多痛點問題。傳統(tǒng)的大型語言模型雖然性能強大，但往往因為計算復雜度高、存儲需求大而無法在資源受限的設備上高效運行。而輕量化大模型則通過減少模型的參數(shù)數(shù)量和降低復雜度，降低了對硬件資源的要求，使得AI技術能夠更廣泛地應用于移動設備、邊緣計算和實時應用等場景。

（記者　吳雙）

【責任編輯:朱家齊】