百度沈抖：大模型誰先用起來，誰就搶占先機(jī)

2024-09-26 來源：中國電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)

1069

關(guān)鍵詞：百度智能云大會大模型技術(shù)變革產(chǎn)業(yè)變革云計(jì)算基礎(chǔ)設(shè)施企業(yè)增長機(jī)會 GPU集群計(jì)算時代規(guī)模高密互聯(lián) 運(yùn)維硬件故障算力平臺模型訓(xùn)練穩(wěn)定性有效訓(xùn)練時長模型推理長文本推理用戶體驗(yàn) 成本大模型工具鏈應(yīng)用開發(fā)平臺企業(yè)級應(yīng)用競爭優(yōu)勢生產(chǎn)力場景增長機(jī)會

9月25日，在百度智能云大會上，百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示，過去的一年，是大模型從技術(shù)變革走向產(chǎn)業(yè)變革的關(guān)鍵一年。大模型與云計(jì)算緊密結(jié)合，正在成為新型的基礎(chǔ)設(shè)施。這樣大范圍的基礎(chǔ)設(shè)施升級將帶來生產(chǎn)力的巨大躍遷。大模型給每個企業(yè)提供了平等的增長機(jī)會。不管企業(yè)大小、場景多少，誰先用起來，誰就搶占先機(jī)。

1834年，第一臺現(xiàn)代發(fā)電機(jī)誕生；到1882年，美國建成全球第一座現(xiàn)代電廠；再到電力成為全球性的能源基礎(chǔ)設(shè)施，用了大約90年。1969年，阿帕網(wǎng)連接了四所美國高校，到互聯(lián)網(wǎng)成為全球信息基礎(chǔ)設(shè)施，只用了大約30年。而大模型及其相關(guān)系統(tǒng)，在短短幾年內(nèi)，正在迅速成為為新一代的基礎(chǔ)設(shè)施，這次變革的速度前所未有。

如何在這場變革中抓住機(jī)遇、引領(lǐng)未來？“相信不少人都聽說過‘萬卡集群’，但深入了解的應(yīng)該不多，而真正用得上、用得好的，就更少了。其實(shí)，GPU集群完全不同于傳統(tǒng)的CPU集群，開啟了全新的計(jì)算時代?！鄙蚨侗硎尽?/span>

簡單來說，GPU集群有三個特征：極致規(guī)模、極致高密和極致互聯(lián)。這些“極致”帶來了兩個方面的嚴(yán)峻挑戰(zhàn)。一方面是巨額的建設(shè)、運(yùn)營成本，要想建立一個萬卡集群，單是GPU的采購成本就高達(dá)幾十億元；另一方面，在如此大規(guī)模的集群上，運(yùn)維的復(fù)雜性急劇增加。

“我們知道，硬件不可避免地會出故障，而規(guī)模越大，出故障的概率就越高?！鄙蚨斗治稣f道。他舉了個例子，Meta訓(xùn)練llama3的時候，用了1.6萬張GPU卡的集群，平均每3小時就會出一次故障，而這些故障絕大多數(shù)是由GPU引起的。實(shí)際上，GPU是一種很敏感的硬件，連天氣、溫度的波動，都會影響到GPU的故障率。

“這兩個挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群，屏蔽硬件層的復(fù)雜性，為大模型落地的全流程提供一個簡單、好用的算力平臺，讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖表示。

過去一年，企業(yè)用戶模型訓(xùn)練需求猛增，需要的集群規(guī)模也越來越大。與此同時，大家對模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。

“進(jìn)入規(guī)模化訓(xùn)練階段，最重要的就是穩(wěn)定性?！鄙蚨吨赋?，“大模型訓(xùn)練是一個龐大的單一任務(wù)，需要齊步走。一個點(diǎn)出錯，整個集群就得停下、回滾到上一個記憶點(diǎn)。而GPU機(jī)器又很貴，每停一分鐘都是白白燒錢。這就是為什么‘有效訓(xùn)練時長’這個指標(biāo)很關(guān)鍵，它指的就是機(jī)器真正在工作的時間的占比。在萬卡任務(wù)上，百舸4.0可以保障有效訓(xùn)練時長占比達(dá)到99.5%，遠(yuǎn)高于行業(yè)內(nèi)公布的相關(guān)指標(biāo)。”

模型訓(xùn)好了之后就是推理，也就是模型在各個場景被用起來的階段。在這個階段，最重要的兩件事是速度和成本。前者決定用戶體驗(yàn)，后者決定性價比。而且，現(xiàn)在長文本推理逐漸成為主流，這兩個問題會越來越突出。

“模型在推理的時候，它需要把你的問題都轉(zhuǎn)化成token，算一遍之后才能開始出第一個字。而且這不是一次性的計(jì)算，每生成一個字都需要和前面所有字去做注意力計(jì)算。雖然這整體上是個串行過程，但通過架構(gòu)分離、KV Cache、負(fù)載分配等一系列加速工作，百舸4.0整體上提高了推理效率，降低了成本，讓長文本推理效率提升了1倍以上?！鄙蚨督榻B稱。

同時，他指出，大模型應(yīng)用的爆發(fā)，離不開便捷、高效的大模型工具鏈和應(yīng)用開發(fā)平臺。百度官方數(shù)據(jù)顯示，目前，在千帆大模型平臺上，文心大模型日均調(diào)用量超過7億次，累計(jì)幫助用戶精調(diào)了3萬個大模型，開發(fā)出70多萬個企業(yè)級應(yīng)用?！斑@條陡峭的曲線，不僅反映了千帆平臺上大模型的調(diào)用量，也是過去18個月整個國內(nèi)大模型產(chǎn)業(yè)發(fā)展的一個縮影，但這只是一個序幕。”

“過去一年，盡管充滿不確定性，但我們已經(jīng)看到了一個確定的未來。那就是大模型正在加速深入生產(chǎn)力場景，成為企業(yè)獲得競爭優(yōu)勢的關(guān)鍵要素?！鄙蚨侗硎?，“我們相信，大模型給每個企業(yè)提供了平等的增長機(jī)會。不管企業(yè)大小、場景多少，誰先用起來，誰就搶占先機(jī)?！?/span>

相關(guān)文章

行業(yè)動態(tài)

開展雙星普查的新工具 “重瞳”測速系統(tǒng)研發(fā)成功

事關(guān)中國，英媒給出一組“驚人”數(shù)據(jù)！

加快全面綠色轉(zhuǎn)型助力“雙碳”目標(biāo)實(shí)現(xiàn)

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關(guān)資產(chǎn)

九色综合狠狠综合久久,色一情一乱一伦一区二区三区,人人妻人人藻人人爽欧美一区,扒开双腿疯狂进出爽爽爽动态图

百度沈抖：大模型誰先用起來，誰就搶占先機(jī)

百度沈抖：大模型誰先用起來，誰就搶占先機(jī)