百度沈抖:大模型誰先用起來,誰就搶占先機(jī)
關(guān)鍵詞: 百度智能云大會 大模型 技術(shù)變革 產(chǎn)業(yè)變革 云計(jì)算 基礎(chǔ)設(shè)施 企業(yè)增長機(jī)會 GPU集群 計(jì)算時代 規(guī)模 高密 互聯(lián) 運(yùn)維 硬件故障 算力平臺 模型訓(xùn)練 穩(wěn)定性 有效訓(xùn)練時長 模型推理 長文本推理 用戶體驗(yàn) 成本 大模型工具鏈 應(yīng)用開發(fā)平臺 企業(yè)級應(yīng)用 競爭優(yōu)勢 生產(chǎn)力場景 增長機(jī)會
9月25日,在百度智能云大會上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,過去的一年,是大模型從技術(shù)變革走向產(chǎn)業(yè)變革的關(guān)鍵一年。大模型與云計(jì)算緊密結(jié)合,正在成為新型的基礎(chǔ)設(shè)施。這樣大范圍的基礎(chǔ)設(shè)施升級將帶來生產(chǎn)力的巨大躍遷。大模型給每個企業(yè)提供了平等的增長機(jī)會。不管企業(yè)大小、場景多少,誰先用起來,誰就搶占先機(jī)。
1834年,第一臺現(xiàn)代發(fā)電機(jī)誕生;到1882年,美國建成全球第一座現(xiàn)代電廠;再到電力成為全球性的能源基礎(chǔ)設(shè)施,用了大約90年。1969年,阿帕網(wǎng)連接了四所美國高校,到互聯(lián)網(wǎng)成為全球信息基礎(chǔ)設(shè)施,只用了大約30年。而大模型及其相關(guān)系統(tǒng),在短短幾年內(nèi),正在迅速成為為新一代的基礎(chǔ)設(shè)施,這次變革的速度前所未有。
如何在這場變革中抓住機(jī)遇、引領(lǐng)未來?“相信不少人都聽說過‘萬卡集群’,但深入了解的應(yīng)該不多,而真正用得上、用得好的,就更少了。其實(shí),GPU集群完全不同于傳統(tǒng)的CPU集群,開啟了全新的計(jì)算時代?!鄙蚨侗硎尽?/span>
簡單來說,GPU集群有三個特征:極致規(guī)模、極致高密和極致互聯(lián)。這些“極致”帶來了兩個方面的嚴(yán)峻挑戰(zhàn)。一方面是巨額的建設(shè)、運(yùn)營成本,要想建立一個萬卡集群,單是GPU的采購成本就高達(dá)幾十億元;另一方面,在如此大規(guī)模的集群上,運(yùn)維的復(fù)雜性急劇增加。
“我們知道,硬件不可避免地會出故障,而規(guī)模越大,出故障的概率就越高?!鄙蚨斗治稣f道。他舉了個例子,Meta訓(xùn)練llama3的時候,用了1.6萬張GPU卡的集群,平均每3小時就會出一次故障,而這些故障絕大多數(shù)是由GPU引起的。實(shí)際上,GPU是一種很敏感的硬件,連天氣、溫度的波動,都會影響到GPU的故障率。
“這兩個挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群,屏蔽硬件層的復(fù)雜性,為大模型落地的全流程提供一個簡單、好用的算力平臺,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。”沈抖表示。
過去一年,企業(yè)用戶模型訓(xùn)練需求猛增,需要的集群規(guī)模也越來越大。與此同時,大家對模型推理成本的持續(xù)下降的預(yù)期也越來越高。這些都對GPU管理的穩(wěn)定性和有效性提出了更高要求。
“進(jìn)入規(guī)模化訓(xùn)練階段,最重要的就是穩(wěn)定性?!鄙蚨吨赋?,“大模型訓(xùn)練是一個龐大的單一任務(wù),需要齊步走。一個點(diǎn)出錯,整個集群就得停下、回滾到上一個記憶點(diǎn)。而GPU機(jī)器又很貴,每停一分鐘都是白白燒錢。這就是為什么‘有效訓(xùn)練時長’這個指標(biāo)很關(guān)鍵,它指的就是機(jī)器真正在工作的時間的占比。在萬卡任務(wù)上,百舸4.0可以保障有效訓(xùn)練時長占比達(dá)到99.5%,遠(yuǎn)高于行業(yè)內(nèi)公布的相關(guān)指標(biāo)。”
模型訓(xùn)好了之后就是推理,也就是模型在各個場景被用起來的階段。在這個階段,最重要的兩件事是速度和成本。前者決定用戶體驗(yàn),后者決定性價比。而且,現(xiàn)在長文本推理逐漸成為主流,這兩個問題會越來越突出。
“模型在推理的時候,它需要把你的問題都轉(zhuǎn)化成token,算一遍之后才能開始出第一個字。而且這不是一次性的計(jì)算,每生成一個字都需要和前面所有字去做注意力計(jì)算。雖然這整體上是個串行過程,但通過架構(gòu)分離、KV Cache、負(fù)載分配等一系列加速工作,百舸4.0整體上提高了推理效率,降低了成本,讓長文本推理效率提升了1倍以上?!鄙蚨督榻B稱。
同時,他指出,大模型應(yīng)用的爆發(fā),離不開便捷、高效的大模型工具鏈和應(yīng)用開發(fā)平臺。百度官方數(shù)據(jù)顯示,目前,在千帆大模型平臺上,文心大模型日均調(diào)用量超過7億次,累計(jì)幫助用戶精調(diào)了3萬個大模型,開發(fā)出70多萬個企業(yè)級應(yīng)用?!斑@條陡峭的曲線,不僅反映了千帆平臺上大模型的調(diào)用量,也是過去18個月整個國內(nèi)大模型產(chǎn)業(yè)發(fā)展的一個縮影,但這只是一個序幕。”
“過去一年,盡管充滿不確定性,但我們已經(jīng)看到了一個確定的未來。那就是大模型正在加速深入生產(chǎn)力場景,成為企業(yè)獲得競爭優(yōu)勢的關(guān)鍵要素?!鄙蚨侗硎?,“我們相信,大模型給每個企業(yè)提供了平等的增長機(jī)會。不管企業(yè)大小、場景多少,誰先用起來,誰就搶占先機(jī)?!?/span>
