生成式人工智能(AI)作為一項(xiàng)劃時(shí)代的技術(shù),經(jīng)歷了巨大的變革和發(fā)展。百度杰出系統(tǒng)架構(gòu)師王雁鵬在深圳的文心大模型技術(shù)交流會(huì)上表示,生成式AI最顯著的特點(diǎn)是模型規(guī)模巨大,過去幾年以每年10倍的速度增長(zhǎng)。生成式AI的智能計(jì)算基礎(chǔ)設(shè)施是一個(gè)龐大而復(fù)雜的系統(tǒng),需要從網(wǎng)絡(luò)架構(gòu)、存儲(chǔ)、加速層、框架和容錯(cuò)等多個(gè)方面進(jìn)行設(shè)計(jì)和優(yōu)化。通過這些努力,可以為大規(guī)模的生成式AI應(yīng)用提供穩(wěn)定、高效且易用的計(jì)算基礎(chǔ)設(shè)施。以往的AI應(yīng)用中,許多訓(xùn)練任務(wù)都可以在單卡或單機(jī)上完成,但在大模型時(shí)代,完成一個(gè)任務(wù)需要使用上千甚至上萬張顯卡。王雁鵬認(rèn)為,在如此巨大的計(jì)算能力需求下,智能計(jì)算基礎(chǔ)設(shè)施的設(shè)計(jì)范式發(fā)生了轉(zhuǎn)變。

一、要構(gòu)建萬卡規(guī)模的大模型基礎(chǔ)設(shè)施,有四個(gè)關(guān)鍵點(diǎn)需要關(guān)注:
1.需要構(gòu)建智能計(jì)算集群,能夠支持高速互聯(lián)并具備各種異構(gòu)算力,如中央處理器(CPU)和圖形處理器(GPU)等。這需要保證高效的卡間通信。
2.僅有強(qiáng)大的硬件能力并不足以取得良好效果。優(yōu)化軟件堆棧非常重要,優(yōu)化的結(jié)果將體現(xiàn)在訓(xùn)練和推理性能上的加速。
3.高性價(jià)比是一個(gè)重要考慮因素。構(gòu)建這樣的系統(tǒng)需要合理的技術(shù)選擇,不一定選擇最昂貴的解決方案。合理分層存儲(chǔ)和計(jì)算,并追求更高的性價(jià)比。
4.易用性是前所未有的挑戰(zhàn)。在萬卡規(guī)模下,穩(wěn)定運(yùn)行、彈性容錯(cuò)以及一站式應(yīng)用的易用平臺(tái)都是重要問題。

百度智能云副總裁朱勇透露,自百度的文心一言技術(shù)在3月16日開始內(nèi)測(cè)以來,通過算法和模型的持續(xù)優(yōu)化,其在企業(yè)服務(wù)中高頻場(chǎng)景下的推理性能已經(jīng)提升了50倍。為了實(shí)現(xiàn)這一結(jié)果,王雁鵬從技術(shù)角度解釋了過去一個(gè)月的工作和新的技術(shù)范式轉(zhuǎn)變。王雁鵬指出,生成式AI是一項(xiàng)跨越式的技術(shù),和以前的技術(shù)有了巨大的變革。其最顯著的特點(diǎn)是模型規(guī)模龐大,每年以10倍的速度增長(zhǎng)。之前的AI應(yīng)用中,許多訓(xùn)練任務(wù)可以在單卡或單機(jī)上完成,但在大模型時(shí)代,需要上千張或上萬張卡來完成一個(gè)任務(wù)。
增加模型規(guī)模并不能很好地提升模型的效果和性能,還需要相應(yīng)地增加數(shù)據(jù)量級(jí)。大模型的數(shù)據(jù)量級(jí)是指數(shù)級(jí)增長(zhǎng)的,這類似于摩爾定律。以前摩爾定律需要每年翻一番,現(xiàn)在大模型的"摩爾定律"更快,大約每8到10個(gè)月翻一番。與原來的摩爾定律不同的是,大模型不僅需要芯片的能力,還需要整個(gè)芯片、框架和系統(tǒng)的全棧優(yōu)化。在這種巨大的算力需求下,智能計(jì)算基礎(chǔ)設(shè)施的設(shè)計(jì)發(fā)生了變革。
二、構(gòu)建萬卡規(guī)模的網(wǎng)絡(luò)架構(gòu)
在如此大規(guī)模下,保證網(wǎng)絡(luò)的擴(kuò)展性和避免擁塞是非常困難的。大模型的通信特點(diǎn)是有很多集合通信的操作,這可以分解成同號(hào)卡之間的集合通信。為了解決這個(gè)問題,需要優(yōu)化網(wǎng)絡(luò)架構(gòu),在同號(hào)卡之間建立高速通信通道,以提高整體網(wǎng)絡(luò)的吞吐量并消除擁塞和沖突的可能性。
除了計(jì)算方面,存儲(chǔ)也是另一個(gè)關(guān)鍵問題。需要具備大容量和高速度,因此設(shè)計(jì)了多級(jí)存儲(chǔ)系統(tǒng)。大量數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)系統(tǒng)中,高速訓(xùn)練時(shí)需要充當(dāng)緩存系統(tǒng)的角色。
三、加速層
對(duì)于AI訓(xùn)練來說,計(jì)算過程非常復(fù)雜,包括IO預(yù)處理、IO讀取、各種算子的高性能實(shí)現(xiàn)和優(yōu)化,以及通信的優(yōu)化和顯存利用率。需要在訓(xùn)練加速套件中整合整個(gè)軟件棧。對(duì)于推理加速套件來說更加重要。推理過程對(duì)大模型來說是一個(gè)巨大的挑戰(zhàn)。通過集中攻關(guān)和軟件優(yōu)化,百度在文心一言發(fā)布后的一個(gè)月時(shí)間內(nèi),使推理性能提高了50倍。

四、框架側(cè)的工作,即所謂的4D混合并行
對(duì)于如此巨大的計(jì)算,如何將其拆分到各個(gè)GPU上,并采用不同的并行策略,以獲得更好的計(jì)算性能。如何將并行策略映射到計(jì)算集群的硬件上也是關(guān)鍵。在這方面,投入了大量的工作,實(shí)現(xiàn)了自動(dòng)并行,無論硬件拓?fù)浜陀布M合如何,都能在分布式層面自動(dòng)實(shí)現(xiàn)并行。
容錯(cuò)性也是關(guān)鍵問題。在萬卡規(guī)模下,錯(cuò)誤是不可避免的。集合通信的通信模式天生具有較低的容錯(cuò)性。因此,在通信庫(kù)層、框架層和調(diào)度層做了大量的工作,實(shí)現(xiàn)了不同層次的容錯(cuò),使得擁有千億參數(shù)的大模型訓(xùn)練可以無中斷地進(jìn)行。