如火如荼的國內(nèi)大模型創(chuàng)業(yè)潮中,高端芯片的短缺引發(fā)的算力壓力一直是行業(yè)擔(dān)憂的關(guān)鍵點(diǎn)。4月14日,騰訊宣布兩大事宜——首發(fā)英偉達(dá)H800,以及發(fā)布高性能計(jì)算集群,緩解大模型趨勢(shì)下的算力壓力。
所謂“高性能計(jì)算集群”,主要采用騰訊云星星海自研服務(wù)器,搭載英偉達(dá)最新代次H800 GPU,服務(wù)器之間采用3.2T超高互聯(lián)帶寬,為大模型訓(xùn)練、自動(dòng)駕駛、科學(xué)計(jì)算等提供高性能、高帶寬和低延遲的集群算力。
(資料圖片)
大模型帶動(dòng)算力需求激增
算力問題之所以成為行業(yè)頭疼的難題,是因?yàn)楫?dāng)前大模型進(jìn)入萬億參數(shù)時(shí)代,單體服務(wù)器算力有限,需要將大量服務(wù)器通過高性能網(wǎng)絡(luò)相連,打造大規(guī)模算力集群。
此前接受采訪時(shí),騰訊云異構(gòu)計(jì)算產(chǎn)品總監(jiān)宋丹丹對(duì)第一財(cái)經(jīng)記者表示,大模型是目前需求比較旺盛的業(yè)務(wù),行業(yè)對(duì)算力的要求分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練需要短時(shí)間內(nèi)并行算力非常全,算力非常大,且要在短時(shí)間內(nèi)能夠做到交付,所以對(duì)于算力的量級(jí)、穩(wěn)定性、性能,以及彈性擴(kuò)縮容的能力有比較高的要求。進(jìn)入推理階段,大模型對(duì)于單位算力的性價(jià)比、成本以及算力所處的位置與端應(yīng)用的服務(wù)是否能夠快速連接的要求較高。
目前來看,宋丹丹認(rèn)為大模型所處的階段還處于訓(xùn)練需求的爆發(fā)期,行業(yè)需要的還是一個(gè)海量的可擴(kuò)縮容的高性能算力,并且這些算力能夠穩(wěn)定交付、穩(wěn)定計(jì)算。因?yàn)橹虚g打斷一下,整個(gè)訓(xùn)練過程就會(huì)暫停,所以對(duì)于算力的穩(wěn)定性要求很高。
對(duì)于目前行業(yè)對(duì)算力需求的變化,宋丹丹表示,一些新入場(chǎng)的業(yè)務(wù)確實(shí)有了新的增量,如之前的異構(gòu)計(jì)算面向的領(lǐng)域主要是三大方向:一個(gè)是科學(xué)計(jì)算,如天氣、地理測(cè)繪、醫(yī)藥研發(fā);其次是渲染視覺類的,比如XR、VR的視覺服務(wù)、渲染,包括影視渲染、動(dòng)畫渲染、二維3D渲染等;第三類就是AI的SaaS和PaaS的應(yīng)用服務(wù)。
現(xiàn)在的算力增量在騰訊云看來,可以籠統(tǒng)地可以劃歸到之前的AI傳統(tǒng)服務(wù)里,只不過它的需求從原來的推理向和渲染更多地走向了訓(xùn)練向,更多的客戶開始自己訓(xùn)練AI模型,這是目前市場(chǎng)的變化。
先進(jìn)芯片不完全等于先進(jìn)算力
算力需求暴增的當(dāng)下,行業(yè)普遍將芯片,尤其高端芯片的短缺視為重要限制,但在騰訊云看來,當(dāng)前大熱的人工智能大模型需要海量數(shù)據(jù)和強(qiáng)大的算力來支撐訓(xùn)練和推理過程,其中數(shù)據(jù)主要由服務(wù)器和光模塊存儲(chǔ)、運(yùn)輸,算力支撐則依賴各類芯片。
但用上了先進(jìn)芯片并不代表就擁有了先進(jìn)算力,原因在于高性能計(jì)算存在“木桶效應(yīng)”,一旦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)任一環(huán)節(jié)出現(xiàn)瓶頸,就會(huì)導(dǎo)致運(yùn)算速度嚴(yán)重下降。
比如目前GPU并行是大模型訓(xùn)練的必備技術(shù),不同于傳統(tǒng)并行以加快計(jì)算速度為目的,大模型的并行計(jì)算往往還要考慮怎樣將龐大的參數(shù)有機(jī)地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓(xùn)練部署。
即使是目前業(yè)界已有的GPU分布式訓(xùn)練方案,也嚴(yán)重依賴于服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等底層問題的解決情況。如果只有分布式訓(xùn)練框架,甚至都無法正常啟動(dòng)訓(xùn)練過程。這也是為什么當(dāng)時(shí) GPT-3 已經(jīng)發(fā)布一年,卻只有少數(shù)企業(yè)可以復(fù)現(xiàn) GPT-3。
因此,先進(jìn)算力的背后是先進(jìn)芯片、先進(jìn)網(wǎng)絡(luò)、先進(jìn)存儲(chǔ)等一系列的支撐,缺一不可。此次騰訊自研的星脈網(wǎng)絡(luò),為新一代集群帶來3.2T的超高通信帶寬。騰訊方面的實(shí)測(cè)結(jié)果顯示,搭載同樣的GPU卡,3.2T星脈網(wǎng)絡(luò)相較前代網(wǎng)絡(luò),能讓集群整體算力提升20%,使得超大算力集群仍然能保持優(yōu)質(zhì)的通信開銷比和吞吐性能。并提供單集群高達(dá)十萬卡級(jí)別的組網(wǎng)規(guī)模,支持更大規(guī)模的大模型訓(xùn)練及推理。
另外,騰訊云自研的文件存儲(chǔ)、對(duì)象存儲(chǔ)架構(gòu),具備TB級(jí)吞吐能力和千萬級(jí)IOPS,充分滿足大模型訓(xùn)練的大數(shù)據(jù)量存儲(chǔ)要求。
芯片方面,此前,騰訊多款自研芯片已經(jīng)量產(chǎn)。其中,用于AI推理的紫霄芯片、用于視頻轉(zhuǎn)碼的滄海芯片已在騰訊內(nèi)部交付使用。至于此次首發(fā)的英偉達(dá)H800芯片儲(chǔ)備數(shù)量問題,截至發(fā)稿,騰訊方面暫未回應(yīng)。
(文章來源:第一財(cái)經(jīng))
標(biāo)簽: