“我們以前把彈性計(jì)算比喻成‘構(gòu)筑一個(gè)青藏高原’,其實(shí)它是一個(gè)算力的高原,旨在為全社會(huì)提供更好的算力基礎(chǔ)。經(jīng)過(guò)近幾年的發(fā)展,我們能夠賦能客戶去構(gòu)筑自己的一個(gè)‘珠穆朗瑪峰’。”近日,在2020年全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(HPC CHINA)期間,阿里巴巴集團(tuán)研究員、阿里云智能彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤(花名“旭卿”)在接受環(huán)球網(wǎng)報(bào)道記者采訪時(shí)表示,“當(dāng)彈性計(jì)算遇到高性能計(jì)算,阿里云高性能計(jì)算平臺(tái)滿足了客戶對(duì)于算力的要求,利用這個(gè)平臺(tái)的優(yōu)勢(shì),客戶就可以把自己的應(yīng)用搬上‘珠穆朗瑪峰’。”
高性能計(jì)算的“青藏高原”
2017年9月,阿里云宣布推出全新一代異構(gòu)計(jì)算加速平臺(tái),在業(yè)界第一次覆蓋了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在內(nèi)的所有6款主流異構(gòu)實(shí)例。彼時(shí),阿里云高性能計(jì)算研發(fā)負(fù)責(zé)人何萬(wàn)青曾指出,“如果把傳統(tǒng)超算中心比作‘珠穆朗瑪峰’,那么阿里云的E-HPC則是將高性能計(jì)算做更普惠的覆蓋,成為高性能計(jì)算的‘青藏高原’。 在青藏高原上看,世界之巔珠穆朗瑪,相對(duì)而言是4千多米,通過(guò)神龍超級(jí)計(jì)算集群,你隨時(shí)可以構(gòu)筑在阿里云上的珠穆朗瑪。”
2020年阿里云彈性計(jì)算產(chǎn)品年度發(fā)布會(huì)上,阿里云宣布推出第三代神龍?jiān)品?wù)器,即第三代彈性裸金屬服務(wù)器(ECS Bare Metal Instance),它是基于阿里云完全自主研發(fā)的下一代虛擬化技術(shù)而打造的新型計(jì)算類(lèi)服務(wù)器產(chǎn)品,兼具虛擬機(jī)的彈性和物理機(jī)的性能及功能特性。與上一代虛擬化技術(shù)相比,它不僅保留了普通云服務(wù)器的彈性體驗(yàn),而且保留了物理機(jī)的性能與特性,全面支持嵌套虛擬化技術(shù)。
在張獻(xiàn)濤看來(lái),企業(yè)用戶需要更強(qiáng)的計(jì)算性能、更快的網(wǎng)絡(luò)接入、更高的存儲(chǔ)讀寫(xiě)能力,意味著存儲(chǔ)的IOPS要高、網(wǎng)絡(luò)的PPS要高、網(wǎng)絡(luò)的帶寬存儲(chǔ)能力要高,而解決這些問(wèn)題的根本則在于——變革虛擬化技術(shù)。“傳統(tǒng)服務(wù)器主要依賴堆硬件提升性能,而阿里云自研的神龍架構(gòu),基于硬件云原生理念,創(chuàng)新性打破了虛擬化技術(shù)與CPU、內(nèi)存、網(wǎng)卡等硬件的天然鴻溝,可發(fā)揮出比傳統(tǒng)物理機(jī)更強(qiáng)的性能。”張獻(xiàn)濤說(shuō)到。
基于第三代神龍?jiān)品?wù)器的阿里云第六代增強(qiáng)型實(shí)例,全系搭配ESSD系列云盤(pán),存儲(chǔ)轉(zhuǎn)發(fā)能力最多提升四倍;支持10Gbps突發(fā)內(nèi)網(wǎng)帶寬,單卷延時(shí)大幅下降;性能等級(jí)按需配置,在線無(wú)損變配;同時(shí)ESSD使用門(mén)檻大幅下降50%,性價(jià)比大幅提升。此外,阿里云ECS的單實(shí)例穩(wěn)定性從原來(lái)的99.95%提升到99.975%,跨AZ多實(shí)例穩(wěn)定性從原來(lái)的99.99%提升到99.995%,均為全球最高水準(zhǔn)。
依托神龍架構(gòu)的創(chuàng)新突破,超算中心可以在云上瞬間生成,只需在彈性裸金屬上用高速的ROCE/IB網(wǎng)絡(luò)進(jìn)行互聯(lián),再連接VPC、云盤(pán)、以及云上的其他產(chǎn)品,構(gòu)建整個(gè)HPC軟件棧加上連接云端并行文件系統(tǒng),用戶就可以得到一個(gè)能媲美或超越超算中心的云超算中心,具備相當(dāng)高的并行效率,并且具備云的彈性。
助力行業(yè)攀登性能“高峰”
據(jù)介紹,《流浪地球》制作方MORE VFX(墨鏡天合)已將算力需求最大的渲染環(huán)節(jié)遷上阿里云。傳統(tǒng)的后期處理,對(duì)計(jì)算力的需求會(huì)隨項(xiàng)目而變,低谷期利用率不高、高峰期資源無(wú)保障,且排隊(duì)嚴(yán)重。為了解決這一問(wèn)題,MORE VFX通過(guò)專(zhuān)線上云,利用阿里云高性能計(jì)算E-HP服務(wù),在云端完成渲染,一天可以處理原本一周的量,大大縮短了渲染等待時(shí)間。
采訪中,阿里云智能高性能計(jì)算負(fù)責(zé)人何萬(wàn)青告訴記者,MORE VFX后期特效量極大,且對(duì)于計(jì)算力的需求隨項(xiàng)目而變。其自有本地農(nóng)場(chǎng)數(shù)百臺(tái)多核服務(wù)器在低谷期利用率不高,在高峰期任務(wù)排隊(duì)又嚴(yán)重,這就需要借助外部渲染農(nóng)場(chǎng)服務(wù)器才能完成任務(wù)。而農(nóng)場(chǎng)服務(wù)器老舊,性能不高;只能依靠硬盤(pán)寄送方式,資產(chǎn)安全性差;同時(shí)資源缺乏彈性。這些問(wèn)題困擾著MORE XFV,最終選擇了渲染上云利用阿里云高性能計(jì)算服務(wù)(E-HPC)平臺(tái),在云端完成渲染任務(wù)。
值得關(guān)注的是,在渲染任務(wù)上云過(guò)程中,結(jié)合后期制作公司的業(yè)務(wù)流程需求,阿里云團(tuán)隊(duì)提供了混合云渲染方案,同時(shí)通過(guò)為MORE VFX定制文件異步緩存能力,有效降低了超大規(guī)模集群渲染時(shí)對(duì)專(zhuān)線帶寬的壓力。另外,通過(guò)阿里云高性能計(jì)算緩存層的橫向、縱向擴(kuò)展能力,能夠平滑分解渲染節(jié)點(diǎn)對(duì)緩存層的吞吐和IO壓力,從而提供極強(qiáng)的資源彈性。
據(jù)報(bào)道,通過(guò)阿里云高性能計(jì)算集成的行業(yè)通用軟件deadline、計(jì)費(fèi)和報(bào)表功能,渲染集群可以根據(jù)任務(wù)排隊(duì)情況自動(dòng)伸縮,使得運(yùn)維極其簡(jiǎn)單,大大節(jié)省了MORE VFX IT部門(mén)的工作量。
目前,阿里云高性能計(jì)算已覆蓋工業(yè)制造、生命科學(xué)、油氣勘探和影視特效等多個(gè)行業(yè),除了流浪地球制作方MOREVFX等頂級(jí)視效企業(yè)之外,還服務(wù)了吉利和上汽等知名車(chē)企,并在新冠疫情期間公益支持了全球健康藥物研發(fā)中心(GHDDI)、中山大學(xué)等全球十多家醫(yī)療與科研機(jī)構(gòu)進(jìn)行新冠相關(guān)研發(fā)工作。
值得一提的是,今年8月份,Gartner發(fā)布的最新云廠商產(chǎn)品評(píng)估報(bào)告顯示,阿里云在計(jì)算大類(lèi)中,以92.3%的高得分率拿下全球第一,并且刷新了該項(xiàng)目的歷史最佳成績(jī);在存儲(chǔ)和IaaS基礎(chǔ)能力大類(lèi)中,阿里云也位列全球第二。
標(biāo)簽: 彈性高性能計(jì)算E-HPC