在今日召開的首屆“全球數(shù)據(jù)系統(tǒng)穩(wěn)定性峰會(huì)”上,中國信通院云計(jì)算與大數(shù)據(jù)研究所所長何寶宏對(duì)中國信通院數(shù)據(jù)系統(tǒng)穩(wěn)定性工作體系進(jìn)行了介紹。
何寶宏稱,中國信通院于2021年啟動(dòng)穩(wěn)定性相關(guān)工作,依托分布式系統(tǒng)穩(wěn)定性實(shí)驗(yàn)室,面向供給側(cè)機(jī)構(gòu)、監(jiān)管機(jī)構(gòu)及應(yīng)用側(cè)機(jī)構(gòu),形成面向產(chǎn)品、工具、服務(wù)商、系統(tǒng)、災(zāi)備和保障體系等對(duì)象的“STAR”評(píng)估體系,助力我國各領(lǐng)域系統(tǒng)穩(wěn)定性保障工作。
系統(tǒng)穩(wěn)定性保障關(guān)鍵問題凸出
在2021年全球發(fā)生了多起嚴(yán)重的信息系統(tǒng)宕機(jī)事件,其中不乏有互聯(lián)網(wǎng)基礎(chǔ)設(shè)施、金融核心業(yè)務(wù)系統(tǒng)等,這些關(guān)鍵系統(tǒng)的宕機(jī)事件不僅造成了大量經(jīng)濟(jì)損失,也影響了社會(huì)的平穩(wěn)運(yùn)行,同時(shí)也給其他系統(tǒng)建設(shè)運(yùn)營者、監(jiān)管機(jī)構(gòu)敲響警鐘,系統(tǒng)的穩(wěn)定性保障成為當(dāng)前熱點(diǎn)問題。
何寶宏指出,在我國,保障關(guān)鍵系統(tǒng)的平穩(wěn)運(yùn)行受到國家層面高度重視,《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》自2021年9月1日起正式實(shí)施,明確要求關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)營者要依照條例和有關(guān)法律法規(guī)保障關(guān)鍵信息基礎(chǔ)設(shè)施的安全穩(wěn)定運(yùn)行。
隨著數(shù)字技術(shù)的更新,信息化系統(tǒng)的重要性突顯,系統(tǒng)穩(wěn)定性面臨著新的挑戰(zhàn)?;ヂ?lián)網(wǎng)等數(shù)字原生企業(yè)為提升數(shù)字能力、滿足用戶需求,不斷擴(kuò)大系統(tǒng)規(guī)模,引入敏捷開發(fā)流程,導(dǎo)致信息系統(tǒng)復(fù)雜性直線上升,穩(wěn)定性風(fēng)險(xiǎn)點(diǎn)增多,金融、電信等科技密集型行業(yè),系統(tǒng)在線化程度不斷提升,新技術(shù)不斷引入,信息系統(tǒng)功能范圍和復(fù)雜度不斷升級(jí)。而政務(wù)、能源等傳統(tǒng)行業(yè)也在政策推動(dòng)下,將服務(wù)模式從原來的5×8的線下模式升級(jí)成7×24小時(shí)的線上模式,導(dǎo)致系統(tǒng)穩(wěn)定性壓力激增。
何寶宏表示,當(dāng)前信息系統(tǒng)穩(wěn)定性保障領(lǐng)域在技術(shù)、管理等方面都存在不足,比如技術(shù)方面隨著新技術(shù)新架構(gòu)應(yīng)用存在異構(gòu)軟硬件兼容問題,分布式架構(gòu)普及集群規(guī)模擴(kuò)大導(dǎo)致硬件故障更普遍、通信交互更不穩(wěn)定。在管理方面,由于系統(tǒng)涉及的部門機(jī)構(gòu)增多,帶來大量的溝通成本,導(dǎo)致穩(wěn)定性保障鏈路變長,跨團(tuán)隊(duì)協(xié)作更加困難。
中國信通院穩(wěn)步推進(jìn)相關(guān)工作
據(jù)悉,因運(yùn)營行程卡系統(tǒng),中國信通院在系統(tǒng)保障方面積累了大量的實(shí)踐經(jīng)驗(yàn),行程卡至今已經(jīng)運(yùn)行了近2年,累計(jì)查詢突破458億次,近期單日查詢量維持在3億次以上,其使用量隨著全國疫情變化波動(dòng),成為了疫情防控重要工具。為保障行程卡系統(tǒng)長期平穩(wěn)運(yùn)行,行程卡團(tuán)隊(duì)實(shí)施很多保障穩(wěn)定性的措施:
首先,通過優(yōu)化技術(shù)架構(gòu),對(duì)不同訪問渠道的服務(wù)資源進(jìn)行隔離,將三大運(yùn)營商的服務(wù)通道解耦,實(shí)現(xiàn)各渠道及各運(yùn)營商之間服務(wù)互不影響。
其次,對(duì)服務(wù)器負(fù)載均衡、帶寬、數(shù)據(jù)庫等資源進(jìn)行多次擴(kuò)容,已滿足不斷增長的訪問請(qǐng)求,目前系統(tǒng)峰值容量較去年已經(jīng)提升10倍以上,并通過周期性壓測(cè)隨時(shí)確認(rèn)系統(tǒng)的容量情況。
第三,行程碼建立了備份容災(zāi)系統(tǒng),開展了多次應(yīng)急演練,可以隨時(shí)進(jìn)行主備切換。團(tuán)隊(duì)開發(fā)了全鏈路監(jiān)控系統(tǒng),能夠監(jiān)控各環(huán)節(jié)流量變化。為應(yīng)對(duì)流量高峰,團(tuán)隊(duì)建立了突發(fā)情況的限流機(jī)制,保障系統(tǒng)不中斷服務(wù)。
最后,行程卡還建立健全了運(yùn)營維護(hù)的管理制度,形成了日常運(yùn)維、重點(diǎn)保障、應(yīng)急處置三位一體的運(yùn)維保障體系。
何寶宏表示,基于以上背景,為助力我國各領(lǐng)域數(shù)據(jù)系統(tǒng)穩(wěn)定性提升,中國信通院于2020年啟動(dòng)穩(wěn)定性相關(guān)工作,依托分布式系統(tǒng)穩(wěn)定性實(shí)驗(yàn)室,面向供給側(cè)、監(jiān)管機(jī)構(gòu)、應(yīng)用側(cè)等三類角色,形成產(chǎn)品穩(wěn)定性、穩(wěn)定性支撐工具、服務(wù)商、系統(tǒng)自身、系統(tǒng)災(zāi)備能力、系統(tǒng)穩(wěn)定性體系等六條工作主線,統(tǒng)一構(gòu)成了STAR評(píng)估系統(tǒng)。
其中,分布式系統(tǒng)穩(wěn)定性實(shí)驗(yàn)室的定位是要打造行業(yè)平臺(tái),匯聚系統(tǒng)穩(wěn)定性相關(guān)方的智慧,共同定義、梳理、研究、推廣系統(tǒng)穩(wěn)定性相關(guān)工作和成果。由中國信通院牽頭,自2021年4月成立以來,目前共計(jì)50余家成員單位,并且已組建包括23位技術(shù)專家的專家團(tuán),形成強(qiáng)大的研究和服務(wù)能力。實(shí)驗(yàn)室通過定期舉辦技術(shù)沙龍,集中編制穩(wěn)定性相關(guān)標(biāo)準(zhǔn)和、研究報(bào)告和實(shí)踐指南等方式,持續(xù)推動(dòng)穩(wěn)定性各項(xiàng)工作。
詳解STAR評(píng)估六條主線
在會(huì)上,何寶宏詳細(xì)介紹了STAR評(píng)估體系的六條主線工作。其中,STAR-A為穩(wěn)定性保障體系評(píng)估,STAR-R為系統(tǒng)災(zāi)備能力評(píng)估,STAR-S為系統(tǒng)壓測(cè)/撥測(cè)服務(wù),STAR-E為服務(wù)商能力評(píng)估,STAR-T為穩(wěn)定性保障工具測(cè)評(píng),STAR-P為軟件產(chǎn)品穩(wěn)定性測(cè)試。STAR評(píng)估體系完整涵蓋數(shù)據(jù)系統(tǒng)穩(wěn)定性相關(guān)工作中涉及的各類對(duì)象,可以全方位衡量各環(huán)節(jié)的相關(guān)能力。
1、STAR-A,穩(wěn)定性保障體系評(píng)估。當(dāng)前系統(tǒng)技術(shù)迭代快,架構(gòu)復(fù)雜,理論上來說,“沒有絕對(duì)穩(wěn)定的系統(tǒng),只有相對(duì)完善的保障體系”。由此,本部分工作主要是針對(duì)如何通過各類保障手段,最大限度確保系統(tǒng)穩(wěn)定性。因此,信通院聯(lián)合行業(yè)力量共同編制了一套評(píng)估體系——《分布式系統(tǒng)穩(wěn)定性保障能力分級(jí)要求》,以及兩本實(shí)踐方法論——《混沌工程實(shí)踐指南》和《系統(tǒng)穩(wěn)定性保障能力建設(shè)指南1.0》。同時(shí),依據(jù)評(píng)估標(biāo)準(zhǔn),開展首批數(shù)據(jù)系統(tǒng)穩(wěn)定性保障能力評(píng)估,首批共有12個(gè)信息系統(tǒng)通過。
2、STAR-R,系統(tǒng)災(zāi)備能力評(píng)估。數(shù)據(jù)系統(tǒng)出現(xiàn)故障是不可避免的,災(zāi)備系統(tǒng)能夠在數(shù)據(jù)盡量少丟失的情況下,保持業(yè)務(wù)系統(tǒng)盡快恢復(fù)甚至不間斷運(yùn)行,是現(xiàn)代數(shù)據(jù)系統(tǒng)不可或缺的基礎(chǔ)設(shè)施。為衡量數(shù)據(jù)系統(tǒng)災(zāi)備能力,中國信通院聯(lián)合行業(yè)編制了《數(shù)據(jù)系統(tǒng)災(zāi)備能力成熟度模型》,從五大能力域、30個(gè)能力項(xiàng)全方位衡量系統(tǒng)的災(zāi)備能力。標(biāo)準(zhǔn)的發(fā)布,一方面可以為應(yīng)用方建設(shè)災(zāi)備系統(tǒng)提供參考,另一方面,也可以評(píng)估已經(jīng)建成災(zāi)備系統(tǒng)的實(shí)際能力。
3、STAR-S,向數(shù)據(jù)系統(tǒng)提供壓測(cè)/撥測(cè)服務(wù)。系統(tǒng)穩(wěn)定性的真實(shí)情況一定要通過合理的測(cè)試和持續(xù)的監(jiān)測(cè)才能獲得,因此,圍繞如何衡量系統(tǒng)實(shí)際的穩(wěn)定性狀況,中國信通院同相關(guān)的專業(yè)技術(shù)公司合作,開展面向各類系統(tǒng)的壓測(cè)/撥測(cè)服務(wù)。
系統(tǒng)實(shí)踐承載能力只有通過全鏈路壓測(cè)才能準(zhǔn)確獲得,壓測(cè)結(jié)果是運(yùn)營方預(yù)估系統(tǒng)容量、儲(chǔ)備額外資源、實(shí)施應(yīng)急舉措的重要參考依據(jù)。針對(duì)各類系統(tǒng)聯(lián)合專業(yè)技術(shù)公司提供第三方全鏈路壓測(cè)服務(wù),此外,針對(duì)小程序聯(lián)合支付寶和微信推出小程序端到端全鏈路壓測(cè)服務(wù),準(zhǔn)確衡量系統(tǒng)容量。同時(shí),系統(tǒng)實(shí)際運(yùn)行狀況需要持續(xù)不斷的監(jiān)測(cè)才能夠加以確認(rèn),相對(duì)人工觀察,通過技術(shù)手段更能提升監(jiān)測(cè)的及時(shí)性、準(zhǔn)確性。信通院聯(lián)合專業(yè)技術(shù)公司,通過模擬真實(shí)用戶訪問形式,為數(shù)據(jù)系統(tǒng)提供撥測(cè)服務(wù)。
4、STAR-E,提供穩(wěn)定性保障的服務(wù)商能力評(píng)估。隨著穩(wěn)定性工作重要性的提升,業(yè)內(nèi)已經(jīng)涌現(xiàn)出眾多專業(yè)提供穩(wěn)定性保障服務(wù)的企業(yè),在這一方面,當(dāng)前中國信通院正在研制《系統(tǒng)穩(wěn)定性保障服務(wù)商能力分級(jí)要求》,對(duì)服務(wù)過程、人員、技術(shù)工具等進(jìn)行規(guī)范,也將依托該標(biāo)準(zhǔn)對(duì)產(chǎn)業(yè)內(nèi)提供穩(wěn)定性保障服務(wù)的服務(wù)商進(jìn)行評(píng)估,引導(dǎo)行業(yè)規(guī)范化發(fā)展。
5、STAR-T,穩(wěn)定性保障工具測(cè)試。系統(tǒng)穩(wěn)定性提升離不開專業(yè)技術(shù)工具支撐,工具好壞顯著影響著系統(tǒng)穩(wěn)定性的保障能力。當(dāng)前,中國信通院已完成《系統(tǒng)穩(wěn)定性保障平臺(tái)能力要求》這一標(biāo)準(zhǔn),對(duì)支撐系統(tǒng)穩(wěn)定性工作的各類平臺(tái)工具應(yīng)具備的能力進(jìn)行了全方位梳理,并形成階梯化分級(jí)要求,后續(xù)將繼續(xù)完善各類支撐工具標(biāo)準(zhǔn)的研制,并開展相應(yīng)評(píng)測(cè)工作。
6、STAR-P,數(shù)據(jù)產(chǎn)品穩(wěn)定性測(cè)試工作。各類數(shù)據(jù)產(chǎn)品尤其是分布式軟件已成為各行業(yè)數(shù)據(jù)系統(tǒng)的重要組成部分,其自身的穩(wěn)定性是系統(tǒng)整體穩(wěn)定性的重要前提。因此,中國信通院開展了面向數(shù)據(jù)產(chǎn)品自身穩(wěn)定性的測(cè)試。為了能夠?qū)Ω黝悢?shù)據(jù)產(chǎn)品進(jìn)行標(biāo)準(zhǔn)化穩(wěn)定性測(cè)試,中國信通院基于Ansible和ChaosBlade自主研發(fā)了Databench-C分布式混沌測(cè)試平臺(tái),通過Databench-C可以對(duì)被測(cè)產(chǎn)品進(jìn)行穩(wěn)態(tài)確定、擾動(dòng)注入、差異對(duì)比等操作??勺⑷氲墓收霞皵_動(dòng)類別包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、線程等方面的高負(fù)載或者故障現(xiàn)象。最終通過被測(cè)產(chǎn)品在實(shí)施加擾時(shí)的功能是否正常、性能下降程度,以及擾動(dòng)移除后的系統(tǒng)恢復(fù)程度,來衡量其穩(wěn)定性能力。
基于Databench-C,截止目前已完成兩批次4類數(shù)據(jù)產(chǎn)品的穩(wěn)定性測(cè)試,以下是通過測(cè)試的參測(cè)企業(yè)和對(duì)應(yīng)的被測(cè)產(chǎn)品。通過測(cè)試的結(jié)果可以觀察到,當(dāng)前數(shù)據(jù)類產(chǎn)品多采用分布式架構(gòu),網(wǎng)絡(luò)擾動(dòng)帶來的性能影響明顯大于計(jì)算、存儲(chǔ)等對(duì)資源的擾動(dòng)。
何寶宏表示,STAR評(píng)估體系將沿各方向持續(xù)推進(jìn),產(chǎn)出更多標(biāo)準(zhǔn)和研究報(bào)告,落地更多評(píng)測(cè)評(píng)估,持續(xù)擴(kuò)大服務(wù)行業(yè)的能力。
據(jù)何寶宏透露,未來,分布式系統(tǒng)穩(wěn)定性實(shí)驗(yàn)室將從以下幾個(gè)方面開展工作:一是按照主題設(shè)立工作組,聚焦重點(diǎn)方向開展工作。二是啟動(dòng)人才培養(yǎng)計(jì)劃,聯(lián)合實(shí)驗(yàn)室專家團(tuán)、外部專業(yè)技術(shù)企業(yè),共同開展專題技術(shù)培訓(xùn)。三是開啟全國巡演,持續(xù)在更多地區(qū)舉辦活動(dòng),為行業(yè)提供更全面、更具規(guī)模的行業(yè)交流平臺(tái)。
標(biāo)簽: 形成面向產(chǎn)品 領(lǐng)域系統(tǒng)穩(wěn)定性保障 層面高度重視 互聯(lián)網(wǎng)基礎(chǔ)設(shè)施