中國聯(lián)通采用 BigDL Chronos 框架實現(xiàn) 5GC 網(wǎng)絡(luò)動態(tài)節(jié)能,打造新型數(shù)字信息基礎(chǔ)設(shè)施

作為 5G 核心網(wǎng) (5G Core Network,以下簡稱5GC) 等重要業(yè)務(wù)的承載基礎(chǔ),擁有海量服務(wù)器的中國聯(lián)通通信云資源池,希望引入更高效的能耗管理方案,來助力節(jié)能減排。為此,中國聯(lián)通對云資源池所在的數(shù)據(jù)中心能耗占比開展了深度分析,并結(jié)合業(yè)務(wù)發(fā)展需要,針對服務(wù)器自身能耗控制優(yōu)化提出創(chuàng)新方案。
實現(xiàn)這一方案的前提,是中國聯(lián)通能夠根據(jù)云資源池業(yè)務(wù)量變化,對處理器占用率等資源使用情況實施快速、精準(zhǔn)和細(xì)致預(yù)測。為此,中國聯(lián)通與合作伙伴英特爾攜手,采用 Chronos 框架打造全新的 5GC 網(wǎng)元資源占用率預(yù)測方案。Chronos 框架是英特爾開源的統(tǒng)一大數(shù)據(jù)分析和人工智能平臺 BigDL 推出的用于構(gòu)建大規(guī)模時間序列分析應(yīng)用程序的組件。通過一系列測試與實驗室驗證表明,新方案的預(yù)測準(zhǔn)確率符合中國聯(lián)通的預(yù)期,為后續(xù)的數(shù)據(jù)中心節(jié)能減排方案落地奠定了堅實的技術(shù)基礎(chǔ)。
“作為承載各類通信業(yè)務(wù)的基座,通信云資源池的能耗管理水平將直接影響中國聯(lián)通實現(xiàn)節(jié)能減排的總體目標(biāo)。為此,我們借助 AI 技術(shù),以時間序列預(yù)測方案來助力降低服務(wù)器能耗。在這一過程中,來自英特爾的 Chronos 框架幫助我們更快更好地完成了新方案的搭建,并獲得了良好的預(yù)測準(zhǔn)確率。”
康凱
中國聯(lián)通云網(wǎng)運營中心通信云項目經(jīng)理
解決方案:借助Chronos框架構(gòu)建精準(zhǔn)5GC網(wǎng)元資源占用率預(yù)測方案
?
5GC網(wǎng)元資源占用率預(yù)測方案建模分析? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在方案制定之前,中國聯(lián)通需要先確定 5GC 網(wǎng)元業(yè)務(wù)量與服務(wù)器資源的相互關(guān)系。從已有數(shù)據(jù)分析可知,通信系統(tǒng)的業(yè)務(wù)量是一個典型的時間序列模型,如圖1 左側(cè)所示,不同業(yè)務(wù)的數(shù)據(jù)量是一系列隨時間變化的數(shù)據(jù)序列。同時,包括處理器和內(nèi)存等核心設(shè)備在內(nèi),主要影響服務(wù)器能耗的設(shè)備占用率 (使用壓力) 也是隨時間變化的數(shù)據(jù)序列。
基于這一前提,中國聯(lián)通與英特爾一起,對 5GC 網(wǎng)元業(yè)務(wù)量與處理器 / 內(nèi)存占用率的數(shù)據(jù),進行了探索性分析與可視化。從圖1 可以看到,在不同的業(yè)務(wù)類型下,業(yè)務(wù)數(shù)據(jù)與處理器占用率均有著較高的相關(guān)性,而內(nèi)存占用率則與業(yè)務(wù)量則基本不相關(guān)。
?

?
為進一步確定 5GC 網(wǎng)元業(yè)務(wù)量與處理器占用率之間的對應(yīng)關(guān)系,如圖2 所示,聯(lián)通在 5GC 網(wǎng)元上對兩種數(shù)據(jù)的關(guān)系開展了分析。通過對大量數(shù)據(jù)的采集、整理與分析,獲得了以下結(jié)論并為后續(xù)方案建模的依據(jù):
? 5GC 網(wǎng)元業(yè)務(wù)量與時間 (隨用戶使用量變化) 相關(guān),且存在波峰波谷特性;
? 通信云資源池中的處理器負(fù)載和業(yè)務(wù)量負(fù)載變化規(guī)律趨于一致,因此方案的建模任務(wù)可集中在業(yè)務(wù)量與處理器占用率上;
? 在整個通信業(yè)務(wù)運行期間,可通過實時檢測業(yè)務(wù)負(fù)載、業(yè)務(wù)質(zhì)量指標(biāo)的變化,來靈活調(diào)整服務(wù)器的運行狀態(tài),實施動態(tài)節(jié)能減排;
? 借助英特爾提供的處理器降頻 (在業(yè)務(wù)量負(fù)載低谷期間實施) 等功能,可以實現(xiàn)服務(wù)器能耗調(diào)整。

?
用于構(gòu)建大規(guī)模時間序列分析應(yīng)用程序的Chronos 框架 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
如前所述,無論是 5GC 網(wǎng)元業(yè)務(wù)量還是處理器占用率,兩者都是一系列隨時間變化的數(shù)據(jù),即時間序列數(shù)據(jù)。時間序列數(shù)據(jù)分析可被廣泛應(yīng)用于各個領(lǐng)域的預(yù)測性分析,如通信網(wǎng)絡(luò)質(zhì)量分析、數(shù)據(jù)中心運營的日志分析等。與傳統(tǒng)統(tǒng)計學(xué)方法相比,基于深度學(xué)習(xí)方法開展的時間序列任務(wù),已被證明在預(yù)測準(zhǔn)確性與靈活性上更具優(yōu)勢。因此,中國聯(lián)通新方案選擇了智能化的時間序列預(yù)測性分析方法,以尋求技術(shù)突破。
但傳統(tǒng)上,構(gòu)建時間序列預(yù)測模型并形成高效可用的 AI 應(yīng)用是一個費事費力,且需要較高技術(shù)儲備的過程。從數(shù)據(jù)采集和預(yù)處理、特征工程再到模型訓(xùn)練,各個環(huán)節(jié)都可能影響方案推進。尤其是,以往為提升模型的準(zhǔn)確性和性能,通常需要耗費巨大的人力和時間資源對超參數(shù)進行手動調(diào)優(yōu),且結(jié)果往往并不令人滿意。因此實現(xiàn)更高效的超參數(shù)優(yōu)化 (Hyperparameter optimization, HPO) 過程,也是中國聯(lián)通在新方案構(gòu)建中面臨的重要挑戰(zhàn)。
為此,英特爾向中國聯(lián)通提供了用于構(gòu)建大規(guī)模時間序列預(yù)應(yīng)用程序的 Chronos 框架。如圖3 所示,這一框架源自英特爾開源的統(tǒng)一大數(shù)據(jù)分析和人工智能平臺 BigDL,主要提供了三個組件,功能分別為:
??數(shù)據(jù)處理與特征工程 (Data Processing & Feature Engineering) 組件:內(nèi)置了 70 多個數(shù)據(jù)處理和特征工程工具,通過 TSDataset API 接口來供中國聯(lián)通方便地調(diào)用,從而快捷高效地完成數(shù)據(jù)預(yù)處理和特征工程流程;
??內(nèi)置模型 (Built-in Models) 組件:內(nèi)置 10 余個可用于時間序列預(yù)測、檢測和模擬的獨立深度學(xué)習(xí)和機器學(xué)習(xí)模型;
??超參數(shù)優(yōu)化 (Hyperparameter optimization) 組件:高度集成、可擴展和自動化的工作流 (通過 AutoTSEstimator 等API 實現(xiàn)),能幫助中國聯(lián)通開展從數(shù)據(jù)預(yù)處理、特征工程到模型訓(xùn)練、模型選擇和超參調(diào)優(yōu)等全棧的自動化機器學(xué)習(xí)過程。英特爾提供的多種優(yōu)化方式,例如框架所集成的 ONNX runtime 以及英特爾? oneAPI AI Analytics Toolkit 等,也為推理提供良好支持。

?
基于 Chronos 框架構(gòu)建 5GC 網(wǎng)元資源占用率預(yù)測方案 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
基于 Chronos 框架的豐富組件和集成的優(yōu)化策略,中國聯(lián)通面向 5GC 網(wǎng)元資源占用率的時間序列預(yù)測方案基本流程如圖 4 所示:
? 首先,使用歷史業(yè)務(wù)數(shù)據(jù) (如話務(wù)量等) 與服務(wù)器資源利用率日志 (如處理器占用率等) 進行建模,由 Chronos 框架提供的 TSDataset API 接口對時間序列數(shù)據(jù)快速執(zhí)行填充、縮放等操作,并開展自動特征生成;
? 然后,通過 AutoTSEstimator 等 API,實現(xiàn)超參數(shù)搜索,并根據(jù)預(yù)測目標(biāo)檢索出最佳超參數(shù)集,優(yōu)化模型和數(shù)據(jù)處理工序并形成時間序列預(yù)測模型;
? 最終,使用這一模型對實時業(yè)務(wù)數(shù)據(jù)進行推理 (或進行效果評估和優(yōu)化),獲得最終的處理器占用率預(yù)測數(shù)據(jù)。

?
Chronos 框架為方案帶來了更優(yōu)的預(yù)測效果和更快的預(yù)測速度。例如,針對中國聯(lián)通在新方案中選擇的極端梯度提升模型(eXtreme Gradient Boosting, XGBoost) 算法, Chronos 框架內(nèi)置的 AutoXGBRegressor 能夠?qū)⒃拕?wù)量作為輸入,將對應(yīng)時間的處理器占用率作為輸出,并使用均方誤差 (Mean Square Error, MSE) 來衡量最終的預(yù)測結(jié)果 (MSE 越小越好),同時 AutoXGBRegressor 還能利用自動機器學(xué)習(xí)方法來對模型超參數(shù)進行快速精準(zhǔn)調(diào)整,提升建模效果。
實踐收益:新方案預(yù)測準(zhǔn)確率符合預(yù)期,并為數(shù)據(jù)中心整體能耗優(yōu)化方案創(chuàng)新奠定基礎(chǔ) ? ? ?
? ? ? ? ? ? ?
目前,新方案已在中國聯(lián)通與英特爾的攜手合作下進行了卓有成效的測試驗證。驗證結(jié)果如圖 5 所示,在承載各類 5GC 網(wǎng)元的通信云資源池中,處理器占用率預(yù)測值與實際值對比的最終 MSE 結(jié)果僅為 1.71,而實際的處理器占用率預(yù)測絕對誤差平均小于 1.4%,達(dá)成預(yù)期目標(biāo)。

基于這一全新的預(yù)測模型,中國聯(lián)通已計劃在未來對云資源池開展廣泛的能耗優(yōu)化。一般來講,為保證業(yè)務(wù)服務(wù)質(zhì)量 (Service Level Agreement, SLA) 等級,服務(wù)器處理器的 Power Governor Policy 會設(shè)置為 performance 模式 (即:cpupower frequency-info-policy),但這又會導(dǎo)致處理器能耗一直維持在較高水平。
而對處理器占用率的有效預(yù)測能夠化解這一矛盾,可以帶來以下兩大優(yōu)勢:一方面是在業(yè)務(wù)閑時降低處理器頻率,幫助中國聯(lián)通在保證 SLA 等級的前提下降低功耗;另一方面,基于不同業(yè)務(wù)負(fù)載對于處理器核心頻率 (Core Frequency) 和非核心頻率 (Uncore Frequency) 的不同需求,通過精細(xì)控制兩個頻率,可在滿足 SLA 等級的前提下進一步降低功耗。
在前期開展的技術(shù)性驗證中,通過與基于英特爾? 架構(gòu)的硬件基礎(chǔ)設(shè)施所提供的內(nèi)置功耗調(diào)解機制 (如處理器降頻功能等)相融合,新的優(yōu)化方案預(yù)計可使單臺服務(wù)器降低能耗 15% 以上,推衍到整體云資源池中,預(yù)計每年可直接節(jié)電 4,600 萬度,再加上數(shù)據(jù)中心既有 PUE 方案帶來的節(jié)能降耗,預(yù)計每年可減少二氧化碳排放約 6 萬噸。
如果您想要了解該解決方案的詳細(xì)信息,請關(guān)注英特爾開發(fā)人員專區(qū)微信公眾號在后臺回復(fù)“Unicom5GC”,即可獲取相關(guān)資料。