數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第1頁
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第2頁
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第3頁
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第4頁
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

白皮書數(shù)據(jù)中心算力-電力靈活性協(xié)同研究智能管控計算負(fù)載,靈活調(diào)節(jié)電力負(fù)荷執(zhí)行概要適應(yīng)新能源發(fā)電比例不斷提高,以及用戶側(cè)電力需求響應(yīng)逐步常態(tài)化的趨勢,騰訊攜手英特爾、中國電信,針對通過數(shù)據(jù)中心算力-電力協(xié)同進(jìn)行需求響應(yīng)進(jìn)行了初步可行性研究。本研究提出通過判斷計算任務(wù)在服務(wù)器上的算力-電力特征,在不影響業(yè)務(wù)運(yùn)行的情況下,降低電力部件的實時冗余性、調(diào)整業(yè)務(wù)負(fù)載的并行規(guī)模和時間分布。研究對業(yè)務(wù)-算力-電力三者協(xié)同提供電力靈活性的多種策略進(jìn)行了實際測試,在服務(wù)器集群運(yùn)行不同

IT

任務(wù)類型時,通過切換空載服務(wù)器功耗狀態(tài)、利用服務(wù)器子部件資源消耗不均衡性、平移和伸縮實時性不敏感任務(wù),改變負(fù)荷大小和時間分布,可達(dá)到節(jié)能降耗、對電網(wǎng)負(fù)荷削峰填谷等目的,可適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器。本研究表明,三種策略均可根據(jù)外部指令實現(xiàn)秒級對服務(wù)器功率的快速控制,為數(shù)據(jù)中心參與需求側(cè)分鐘級、秒級響應(yīng),或參與電力現(xiàn)貨市場和電力輔助服務(wù)市場,提供了可行性依據(jù)和技術(shù)支持,顯示數(shù)據(jù)中心的電力靈活性響應(yīng)具備巨大的潛力以及廣闊的應(yīng)用前景。未來,推動其由研究走向數(shù)據(jù)中心算力-電力需求響應(yīng)的成熟應(yīng)用,既需要對更多部件、更復(fù)雜的部署情況進(jìn)行深入實驗,又需要形成自動化系統(tǒng),聯(lián)動業(yè)務(wù)-算力-電力三者的對應(yīng)信息,同時更需要產(chǎn)業(yè)伙伴廣泛協(xié)同,采用一套標(biāo)準(zhǔn)的測試方法標(biāo)定業(yè)務(wù)負(fù)載在機(jī)型上的電力特性數(shù)據(jù),開源共享,從而充分挖掘和發(fā)揮出數(shù)據(jù)中心算力側(cè)的電力靈活性,助力構(gòu)建新型電力系統(tǒng)。目錄執(zhí)行概要

......................................................

1背景

............................................................

1數(shù)智技術(shù)助力需求側(cè)響應(yīng)走向節(jié)能減碳的前臺

..2探索和推進(jìn)數(shù)據(jù)中心電力靈活性實踐

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2系統(tǒng)化構(gòu)建數(shù)據(jù)中心算力-電力靈活性方案

.

.

.

.

.

.4靈活性策略設(shè)計.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.4背景利用空載服務(wù)器在不同功耗狀態(tài)之間切換

................利用計算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性

......44環(huán)境挑戰(zhàn)日益嚴(yán)峻,其影響正受到全球高度關(guān)注。2022

4

4

日,聯(lián)合國政府間氣候變化專門委員會

(IPCC)

正式發(fā)布了第六次評估報告

(AR6),并在第三工作組報告《氣候變利用平移和伸縮實時性不敏感的計算任務(wù)..................5利用網(wǎng)絡(luò)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)

..............................5靈活性策略結(jié)果.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5利用空載服務(wù)器在不同功耗狀態(tài)之間切換的策略測試

....5利用計算任務(wù)在服務(wù)器子部件消耗不均衡性的策略測試

..6硬盤密集型任務(wù)

.....................................6化

2022:減緩氣候變化》中警示

,在

2100

年前將全球升溫控制在

1.5℃

以內(nèi)

(且不導(dǎo)致“過1沖”)

的機(jī)會窗口短暫且正在迅速關(guān)閉,全球減緩氣候變化和適應(yīng)的行動刻不容緩,任何延遲都將關(guān)上機(jī)會之窗,讓人類的未來變得不再具有可持續(xù)性。同期,在中國氣象局

2022

8

月3

日發(fā)布的《中國氣候變化藍(lán)皮書

(2022)》則顯示

,2021

年中國地表平均氣溫較常年值偏高20.97℃,達(dá)1901年以來的最高值,升溫速率高于同期全球平均水平,是全球氣候變化的敏感區(qū)。為有效應(yīng)對嚴(yán)峻的環(huán)境挑戰(zhàn)與經(jīng)濟(jì)社會高質(zhì)量發(fā)展的內(nèi)在壓力,落實聯(lián)合國

2030

年可持續(xù)發(fā)展議程,中國積極實施生態(tài)文明國家戰(zhàn)略,發(fā)布“碳達(dá)峰”和“碳中和”目標(biāo),加快降低碳排放步伐,引導(dǎo)綠色技術(shù)創(chuàng)新。同時,持續(xù)推進(jìn)產(chǎn)業(yè)結(jié)構(gòu)和能源結(jié)構(gòu)調(diào)整,努力兼顧經(jīng)濟(jì)發(fā)展和綠色轉(zhuǎn)型,促進(jìn)可持續(xù)發(fā)展。內(nèi)存密集型任務(wù)

.....................................7CPU

密集型任務(wù)

.....................................8利用平移和伸縮實時性不敏感的計算任務(wù)策略測試

.......8子任務(wù)獨(dú)立型并行計算

..............................9在中國,電力行業(yè)碳排放量占全國碳排放總量的

40%

以上,同時用電增長作為剛性需求,是支撐經(jīng)濟(jì)轉(zhuǎn)型升級和居民生活水平提高的重要保障,這使得電力成為未來

10

年能源增子任務(wù)耦合型并行計算

..............................9對下一步研究的啟示

.....................................10未來展望

....................................................

11鳴謝

...........................................................

11附錄

...........................................................12長的主體

,且在社會整體用能電氣化的背景下新增需求巨大。電力行業(yè)的碳排放峰值及達(dá)3峰速度直接決定著2030

年前全國碳排放達(dá)峰目標(biāo)能否實現(xiàn)。也正是因此,電力行業(yè)的減排成為中國整體實現(xiàn)“雙碳”目標(biāo)的重要抓手,也讓需求側(cè)

(用戶側(cè))

的電力響應(yīng)逐漸走向前臺,并在數(shù)智技術(shù)的助力下,對節(jié)能降碳發(fā)揮日益重要的作用。1白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究數(shù)智技術(shù)助力需求側(cè)響應(yīng)走向節(jié)能減碳的前臺會低碳轉(zhuǎn)型、扶持新興低碳技術(shù)的使命和義務(wù)。為實現(xiàn)這一目標(biāo),騰訊遵循“減排和綠色電力優(yōu)先、抵消為輔”的原則,大力提升數(shù)據(jù)中心的能效水平,積極參與綠電轉(zhuǎn)型及相關(guān)市場建設(shè),并不斷探索碳匯領(lǐng)域的技術(shù)革新。懷著這一宏闊愿景,騰訊積極推進(jìn)數(shù)據(jù)中心節(jié)能減排,例如騰訊在中國南區(qū)的第四代

T-block

技術(shù)通過采用高效率的制冷和供配電架構(gòu),擁有

30

萬臺服務(wù)器的園區(qū)一年能節(jié)省大力發(fā)展風(fēng)電、太陽能等可再生能源,支撐火電從基荷能源往靈活性能源的轉(zhuǎn)變,驅(qū)動行業(yè)轉(zhuǎn)型,是支持全社會加速脫碳的一個關(guān)鍵環(huán)節(jié)。但是,這類可再生能源供應(yīng)存在明顯的間歇性、隨機(jī)性以及不可控特性,這給電網(wǎng)的長期發(fā)電容量和短期實時平衡都帶來了巨大挑戰(zhàn)。因此,調(diào)動用戶側(cè)靈活地深度參與系統(tǒng)平衡,對于以新能源為主體的新型電力系統(tǒng)建設(shè)具有重要支撐作用。約

2.5

億度電,且具有低噪音、高能效等特點與成本優(yōu)勢

。而其中,8經(jīng)與英特爾合作,基于英特爾?

至強(qiáng)?

可擴(kuò)展平臺的首款自研服務(wù)器,分別將計算密度、散熱能力提升

50%

45%,為數(shù)據(jù)中心大幅2021

年底,中國國家能源局修訂發(fā)布《電力并網(wǎng)運(yùn)行管理規(guī)定》(國能發(fā)監(jiān)管規(guī)〔2021〕60

號)4、《電力輔助服務(wù)管理辦法》(國能發(fā)監(jiān)降低電量提供了關(guān)鍵助力

。同時,數(shù)據(jù)中心管理、功耗鉗制、待機(jī)功9管

規(guī)〔2021〕61

號)

,將電力系統(tǒng)參與主體由原來的傳統(tǒng)發(fā)電廠單側(cè)5耗優(yōu)化等相關(guān)技術(shù)也被收錄于英特爾綠色數(shù)據(jù)中心技術(shù)框架中。擴(kuò)展為“源荷”兩側(cè),特別是加入了“風(fēng)光、新型儲能、負(fù)荷側(cè)可調(diào)節(jié)負(fù)荷”,同時也提出“誰提供,誰獲利;誰受益、誰承擔(dān)”原則,電力輔助服務(wù)費(fèi)用由包括發(fā)電企業(yè)、電力用戶在內(nèi)的所有并網(wǎng)主體共同分?jǐn)?。這不僅讓用戶側(cè)的電力精準(zhǔn)預(yù)測成為用能企業(yè)的責(zé)任,也激勵著用能企業(yè)從單純用電方轉(zhuǎn)向電力靈活性的提供方,積極挖掘自身用電靈活調(diào)節(jié)能力。然而目前數(shù)據(jù)中心的建設(shè)規(guī)范和導(dǎo)向,都重點關(guān)注評價數(shù)據(jù)中心能源效率的指標(biāo)

(PUE)

等電力使用效率指標(biāo),也就是數(shù)據(jù)中心總能耗與服務(wù)器等IT

設(shè)備能耗之比,尚未面向數(shù)據(jù)中心提出電力靈活性指標(biāo)。這源于過去服務(wù)器電力供應(yīng)與對應(yīng)的計算任務(wù)信息,處于不同的管理范圍和系統(tǒng),使得數(shù)據(jù)中心一直基于銘牌功率來配置供電,且認(rèn)為負(fù)荷剛性不可調(diào),進(jìn)而一直處于“電力跟隨算力”的狀態(tài)??v觀目前針對數(shù)據(jù)中心的能源管理研究,也主要把算力需求帶來的電力負(fù)荷作為剛性負(fù)荷,把研究的焦點集中在供能系統(tǒng)等非服務(wù)器設(shè)備,重點關(guān)注配然而,用戶側(cè)負(fù)載與人們生活、企業(yè)生產(chǎn)等直接相關(guān)且高度分散的特性,決定了對其控制需要從生產(chǎn)到電力的整體協(xié)同。同時,需求響應(yīng)可調(diào)節(jié)資源類型復(fù)雜,數(shù)據(jù)統(tǒng)計分析工作量大,傳統(tǒng)手段難以

置儲能、優(yōu)化供冷系統(tǒng)調(diào)節(jié)等。其實,細(xì)觀數(shù)據(jù)中心用電結(jié)構(gòu)就會發(fā)應(yīng)對。大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的應(yīng)用與融合,給精細(xì)化進(jìn)行用戶負(fù)荷管理與響應(yīng)帶來了新契機(jī),使得對需求側(cè)負(fù)載進(jìn)行有的現(xiàn),服務(wù)器才是耗電“大戶”,以

PUE

值為

1.3

的數(shù)據(jù)中心為例,服務(wù)器耗電占比

77%。因此,尋找調(diào)節(jié)服務(wù)器的算力和電力負(fù)荷的方式,將放矢地實時調(diào)節(jié)成為可能,其在數(shù)據(jù)中心等領(lǐng)域的應(yīng)用探索和推廣

能發(fā)揮出數(shù)據(jù)中心的巨大電力靈活性潛力。也將為綠色可持續(xù)發(fā)展提供創(chuàng)新動力。PUE

=

數(shù)據(jù)中心總能耗/

IT設(shè)備能耗探索和推進(jìn)數(shù)據(jù)中心電力靈活性實踐PUE,Power

Usage

Effectiveness

的簡寫,是評價數(shù)據(jù)中心能5G、人工智能等新技術(shù)的快速發(fā)展和應(yīng)用,為各行各業(yè)高質(zhì)量發(fā)展提供了強(qiáng)勁新動能,同時也讓作為新型基礎(chǔ)設(shè)施的數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,其能耗和社會用電占比都在持續(xù)增長,預(yù)計2025

年中國數(shù)源效率的指標(biāo)、數(shù)據(jù)中心消耗的所有能源與

IT負(fù)載消耗的能源的比值。其中數(shù)據(jù)中心總能耗包括

IT

設(shè)備能耗和制冷、配電等系統(tǒng)的能耗。PUE值大于

1,越接近

1表明非

IT設(shè)備耗能越少,即數(shù)據(jù)中心能效水平越好。據(jù)中心耗電將占社會總用電量

4%

。因此,加速數(shù)據(jù)中心綠色轉(zhuǎn)型6也成為節(jié)能減排、促進(jìn)可持續(xù)發(fā)展的重要途徑。作為一家領(lǐng)先的互聯(lián)網(wǎng)科技公司,騰訊秉持“用戶為本,科技向善”的同時,數(shù)據(jù)中心作為數(shù)字化技術(shù)的核心節(jié)點,數(shù)字化與自動化基礎(chǔ)較高,與電力相關(guān)的傳感器數(shù)據(jù)采集、設(shè)備控制等也較為齊全。算力消耗的電力是由算力程序驅(qū)動電子元件的電力消耗,算力天然的可觀、可測、可即時調(diào)節(jié)特性,使得實際上可以通過算力的調(diào)整達(dá)到服使命愿景,制定了騰訊自身的碳中和目標(biāo)設(shè)定和減排路線規(guī)劃

,承7諾不晚于

2030

年,實現(xiàn)自身運(yùn)營及供應(yīng)鏈的全面碳中和;同時,不晚于

2030

年,實現(xiàn)

100%

的綠色電力,并希望主動承擔(dān)起助力社2白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究務(wù)器在分鐘級、秒級響應(yīng)速度下的高精度電力負(fù)荷控制,而無需額

?

數(shù)據(jù)中心數(shù)字化程度高,可秒級響應(yīng)并精準(zhǔn)跟隨指定負(fù)荷外增加任何硬件。這使得數(shù)據(jù)中心在電力靈活性調(diào)節(jié)上具備天然的?

無額外硬件購置成本技術(shù)可行性。?

適合任意大小的數(shù)據(jù)中心、集群和服務(wù)器從政策導(dǎo)向看,為了激勵各級、各類用戶積極實施需求側(cè)響應(yīng),電網(wǎng)針對數(shù)據(jù)中心服務(wù)器負(fù)載的需求響應(yīng),國外已有一些相關(guān)實踐。根據(jù)發(fā)出響應(yīng)邀約到需求側(cè)實際執(zhí)行響應(yīng)的時間尺度,已將響應(yīng)分為日前響應(yīng)、小時響應(yīng)、分鐘響應(yīng)、秒級響應(yīng)等模式,并針對不同類自

2017

年以來,谷歌已將每年的用電量

100%

匹配到可再生能源的型的響應(yīng)模式,給予容量

(kW)

和能量

(kWh)

補(bǔ)償。比如,在試點省采購中。2020

年起,谷歌通過在數(shù)據(jù)中心運(yùn)營中配置碳智能計算平份浙江,對電力需求響應(yīng)電能量補(bǔ)償費(fèi)用高達(dá)

4

元/

kWh10,遠(yuǎn)高于臺,使數(shù)據(jù)中心能夠靈活地將計算任務(wù)轉(zhuǎn)移到一天中的不同時段,數(shù)據(jù)中心等平均不到

1

元/

kWh

的工商業(yè)電價11。因此,數(shù)據(jù)中心以來消納更多的太陽能和風(fēng)能等無碳能源。在此基礎(chǔ)上,又基于電網(wǎng)對及數(shù)據(jù)中心的用戶,通過進(jìn)行需求側(cè)響應(yīng),在為電網(wǎng)提供電力靈活碳密集型能源依賴程度的日前預(yù)測,測定不同區(qū)域每小時無碳能源可性的同時,也可為自身帶來可觀的額外收入,將成為數(shù)據(jù)中心發(fā)揮用性,進(jìn)而在全球不同區(qū)域的數(shù)據(jù)中心之間“轉(zhuǎn)移計算”任務(wù),讓太陽能其電力靈活性的強(qiáng)大動力。和風(fēng)能等可再生能源使用“始終在線”,實現(xiàn)電力資源的優(yōu)化匹配12?;诖?,在新能源發(fā)電滲透率不斷提高,用戶側(cè)需求響應(yīng)逐步常態(tài)化,電力調(diào)頻、調(diào)峰、備用等輔助服務(wù)逐步開放的今天,也促使我們思考如何在數(shù)據(jù)中心提升電力靈活性上邁開步伐,促進(jìn)數(shù)據(jù)中心作為豐富的用戶側(cè)電力靈活性資源,助力新型電力系統(tǒng)建設(shè)。針對這一主題,騰訊、英特爾、中國電信攜手,關(guān)注數(shù)據(jù)中心服務(wù)器負(fù)載的電力靈活性,提出通過判斷計算任務(wù)在服務(wù)器上的算力-電力特征,在不影響業(yè)務(wù)運(yùn)行的情況下,降低用電部件的實時冗余性、調(diào)整業(yè)務(wù)負(fù)載的時間分布和并行規(guī)模,從而達(dá)到降低、平移、伸縮數(shù)據(jù)中心服務(wù)器的用電負(fù)荷,形成“算力跟隨電力”的特性,展現(xiàn)出如下優(yōu)勢:日本

NTT

公司在

2011

年,與英特爾合作,為應(yīng)對震后電力供應(yīng)緊張及政府限制企業(yè)用電要求,控制服務(wù)器功率上限與功耗。通過將高負(fù)載服務(wù)器的性能降低到

90%,將數(shù)據(jù)中心峰值用電量降低了

18%;通過將低負(fù)載服務(wù)器的性能降低到

70%,將數(shù)據(jù)中心峰值用電量降低了

16%;而且通過控制服務(wù)器的總功耗,可以在保證關(guān)鍵業(yè)務(wù)不暫停的情況下,在外部斷電期間延長數(shù)據(jù)中心運(yùn)行時間約1.8

倍13。從上述案例可以看出,數(shù)據(jù)中心算力-電力的相互協(xié)同具有巨大潛力,而要主動構(gòu)建數(shù)據(jù)中心的算力電力靈活性能力,核心控制點是在相資源協(xié)同服務(wù)器負(fù)載算力優(yōu)化空間響應(yīng)時間響應(yīng)需求響應(yīng)?

在不影響任務(wù)表現(xiàn)的情況下,調(diào)節(jié)服務(wù)器功率?

關(guān)注響應(yīng)速度、響應(yīng)深度、響應(yīng)時長、響應(yīng)精度數(shù)據(jù)中心負(fù)載藍(lán)色為本研究關(guān)注重點暖通

/供電優(yōu)化余熱回收非服務(wù)器負(fù)載AI優(yōu)化圖1

數(shù)據(jù)中心低碳研究的主要對象和領(lǐng)域3白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究1234服務(wù)器功耗狀態(tài)切換硬件資源性能調(diào)節(jié)動態(tài)調(diào)節(jié)計算任務(wù)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)?

服務(wù)器通過操作系統(tǒng)電源管理、外部

PowerCap

和軟關(guān)機(jī)等方式,進(jìn)行切換功耗狀態(tài)?

利用不同計算任務(wù)對服務(wù)器各硬件子部件的負(fù)載不同,而選擇性降低非瓶頸子部件的功耗?

對實時性不敏感的并行計算任務(wù)進(jìn)行斷點續(xù)算和擴(kuò)縮容,快速改變電力負(fù)荷在時間上的分布?

通過將業(yè)務(wù)冷遷移或者熱遷移到不同地理位置的數(shù)據(jù)中心,而改變多個數(shù)據(jù)中心的電力負(fù)荷在空間上的分布?

功耗狀態(tài)之間的切換時間影響應(yīng)用場景?

包括硬盤密集型、內(nèi)存密集型等任務(wù)?

包括科學(xué)計算、視頻渲染等獨(dú)立

/

耦合型計算任務(wù)CPU原始平移縮容伸縮算力

/負(fù)荷數(shù)據(jù)中心各部件默認(rèn)供電業(yè)務(wù)實際所需供電數(shù)據(jù)中心數(shù)據(jù)中心時間改變數(shù)據(jù)中心電力負(fù)荷的空間分布可降低4%-100%功率可降低2%-26%功率可秒級靈活調(diào)節(jié)負(fù)荷分布圖2

探索數(shù)據(jù)中心服務(wù)器負(fù)荷靈活性的主要策略(藍(lán)色為本研究關(guān)注重點)應(yīng)的時間尺度內(nèi),對計算任務(wù)、服務(wù)器顆粒度甚至其

CPU、硬盤、

和響應(yīng)深度。該策略可以長期運(yùn)用,作為數(shù)據(jù)中心節(jié)能的重要途徑,內(nèi)存等各子部件的顆粒度進(jìn)行調(diào)節(jié),在考慮業(yè)務(wù)性能和電力功率

只是存在精細(xì)管理的成本與節(jié)能收益之間的平衡問題;也可作為響的聯(lián)合優(yōu)化目標(biāo)下,通過將電力消耗納入算力分配的考量,達(dá)到業(yè)

應(yīng)策略,以電力輔助服務(wù)的優(yōu)勢價格,刺激數(shù)據(jù)中心精細(xì)預(yù)測和切務(wù)-算力-電力的三方資源協(xié)同。由此,在不影響業(yè)務(wù)表現(xiàn)的前提下,

換空載服務(wù)器功耗狀態(tài)。服務(wù)器算力的總彈性便成為數(shù)據(jù)中心可主動向電網(wǎng)提供的電力靈活性。系統(tǒng)化構(gòu)建數(shù)據(jù)中心算力-電力靈活性方案通過系統(tǒng)化分析發(fā)現(xiàn),數(shù)據(jù)中心通過算力調(diào)節(jié)進(jìn)行需求響應(yīng),來提供電力輔助服務(wù)的實現(xiàn)策略有四種,分別是利用空載服務(wù)器功耗切換、利用服務(wù)器硬件資源消耗不均衡性、平移和伸縮實時性不敏感任務(wù)以及跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)。針對前三項策略,騰訊、英特爾、中國電信共同合作,組建了橫跨計算機(jī)硬件、計算機(jī)軟件、數(shù)據(jù)中心運(yùn)營、電力領(lǐng)域的專家和工程師,對數(shù)據(jù)中心算力-電力靈活性方案進(jìn)行了探索。圖3

利用服務(wù)器功耗狀態(tài)切換的策略示意圖2.

利用計算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性任何一個業(yè)務(wù)負(fù)載在服務(wù)器上的運(yùn)行,會存在要么服務(wù)器能力有冗余,要么其

CPU、網(wǎng)絡(luò)、內(nèi)存、硬盤等某子部件的某一性能使用密集,成為“短板”,而導(dǎo)致其余部件的能力產(chǎn)生冗余,即“長板”。降低冗余的子部件性能,可以在不影響業(yè)務(wù)負(fù)載運(yùn)行效率的情況下,降低電力負(fù)荷。該策略需要研究一系列的特性數(shù)據(jù),包括業(yè)務(wù)負(fù)載對于各子部件的壓力特性數(shù)據(jù)、總體業(yè)務(wù)性能與子部件性能的關(guān)聯(lián)以及子部件性能變化時的能耗特性數(shù)據(jù),同時在執(zhí)行響應(yīng)時,還需要實時監(jiān)測業(yè)務(wù)負(fù)載對于各子部件的實時壓力數(shù)據(jù),以便根據(jù)之前的特性數(shù)據(jù)集,及時做出電力負(fù)荷調(diào)整的位置和幅度策略。靈活性策略設(shè)計1.

利用空載服務(wù)器在不同功耗狀態(tài)之間切換從時間分布上看,數(shù)據(jù)中心中會有一部分服務(wù)器處于并未執(zhí)行任何工作而空載備用的狀態(tài)。因此,通過業(yè)務(wù)規(guī)模的精細(xì)預(yù)測,對服務(wù)器執(zhí)行不同方式的功率降低和休眠策略,可實現(xiàn)不同級別的響應(yīng)速度4白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究4.

利用網(wǎng)絡(luò)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)CPU通過將業(yè)務(wù)冷遷移或者熱遷移到不同地理位置的數(shù)據(jù)中心,而改變多個數(shù)據(jù)中心的電力負(fù)荷在空間上的分布,該策略需要較龐大的業(yè)務(wù)群及分布式計算存儲業(yè)務(wù)架構(gòu)予以支撐。各部件默認(rèn)供電業(yè)務(wù)實際所需供電數(shù)據(jù)中心圖

4

壓縮計算任務(wù)在服務(wù)器子部件上的冗余性能的策略示意圖3.

利用平移和伸縮實時性不敏感的計算任務(wù)數(shù)據(jù)中心數(shù)據(jù)中心近年來,隨著智慧城市、智能制造、自動駕駛、元宇宙等應(yīng)用的不斷增長,高性能計算

(HPC)

的需求也隨之不斷提升。影視渲染、效果圖渲染等批量計算任務(wù),基因測序、風(fēng)機(jī)工況模擬等科學(xué)計算任務(wù)以及

AI

訓(xùn)練等可并行的計算任務(wù),往往需要消耗大量的服務(wù)器資源和運(yùn)算較長時間,已經(jīng)成為

IT

行業(yè)節(jié)能減排研究的重要課題。這類任務(wù)往往具有計算成本敏感、實時性不敏感、計算規(guī)??勺儎訄D

6

通過跨數(shù)據(jù)中心轉(zhuǎn)移計算任務(wù)來實現(xiàn)電力負(fù)荷調(diào)節(jié)的策略示意圖前三個策略的實現(xiàn)需要業(yè)務(wù)-算力-電力三者的精準(zhǔn)關(guān)聯(lián)關(guān)系和協(xié)同,但能夠適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器,也是本研究的重點。的特性。中國信通院發(fā)布的《數(shù)據(jù)中心白皮書

(2022

年)》顯示14,本項目搭建了一個服務(wù)器集群作為測試環(huán)境

(具體軟硬件配置和網(wǎng)絡(luò)配置見附錄),運(yùn)用了如下兩類工具作為狀態(tài)監(jiān)測和功率調(diào)整工具,進(jìn)行研究和測試:2021

年,全球數(shù)據(jù)中心市場規(guī)模超過

679

億美元;而

TrendForce

報告中指出15,2021

年全球

HPC

市場規(guī)模達(dá)約

368

億美元,較

2020年增長7.1%,并預(yù)估2022

年增長率提升至7.3%。面對這一高速增長的需求,有專家警示道,并行算法和并行軟件設(shè)計,必須考慮降低功耗和提高性能以應(yīng)對高能耗問題16。對此,一方面可以通過實時傳遞價格信號,激勵用戶選擇電力價格較低的時間段進(jìn)行整體運(yùn)算;另一方面,也可以通過斷點續(xù)算、可續(xù)渲染技術(shù),在計算任務(wù)執(zhí)行的過程中暫停乃至對并行規(guī)模進(jìn)行改變,來平移和升降電力負(fù)荷。?

英特爾?

數(shù)據(jù)中心管理平臺

(Intel?

Data

Center

Management,Intel?

DCM):該平臺能夠通過帶外讀取系統(tǒng)整體電力和關(guān)鍵服務(wù)器子部件的使用指標(biāo),高頻率讀取CPU及內(nèi)存實時用電功率,同時其

Power

Governor

模塊中的

PowerCap

功能還能夠提供精準(zhǔn)至單核的

CPU

和內(nèi)存功率毫秒級限制。?

Linux

系統(tǒng)工具:mpstat,

free,

iostat,

nicstat,

用于監(jiān)測

CPU、內(nèi)原始平移縮容伸縮存、硬盤和網(wǎng)絡(luò)的使用狀態(tài)信息。算力

/負(fù)荷靈活性策略結(jié)果利用空載服務(wù)器在不同功耗狀態(tài)之間切換的策略測試空載消耗時間對于單臺實驗服務(wù)器,在未運(yùn)行任何計算任務(wù)的空載狀態(tài)下,消耗圖

5

通過計算任務(wù)平移伸縮來實現(xiàn)電力負(fù)荷調(diào)節(jié)的策略示意圖電力功率

215W,其

CPU

消耗

53%,內(nèi)存消耗

21%。5白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究215W策略FreezePowercap關(guān)機(jī)功率降低9W降低比例4%響應(yīng)速度<1s100%53%CPU57W27%<1s內(nèi)存其他21%26%215W100%~3min表

1

測試結(jié)果表圖

7

實驗中單臺服務(wù)器空載時的功耗及分布利用計算任務(wù)在服務(wù)器子部件消耗不均衡性的策略測試測試流程:對空載狀態(tài)服務(wù)器進(jìn)行功耗狀態(tài)切換不同的程序、甚至單個程序運(yùn)行不同功能時,在不同類型的服務(wù)器上成為“短板”的子部件都可能不同。為使得本項目的業(yè)務(wù)負(fù)載有一定的指標(biāo)意義,本策略的測試中嘗試選取一些盡可能對單一子部件形成壓力的真實或模擬負(fù)載進(jìn)行測試,從而體現(xiàn)其余子部件電力靈活性的最大可能。同時,也選取一些性能指標(biāo),來反映服務(wù)器功耗變化是否對業(yè)務(wù)負(fù)載的性能造成影響。在單機(jī)環(huán)境,測試了三類切換空載服務(wù)器功耗狀態(tài)的方式:?

Linux

功耗狀態(tài)設(shè)置為

freeze,并通過

HMI

喚醒;?

通過

Intel?

DCM

PowerCap

CPU

功率上限調(diào)節(jié)至最低,并通過解除設(shè)定來恢復(fù)功率;?

輸入系統(tǒng)命令

shutdown,進(jìn)行軟關(guān)機(jī),再通過電源按鍵啟動。對單一部件施加壓力的負(fù)載并不代表不會對其他子部件造成壓力,例如內(nèi)存的讀寫操作不可避免地會帶來

CPU的運(yùn)算操作。因此本項目中盡可能選取對單一部件壓力最大、同時關(guān)聯(lián)的其他子部件的壓力盡可能小的模擬負(fù)荷,以窺斑見豹。實際數(shù)據(jù)中心中運(yùn)行的程序,可以近似看做是這些單一模擬負(fù)荷的組合,從而近似預(yù)測出其電力靈活性。Freeze下發(fā)指令恢復(fù)指令空載PowerCap空載關(guān)機(jī)硬盤密集型任務(wù)測試負(fù)載圖

8

測試策略流程圖測試結(jié)論Linux

系統(tǒng)上的

dd

工具,能夠用指定大小的塊拷貝一個文件,并在拷貝的同時進(jìn)行指定的轉(zhuǎn)換。Linux

系統(tǒng)設(shè)計的一個重要思想是“一切皆為文件”,硬盤設(shè)備對

Linux

系統(tǒng)來說屬于塊設(shè)備類型。dd

命令可以幫助工程師直接讀取或?qū)懭氪疟P塊設(shè)備文件。在本項目中,dd命令用于模擬一個硬盤

I/O

密集型的任務(wù),對硬盤

I/O

造成壓力。測試數(shù)據(jù)顯示,通過切換服務(wù)器空載狀態(tài),三種模式皆可獲得功率降低。其中,F(xiàn)reeze、PowerCap

皆可秒級響應(yīng),功率降比分別為4%、27%;關(guān)機(jī)帶來的功率降低最大,達(dá)

100%,但切換開關(guān)機(jī)需要2.5

分鐘,額外消耗電量

0.0083kWh。CPU空載狀態(tài)省電指令下發(fā)恢復(fù)指令下發(fā)空載狀態(tài)25020015010050服務(wù)器功率(W)GPU內(nèi)存帶寬FreezePowercapShutdown硬盤網(wǎng)絡(luò)0時間(分鐘)02468101214161820圖

10

測試負(fù)載對各子部件的壓力特性圖圖9

Freeze、PowerCap

和關(guān)機(jī)三種方式下的功耗和響應(yīng)特征曲線6白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究測試流程:通過

dd

工具持續(xù)向硬盤寫入和刪除文件,并逐

集型業(yè)務(wù)負(fù)載。同時運(yùn)行的

memtester

進(jìn)程越多,內(nèi)存帶寬使用率就步通過降低CPU

功率從而降低服務(wù)器功率。越高。CPU采用單服務(wù)器,使用PowerCap

對CPU

進(jìn)行不同功率水平的限制,并進(jìn)行以下操作:運(yùn)行

dd

命令向硬盤寫入

1

512MB

大小的文件,重復(fù)三次,得到在不同功率水平下,在硬盤中寫入三次同樣的文件所消耗的平均時間及平均寫入速度。GPU內(nèi)存帶寬硬盤網(wǎng)絡(luò)硬盤復(fù)制

1024x5MB降低

CPU

功率記錄任務(wù)所用時間圖

13

測試負(fù)載對各子部件的壓力特性圖文件并刪除測試流程:通過

memtester

工具,使得對內(nèi)存帶寬利用率維持在多個水平的壓力,并逐步降低CPU

功率。圖

11

策略測試流程圖基于單服務(wù)器,執(zhí)行

Linux

系統(tǒng)上

memtester

工具,使得對內(nèi)存帶寬利用率維持在

74%、47%

28%

三個壓力水平。接著使用PowerCap

CPU

進(jìn)行逐步降低的功率限制,監(jiān)測內(nèi)存帶寬利用率的變化。測試結(jié)論測試數(shù)據(jù)顯示,在執(zhí)行硬盤密集型任務(wù)時,可將

CPU

功率由

215

W壓縮至

160W,降比達(dá)

26%,且對硬盤寫入速度沒有影響。所用時間

(秒)Band

74

任務(wù)40監(jiān)測內(nèi)存帶寬降低

CPU

功率Band

47

任務(wù)Band

28任務(wù)利用率30可壓縮功率空間20100圖

14

策略測試流程圖測試結(jié)論220210200190180170160150總功率

(W)CPU

功率進(jìn)行壓測試數(shù)據(jù)顯示,在執(zhí)行內(nèi)存密集型任務(wù)時,可對圖

12

硬盤密集型任務(wù)的性能-電力特性曲線縮,當(dāng)內(nèi)存帶寬占用率分別約為

74%、47%、28%

時,初始服務(wù)器功率各自為

313W、278W

255W,可壓縮的功率各自為

18%、8%

和2%,可以推論,對于內(nèi)存

I/O

密集型任務(wù),內(nèi)存占用越高,而

CPU

功率可壓縮空間越大。初始功率功率壓縮值功率壓縮比例215W55W26%表

2

測試結(jié)果表功率可壓縮空間內(nèi)存帶寬利

80用率

(%)band74內(nèi)存密集型任務(wù)band4760band

28測試負(fù)載40200memtester

是Linux

系統(tǒng)下的一款內(nèi)存測試工具,可以幫助開發(fā)人員在用戶空間下對內(nèi)存進(jìn)行壓力測試。開發(fā)人員可以通過

memtester限定測試內(nèi)存的大小與次數(shù),在指定的內(nèi)存大小中進(jìn)行隨機(jī)值,異或等一系列測試。在本測試過程中,通過運(yùn)行

memtester

模擬內(nèi)存密350300250200150服務(wù)器功率

(W)圖

15

內(nèi)存

I/O

密集型任務(wù)的性能-電力特性曲線7白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究秒增至

2,303

秒,表明通過控制

CPU

功率,降低服務(wù)器總功耗將相應(yīng)降低任務(wù)執(zhí)行速度。后續(xù)應(yīng)探索針對服務(wù)器

CPU

之外的子部件的功率控制,如對內(nèi)存、網(wǎng)絡(luò)的功率控制,挖掘針對

CPU

密集型任務(wù),壓縮其余子部件硬件性能電力冗余對的潛力。初始功率功率壓縮值6W功率壓縮比例Band

28Band

47Band

74255W278W313W2%8%23W57W18%所用時間

(秒)表

3

測試結(jié)果表CPU

密集型任務(wù)22660000222200001188000011440000測試負(fù)載Intel

Linpack

是國際流行的用于測試計算機(jī)系統(tǒng)浮點性能的基準(zhǔn)程序。通過對高性能計算機(jī)采用高斯消元法求解一元

N次稠密線性代數(shù)方程組的測試,評價計算機(jī)的浮點性能。Linpack

SMP

版本在單節(jié)點上運(yùn)行,在本測試中用于模擬單節(jié)點上的

CPU

密集型任務(wù),任務(wù)的具體參數(shù)見附錄。100010004400

003355003300

00功功率率((WW))22550022000圖

18

CPU

密集型任務(wù)的性能-電力特性曲線

(CPU

功率調(diào)控)利用平移和伸縮實時性不敏感的計算任務(wù)策略測試CPU如今許多并行計算類的任務(wù)具備了斷點續(xù)算功能,有些應(yīng)用程序本身就支持?jǐn)帱c續(xù)算,而有些可以通過

Message

Passing

Interface

(MPI)中支持?jǐn)帱c續(xù)算的checkpoint

/

restart

技術(shù)來實現(xiàn)。斷點續(xù)算可保證任務(wù)隨時可以被中斷,并在重啟后繼續(xù)運(yùn)算,而不是重新開始,從而在電力上支持將算力需求,也就是電力需求進(jìn)行平移。GPU內(nèi)存帶寬硬盤網(wǎng)絡(luò)圖

16

測試負(fù)載對各子部件的壓力特性圖在斷點續(xù)算的基礎(chǔ)上,如果應(yīng)用軟件還具有并行計算節(jié)點數(shù)可變的能力,則可以實現(xiàn)算力需求的隨時擴(kuò)容和縮容,達(dá)到電力需求的伸縮。并行計算通過將一個計算任務(wù)進(jìn)行分解,形成在不同節(jié)點上并行計算的子任務(wù)。對于子任務(wù)相互獨(dú)立的并行任務(wù),并行效率能夠達(dá)到

100%,因此計算效率幾乎不受并行節(jié)點的數(shù)量和網(wǎng)絡(luò)的影響。而對于子任務(wù)耦合的并行任務(wù),子任務(wù)間需要通過網(wǎng)絡(luò)進(jìn)行通訊和同步,從而除了計算任務(wù)本身的時間消耗,還會帶來額外的通訊計算和等待的過程。本項目分別選取了子任務(wù)獨(dú)立和子任務(wù)耦合兩類并行計算任務(wù),測試了其算力和電力的平移與伸縮性能。測試流程:運(yùn)行

Linpack

SMP

任務(wù)作為

CPU

密集型的任務(wù),并逐步通過降低

CPU

功率而降低服務(wù)器功率,記錄任務(wù)運(yùn)行時間?;趩畏?wù)器,使用PowerCap

對CPU

進(jìn)行不同功率水平的限制,進(jìn)行以下操作:啟動

Linpack

SMP

任務(wù),記錄計算完成時的計算時長和

G?ops

指標(biāo)。單節(jié)點

LINPACKSMP降低

CPU

功率記錄任務(wù)所用時間負(fù)載計算任務(wù)計算任務(wù)圖

17

策略測試流程圖測試結(jié)論測試數(shù)據(jù)顯示,降低服務(wù)器功率時不存在任務(wù)完成時間不變的“平圖

19

子任務(wù)獨(dú)立與子任務(wù)耦合的并行計算任務(wù)臺區(qū)域”,當(dāng)服務(wù)器功率從

363W

降為

232W

時,計算耗時從

1,3778白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究子任務(wù)獨(dú)立型并行計算測試結(jié)論測試負(fù)載測試數(shù)據(jù)顯示,在

2個節(jié)點上運(yùn)行計算任務(wù),耗時

10

27

秒,總功耗為

118Wh;在

2

節(jié)點運(yùn)行一段時間后中斷任務(wù),再將剩余的計算量縮容至

1個節(jié)點續(xù)算,耗時

13

49

秒,總功耗

123Wh;在

2個節(jié)點運(yùn)行計算任務(wù),運(yùn)行一段時間后中斷任務(wù),再將剩余的計算量擴(kuò)容至

3

個節(jié)點上續(xù)算,總計算耗時

9

54

秒,總功耗

125Wh。數(shù)據(jù)表明,對于可分配至計算節(jié)點獨(dú)立計算的并行任務(wù),可通過縮容、擴(kuò)容、平移調(diào)整計算節(jié)奏,且不會顯著影響總耗電量和總時長。此策略可根據(jù)電網(wǎng)響應(yīng)邀約時段和負(fù)荷調(diào)節(jié)要求,靈活改變算力分布,達(dá)到“削峰填谷”。對于汽車研發(fā)企業(yè),白車身輕量化對提升整車的性能質(zhì)量、節(jié)省制造成本具有重大意義,卻是一個多變量、多目標(biāo)、跨學(xué)科和計算代價昂貴的復(fù)雜決策優(yōu)化問題。本測試中的優(yōu)化問題,將前地板、外擋板等

20個位置的料厚作為優(yōu)化的設(shè)計變量,求解白車身在滿足剛度性能前提下,結(jié)構(gòu)輕量化和1階模態(tài)性能的最優(yōu)解。該優(yōu)化問題通過

UniXDE

多學(xué)科設(shè)計優(yōu)化軟件17,進(jìn)行分布并行計算,具體計算任務(wù)參數(shù)如附錄所示。CPU功率

(W)

120010’27’’118Wh13’49’’123Wh9’54’’125Wh3節(jié)點10008006004002000GPU內(nèi)存帶寬2節(jié)點1節(jié)點硬盤網(wǎng)絡(luò)圖

20

測試負(fù)載對各子部件的壓力特性圖時間測試流程:在

2~3

臺計算節(jié)點上分別按以下

3

種策略在UniXDE

軟件中執(zhí)行一個白車身輕量化的優(yōu)化計算任務(wù),在計算中途改變計算節(jié)點規(guī)模,達(dá)到伸縮該任務(wù)電力負(fù)荷的目的,記錄計算消耗時長。圖

22

縮容、平移、擴(kuò)容子任務(wù)獨(dú)立型并行任務(wù)的負(fù)荷特征曲線子任務(wù)耦合型并行計算測試負(fù)載?

基線:在

2

臺計算節(jié)點上運(yùn)行計算任務(wù),一直到計算完畢;VASP(Vienna

Ab

initio

Simulation

Package)

是當(dāng)下具備最廣泛的國際認(rèn)可度之一的材料計算模擬程序,在半導(dǎo)體芯片、量子物理等領(lǐng)域廣泛使用。VASP

作為一個優(yōu)化計算程序,支持并行計算和斷?

縮容:在

2

臺計算節(jié)點上運(yùn)行計算任務(wù),運(yùn)行一段時間后中斷任務(wù),再將剩余的計算量在

1臺計算節(jié)點上續(xù)算,一直到計算完畢;?

平移+擴(kuò)容:在

2

臺計算節(jié)點上運(yùn)行計算任務(wù),運(yùn)行一段時間后中

點續(xù)算18。因此在此通過對一個

VASP

任務(wù)在運(yùn)行過程中的計算資斷任務(wù),再將剩余的計算量在

3

臺計算節(jié)點上續(xù)算,一直到計算

源進(jìn)行調(diào)整,達(dá)到伸縮該任務(wù)的電力負(fù)荷的目的。本測試中,使用完畢。一個

VASP

任務(wù)作為典型的子任務(wù)耦合型并行計算任務(wù),任務(wù)詳細(xì)參數(shù)請見附錄。2節(jié)點運(yùn)算CPU獨(dú)立型并行計算任務(wù)記錄功率和時長縮容GPU內(nèi)存帶寬2節(jié)點運(yùn)算2節(jié)點運(yùn)算1節(jié)點運(yùn)算3節(jié)點運(yùn)算硬盤網(wǎng)絡(luò)平移擴(kuò)容中斷圖

23

測試負(fù)載對各子部件的壓力特性圖圖

21

策略測試流程圖9白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究測試流程:執(zhí)行

VASP

并行計算任務(wù),在計算過程中進(jìn)行斷點續(xù)算和計算節(jié)點規(guī)模的改變,達(dá)到平移和伸縮該任務(wù)電力負(fù)荷的目的,記錄計算消耗時長。15001000500052’41’’511Wh41’42’’753Wh4

節(jié)點37’07‘’623Wh45’35‘’661Wh?

基線1:在2

臺計算節(jié)點上并行計算VASP

任務(wù),一直到計算完畢;?

基線2:在4臺計算節(jié)點上并行計算VASP任務(wù),一直到計算完畢;2節(jié)點?

平移:在

4

臺計算節(jié)點上并行計算

VASP

任務(wù),計算一段時間后中斷任務(wù),等待一段時間,在

4

臺計算節(jié)點上對中斷的

VASP

任務(wù)進(jìn)行續(xù)算,一直到計算完畢;圖

25

擴(kuò)容、平移、縮容子任務(wù)耦合型并行任務(wù)的負(fù)荷特征曲線通過以上三種策略,我們證明服務(wù)器集群在運(yùn)行不同

IT

任務(wù)類型時,可以通過切換空載服務(wù)器功耗狀態(tài)、利用服務(wù)器子部件資源消耗不均衡性、平移和伸縮實時性不敏感任務(wù)等方式,在不影響任務(wù)表現(xiàn)的同時,實現(xiàn)對服務(wù)器功率的調(diào)整,可適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器。其中,策略一和策略二,可在業(yè)務(wù)無感知的情境下實現(xiàn)

2%-27%

的負(fù)荷深度降低,可常態(tài)化實現(xiàn)節(jié)能目的,顯著降低數(shù)據(jù)中心整體能耗和電力費(fèi)用。策略三可對如科學(xué)計算、視頻渲染等實時性不敏感的業(yè)務(wù)進(jìn)行平移、擴(kuò)縮容,達(dá)到對服務(wù)器功率在時間分布上的人為控制。以上三種策略均顯示服務(wù)器可根據(jù)外部指令實現(xiàn)秒級對服務(wù)器功率的快速控制,為數(shù)據(jù)中心參與需求側(cè)分鐘級、秒級響應(yīng),或參與電力輔助服務(wù)市場交易,提供了可行性依據(jù)。?

平移+縮容:在

4

臺計算節(jié)點上并行計算

VASP

任務(wù)計算一段時間后中斷任務(wù),等待一段時間,在

2

臺計算節(jié)點上對中斷的

VASP任務(wù)進(jìn)行續(xù)算,一直到計算完畢。2節(jié)點運(yùn)算4節(jié)點運(yùn)算耦合型并行計算任務(wù)記錄功率和時長平移平移平移縮容中斷中斷4節(jié)點運(yùn)算4節(jié)點運(yùn)算4節(jié)點運(yùn)算2節(jié)點運(yùn)算對下一步研究的啟示圖

24

策略測試流程圖本項目提供了一個在數(shù)據(jù)中心利用算力-電力協(xié)同進(jìn)行需求響應(yīng),從而提供電力輔助服務(wù)的初步可行性研究,在測試的設(shè)計上不盡周全,在分析的過程中也仍有許多未知和值得深入探討的問題,歡迎各領(lǐng)域的學(xué)者、專家、產(chǎn)業(yè)伙伴給予指教與建議。在形成一個數(shù)據(jù)中心算力-電力需求響應(yīng)的成熟方案之前,無疑需要在更多的機(jī)型上對更加多元化的計算任務(wù)進(jìn)行特性數(shù)據(jù)測試。除此之外,下一步的實驗也需要將以下幾方面納入研究:測試結(jié)論測試數(shù)據(jù)顯示,在2

個節(jié)點上進(jìn)行并行計算,耗時52

分41

秒,總功耗511Wh;在4

個節(jié)點實施并行計算,耗時41

分42

秒,總功耗753Wh;在4

個節(jié)點上平移計算任務(wù),也就是并行計算一段時間后中斷,等待一段時間,進(jìn)行續(xù)算,總計算耗時

37

7

秒,總功耗

623Wh;在

4個節(jié)點并行計算一段時間后中斷,等待一段時間,然后縮容至

2

個節(jié)點,對中斷的任務(wù)進(jìn)行續(xù)算,總計算耗時

45

35

秒,總功耗661Wh。這表明,子任務(wù)耦合型并行計算任務(wù)也可通過縮容、平移,來靈活調(diào)整服務(wù)器功率,但由于網(wǎng)絡(luò)等因素的限制,算力和電力的擴(kuò)縮容關(guān)系非線性。?

CPU

功率調(diào)控到內(nèi)存功率調(diào)控:本項目中所使用的服務(wù)器內(nèi)存配置較小,也未涉及運(yùn)行非內(nèi)存密集型的任務(wù)時限制內(nèi)存功率的測試。而對于一些大內(nèi)存機(jī)型,其功率可占到總服務(wù)器功率的40%

以上,對于內(nèi)存功率調(diào)控的研究就顯得極其必要;10白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究?

從服務(wù)器到數(shù)據(jù)中心整體:本項目中的測試和監(jiān)測對象只有服務(wù)

未來展望器,尚未納入交換機(jī)和制冷設(shè)備的關(guān)聯(lián)影響,其中包括:由實驗研究到應(yīng)用解決方案:本項目對數(shù)據(jù)中心算力-電力協(xié)同進(jìn)-

響應(yīng)特性:當(dāng)大量的服務(wù)器進(jìn)行電力響應(yīng)并持續(xù)一段時間后,很可能帶來相關(guān)聯(lián)的交換機(jī)和制冷設(shè)備的功率變化,從而形成系統(tǒng)型響應(yīng)特征曲線;行電力靈活性響應(yīng)的策略應(yīng)用進(jìn)行了初步可行性研究,已經(jīng)展現(xiàn)出其巨大的潛力及廣闊的應(yīng)用前景。但是上述研究對每一種策略應(yīng)用只選取了一兩個工作負(fù)載且只在一種機(jī)型上進(jìn)行了可行性驗證,測試了特性數(shù)據(jù)。而要針對實際運(yùn)行的數(shù)據(jù)中心進(jìn)行電力現(xiàn)貨交易,打造需求響應(yīng)能力,并提供精準(zhǔn)的電力輔助服務(wù),無疑需要有一套自動化系統(tǒng),集合業(yè)務(wù)-算力-電力三者的對應(yīng)信息,具備監(jiān)控、預(yù)測、響應(yīng)策略規(guī)劃組合和調(diào)節(jié)控制的四項能力,方能對服務(wù)器集群和其各子部件進(jìn)行敏銳監(jiān)測和靈活調(diào)控,進(jìn)而實現(xiàn)協(xié)同響應(yīng)。-

策略組合:對于整個數(shù)據(jù)中心,可根據(jù)各個服務(wù)器的狀態(tài)和執(zhí)行的任務(wù)特性,采用不同策略的組合,從而獲得整個機(jī)架、機(jī)柜、數(shù)據(jù)中心層級的負(fù)荷調(diào)節(jié)。?

從物理機(jī)到虛擬化:本項目中的業(yè)務(wù)負(fù)載直接運(yùn)行在物理機(jī)上,從而能夠獲得更直觀的算力-電力的關(guān)聯(lián)關(guān)系,而在實際業(yè)務(wù)環(huán)境中有相當(dāng)多的數(shù)據(jù)中心和服務(wù)器進(jìn)行了虛擬化和混部,這使得業(yè)務(wù)負(fù)載-算力-電力之間又多添加了虛擬化層和混部運(yùn)行,增加了精細(xì)管理的復(fù)雜度,但同時虛擬化及其資源調(diào)度也為算力分布調(diào)整能力帶來了更大空間;開放式協(xié)作與特性數(shù)據(jù)庫:要對一個數(shù)據(jù)中心進(jìn)行電力靈活性的預(yù)測和策略,需要不同負(fù)載在不同服務(wù)器以及其子部件

(包括

CPU、硬盤、內(nèi)存等)

的電力響應(yīng)特性數(shù)據(jù)作為基礎(chǔ)。然而逐個對其進(jìn)行測試帶來的巨大工作量,對于任何一方都難以承擔(dān)。這就需要業(yè)務(wù)(程序)開發(fā)方、硬件生產(chǎn)商、業(yè)務(wù)運(yùn)行方甚至硬件調(diào)度方

(例如云或超算中心的運(yùn)營商)

開放式協(xié)作,制定和采用一套標(biāo)準(zhǔn)的測試方法、數(shù)據(jù)格式和數(shù)據(jù)共享網(wǎng)絡(luò)來共同推進(jìn),進(jìn)而加速實現(xiàn)智能管控計算負(fù)載,充分挖掘和發(fā)揮出數(shù)據(jù)中心的電力靈活性潛力,助力構(gòu)建新型電力系統(tǒng)。?

性能指標(biāo)的定義:本項目中的業(yè)務(wù)負(fù)載性能特性比較單一,而在實際運(yùn)行業(yè)務(wù)中,有可能除了計算速度

(消耗時間)

之外,還包含穩(wěn)定性、網(wǎng)絡(luò)延遲等其他性能,需要與每一個業(yè)務(wù)負(fù)載的開發(fā)者和運(yùn)營者進(jìn)行具體探討。鳴謝協(xié)作、開放、可持續(xù)是技術(shù)創(chuàng)新的環(huán)境要素。本項目有賴于橫跨計算機(jī)硬件、計算機(jī)軟件、數(shù)據(jù)中心運(yùn)營、電力等各個方向的同仁共同合作,在此特別鳴謝以下同仁在測試中的貢獻(xiàn)

(排名不分先后)。騰訊:周瀅埡、童流川、許浩、蘇鑫、梁家啟、馬國勇、邵明、趙傳寓、朱健保、淮賽男

、孫敏浩英特爾:崔煜、朱晟偉、王愛喜、解強(qiáng)、史毅磊、華雯、古今、高陽中國電信:高清爽樹優(yōu)科技:賴宇陽、葉芳、方立橋、孫軍勇、魏凱鋒11白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究附錄1、英特爾綠色數(shù)據(jù)中心技術(shù)框架綠色數(shù)據(jù)中心目標(biāo)先進(jìn)散熱技術(shù)能效與功率密度基礎(chǔ)設(shè)施智能化?

高壓直流?

分布式電池技術(shù)?

Data

Center

Management?

帶內(nèi)系統(tǒng)狀態(tài)感知與AI

運(yùn)維數(shù)據(jù)中心層機(jī)架層?

液冷整體解決方案?

冷板方案?

高功率密度機(jī)架?

集中式供電設(shè)計?

機(jī)柜功率鉗制管理?

英特爾?

Turbo

機(jī)柜技術(shù)?

浸沒式液冷設(shè)計指南/規(guī)范?

冷板式液冷設(shè)計指南/規(guī)范?

先進(jìn)風(fēng)冷設(shè)計指南/規(guī)范?

待機(jī)功耗優(yōu)化技術(shù)?

服務(wù)器狀態(tài)感知?

節(jié)點管理技術(shù)服務(wù)器層XPU

層?

48V

供電架構(gòu)?

英特爾?片上集成電壓轉(zhuǎn)換控制技術(shù)?

定制化

CPU

的結(jié)/殼溫考量?

考慮熱性能的硅片設(shè)計?

英特爾?

速度選擇技術(shù)客戶碳足跡與數(shù)據(jù)中心

PUE

計算

(方法論,測試基準(zhǔn),工具,

…)2、測試環(huán)境軟硬件配置表機(jī)柜服務(wù)器CPU2臺20臺型號:英特爾?

至強(qiáng)?

E5-2680V4處理器,35M

Cache,

2.40

GHzCPU顆數(shù):2CPU總核數(shù):28內(nèi)存硬盤128G300G

*2

HDD操作系統(tǒng)TLinux

2.2

(兼容

CentOS

7)3、測試環(huán)境網(wǎng)絡(luò)配置圖跳板機(jī)交換機(jī)

1帶內(nèi)管理,萬兆光口網(wǎng)絡(luò)交換機(jī)

2帶外管理,千兆電口網(wǎng)絡(luò)管理節(jié)點計算節(jié)點

01……計算節(jié)點

20共享文件盤12白皮書

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究4、測試負(fù)載配置參數(shù)?

利用計算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性策略測試

-CPU

密集型任務(wù)本項目中使用的Linpack

SMP參數(shù)如下:Linpack

SMP

DistirbutionProblem

sizexlinpack_xeon6458608,

12083258608,

120832LDA不同

Problem

Size

會影響計算過程中內(nèi)存的占有量,在本實驗中使用了兩種Problem

Size,但由于實驗機(jī)型的內(nèi)存功率相較于整體服務(wù)器功率較小,因此不同實驗Linpack

配置對于內(nèi)存功率變化不明顯,在分析中僅展示Problem

Size

為58608

的運(yùn)行結(jié)果。?

利用平移和伸縮實時性不敏感的計算任務(wù)策略測試:子任務(wù)獨(dú)立型并行計算白車身輕量化問題在

UniXDE

多學(xué)科設(shè)計優(yōu)化軟件中進(jìn)行優(yōu)化流程的集成和軟件調(diào)用計算,約束條件和目標(biāo)函數(shù)設(shè)定如下表所示:機(jī)柜指標(biāo)門檻梁彎曲剛度扭轉(zhuǎn)剛度指標(biāo)值<12811.5(N/mm)<5356.8(N*mm/°)最大化約束條件1階模態(tài)性能白車身質(zhì)量迭代次數(shù)優(yōu)化目標(biāo)計算設(shè)定最小化300種群規(guī)模1001

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論