基于深度強化學習的建筑能源系統(tǒng)優(yōu)化策略_第1頁
基于深度強化學習的建筑能源系統(tǒng)優(yōu)化策略_第2頁
基于深度強化學習的建筑能源系統(tǒng)優(yōu)化策略_第3頁
基于深度強化學習的建筑能源系統(tǒng)優(yōu)化策略_第4頁
基于深度強化學習的建筑能源系統(tǒng)優(yōu)化策略_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

01建筑能源系統(tǒng)結構及設備模型建筑能源系統(tǒng)包括光伏發(fā)電組件、蓄電池儲能裝置以及電熱泵,具體結構如圖1所示。圖1

建筑能源系統(tǒng)結構Fig.1

Structureofbuildingenergysystem1.1

光伏發(fā)電組件決定光伏發(fā)電組件功率輸出的主要因素包括局部太陽輻射強度、光伏板面積和光伏系統(tǒng)發(fā)電效率,其中發(fā)電效率主要考慮光伏系統(tǒng)逆變器和并網(wǎng)之間的轉換效率。t時刻光伏發(fā)電功率為式中:

Er

為太陽輻射,kW/m2;

Apv

為光伏板總面積,m2;

ηpv

為發(fā)電效率,設定為0.104;k為溫度系數(shù),設定為?3.7×10?3

;

Tref

為參照溫度,設定為25℃;

Tcell

為光伏發(fā)電計算溫度,具體表示為式中:

Tamb

為環(huán)境溫度。1.2

蓄電池儲能組件蓄電池儲能組件可以消納可再生能源和緩解負荷的不確定性。為t時刻電池荷電狀態(tài),定義為電量與電池容量的比值,具體表示為式中:

σ

為蓄電池的自放電率;

ηch

ηdis

分別為蓄電池的充、放電效率;

為充放電功率;

Wb

為電池容量,kW·h;Δt

為時間步長。儲能系統(tǒng)的約束包括充放電功率和電池容量狀態(tài),具體表示為式中:分別為蓄電池荷電狀態(tài)的最小值、最大值;

Pmin

Pmax

分別為蓄電池充放電功率的最小值、最大值。1.3

電熱泵組件冬季建筑內(nèi)空氣溫度的變化與室外溫度、熱泵運行參數(shù)和建筑熱參數(shù)等相關,故t+1時刻室內(nèi)溫度為式中:為t時刻室外溫度;

Cb

為建筑熱容量;

Ri?a

為室內(nèi)和環(huán)境之間的熱阻;

PHP

為電熱泵額定功率;為t時刻空調運行狀態(tài)動作;

αCOP

、

βCOP

為熱泵線性COP系數(shù),分別設定為0.0606和2.612;

Aw

為窗戶面積;為窗戶太陽輻射。

02基于深度強化學習算法求解過程2.1

馬爾可夫決策過程天氣狀況、電價以及光伏發(fā)電等不確定性因素給能源管理系統(tǒng)的實時最優(yōu)策略制訂帶來了極大的挑戰(zhàn)。本文旨在獲得最優(yōu)的系統(tǒng)時序性決策鏈,最優(yōu)意味著當下的決策不僅要考慮下一步的效果,還要考慮該決策所產(chǎn)生的后效性。為此,需要簡化時序模型的復雜度,故提出馬爾可夫假設,即假設系統(tǒng)下一時刻狀態(tài)僅與當前時刻狀態(tài)有關,而與之前狀態(tài)無關。本文將該優(yōu)化問題表述為1個馬爾可夫決策問題,具體表示為(S,

A,

R,

π),其中S為環(huán)境狀態(tài)集合,A為智能體動作集合,S×A→R為獎勵函數(shù),π為智能體策略集。在每個時間步驟t中,智能體作為控制中心,通過觀察環(huán)境狀態(tài)

st∈S

,并基于策略π選擇動作

at∈A(s)后,智能體得到獎勵

r(st,at),同時環(huán)境變成下一個狀態(tài)。智能體與環(huán)境交互如圖2所示。圖2

智能體與環(huán)境交互Fig.2

Schematicoftheagentinteractingwiththeenvironment2.2

要素定義1)狀態(tài)空間。狀態(tài)空間包含一組與環(huán)境相關的已知物理量,在能源管理系統(tǒng)調度的過程中,t時刻智能體觀察到的環(huán)境狀態(tài)空間St為式中:

pt

為實時電價,元/(kW·h)。2)動作空間。智能體通過觀察環(huán)境狀態(tài)判斷后,作出控制策略的集合即為動作空間。在本文系統(tǒng)中,控制變量包含熱泵的運行功率和蓄電池儲能系統(tǒng)的充放電狀態(tài),將其分別定義為離散動作變量,具體表示為式中:分別為熱泵和電池離散動作集合;為熱泵動作取值(0,0.25,0.50,0.75,1.00),從0到1表示熱泵負荷逐漸增大;為儲能系統(tǒng)動作取值(1,–1,0),分別表示充電、放電和不充不放電。3)獎勵函數(shù)。對于本文提出的能源管理系統(tǒng),智能體優(yōu)化的目標包括降低用電成本、合理控制室內(nèi)溫度和消納光伏發(fā)電量。為了實現(xiàn)多目標優(yōu)化,提出多個任務獎勵函數(shù)來實現(xiàn)聯(lián)合控制。電力成本獎勵函數(shù)可以表示為式中:

ζ1

是權重因子。室內(nèi)溫度獎勵函數(shù)可以表示為式中:

Tmax

、

Tmin

分別為設置室內(nèi)舒適溫度區(qū)間的上、下限;

Dt

為室內(nèi)溫度沒有控制在規(guī)定區(qū)間內(nèi)的懲罰值;

ζ2

為權重因子。蓄電池儲能過度充放電獎勵函數(shù)可以表示為式中:

DSOC

為蓄電池過度充放電的懲罰值;

ζ3

為權重因子。當時,蓄電池儲能系統(tǒng)充放電得到的獎勵函數(shù)可以表示為式中:

ζ4

為權重因子。為鼓勵光伏發(fā)電本地消納,將此時充電動作的獎勵函數(shù)設定為正值,放電設定為負值。當t時刻電價為峰值或谷值時,蓄電池儲能系統(tǒng)充電得到的獎勵函數(shù)可以表示為式中:

ζ5

為權重因子。當電價較高時,充電動作得到負的獎勵值;當電價較低時,充電動作得到正的獎勵值。當t時刻電價為峰值或谷值時,蓄電池儲能系統(tǒng)放電得到的獎勵函數(shù)可以表示為式中:

ζ6

為權重因子。當電價較高時,放電動作得到正的獎勵值;當電價較低時,放電動作得到負的獎勵值。綜上,得到綜合獎勵函數(shù)

rt

為充放電次數(shù)獎勵函數(shù)

rSOC

為式中:

ζ7

ζ8

為權重因子;

nt

為表征t時刻與t–1時刻的充放電狀態(tài)是否發(fā)生變化的參數(shù),如果發(fā)生變化取值為1,否則為0。2.3

算法求解1)Q學習。它是解決強化學習問題的一種常用方法,通過定義Q函數(shù),即狀態(tài)動作價值函數(shù),并采用貝爾曼方程進行更新得到Q表格,Q值更新方式可以表示為式中:

Q(st,at)為狀態(tài)動作價值函數(shù),表示在狀態(tài)

st

采取動作

at

產(chǎn)生的價值;

γ

為折扣因子,其大小代表著未來獎勵的重要性;

α

為學習率。運用貝爾曼方程更新Q函數(shù)的核心思想在于,評估當前狀態(tài)

st

的決策動作

at

的效果時,不僅要考慮這一步?jīng)Q策所產(chǎn)生的獎勵函數(shù)

rt+1

,而且要考慮當前的動作對于未來的持續(xù)性收益。2)深度Q網(wǎng)絡。盡管Q學習算法經(jīng)過更新可以逼近Q函數(shù)最優(yōu)值,但是對于本文提出的環(huán)境狀態(tài)空間,如溫度、太陽輻射和電價等屬于連續(xù)狀態(tài)空間,此時采用傳統(tǒng)強化學習算法會出現(xiàn)“維數(shù)災難”問題。為此,提出價值函數(shù)近似的方法,即用參數(shù)

θ

構造出深度Q網(wǎng)絡替換Q學習中的價值函數(shù),即式中:分別為狀態(tài)s下采取動作a的價值函數(shù)近似值和準確值;

θ

為價值網(wǎng)絡權重系數(shù);采用這種利用深度神經(jīng)網(wǎng)絡近似取代Q函數(shù)的方式,可以得到DQN。DQN的目標為最小化損失函數(shù)

L(θ),即式中:

yt

為目標網(wǎng)絡函數(shù),可以表示為式中:

θ?

為目標網(wǎng)絡權重系數(shù)。3)決斗雙深度Q網(wǎng)絡。D3QN結合雙深度Q網(wǎng)絡和決斗深度Q網(wǎng)絡。雙深度Q網(wǎng)絡相較于DQN算法,在計算目標Q值時將動作選擇和動作評價分離,用評估網(wǎng)絡選擇動作,目標網(wǎng)絡確定動作的價值,有效避免了過估計問題。那么,

yt

可以表示為決斗深度Q網(wǎng)絡提出了一種新的神經(jīng)網(wǎng)絡結構,如圖3所示。與DQN中深度神經(jīng)網(wǎng)絡在接受狀態(tài)值直接輸出Q值所不同的是,決斗深度Q網(wǎng)絡將輸出Q值分成了狀態(tài)價值V和動作優(yōu)勢價值A,從而避免了網(wǎng)絡訓練中過擬合問題,加快了訓練速度,具體表示為圖3

D3QN神經(jīng)網(wǎng)絡結構Fig.3

D3QNneuralnetworkstructure式中:

ω

為全連接層參數(shù);

α

β

分別為動作優(yōu)勢價值A和狀態(tài)價值V支路的全連接層參數(shù)。D3QN的算法訓練過程如圖4所示。圖4

D3QN訓練過程Fig.4

D3QNtrainingprocess

03算例分析3.1

場景描述針對冬季工況下的系統(tǒng)優(yōu)化,選取2018年1月、11月和12月的湖南省長沙市實測氣象數(shù)據(jù)進行模擬,如圖5所示。光伏板面積設定為40m2,根據(jù)氣象數(shù)據(jù)計算得到冬季光伏發(fā)電量如圖6所示。儲能裝置型號為6-GFMJ-200,容量為7.2kW·h,充放電效率為90%,充放電功率設定為1.44kW,荷電狀態(tài)的最大/最小值為0.9/0.2。為考慮實時電價對系統(tǒng)策略的影響,采用澳洲能源網(wǎng)站中相似氣候條件下冬季實時電價數(shù)據(jù),高峰電價和低谷電價分別設置為0.7和0.4元/(kW·h),余電上網(wǎng)電價為0.4548元/(kW·h)。電熱泵與建筑相關參數(shù)如表1所示,將室內(nèi)舒適溫度上限和下限分別設置為22℃和18℃。圖5

2018年湖南長沙氣象參數(shù)Fig.5

MeteorologicalparametersofChangsha,Hunanin2018圖6

電價與光伏發(fā)電功率Fig.6

Electricitypricesandphotovoltaicpower表1

熱泵與建筑參數(shù)Table1

Heatpumpandbuildingparameters3.2

基準模式針對本文建筑能源系統(tǒng),提出如下控制策略作為基準模型。電熱泵和儲能系統(tǒng)分別通過調整運行功率和充放電狀態(tài)控制系統(tǒng)運行。其中熱泵運行功率根據(jù)當前時刻室內(nèi)溫度和電價確定;充放電狀態(tài)是在規(guī)定電池荷電狀態(tài)范圍內(nèi),根據(jù)當前時刻電價與光伏發(fā)電量確定。由此可知,基準模型的優(yōu)勢在于能夠根據(jù)當前環(huán)境參數(shù)給出確定的控制策略,并及時進行動態(tài)調整來應對環(huán)境變化,從而滿足用戶的舒適性和經(jīng)濟性需求。具體控制策略如表2和表3所示。表2

基準模式熱泵運行策略Table2

Baselinemodeheatpumpoperationstrategy表3

基準模式儲能運行策略Table3

Baselinemodeenergystorageoperationstrategy3.3

參數(shù)設置設置最小優(yōu)化步長為15min,優(yōu)化周期設為31天,即周期內(nèi)含有2976個優(yōu)化時段。系統(tǒng)模型的訓練過程使用11月和12月數(shù)據(jù)集,訓練共進行1000個回合,訓練時隨機選取其中連續(xù)31天的數(shù)據(jù);測試過程使用1月數(shù)據(jù)集進行性能驗證。D3QN算法中Q網(wǎng)絡和目標網(wǎng)絡各包含3個全連接隱藏層,各層神經(jīng)元數(shù)分別為128、256、256,并使用整流線性單元作為隱藏層的激活函數(shù),選用Adam優(yōu)化器來更新網(wǎng)絡權重。主要超參數(shù)包括學習率

α

=0.0001,折扣因子

γ

=0.99,最小批量為32,網(wǎng)絡更新速率τ=0.002。3.4

效果及對比分析為探究不同深度學習算法在訓練過程中的特性,本文選取D3QN和DQN算法并設置相同的超參數(shù),對比研究迭代過程中的獎勵函數(shù)曲線和均值獎勵函數(shù)曲線,如圖7所示。在前期訓練過程中,2種算法的獎勵函數(shù)都有不同程度震蕩,這是由于智能體尚處于探索階段,存在很多隨機動作選擇。但經(jīng)過多次迭代之后,2條獎勵函數(shù)曲線的收斂趨勢基本一致,后期獎勵函數(shù)趨于穩(wěn)定且穩(wěn)定值接近,都取得了良好的訓練效果。通過對比D3QN和DQN曲線的縮略圖,可以發(fā)現(xiàn)二者的獎勵函數(shù)值在相同的訓練回合內(nèi),D3QN總體較高,收斂速度更快,這得益于D3QN在計算目標Q值時將動作選擇和動作評價分離,避免了過估計,改進了神經(jīng)網(wǎng)絡結構,從而加快了收斂速度。圖7

2種算法訓練過程獎勵函數(shù)對比Fig.7

Comparisonofrewardfunctionsduringtrainingoftwoalgorithms采用基準模型和D3QN算法在同一場景下進行優(yōu)化,并從供需側的角度對優(yōu)化結果進行討論分析。需求側的控制策略需要權衡經(jīng)濟性和熱舒適性,要求模型對電價與天氣條件的變化即時響應。采用1月份環(huán)境狀態(tài)參數(shù)對2種優(yōu)化模型進行評估,如圖8所示。在一個月的時間尺度上室外溫度有較大波動,基準模型雖然大部分情況下能夠滿足室溫要求,但是在室外溫度持續(xù)偏高(第8~12天)或者偏低(第22~28天)時,控制效果并不理想,熱不舒適時長共為3975min。這是由于基準模型的控制策略面對一些特殊情況時,不具備自主調節(jié)的能力;對比D3QN優(yōu)化模型則較好地將室內(nèi)溫度控制在舒適區(qū)間內(nèi),熱不舒適時長降低為195min,充分體現(xiàn)了D3QN優(yōu)化模型具有較強的適應性。圖8

1月份室溫對比Fig.8

RoomtemperaturecomparisoninJanuary為更直觀地對比2種控制模型的區(qū)別,選取1月典型日,如圖8中黑色虛線所示,得到熱泵功率曲線如圖9所示??梢钥闯觯?種模型對電價變化的響應基本一致,即高電價時功率相應減小,低電價時功率增大。如在電價較低的時段06:00—08:00,二者的熱泵功率都處于較高的狀態(tài),而在時段19:00—21:00,二者的熱泵功率都出現(xiàn)了不同程度上的降低。但是在D3QN優(yōu)化模型下熱泵的功率變化幅度更大,對電價信號更加敏感,說明智能體經(jīng)過學習面對不確定性環(huán)境能做出更靈活的決策。圖9

1月份典型日熱泵功率對比Fig.9

ComparisonoftypicaldailyheatpumppowerinJanuary能源供應側評價儲能系統(tǒng)控制策略的標準包括2點:1)蓄電池的充放電策略響應峰谷電價以減少用電成本;2)在光伏發(fā)電較多的時段,蓄電池應盡可能采取充電策略實現(xiàn)可再生能源的本地消納。選取1月份典型日,得到2種控制模型下的蓄電池充放電功率如圖10所示,基準模型控制下儲能系統(tǒng)的充電時段分別在01:00—02:00(低谷電價)和09:00—13:00(高光伏發(fā)電),放電時段則集中在14:00—17:00(高峰電價)。經(jīng)計算電成本為11.36元,未消納光伏發(fā)電量為5.25kW·h。D3QN優(yōu)化儲能系統(tǒng)的整體控制邏輯與基準模型一致,不同的是充放電頻率變高,主要體現(xiàn)在00:00—07:00和18:00—24:00(無光伏發(fā)電)時段,儲能系統(tǒng)在電價升高時放電,電價降低時充電,以保證供電的經(jīng)濟性。經(jīng)計算在該典型日用電成本為8.76元,未消納光伏發(fā)電量為4.84kW·h,相較于基準模型分別降低22.89%、7.81%。圖10

1月份典型日儲能對比Fig.10

Comparisonoftypicalda

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論