版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2024年4月JOURNALOFCOMMANDANDCONTROLApril,2024基于兵棋推演的空戰(zhàn)編組對抗智能決策方法1111(1.國防科技大學(xué)系統(tǒng)工程學(xué)院,長沙410072;2.解放軍31102部隊(duì),南京210016)摘要基于兵棋研究的空戰(zhàn)編組對抗方法主要使用規(guī)則或運(yùn)籌等手段,存在假設(shè)不夠合理、建模不準(zhǔn)確、應(yīng)變性差等缺陷。強(qiáng)化學(xué)習(xí)算法可以根據(jù)作戰(zhàn)數(shù)據(jù)自主學(xué)習(xí)編組對抗策略,以應(yīng)對復(fù)雜的戰(zhàn)場情況,但現(xiàn)有強(qiáng)化學(xué)習(xí)對作戰(zhàn)數(shù)據(jù)要求高,當(dāng)動作空間過大時,算法收斂慢,且對仿真平臺有較高的要求。針對上述問題,提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對抗智能決策方法,該決策方法的輸入是戰(zhàn)場融合態(tài)勢,使用分層決策框架控制算子選擇并執(zhí)行任務(wù),上層包含使用專家知識驅(qū)動的動作選擇器,下層包含使用專家知識和作戰(zhàn)規(guī)則細(xì)化的避彈動作執(zhí)行器、偵察動作執(zhí)行器和使用強(qiáng)化學(xué)習(xí)算法控制的打擊動作執(zhí)行器。最后基于典型作戰(zhàn)場景進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的可行性和實(shí)用性,且具有建模準(zhǔn)確、訓(xùn)練高效的優(yōu)點(diǎn)。關(guān)鍵詞空戰(zhàn)編組對抗,多算子的協(xié)作與控制,多智能體深度強(qiáng)化學(xué)習(xí)算法,分層決策模型引用格式陳曉軒,馮旸赫,黃金才,等.基于兵棋推演的空戰(zhàn)編組對抗智能決策方法[J].指揮與控制學(xué)報,2024,10(2213-219CHENXiaoxuan111FENGYangheHUANGJincai1LIUZhong1,*XUYue2空戰(zhàn)編組對抗戰(zhàn)術(shù)是衡量各國空中作戰(zhàn)力量的信息,合理分配對空搜索任務(wù)并執(zhí)行協(xié)同作戰(zhàn)任務(wù)爭日趨激烈,對空戰(zhàn)編組對抗戰(zhàn)術(shù)提出了更高的要算機(jī)仿真技術(shù),對現(xiàn)實(shí)世界軍事問題的模擬水平日收稿日期2021-06-04錄用日期2021-11-18網(wǎng)絡(luò)出版時間2021-11-26*通信作者郵箱liuzhong_nudt@126.com輔助訓(xùn)練指揮員的宏觀戰(zhàn)略決策和局部戰(zhàn)術(shù)決策的傳統(tǒng)的兵棋推演技術(shù)主要采用規(guī)劃和運(yùn)籌學(xué)知法和模糊系統(tǒng)理論構(gòu)成智能算法推理得到了陸戰(zhàn)兵214指揮與控制學(xué)報10卷燁翰等對作戰(zhàn)推演的相關(guān)理論基礎(chǔ)進(jìn)行歸納研究[6],棋類智能體阿爾法狗戰(zhàn)勝圍棋世界冠軍李世石將強(qiáng)化學(xué)習(xí)技術(shù)運(yùn)用于兵棋推演中是當(dāng)前軍事智能研究的重要方向。CIANCARINI等在軍棋中采用蒙特卡洛樹搜索的智能體架構(gòu),以較少的領(lǐng)域特定知識知識的DQN智能決策模型用于兵棋推演中的坦克動觀測歷史學(xué)習(xí)訓(xùn)練一個決策網(wǎng)絡(luò),但是單個算子常常存在局部觀測的狀態(tài),即它只能觀測到戰(zhàn)場的部觀測的最優(yōu)動作,而不能獲得對于全局而言最優(yōu)的動作。為了研究多智能體強(qiáng)化學(xué)習(xí)問題,F(xiàn)OERSTER等提出了分布決策、集中訓(xùn)練的學(xué)習(xí)范式,并在星體與環(huán)境交互并得到大量高質(zhì)量的數(shù)據(jù)用于訓(xùn)練智能體,但是對于空戰(zhàn)編組對抗任務(wù)而言,動作空間和狀態(tài)空間隨著算子數(shù)目的增加而快速增加,會導(dǎo)致單純的強(qiáng)化學(xué)習(xí)訓(xùn)練、收斂困難,國內(nèi)鮮有使用基于2020年的智能博弈挑戰(zhàn)賽兵棋推演平臺,本文針對兵棋推演中空戰(zhàn)編組對抗這一核心問題,提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對抗智能決策方法,從構(gòu)建決策方法使用的分層決策框架開始研究,確定分層框架輸入的靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)的融合方式,設(shè)計該決策方法的核心分層決設(shè)計了強(qiáng)化學(xué)習(xí)算法的狀態(tài)空間和動作空間,通過設(shè)計推進(jìn)函數(shù)推進(jìn)該智能決策方法不斷與環(huán)境交互本文提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空是戰(zhàn)場實(shí)時態(tài)勢信息和靜態(tài)數(shù)據(jù),對輸入數(shù)據(jù)進(jìn)行化以及格式化表示后,形成融合態(tài)勢數(shù)據(jù),輸入分層決策框架的上層行動選擇器,行動選擇器根據(jù)內(nèi)置邏輯確定搜索動作、避彈動作、打擊動作的可行性和優(yōu)先級,選擇可以執(zhí)行的行動,調(diào)用下層對應(yīng)行動的執(zhí)行器,執(zhí)行器細(xì)化行動細(xì)節(jié),形成動作列表,輸入兵棋推演系統(tǒng),系統(tǒng)執(zhí)行對應(yīng)動作后可以行知識推理,可以獲取敵方的裝備數(shù)據(jù)、常見編組后,可用于行動選擇器的邏輯設(shè)計,可以用于動作執(zhí)行器中搜索動作和躲避動作的邏輯設(shè)計和參數(shù)設(shè)置,也可以用于設(shè)計打擊行動用的QMIX算法的獎圖1智能決策方法圖2一種根據(jù)專家經(jīng)驗(yàn)設(shè)置的行動選擇器2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對抗智能決策方法215察動作,接著判斷是否需要躲避敵方導(dǎo)彈攻擊,最偵察行動根據(jù)專家經(jīng)驗(yàn)設(shè)置,當(dāng)敵方未出現(xiàn)在同時盡可能增加融合偵察覆蓋范圍,以減小偵察盲方探測區(qū)域時,我方戰(zhàn)斗機(jī)根據(jù)歷史經(jīng)驗(yàn)選擇繼續(xù)的區(qū)域位置,確定其偵察范圍,尋找我方被發(fā)現(xiàn)概率較小并且能夠偵察到敵方概率較大的偵察航線,分析態(tài)勢信息,當(dāng)我方戰(zhàn)斗機(jī)相較于敵方戰(zhàn)斗機(jī),處于不利位置,或者發(fā)現(xiàn)敵方發(fā)射導(dǎo)彈向我方方導(dǎo)彈,和敵方有威脅的戰(zhàn)斗機(jī),接著根據(jù)航向及位置信息研判其攻擊對象(我方戰(zhàn)機(jī)可能有多個單位對我方戰(zhàn)機(jī)造成威脅,戰(zhàn)機(jī)需要綜合考慮敵方的威脅程度和攻擊方式,選擇合理的躲避方式,比根據(jù)戰(zhàn)機(jī)的局部觀測,判斷當(dāng)前戰(zhàn)機(jī)是否可以執(zhí)行打擊動作,以及可以打擊的目標(biāo),接著使用QMIX算法實(shí)現(xiàn)我方飛機(jī)對敵方目標(biāo)的打擊分配關(guān)2基于QMIX算法的彈目匹配實(shí)現(xiàn)2.1DRQN算法深度強(qiáng)化學(xué)習(xí)主要研究解決的問題是序貫決策問題,為對該問題進(jìn)行有效的分析,學(xué)者們提出了作At。動作At作用于環(huán)境,智能體會觀察圖3MDP示意圖在實(shí)際決策情況下,智能體常常無法觀測到完整的狀態(tài)信息St,這時的觀測值就從St變成了Ot,智能體的Ot序列不一定能滿足馬爾可夫性質(zhì),因此,需要使用時序網(wǎng)絡(luò)輔助深度強(qiáng)化學(xué)習(xí)來輔助智的DRQN算法。算法1基于LSTM的DRQN算法11im-E2.2QMIX算法在實(shí)際世界和實(shí)時策略游戲中,單個智能體存在局部觀測的約束,再加上智能體間的通信受限,216指揮與控制學(xué)報10卷對于每一個智能體而言,需要根據(jù)它所處的具體環(huán)散化策略所構(gòu)成的聯(lián)合動作決策空間過大會導(dǎo)致傳一方面,集中訓(xùn)練要求智能體能夠獲得一個基有直接的方法可以轉(zhuǎn)化成每個算子可以根據(jù)單獨(dú)的因此,TABISHRASHID等提出了QMIX算法[16],包含一組DRQN網(wǎng)絡(luò)一個混合網(wǎng)絡(luò),組中的每個DRQN網(wǎng)絡(luò)對應(yīng)一個分布式執(zhí)行的策略,混合網(wǎng)絡(luò)把一組DRQN網(wǎng)絡(luò)組合輸出的一組Qa,以一種復(fù)雜持一致性。因此,QMIX算法可以以一種因子化的表示方法根據(jù)智能體的數(shù)量變化,可以有很好的伸縮性,并且允許分散化的策略在線性時間內(nèi),可以通為了保證一致性,只需要確保全局最優(yōu)是由所有算子的局部最優(yōu)所組成的就可以,算法通過約束對于每一個智能體a,都有一個DRQN網(wǎng)絡(luò)輸出單a在每一個時間步把當(dāng)前局部圖4深度循環(huán)Q網(wǎng)絡(luò)圖2.3基于QMIX算法的彈目匹配技術(shù)在空戰(zhàn)編組對抗中,合理且有效的武器分配方案是提升我方飛機(jī)的導(dǎo)彈打擊成功率,保證對抗勝利的前提條件之一,針對當(dāng)前空戰(zhàn)形勢下敵我交戰(zhàn)統(tǒng)籌協(xié)調(diào)不高和資源浪費(fèi)的情況,希望使用QMIX空戰(zhàn)編組的武器目標(biāo)分配策略收斂到最優(yōu),提升智基于QMIX算法的彈目匹配技術(shù)如圖5所示,n架戰(zhàn)斗機(jī)將局部觀測分別輸入DRQN網(wǎng)絡(luò),輸出Q圖5彈目匹配技術(shù)示意圖賽平臺,基于該平臺,設(shè)計了紅藍(lán)方多機(jī)空戰(zhàn)對抗巡邏任務(wù),在空中遭遇執(zhí)行攔截任務(wù)的藍(lán)方編隊(duì),希望紅方戰(zhàn)斗機(jī)能夠選擇最優(yōu)的決策動作序列,以機(jī)從機(jī)場出發(fā)飛往目標(biāo)空域,企圖殲滅紅方戰(zhàn)斗機(jī)定中紅藍(lán)雙方飛機(jī)算子配置相等,各自包含4架戰(zhàn)識別距離為150km。表1飛機(jī)實(shí)體性能表Type900-1000km/h100km80km2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對抗智能決策方法217神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計如圖6所示,在T時刻,需視野范圍內(nèi)共有N架敵方飛機(jī)。為確定需要打擊敵觀測到的敵方的第1架飛機(jī)的狀態(tài)信息拼接以后輸入DRQN網(wǎng)絡(luò),如圖7所示。圖7狀態(tài)空間將輸入信息經(jīng)過一層MLP網(wǎng)絡(luò),處理態(tài)勢信息,并輸出一組特征向量,將特征向量和隱藏層信體當(dāng)前時間步的特征向量和上一步的隱藏層信息融合生成新的特征向量,最后將特征向量輸入MLP以獲得Q1值。同理,將第x1架飛機(jī)與觀測到的其他N-1架敵后將得到的N個Q值組成一個列表并取argmax,Q假設(shè)我方共有m架飛機(jī),依據(jù)此方法,獲得我方第x1架飛機(jī)到第xm架飛機(jī)的Q值列表,將該Q值列表作為混合網(wǎng)絡(luò)的輸入,經(jīng)過網(wǎng)絡(luò)計算后,輸出一個Qa(r,a)值。網(wǎng)絡(luò)把全局狀態(tài)s作為輸入并生成混合網(wǎng)絡(luò)的一層圖8混合網(wǎng)絡(luò)方所有飛機(jī)的信息、所有的導(dǎo)彈信息組成,如圖9圖9戰(zhàn)場態(tài)勢全局狀態(tài)s先經(jīng)過一層單獨(dú)的線形層,再經(jīng)過一層絕對值激活函數(shù),為了確?;旌暇W(wǎng)絡(luò)的權(quán)重是y"=r+tymax,QU(c,ui,s:0)(2)計算出目標(biāo)網(wǎng)絡(luò)對當(dāng)前狀態(tài)動作對的估值,計算ytot和Qtot的差值從而生成損失函數(shù)并反向傳播,-是本次實(shí)驗(yàn)對QMIX算法中的神經(jīng)網(wǎng)絡(luò)進(jìn)行了4000回合的訓(xùn)練。先分析兵棋推演決策序列的累積獎賞值隨訓(xùn)練時間的變化,累積獎賞值R是每個序列下單步獎賞值的疊加,可以反映QMIX學(xué)習(xí)到策略的好壞。在本次實(shí)驗(yàn)中,單步獎賞值的定義如下,每擊落一架敵方飛機(jī)獎勵值加20,我方損失一架飛機(jī)獎勵值減20,我方飛機(jī)每躲避敵方一枚導(dǎo)彈218指揮與控制學(xué)報10卷圖10神經(jīng)網(wǎng)絡(luò)更新過程回合時出現(xiàn)劇烈下降的情況,這是因?yàn)橛?xùn)練初期學(xué)期間曲線也存在中小幅度的掛起與墜落。訓(xùn)練末期圖11累積獎賞值隨時間變化曲線了目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò)的逼近程度。由圖12可見,損失函數(shù)基本在3000回合的時候得到較小值且相有一定的探索性、智能體訓(xùn)練過程中參數(shù)有較大的程看,損失函數(shù)呈下降趨勢,從2000最終下降至對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行復(fù)盤,經(jīng)過訓(xùn)練的紅方戰(zhàn)斗機(jī)圖12損失函數(shù)訓(xùn)練曲線編組已經(jīng)展現(xiàn)出了一定的個體戰(zhàn)術(shù)與協(xié)同配合,對戰(zhàn)機(jī)兩兩組成編隊(duì),按照巡航速度,編隊(duì)1向東北方向飛行,到達(dá)預(yù)定陣位后3組編隊(duì)改變航向往正東方向飛行,此時我方戰(zhàn)機(jī)的偵察雷達(dá)全開,基本上可以覆蓋南北直徑為250km的作戰(zhàn)區(qū)域,如圖13所示,當(dāng)偵察到敵方戰(zhàn)機(jī)時,我方戰(zhàn)機(jī)調(diào)用打擊行動模塊,充分發(fā)揮武器射程優(yōu)勢,使用遠(yuǎn)程空空機(jī)處于不利位置時,戰(zhàn)機(jī)調(diào)用避彈模塊,執(zhí)行大角度轉(zhuǎn)彎機(jī)動,以盡快拉開與敵方攻擊算子的位置,圖133組編隊(duì)偵察范圍示意圖針對復(fù)雜的空戰(zhàn)編組對抗問題,在兵棋推演平臺上建立了一個典型空戰(zhàn)想定用于空戰(zhàn)對抗研究,實(shí)驗(yàn)結(jié)果表明,融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編2期陳曉軒等:基于兵棋推演的空戰(zhàn)編組對抗智能決策方法219組對抗智能決策方法控制的紅方空戰(zhàn)編組與純規(guī)則控制的藍(lán)方空戰(zhàn)編組對抗,對抗平均得分可以達(dá)到28分,在作戰(zhàn)中基本可以獲得制空權(quán),驗(yàn)證了該方策模型與不同算法控制的不同風(fēng)格的對手進(jìn)行對抗[2]胡曉峰,賀筱媛,陶九陽.AlphaGo的突破與兵棋推演的HUXF,HEXY,TAOJY.AlphaGo'sbreakthroughand2303-2311.ZHANGK,HAOWN,YUXH,etal.WargamekeypointLIUM,ZHANGHJ,HAOWN,etal.ResearchonZOUYH,FENGYH,CHENGGQ,etal.OntologyZHANGMX,CHENGGQ,LIUZ,etal.Scheduleof[8]VOLODYMYRMNIH,KORAYKAVUKCUOGLU,etal.[9]DAVIDSILVER,JULIANSCHRITTWIESER,etal.[11]SU
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版收養(yǎng)協(xié)議書范本:寵物領(lǐng)養(yǎng)與責(zé)任承擔(dān)協(xié)議3篇
- 二零二五年度農(nóng)業(yè)電商平臺運(yùn)營服務(wù)合同模板
- 2025版新企業(yè)股東合作協(xié)議書:產(chǎn)業(yè)鏈升級改造3篇
- 二零二五版環(huán)保技術(shù)轉(zhuǎn)移與轉(zhuǎn)化合作協(xié)議4篇
- 2025航空貨運(yùn)保險及全球理賠服務(wù)合同3篇
- 二零二五年度城市綜合體物業(yè)管理合同
- 二零二五年度高端智能設(shè)備采購合同范本4篇
- 二零二五年度城市更新項(xiàng)目舊廠房改造租賃合同3篇
- 2025年物流倉儲中心委托經(jīng)營與服務(wù)協(xié)議3篇
- 2025版萬科地產(chǎn)商鋪買賣合同規(guī)范范本3篇
- 國家中醫(yī)藥管理局發(fā)布的406種中醫(yī)優(yōu)勢病種診療方案和臨床路徑目錄
- 2024年全國甲卷高考化學(xué)試卷(真題+答案)
- 汽車修理廠管理方案
- 人教版小學(xué)數(shù)學(xué)一年級上冊小學(xué)生口算天天練
- (正式版)JBT 5300-2024 工業(yè)用閥門材料 選用指南
- 三年級數(shù)學(xué)添括號去括號加減簡便計算練習(xí)400道及答案
- 蘇教版五年級上冊數(shù)學(xué)簡便計算300題及答案
- 澳洲牛肉行業(yè)分析
- 老客戶的開發(fā)與技巧課件
- 計算機(jī)江蘇對口單招文化綜合理論試卷
- 成人學(xué)士學(xué)位英語單詞(史上全面)
評論
0/150
提交評論