基于兵棋推演的空戰(zhàn)編組對抗智能決策方法

上傳人：行*** IP屬地：浙江上傳時(shí)間：2024-11-27 格式：DOCX 頁數(shù)：11 大?。?59.87KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024年4月JOURNALOFCOMMANDANDCONTROLApril，2024基于兵棋推演的空戰(zhàn)編組對抗智能決策方法1111（1.國防科技大學(xué)系統(tǒng)工程學(xué)院，長沙410072；2.解放軍31102部隊(duì)，南京210016）摘要基于兵棋研究的空戰(zhàn)編組對抗方法主要使用規(guī)則或運(yùn)籌等手段，存在假設(shè)不夠合理、建模不準(zhǔn)確、應(yīng)變性差等缺陷。強(qiáng)化學(xué)習(xí)算法可以根據(jù)作戰(zhàn)數(shù)據(jù)自主學(xué)習(xí)編組對抗策略，以應(yīng)對復(fù)雜的戰(zhàn)場情況，但現(xiàn)有強(qiáng)化學(xué)習(xí)對作戰(zhàn)數(shù)據(jù)要求高，當(dāng)動作空間過大時(shí)，算法收斂慢，且對仿真平臺有較高的要求。針對上述問題，提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對抗智能決策方法，該決策方法的輸入是戰(zhàn)場融合態(tài)勢，使用分層決策框架控制算子選擇并執(zhí)行任務(wù)，上層包含使用專家知識驅(qū)動的動作選擇器，下層包含使用專家知識和作戰(zhàn)規(guī)則細(xì)化的避彈動作執(zhí)行器、偵察動作執(zhí)行器和使用強(qiáng)化學(xué)習(xí)算法控制的打擊動作執(zhí)行器。最后基于典型作戰(zhàn)場景進(jìn)行實(shí)驗(yàn)，驗(yàn)證了該方法的可行性和實(shí)用性，且具有建模準(zhǔn)確、訓(xùn)練高效的優(yōu)點(diǎn)。關(guān)鍵詞空戰(zhàn)編組對抗，多算子的協(xié)作與控制，多智能體深度強(qiáng)化學(xué)習(xí)算法，分層決策模型引用格式陳曉軒，馮旸赫，黃金才，等.基于兵棋推演的空戰(zhàn)編組對抗智能決策方法[J].指揮與控制學(xué)報(bào)，2024，10（2213-219CHENXiaoxuan111FENGYangheHUANGJincai1LIUZhong1,*XUYue2空戰(zhàn)編組對抗戰(zhàn)術(shù)是衡量各國空中作戰(zhàn)力量的信息，合理分配對空搜索任務(wù)并執(zhí)行協(xié)同作戰(zhàn)任務(wù)爭日趨激烈，對空戰(zhàn)編組對抗戰(zhàn)術(shù)提出了更高的要算機(jī)仿真技術(shù)，對現(xiàn)實(shí)世界軍事問題的模擬水平日收稿日期2021-06-04錄用日期2021-11-18網(wǎng)絡(luò)出版時(shí)間2021-11-26*通信作者郵箱liuzhong_nudt@126.com輔助訓(xùn)練指揮員的宏觀戰(zhàn)略決策和局部戰(zhàn)術(shù)決策的傳統(tǒng)的兵棋推演技術(shù)主要采用規(guī)劃和運(yùn)籌學(xué)知法和模糊系統(tǒng)理論構(gòu)成智能算法推理得到了陸戰(zhàn)兵214指揮與控制學(xué)報(bào)10卷燁翰等對作戰(zhàn)推演的相關(guān)理論基礎(chǔ)進(jìn)行歸納研究[6]，棋類智能體阿爾法狗戰(zhàn)勝圍棋世界冠軍李世石將強(qiáng)化學(xué)習(xí)技術(shù)運(yùn)用于兵棋推演中是當(dāng)前軍事智能研究的重要方向。CIANCARINI等在軍棋中采用蒙特卡洛樹搜索的智能體架構(gòu)，以較少的領(lǐng)域特定知識知識的DQN智能決策模型用于兵棋推演中的坦克動觀測歷史學(xué)習(xí)訓(xùn)練一個(gè)決策網(wǎng)絡(luò)，但是單個(gè)算子常常存在局部觀測的狀態(tài)，即它只能觀測到戰(zhàn)場的部觀測的最優(yōu)動作，而不能獲得對于全局而言最優(yōu)的動作。為了研究多智能體強(qiáng)化學(xué)習(xí)問題，F(xiàn)OERSTER等提出了分布決策、集中訓(xùn)練的學(xué)習(xí)范式，并在星體與環(huán)境交互并得到大量高質(zhì)量的數(shù)據(jù)用于訓(xùn)練智能體，但是對于空戰(zhàn)編組對抗任務(wù)而言，動作空間和狀態(tài)空間隨著算子數(shù)目的增加而快速增加，會導(dǎo)致單純的強(qiáng)化學(xué)習(xí)訓(xùn)練、收斂困難，國內(nèi)鮮有使用基于2020年的智能博弈挑戰(zhàn)賽兵棋推演平臺，本文針對兵棋推演中空戰(zhàn)編組對抗這一核心問題，提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對抗智能決策方法，從構(gòu)建決策方法使用的分層決策框架開始研究，確定分層框架輸入的靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)的融合方式，設(shè)計(jì)該決策方法的核心分層決設(shè)計(jì)了強(qiáng)化學(xué)習(xí)算法的狀態(tài)空間和動作空間，通過設(shè)計(jì)推進(jìn)函數(shù)推進(jìn)該智能決策方法不斷與環(huán)境交互本文提出了一種融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空是戰(zhàn)場實(shí)時(shí)態(tài)勢信息和靜態(tài)數(shù)據(jù)，對輸入數(shù)據(jù)進(jìn)行化以及格式化表示后，形成融合態(tài)勢數(shù)據(jù)，輸入分層決策框架的上層行動選擇器，行動選擇器根據(jù)內(nèi)置邏輯確定搜索動作、避彈動作、打擊動作的可行性和優(yōu)先級，選擇可以執(zhí)行的行動，調(diào)用下層對應(yīng)行動的執(zhí)行器，執(zhí)行器細(xì)化行動細(xì)節(jié)，形成動作列表，輸入兵棋推演系統(tǒng)，系統(tǒng)執(zhí)行對應(yīng)動作后可以行知識推理，可以獲取敵方的裝備數(shù)據(jù)、常見編組后，可用于行動選擇器的邏輯設(shè)計(jì)，可以用于動作執(zhí)行器中搜索動作和躲避動作的邏輯設(shè)計(jì)和參數(shù)設(shè)置，也可以用于設(shè)計(jì)打擊行動用的QMIX算法的獎圖1智能決策方法圖2一種根據(jù)專家經(jīng)驗(yàn)設(shè)置的行動選擇器2期陳曉軒等：基于兵棋推演的空戰(zhàn)編組對抗智能決策方法215察動作，接著判斷是否需要躲避敵方導(dǎo)彈攻擊，最偵察行動根據(jù)專家經(jīng)驗(yàn)設(shè)置，當(dāng)敵方未出現(xiàn)在同時(shí)盡可能增加融合偵察覆蓋范圍，以減小偵察盲方探測區(qū)域時(shí)，我方戰(zhàn)斗機(jī)根據(jù)歷史經(jīng)驗(yàn)選擇繼續(xù)的區(qū)域位置，確定其偵察范圍，尋找我方被發(fā)現(xiàn)概率較小并且能夠偵察到敵方概率較大的偵察航線，分析態(tài)勢信息，當(dāng)我方戰(zhàn)斗機(jī)相較于敵方戰(zhàn)斗機(jī)，處于不利位置，或者發(fā)現(xiàn)敵方發(fā)射導(dǎo)彈向我方方導(dǎo)彈，和敵方有威脅的戰(zhàn)斗機(jī)，接著根據(jù)航向及位置信息研判其攻擊對象（我方戰(zhàn)機(jī)可能有多個(gè)單位對我方戰(zhàn)機(jī)造成威脅，戰(zhàn)機(jī)需要綜合考慮敵方的威脅程度和攻擊方式，選擇合理的躲避方式，比根據(jù)戰(zhàn)機(jī)的局部觀測，判斷當(dāng)前戰(zhàn)機(jī)是否可以執(zhí)行打擊動作，以及可以打擊的目標(biāo)，接著使用QMIX算法實(shí)現(xiàn)我方飛機(jī)對敵方目標(biāo)的打擊分配關(guān)2基于QMIX算法的彈目匹配實(shí)現(xiàn)2.1DRQN算法深度強(qiáng)化學(xué)習(xí)主要研究解決的問題是序貫決策問題，為對該問題進(jìn)行有效的分析，學(xué)者們提出了作At。動作At作用于環(huán)境，智能體會觀察圖3MDP示意圖在實(shí)際決策情況下，智能體常常無法觀測到完整的狀態(tài)信息St，這時(shí)的觀測值就從St變成了Ot，智能體的Ot序列不一定能滿足馬爾可夫性質(zhì)，因此，需要使用時(shí)序網(wǎng)絡(luò)輔助深度強(qiáng)化學(xué)習(xí)來輔助智的DRQN算法。算法1基于LSTM的DRQN算法11im-E2.2QMIX算法在實(shí)際世界和實(shí)時(shí)策略游戲中，單個(gè)智能體存在局部觀測的約束，再加上智能體間的通信受限，216指揮與控制學(xué)報(bào)10卷對于每一個(gè)智能體而言，需要根據(jù)它所處的具體環(huán)散化策略所構(gòu)成的聯(lián)合動作決策空間過大會導(dǎo)致傳一方面，集中訓(xùn)練要求智能體能夠獲得一個(gè)基有直接的方法可以轉(zhuǎn)化成每個(gè)算子可以根據(jù)單獨(dú)的因此，TABISHRASHID等提出了QMIX算法[16]，包含一組DRQN網(wǎng)絡(luò)一個(gè)混合網(wǎng)絡(luò)，組中的每個(gè)DRQN網(wǎng)絡(luò)對應(yīng)一個(gè)分布式執(zhí)行的策略，混合網(wǎng)絡(luò)把一組DRQN網(wǎng)絡(luò)組合輸出的一組Qa，以一種復(fù)雜持一致性。因此，QMIX算法可以以一種因子化的表示方法根據(jù)智能體的數(shù)量變化，可以有很好的伸縮性，并且允許分散化的策略在線性時(shí)間內(nèi)，可以通為了保證一致性，只需要確保全局最優(yōu)是由所有算子的局部最優(yōu)所組成的就可以，算法通過約束對于每一個(gè)智能體a，都有一個(gè)DRQN網(wǎng)絡(luò)輸出單a在每一個(gè)時(shí)間步把當(dāng)前局部圖4深度循環(huán)Q網(wǎng)絡(luò)圖2.3基于QMIX算法的彈目匹配技術(shù)在空戰(zhàn)編組對抗中，合理且有效的武器分配方案是提升我方飛機(jī)的導(dǎo)彈打擊成功率，保證對抗勝利的前提條件之一，針對當(dāng)前空戰(zhàn)形勢下敵我交戰(zhàn)統(tǒng)籌協(xié)調(diào)不高和資源浪費(fèi)的情況，希望使用QMIX空戰(zhàn)編組的武器目標(biāo)分配策略收斂到最優(yōu)，提升智基于QMIX算法的彈目匹配技術(shù)如圖5所示，n架戰(zhàn)斗機(jī)將局部觀測分別輸入DRQN網(wǎng)絡(luò)，輸出Q圖5彈目匹配技術(shù)示意圖賽平臺，基于該平臺，設(shè)計(jì)了紅藍(lán)方多機(jī)空戰(zhàn)對抗巡邏任務(wù)，在空中遭遇執(zhí)行攔截任務(wù)的藍(lán)方編隊(duì)，希望紅方戰(zhàn)斗機(jī)能夠選擇最優(yōu)的決策動作序列，以機(jī)從機(jī)場出發(fā)飛往目標(biāo)空域，企圖殲滅紅方戰(zhàn)斗機(jī)定中紅藍(lán)雙方飛機(jī)算子配置相等，各自包含4架戰(zhàn)識別距離為150km。表1飛機(jī)實(shí)體性能表Type900-1000km/h100km80km2期陳曉軒等：基于兵棋推演的空戰(zhàn)編組對抗智能決策方法217神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)如圖6所示，在T時(shí)刻，需視野范圍內(nèi)共有N架敵方飛機(jī)。為確定需要打擊敵觀測到的敵方的第1架飛機(jī)的狀態(tài)信息拼接以后輸入DRQN網(wǎng)絡(luò)，如圖7所示。圖7狀態(tài)空間將輸入信息經(jīng)過一層MLP網(wǎng)絡(luò)，處理態(tài)勢信息，并輸出一組特征向量，將特征向量和隱藏層信體當(dāng)前時(shí)間步的特征向量和上一步的隱藏層信息融合生成新的特征向量，最后將特征向量輸入MLP以獲得Q1值。同理，將第x1架飛機(jī)與觀測到的其他N-1架敵后將得到的N個(gè)Q值組成一個(gè)列表并取argmax，Q假設(shè)我方共有m架飛機(jī)，依據(jù)此方法，獲得我方第x1架飛機(jī)到第xm架飛機(jī)的Q值列表，將該Q值列表作為混合網(wǎng)絡(luò)的輸入，經(jīng)過網(wǎng)絡(luò)計(jì)算后，輸出一個(gè)Qa(r,a)值。網(wǎng)絡(luò)把全局狀態(tài)s作為輸入并生成混合網(wǎng)絡(luò)的一層圖8混合網(wǎng)絡(luò)方所有飛機(jī)的信息、所有的導(dǎo)彈信息組成，如圖9圖9戰(zhàn)場態(tài)勢全局狀態(tài)s先經(jīng)過一層單獨(dú)的線形層，再經(jīng)過一層絕對值激活函數(shù)，為了確?；旌暇W(wǎng)絡(luò)的權(quán)重是y"=r+tymax,QU(c,ui,s:0)（2）計(jì)算出目標(biāo)網(wǎng)絡(luò)對當(dāng)前狀態(tài)動作對的估值，計(jì)算ytot和Qtot的差值從而生成損失函數(shù)并反向傳播，-是本次實(shí)驗(yàn)對QMIX算法中的神經(jīng)網(wǎng)絡(luò)進(jìn)行了4000回合的訓(xùn)練。先分析兵棋推演決策序列的累積獎賞值隨訓(xùn)練時(shí)間的變化，累積獎賞值R是每個(gè)序列下單步獎賞值的疊加，可以反映QMIX學(xué)習(xí)到策略的好壞。在本次實(shí)驗(yàn)中，單步獎賞值的定義如下，每擊落一架敵方飛機(jī)獎勵(lì)值加20，我方損失一架飛機(jī)獎勵(lì)值減20，我方飛機(jī)每躲避敵方一枚導(dǎo)彈218指揮與控制學(xué)報(bào)10卷圖10神經(jīng)網(wǎng)絡(luò)更新過程回合時(shí)出現(xiàn)劇烈下降的情況，這是因?yàn)橛?xùn)練初期學(xué)期間曲線也存在中小幅度的掛起與墜落。訓(xùn)練末期圖11累積獎賞值隨時(shí)間變化曲線了目標(biāo)網(wǎng)絡(luò)和評估網(wǎng)絡(luò)的逼近程度。由圖12可見，損失函數(shù)基本在3000回合的時(shí)候得到較小值且相有一定的探索性、智能體訓(xùn)練過程中參數(shù)有較大的程看，損失函數(shù)呈下降趨勢，從2000最終下降至對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行復(fù)盤，經(jīng)過訓(xùn)練的紅方戰(zhàn)斗機(jī)圖12損失函數(shù)訓(xùn)練曲線編組已經(jīng)展現(xiàn)出了一定的個(gè)體戰(zhàn)術(shù)與協(xié)同配合，對戰(zhàn)機(jī)兩兩組成編隊(duì)，按照巡航速度，編隊(duì)1向東北方向飛行，到達(dá)預(yù)定陣位后3組編隊(duì)改變航向往正東方向飛行，此時(shí)我方戰(zhàn)機(jī)的偵察雷達(dá)全開，基本上可以覆蓋南北直徑為250km的作戰(zhàn)區(qū)域，如圖13所示，當(dāng)偵察到敵方戰(zhàn)機(jī)時(shí)，我方戰(zhàn)機(jī)調(diào)用打擊行動模塊，充分發(fā)揮武器射程優(yōu)勢，使用遠(yuǎn)程空空機(jī)處于不利位置時(shí)，戰(zhàn)機(jī)調(diào)用避彈模塊，執(zhí)行大角度轉(zhuǎn)彎機(jī)動，以盡快拉開與敵方攻擊算子的位置，圖133組編隊(duì)偵察范圍示意圖針對復(fù)雜的空戰(zhàn)編組對抗問題，在兵棋推演平臺上建立了一個(gè)典型空戰(zhàn)想定用于空戰(zhàn)對抗研究，實(shí)驗(yàn)結(jié)果表明，融合知識數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編2期陳曉軒等：基于兵棋推演的空戰(zhàn)編組對抗智能決策方法219組對抗智能決策方法控制的紅方空戰(zhàn)編組與純規(guī)則控制的藍(lán)方空戰(zhàn)編組對抗，對抗平均得分可以達(dá)到28分，在作戰(zhàn)中基本可以獲得制空權(quán)，驗(yàn)證了該方策模型與不同算法控制的不同風(fēng)格的對手進(jìn)行對抗[2]胡曉峰,賀筱媛,陶九陽.AlphaGo的突破與兵棋推演的HUXF,HEXY,TAOJY.AlphaGo'sbreakthroughand2303-2311.ZHANGK,HAOWN,YUXH,etal.WargamekeypointLIUM,ZHANGHJ,HAOWN,etal.ResearchonZOUYH,FENGYH,CHENGGQ,etal.OntologyZHANGMX,CHENGGQ,LIUZ,etal.Scheduleof[8]VOLODYMYRMNIH,KORAYKAVUKCUOGLU,etal.[9]DAVIDSILVER,JULIANSCHRITTWIESER,etal.[11]SU

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于兵棋推演的空戰(zhàn)編組對抗智能決策方法

文檔簡介

溫馨提示

最新文檔

評論

基于兵棋推演的空戰(zhàn)編組對抗智能決策方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔