版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
時(shí)序差分學(xué)習(xí)在非完備信息
機(jī)器博弈中的應(yīng)用王軒許朝陽(yáng)哈爾濱工業(yè)大學(xué)深圳研究生院智能計(jì)算中心2007.10.3主要內(nèi)容非完備信息博弈簡(jiǎn)介12時(shí)序差分在四國(guó)軍旗中的應(yīng)用3時(shí)序差分學(xué)習(xí)算法介紹非完備信息博弈完備信息博弈(PerfectInformationGame):中國(guó)象棋;圍棋;…非完備信息博弈(ImperfectInformation
Game):四國(guó)軍棋;牌類(lèi)游戲:紅心大戰(zhàn),拱豬….….非完備信息博弈樹(shù)菱形表示隨機(jī)節(jié)點(diǎn)四國(guó)軍旗游戲蒙特卡羅抽樣根據(jù)前面的走步來(lái)更新棋子的概率表;根據(jù)更新后的棋子概率表,為棋盤(pán)上的每個(gè)棋子隨機(jī)選擇棋子的種類(lèi),得到一個(gè)完備信息棋局;對(duì)該完備信息棋局進(jìn)行MaxMin博弈樹(shù)搜索,找到一個(gè)最佳走步;多次重復(fù)上述過(guò)程,選擇選中次數(shù)最多的走步作為最終的最佳走步;概率表的建立根據(jù)112個(gè)經(jīng)典布局來(lái)設(shè)定各個(gè)棋子的概率表;根據(jù)走步結(jié)果來(lái)修改棋子的概率表;為棋盤(pán)上的每個(gè)棋子都建立各自的概率表;主要內(nèi)容
非完備信息博弈簡(jiǎn)介12時(shí)序差分在四國(guó)軍旗中的應(yīng)用3
時(shí)序差分學(xué)習(xí)算法介紹時(shí)序差分學(xué)習(xí)最早由Sutton提出;他證明時(shí)序差分學(xué)習(xí)可以和有監(jiān)督學(xué)習(xí)獲得同樣的結(jié)果而且占用更少的內(nèi)存,
收斂更快;TD最成功的應(yīng)用是Tesauro
根據(jù)時(shí)序差分編制的西洋雙陸棋
程序TDGammon,棋力可以和最好的人類(lèi)棋手相媲美;TDGammon時(shí)序差分學(xué)習(xí)場(chǎng)景時(shí)序差分學(xué)習(xí)基本概念智能體(Agent)從外部環(huán)境(Environment)中讀取輸入(State),根據(jù)State來(lái)選擇采取哪個(gè)行動(dòng)(Action);外部環(huán)境根據(jù)action的結(jié)果提供給智能體一個(gè)回報(bào)值(reward);在一個(gè)階段結(jié)束之后,智能體根據(jù)回報(bào)值,采用某個(gè)學(xué)習(xí)算法(例如時(shí)序差分學(xué)習(xí)算法)來(lái)調(diào)整自己的行為;時(shí)序差分調(diào)整算法基本概念步數(shù)t
=
1,2,3,……表示到了第幾步;St
表示第t步時(shí)的棋盤(pán)狀態(tài)
;w是描述棋局狀態(tài)的一個(gè)向量,里面是描述棋局的各種參數(shù)(如各種棋子的基本值等);rst表示在狀態(tài)St時(shí)采取某個(gè)走步所獲得的回報(bào)值;在游戲結(jié)束時(shí)的回報(bào)值rsn是確定的,比如1表示贏了,-1表示輸了,0表示和局;定義估值函數(shù)J(St
,w)來(lái)模擬逼近第t步時(shí)采取某個(gè)走步時(shí)的回報(bào)值rst;假設(shè)從游戲開(kāi)始到結(jié)束經(jīng)歷了n步,則估值函數(shù)序列為:J(S1
,w),J(S2,w)….J(Sn-1,w),rsn;時(shí)序差分調(diào)整算法期望找到一個(gè)最佳向量w,使得估值函數(shù)J(S
,w)在棋局狀態(tài)S下能夠和真實(shí)回報(bào)值J*(S,w)之間的error最小:定義在第t步的時(shí)序差分dt如下:最后的dN-1是實(shí)際的最終結(jié)果rsn和第n-1步預(yù)測(cè)之間的差值。在一輪游戲結(jié)束時(shí),TD(λ)利用下面的公式來(lái)更新和調(diào)整參數(shù)向量w:時(shí)序差分公式其中是估值函數(shù)J在狀態(tài)St時(shí)關(guān)于參數(shù)向量w的偏導(dǎo)數(shù),
α是一個(gè)0到1之間的一個(gè)正常數(shù),控制了學(xué)習(xí)的速率;λ也是一個(gè)0到1之間的正常數(shù),控制著時(shí)序差分更新時(shí)向前傳播的百分比;主要內(nèi)容
非完備信息博弈簡(jiǎn)介12
時(shí)序差分在四國(guó)軍旗中的應(yīng)用3時(shí)序差分學(xué)習(xí)算法介紹系統(tǒng)運(yùn)行界面系統(tǒng)基本架構(gòu)四國(guó)軍旗系統(tǒng)特點(diǎn)搜索空間巨大;非完備信息博弈,這里采用了蒙特卡羅抽樣技術(shù)來(lái)解決;搜索算法根據(jù)軍棋游戲的特點(diǎn),使用了歷史啟發(fā)搜索算法,History
Heuristics;估值函數(shù)采用時(shí)序差分學(xué)習(xí)技術(shù)進(jìn)行優(yōu)化估值函數(shù)的優(yōu)化-時(shí)序差分估值函數(shù)是博弈程序的核心;原來(lái)的估值函數(shù)結(jié)構(gòu)簡(jiǎn)單,難以有效的描述棋局;時(shí)序差分定義了一系列的描述棋盤(pán)的參數(shù),并通過(guò)不斷調(diào)整這些參數(shù)來(lái)逼近棋局的真實(shí)狀況;四國(guó)軍旗系統(tǒng)場(chǎng)景設(shè)計(jì)Agent是人工智能玩家;Environment外部環(huán)境是所有可能的棋局構(gòu)成的集合;State是當(dāng)前棋局;Action集合是在當(dāng)前棋局下所有合法的走步;回報(bào)值r在游戲結(jié)束時(shí),有3個(gè)可能的值:1,-1,0。1表示贏了,-1表示輸了,0表示和局;游戲中間使用估值函數(shù)J來(lái)模擬逼近回報(bào)值r;四國(guó)軍旗中的時(shí)序差分在一局游戲結(jié)束時(shí)根據(jù)時(shí)序差分學(xué)習(xí)算法進(jìn)行調(diào)整;希望對(duì)從游戲開(kāi)始到游戲結(jié)束所經(jīng)歷的每個(gè)棋局S,由估值函數(shù)J(S,w)所算出來(lái)的回報(bào)值和真實(shí)值J*之間的差值最??;例如,理想的回報(bào)值可能是這樣的:S1S2……SN-1SN0.900.920.981估值函數(shù)J(S,w)得到的結(jié)果可能是:S1S2……SN-10.30.50.8
這里期望通過(guò)調(diào)整w,可是使得在每個(gè)棋局狀態(tài)S,估值函數(shù)得到的結(jié)果都能夠非常接近理想回報(bào)值。時(shí)序差分調(diào)整過(guò)程對(duì)游戲過(guò)程中經(jīng)歷的每個(gè)狀態(tài)Si,
計(jì)算出J(Si,w),利用J來(lái)作為估值函數(shù)計(jì)算博弈樹(shù)搜索時(shí)博弈樹(shù)的各個(gè)葉節(jié)點(diǎn)的估值;對(duì)游戲所經(jīng)歷的各步,t=1,2,3,…N-1,計(jì)算出時(shí)序差分:根據(jù)時(shí)序差分公式來(lái)更新參數(shù)向量w:參數(shù)向量w為了更準(zhǔn)確有效的描述棋盤(pán)狀態(tài)S,定義了下面幾組參數(shù)來(lái)構(gòu)成參數(shù)向量w:棋子基本值數(shù)組:如司令的基本值為500,炸彈為300,軍旗為1000等;棋子靈活性數(shù)組:如司令的靈活性為2.0,工兵的靈活性為0.8等;進(jìn)攻位置加分?jǐn)?shù)組:如在敵方軍旗附近的位置加分,行營(yíng)位置加分等;特殊組合得分:如炸彈-師長(zhǎng)對(duì)得分,三角雷得分等;威脅-保護(hù)比例:棋子受到威脅(或受到保護(hù))時(shí)的減分(或加分)比例等;估值函數(shù)J可以看作是一個(gè)1×n的向量v和n×1的參數(shù)向量w的內(nèi)積;例如:N是(基本值數(shù)組的各個(gè)參數(shù)所對(duì)應(yīng)的系數(shù),靈活性數(shù)組的各個(gè)參數(shù)所對(duì)應(yīng)的系數(shù),…),w是(基本值數(shù)組的各個(gè)參數(shù),靈活性數(shù)組的各個(gè)參數(shù),…),則J=基本值數(shù)組的各個(gè)參數(shù)×基本值數(shù)組系數(shù)所對(duì)應(yīng)的系數(shù)
+靈活性數(shù)組的各個(gè)參
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 12富起來(lái)到強(qiáng)起來(lái) 第一課時(shí)(說(shuō)課稿)-2023-2024學(xué)年道德與法治五年級(jí)下冊(cè)統(tǒng)編版
- 13《貓》說(shuō)課稿-2023-2024學(xué)年四年級(jí)語(yǔ)文下冊(cè)統(tǒng)編版
- Unit 4 Customs and Traditions:Review of Passives 語(yǔ)法銜接活動(dòng)案例說(shuō)課稿-2024-2025學(xué)年高中英語(yǔ)滬外版必修第一冊(cè)
- 8 安全記心上《平安出行》(說(shuō)課稿)-部編版道德與法治三年級(jí)上冊(cè)
- 西藏小區(qū)變壓器施工方案
- 27《巨人的花園》(說(shuō)課稿)-2023-2024學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)下冊(cè)
- 《3 我的本領(lǐng)大-循環(huán)模塊與執(zhí)行器模塊組合應(yīng)用》說(shuō)課稿-2023-2024學(xué)年清華版(2012)信息技術(shù)六年級(jí)下冊(cè)001
- 9元日說(shuō)課稿-2023-2024學(xué)年三年級(jí)下冊(cè)語(yǔ)文統(tǒng)編版
- Unit 3 Seasons Lesson 2(說(shuō)課稿)-2023-2024學(xué)年人教新起點(diǎn)版英語(yǔ)二年級(jí)下冊(cè)
- 倒賣(mài)人口合同范例
- 邵陽(yáng)市職工勞動(dòng)能力鑒定表
- 稀土配合物和量子點(diǎn)共摻雜構(gòu)筑發(fā)光軟材料及其熒光性能研究
- 衛(wèi)生部手術(shù)分級(jí)目錄(2023年1月份修訂)
- JJG 921-2021環(huán)境振動(dòng)分析儀
- 中藥炮制學(xué)-第五、六章
- 中國(guó)風(fēng)軍令狀誓師大會(huì)PPT模板
- 小兒高熱驚厥精品課件
- 2023機(jī)械工程師考試試題及答案
- 2022年電拖實(shí)驗(yàn)報(bào)告伍宏淳
- 豐田汽車(chē)戰(zhàn)略規(guī)劃與戰(zhàn)略管理體系研究(2021)
- 即興口語(yǔ)(姜燕)-課件-即興口語(yǔ)第一章PPT-中國(guó)傳媒大學(xué)
評(píng)論
0/150
提交評(píng)論