自適應(yīng)啟發(fā)式與批判_第1頁(yè)
自適應(yīng)啟發(fā)式與批判_第2頁(yè)
自適應(yīng)啟發(fā)式與批判_第3頁(yè)
自適應(yīng)啟發(fā)式與批判_第4頁(yè)
自適應(yīng)啟發(fā)式與批判_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 自適應(yīng)啟發(fā)式與批判應(yīng)用到航空公司收益管理文摘:自適應(yīng)評(píng)論家啟發(fā)式算法已成為一種流行,特別在強(qiáng)化學(xué)習(xí)和近似動(dòng)態(tài)規(guī)劃方面。它是第一個(gè)RL和ADP的算法。RL和ADP算法有效的解決馬爾可夫決策過(guò)程,遭受詛咒的維數(shù)和建模。許多現(xiàn)實(shí)世界的問(wèn)題,然而,往往是半馬爾科夫決策過(guò)程(我們知道的時(shí)間花在每個(gè)過(guò)渡的底層的馬爾可夫鏈本身是一個(gè)隨機(jī)變量。)不幸的是,對(duì)于一般的獎(jiǎng)勵(lì)情況,不像這個(gè)折扣獎(jiǎng)勵(lì)情況,沒(méi)有一個(gè)簡(jiǎn)單的擴(kuò)展。我們知道的例子可以發(fā)現(xiàn)在該地區(qū)的供應(yīng)鏈管理、維修管理、和航空公司收益管理。在本文中,我們提出一種自適應(yīng)啟發(fā)式SMDP的批評(píng)家在長(zhǎng)期平均報(bào)酬標(biāo)準(zhǔn)。我們給出了收斂算法的分析顯示,在特定條件溫和,可以

2、確保在一個(gè)模擬器,收斂到最優(yōu)解的概率1。我們測(cè)試了算法的廣泛?jiǎn)栴}航空公司收益管理,經(jīng)理必須設(shè)置價(jià)格的機(jī)票預(yù)訂地平線(xiàn)。這個(gè)問(wèn)題有一個(gè)大規(guī)模的,從痛苦的維數(shù)災(zāi)難,因此很難解決它通過(guò)經(jīng)典方法的動(dòng)態(tài)編程。我們的數(shù)值結(jié)果令人鼓舞,它們表明該算法優(yōu)于現(xiàn)有的啟發(fā)式廣泛使用在航空行業(yè)。關(guān)鍵字: 自適應(yīng)批評(píng)家; 演員批評(píng)家; 半馬爾科夫近似動(dòng)態(tài)規(guī)劃; 加固;知識(shí)1介紹馬爾可夫決策問(wèn)題和決策的系統(tǒng)動(dòng)力學(xué)是由馬爾可夫鏈,并在每個(gè)到訪(fǎng)的國(guó)家系統(tǒng),控制器必須選擇一個(gè)從兩個(gè)或更多的交流組織。的目標(biāo)是最大化的控制器給出的一些獎(jiǎng)勵(lì)獲得在每個(gè)到訪(fǎng)的國(guó)家在一個(gè)有限或無(wú)限一事的時(shí)間范圍。在開(kāi)衩的是在1950年代,更夫1,他們開(kāi)發(fā)了

3、什么是現(xiàn)在叫行李員最優(yōu)方程。op-erations管理之外,那里的MDP已廣泛綜采,最近MDPs發(fā)現(xiàn)應(yīng)用程序在其他領(lǐng)域的工程(自主直升機(jī)控制2)和人工智能(玩計(jì)算機(jī)游戲3,4)。經(jīng)典的方法來(lái)解決這個(gè)問(wèn)題包括線(xiàn)性規(guī)劃和動(dòng)態(tài)規(guī)劃(DP),例如。,值迭代5,6策略迭代法。DP方法打破下來(lái)當(dāng)數(shù)量的國(guó)家行動(dòng)對(duì)很大,例如,超過(guò)幾千,這稱(chēng)為詛咒的維度,也缺乏優(yōu)化中的概率潛在的馬爾可夫鏈,這是稱(chēng)為詛咒的建模。通常,在大型在現(xiàn)實(shí)世界中遇到的難題,國(guó)家行動(dòng)對(duì)的數(shù)量太大(維數(shù)災(zāi)難)和轉(zhuǎn)移概率模型太復(fù)雜(mod鵝嶺詛咒)工作方法對(duì)古典DP。這本質(zhì)上是因?yàn)樗抢щy的,如果不是不可能,存儲(chǔ)或過(guò)程所有元素的轉(zhuǎn)移概率矩陣,是

4、需要在迪拜。特別是,這些矩陣是一個(gè)部分所謂的更夫方程,解決導(dǎo)致一個(gè)最優(yōu)的解決方案。它是在問(wèn)題遭受這些詛咒,學(xué)習(xí)(RL)肯定的控制和自適應(yīng)/近似動(dòng)態(tài)編程(ADP)方法變得有用。RL / ADP方法繞過(guò)躍遷概率矩陣和解決的一個(gè)變體底層更夫方程沒(méi)有轉(zhuǎn)移概率矩陣的。這些方法通常依賴(lài)于一個(gè)模擬器的系統(tǒng)通常是生成的變遷概率。對(duì)于教科書(shū)引用這個(gè)話(huà)題,看到例句。,7 - 9。在本文中,我們提出一種新的自適應(yīng)評(píng)論家算法這適用于與在每個(gè)狀態(tài)所花費(fèi)的時(shí)間是一個(gè)隨機(jī)變量和的性能度量花時(shí)間考慮。對(duì)于所謂的折扣獎(jiǎng)勵(lì)情況下,性能指標(biāo)是凈現(xiàn)值之和的獎(jiǎng)勵(lì)贏得了一個(gè)無(wú)限的時(shí)間范圍,適應(yīng)評(píng)論家有一個(gè)簡(jiǎn)單的擴(kuò)展研究了,在10;所有的

5、改變是折扣系數(shù)。然而,對(duì)于一般的獎(jiǎng)勵(lì)情況,其中一個(gè)試圖最大化期望的獎(jiǎng)勵(lì)每單位嗎該算法對(duì)于SMDP不能開(kāi)發(fā)一個(gè)簡(jiǎn)單的改變算法因?yàn)楦翸DP包含最優(yōu)值的性能指標(biāo)開(kāi)始時(shí)是未知的。為此,我們引入一個(gè)另外一對(duì)一步迭代的算法更新一個(gè)標(biāo)量到的最優(yōu)值的性能指標(biāo)。 2010年7月,修訂后的2011年3月16日。這項(xiàng)工作是由美國(guó)國(guó)家科學(xué)基金會(huì)(No.ECS0841055)。cSouth中國(guó)科技大學(xué)和科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué),CAS和斯普林格出版社柏林海德堡2011422 k . KULKARNI et al。/ J控制理論Appl2011 9(3)421 - 430優(yōu)化。正如上面提到的,RL算法時(shí)非常有用這個(gè)問(wèn)題受到

6、詛咒的維數(shù)和建模。因此,我們測(cè)試了算法上的問(wèn)題從航空公司收益管理的國(guó)家行動(dòng)空間是巨大的和變遷概率很難錫箔。我們的算法顯示了令人鼓舞的表現(xiàn)這問(wèn)題,優(yōu)于工業(yè)啟發(fā)式,廣泛所使用的大多數(shù)航空公司。我們所掌握的最好知識(shí),這是第一篇論文提出算法收斂的自適應(yīng)評(píng)論家為下位控制平均報(bào)酬。其余的文章是有組織的如下。第二節(jié)提供了一個(gè)背景。新算法是在第3節(jié)描述。收斂性能的研究了該算法在第四節(jié)。應(yīng)用程序的該算法對(duì)航空公司收益管理問(wèn)題隨著數(shù)值計(jì)算結(jié)果給出了在第五部分,而本研究得出的結(jié)論提出了sec名詩(shī)6。2 SMDPs和RLSMDP的一個(gè)問(wèn)題是,找到最佳的行動(dòng)每個(gè)州當(dāng)花費(fèi)的時(shí)間在每一個(gè)狀態(tài)轉(zhuǎn)換是一個(gè)隨機(jī)變量,這個(gè)隨機(jī)時(shí)間

7、是一部分功能,即長(zhǎng)期平均報(bào)酬在我們案例。我們將首先討論長(zhǎng)期平均的re病房2.1長(zhǎng)期平均報(bào)酬我們首先呈現(xiàn)一些符號(hào)需要我們的討論。讓表示有限集的狀態(tài)在,(i)fi夜間套動(dòng)作允許在statei,(我)在國(guó)家的行動(dòng)趙森我當(dāng)政策是跟隨,在那里i年代(i)=一個(gè)。此外,讓r(,.,.·):S××S一個(gè)r表示一步法直接獎(jiǎng)勵(lì),t(,.,.·):S××S一個(gè)R表示在一個(gè)過(guò)渡的時(shí)間,和p(,.,.·):S×一個(gè)×S0,1表示相關(guān)的轉(zhuǎn)移概率。然后,預(yù)期報(bào)酬直接在狀態(tài)我當(dāng)行動(dòng)被選擇在它可以表示為和預(yù)期的時(shí)間關(guān)聯(lián)的轉(zhuǎn)換:我們現(xiàn)在可

8、以定義長(zhǎng)期平均報(bào)酬,或sim卡厚度平均報(bào)酬,如下所示。定義1讓然后進(jìn)行常規(guī)的馬爾可夫鏈,從定理7.5在11(160頁(yè)),長(zhǎng)期平均報(bào)酬的一個(gè)政策的一開(kāi)始我是SMDP狀態(tài)(i)= R(i)/ T(i)。常規(guī)的馬爾可夫鏈,(·)是獨(dú)立的開(kāi)始狀態(tài)。2.2 貝爾曼方程平均回報(bào)都是關(guān)于尋找政策最大化。最優(yōu)平均報(bào)酬將本文通過(guò)表示。以下是一個(gè)中央再保險(xiǎn)饑餓,顯示了存在一個(gè)最優(yōu)的解決方案SMDP。結(jié)果可以發(fā)現(xiàn)在任何標(biāo)準(zhǔn)文本在迪拜,如。,。定理1的平均報(bào)酬SMDP所有馬爾可夫鏈?zhǔn)怯幸?guī)則的,存在一個(gè)矢量3 自適應(yīng)批評(píng)家發(fā)明了一種框架,現(xiàn)在是著名的為啟發(fā)式動(dòng)態(tài)規(guī)劃(黃芪丹參滴丸)。一個(gè)in-tegral這個(gè)

9、框架的一部分,自適應(yīng)算法是評(píng)論家這是基于策略的迭代。黃芪丹參滴丸導(dǎo)致了眾多重要算法德章,如。,雙啟發(fā)式的編程和操作依賴(lài)黃芪丹參滴丸。一個(gè)在這一領(lǐng)域的并行開(kāi)發(fā)的算法是她的。它使用觀念的加強(qiáng)品德學(xué)習(xí)。這是稍后顯示在,該算法在并趨近于概率1。我們注意到自適應(yīng)評(píng)論家只是其中的許多算法在ADP / RL。其他著名的算法分為學(xué)習(xí)和近似策略迭代法大部分文獻(xiàn)調(diào)查文學(xué)在教科書(shū)上面命名。感興趣的讀者也提到一些最近的調(diào)查論文:看控制理論的觀點(diǎn)和看對(duì)于一個(gè)運(yùn)籌學(xué)和機(jī)器學(xué)習(xí)的觀點(diǎn)。ADP / RL目前形式一個(gè)活躍的研究領(lǐng)域內(nèi)的連續(xù)時(shí)間控制社區(qū);看到如。中央的想法在自適應(yīng)(演員)批評(píng)家是一個(gè)政策被選中(讀表演),然后制定

10、的政策,即。,sim-ulated(讀課目的政策),然后加以改進(jìn)在一個(gè)自適應(yīng)的方式。自適應(yīng)批評(píng)的力量在于他們有能力解決無(wú)需生成概率的過(guò)渡。這是自適應(yīng)暴擊打破詛咒的建模和維度。在休息的這一節(jié)中,我們討論我們的新算法。在sec名詩(shī)3.1,我們提出一個(gè)推導(dǎo)的算法直覺(jué)底層,在3.2節(jié)中,我們給出了k . KULKARNI et al。/ J控制理論Appl2011 9(3)421 - 430一步一步詳細(xì)的算法。3.1半馬爾科夫適應(yīng)性批評(píng)家自適應(yīng)評(píng)論家啟發(fā)式的MDP主要有兩個(gè)組件:一個(gè)“演員”,選擇一個(gè)政策和“評(píng)論家”評(píng)估值函數(shù)相關(guān)。波爾冰冷SMDP的,我們需要添加一個(gè)第三步中評(píng)論家除了估算值函數(shù)的平均

11、報(bào)酬也國(guó)際化程度的機(jī)臺(tái)的政策。這個(gè)額外的步驟是由于元素所需的平均報(bào)酬和過(guò)渡次SMDPs更夫方程。我們將試圖解決以下版本的信號(hào)工方程:這種假設(shè)可以很容易地在實(shí)踐驗(yàn)證問(wèn)題的過(guò)渡結(jié)構(gòu),即。,但總體而言,躍遷概率,獎(jiǎng)勵(lì),和時(shí)間,是已知的。然后,的價(jià)值可以確定實(shí)證。在第五部分,我們將驗(yàn)證這種假設(shè)的小問(wèn)題過(guò)渡結(jié)構(gòu)是已知的。在本文中,我們?cè)噲D使用上面的方程問(wèn)題的過(guò)渡結(jié)構(gòu)是未知的,因此我們將使用一個(gè)推測(cè)的的價(jià)值。Guestimating的價(jià)值是一種常見(jiàn)的實(shí)踐文獻(xiàn)中的政策梯度25,26,在那里它一直顯示的實(shí)際價(jià)值可能取決于轉(zhuǎn)移矩陣的特征值,值的不需要非常接近1。然而,自特征值可以確定只有當(dāng)結(jié)構(gòu)可用的,它是一種標(biāo)

12、準(zhǔn)實(shí)踐文獻(xiàn)中的政策梯度使用一個(gè)推測(cè)的。在同樣的精神,我們將使用一個(gè)推測(cè)在我們的算法。貼現(xiàn)-MDP我們將為了分析構(gòu)造一個(gè)輔助(或虛擬)貼現(xiàn)MDP為分析我們的SMDP。注意,方程(2)可以視為是貝爾曼方程折扣MDP在該獎(jiǎng)勵(lì)結(jié)構(gòu)改變的;直接的獎(jiǎng)勵(lì)嗎是一個(gè)函數(shù)的,這是固定的和已知的,以及優(yōu)化中的時(shí)間:第六步如果k < kmax,設(shè)置我j,然后轉(zhuǎn)到步驟2。否則,轉(zhuǎn)到步驟7。步驟7對(duì)于每個(gè)l年代,選擇d(l)arg馬克斯b一(左)P(l,b)。該政策(解決方案)生成的算法D。停止。上面的方法是使用一個(gè)合適的值的算法的不到1為了生成一個(gè)解決方程(2)這樣的that方法平均回報(bào)的政策包含在價(jià)值函數(shù)V。這

13、在假設(shè)1確保我們獲得最優(yōu)解。在上面的算法描述,增加清晰的表示,我們已經(jīng)鎮(zhèn)壓了上標(biāo),k,發(fā)票,P,也在一步,大小。然而,我們將在需要的時(shí)候使用這些superscripts?!把輪T”的算法上面選擇政策是在步驟3中,雖然“評(píng)論家”更新值函數(shù)在步驟4和平均獎(jiǎng)勵(lì)在步驟5。步驟大小,和必須滿(mǎn)足以下條件。這些條件是必須顯示的趨同算法在數(shù)學(xué)上,不難發(fā)現(xiàn)步驟大小滿(mǎn)足這些條件。例子的步驟大小遵守這些條件,將提供在第五部分(見(jiàn)方程(14)。最后,我們注意到,選擇動(dòng)作策略在步驟2中被稱(chēng)為玻耳茲曼的策略并透徹研究文獻(xiàn)中的RL84算法收斂我們現(xiàn)在學(xué)習(xí)的收斂性,該算法。連續(xù)時(shí)間過(guò)程的時(shí)間內(nèi)插接軌(見(jiàn)庫(kù)什納和克拉克27為經(jīng)典

14、的描述的每個(gè)類(lèi)的過(guò)程)底層迭代。我們將名字迭代的x,y,和z,x,y,將對(duì)應(yīng)最高V,z,R和T。讓x(t),y(t)、z(t)表示這些連續(xù)時(shí)間過(guò)程??紤]一個(gè)同步的updat-ing循環(huán)遍歷兩個(gè)時(shí)間尺度以下方案在上面的,f,g,h是函數(shù),將取決于該算法,而MK是鞅差se -在k階迭代聯(lián)系在一起。在異步更新,上述方案將被修改的指標(biāo)函數(shù)-優(yōu)化乘以步驟大小;指標(biāo)函數(shù)返回一個(gè)1如果磁帶信息處理機(jī)組件的迭代更新k階迭代的模擬器和0否則。注意,在上下文的算法,為x,m(我),y、m我和z,我代表國(guó)家和一個(gè)動(dòng)作。我們定義的函數(shù)f,g,h和鞅差序列如下:有一個(gè)全局漸近穩(wěn)定的臨界點(diǎn)。假設(shè)5遍歷x,y,和z仍然有限

15、。我們現(xiàn)在我們的主要結(jié)果。定理2自適應(yīng)算法提出了批評(píng)以上與概率1收斂于最優(yōu)政策在假設(shè)1的SMDP。為一個(gè)固定值of證明,我們已經(jīng)從定理5.13在16,該算法收斂于一個(gè)解決方案是最優(yōu)的-MDP打折。如果它可以證明收斂to,然后如果假設(shè)2 - 5舉行,主要的結(jié)果在28意味著算法收斂于op -解決方案的timal打折mdp?,F(xiàn)在,如果Assump -優(yōu)化1成立,與一個(gè)合適的選擇,算法將然后收斂到最優(yōu)解的SMDP。因此什么還有待證明,該算法滿(mǎn)足作為-假設(shè)2認(rèn)為只要一步尺寸遵循規(guī)則定義在方程(8)。假設(shè)3是適用于任何在從結(jié)果的遵循在16。同時(shí),這個(gè)迭代P和V仍然有界對(duì)于任何價(jià)值已經(jīng)將lished在16。

16、剩下的關(guān)于假設(shè)5 t表明,仍將有界。然后,在利用引理4.429,就像在(29歲),我們有,as。,k,K0,即。,K,即。,Assump -優(yōu)化4也滿(mǎn)意。這就完成了證明。注意,是否可以驗(yàn)證假設(shè)1持有當(dāng)問(wèn)題結(jié)構(gòu)是已知的。在實(shí)踐中,在大-規(guī)模的問(wèn)題,這是排除,我們必須假設(shè)一個(gè)可以估算值這樣,假設(shè)1持有。5. 航空公司收益管理在美國(guó)的管制下的民航業(yè),機(jī)票價(jià)格的設(shè)定問(wèn)題,自1978年以來(lái)一直備受研究。然而,只有在最近的時(shí)代,由于模擬和動(dòng)態(tài)進(jìn)展程序的發(fā)明,研究這個(gè)問(wèn)題中要使用最優(yōu)或接近最優(yōu)的技術(shù)已經(jīng)成為可能。收益管理問(wèn)題是一個(gè)連續(xù)性的決策問(wèn)題,決策者已經(jīng)決定是否接受或拒絕一個(gè)可進(jìn)入的顧客。對(duì)于顧客到來(lái)(

17、幾乎)的網(wǎng)站,航空承運(yùn)人或其他旅行社的網(wǎng)站(如。Expedia)提供的票價(jià)應(yīng)該給予一致的通過(guò)。每條航線(xiàn)提供的每個(gè)座位,都需要定期的更新,即每天晚上或每周或每月。座位的價(jià)格變化與提供情況、航班出發(fā)前剩余時(shí)間,客戶(hù)的喜好,和許多其他因素。結(jié)果表明,除非價(jià)格調(diào)整是一種超智能的方式, 否賊航空公司不能生存在一個(gè)有激烈的競(jìng)爭(zhēng)、需要昂貴的資源的環(huán)境中, 不僅低利潤(rùn),低支出比率,而且還能很好的盈利。接下來(lái),用多種操作的角度看這個(gè)問(wèn)題,以及將一個(gè)便于交流計(jì)數(shù)的文獻(xiàn)運(yùn)用在這個(gè)話(huà)題討論中。本質(zhì)上的問(wèn)題可以歸結(jié)為設(shè)定價(jià)格在解決分配問(wèn)題中,一個(gè)座位的數(shù)量被分配到一個(gè)給定的票價(jià)f 1或所有票價(jià)高于f 1。乘客支付同樣的

18、費(fèi)用是屬于艙位票價(jià)相同類(lèi)。當(dāng)座椅對(duì)于一個(gè)給定的票出售, 下一個(gè)更高的票價(jià)類(lèi)是為客戶(hù)開(kāi)放。這個(gè)問(wèn)題常出現(xiàn)在取消和超額預(yù)定問(wèn)題中??蛻?hù)經(jīng)常取消他們的預(yù)訂和支付的價(jià)格,根據(jù)不同的情況他們購(gòu)買(mǎi)了不同的票。因此,航空公司的飛機(jī),即在超額預(yù)訂,他們出售更多的席位是在飛機(jī)上。通常,由于這種可取消的行為,人們有權(quán)力拒絕登機(jī)請(qǐng)求。然而,過(guò)量的超額預(yù)定會(huì)導(dǎo)致很多乘客被反復(fù)重疊, 這是非常昂貴的。如果不是超額訂購(gòu)已經(jīng)完成, 飛機(jī)飛行中會(huì)有一些空位,這損害了航空公司的利益,特別是在他們的高需求,因?yàn)楹桨喔?jìng)爭(zhēng)是可能使用超額預(yù)定和飛行接近飽和。飛行中的空位特別是存在于在高需求航線(xiàn),航空公司會(huì)提高他們的票價(jià),或在總體上降低

19、需求。分割的想法用在多樣的客戶(hù)需求上。不同的票價(jià)出現(xiàn)是基于不同的乘客會(huì)有不同的期望。更多客戶(hù)想買(mǎi)一個(gè)交高價(jià)位的座位,同時(shí)在取消預(yù)訂座位時(shí)會(huì)有較低的罰金。當(dāng)然,這樣的乘客往往有更高的概率取消座位,這些客戶(hù)往往是商務(wù)旅行者。休閑旅客提前計(jì)劃他們的行程,因此往往更多數(shù)字?jǐn)?shù)據(jù)顯示他們提早預(yù)訂線(xiàn)。他可以解決以上問(wèn)題描述的一個(gè)啟發(fā)式,即通過(guò)什么方式被普遍稱(chēng)作預(yù)期的邊際座位收入(EMSR)啟發(fā)式。它來(lái)源于小木的方程30。這個(gè)版本在業(yè)界被流行地稱(chēng)為EMSR-b31。優(yōu)秀的評(píng)論文學(xué)在收益管理已經(jīng)出現(xiàn)在32、33; 參見(jiàn)34、35教材引用收入管理。強(qiáng)化學(xué)習(xí)已經(jīng)用于解決收益管理問(wèn)題在36、37,但是這些算法的使用是

20、基于自適應(yīng)沒(méi)有批評(píng)者。該算法在36是一個(gè)啟發(fā)式的基于多步更新,而基于迭代算法的近似政策37確實(shí)有收斂擔(dān)保, 但它既慢且容易現(xiàn)象叫做跳躍現(xiàn)象。以我們最好的知識(shí),本研究提出了第一個(gè)數(shù)值試驗(yàn),自適應(yīng)批評(píng)一個(gè)大型航空公司收益管理問(wèn)題。5.1 符號(hào) 這里出現(xiàn)的一些符號(hào),將需要多次使用在這部分的文獻(xiàn)中。si: 艙位 i銷(xiāo)售的座位數(shù)量;n:艙位編號(hào);fi: 艙位i的費(fèi)用;c: 流通的艙位;t: 飛機(jī)起飛的剩余時(shí)間;H : 預(yù)訂范圍的長(zhǎng)度;Yi:艙位i的旅客需求量;C : 飛機(jī)的容量; :所有客戶(hù)的泊松到達(dá)率5.2. SMDP我們現(xiàn)在用SMDP模型來(lái)解決問(wèn)題。我們假設(shè)這個(gè)問(wèn)題有無(wú)限的時(shí)間范圍,在這預(yù)訂線(xiàn)是反復(fù)

21、的。目標(biāo)是最大化平均單位時(shí)間的獎(jiǎng)勵(lì)。行為空間這個(gè)問(wèn)題是由兩個(gè)動(dòng)作:(接受, 否認(rèn))。狀態(tài)空間的問(wèn)題可以被定義為符合低點(diǎn):(c, s1,s2,.,sn ,1 ,2 ,.,n,t ),在i是一個(gè)向量的大小si包含的時(shí)代所有的客戶(hù)艙位i。的基數(shù)有限組件的狀態(tài)空間應(yīng)該不超過(guò)nAn,A表示多給定的最大的客戶(hù)艙位。即使有限的組件的狀態(tài)空間往往是巨大的。為為了地圖萍的高維狀態(tài)空間到一個(gè)較低的可管理的維度,我們使用以下函數(shù)使用在37。在fi代表的票價(jià)類(lèi)i和D是一個(gè)標(biāo)量的必須確定價(jià)值通過(guò)試驗(yàn)和錯(cuò)誤。我們的狀態(tài)空間現(xiàn)在定義為(c、P I)而不是定義在(12)。上面的結(jié)果是,我們有一個(gè)狀態(tài)空間與一個(gè)較小的尺寸,這讓

22、我們到一個(gè)可控制的范圍和允許我們使用查表。5.3 EMSR-b我們現(xiàn)在解釋EMSR-b啟發(fā)式,我們有作為我們的自適應(yīng)算法的基準(zhǔn)評(píng)論家。請(qǐng)注意,在我們的表示法:f1< f2<< fn,fi表示第i類(lèi)的票價(jià)?,F(xiàn)在將指示要求的總和所有票價(jià)類(lèi)i以上和i?,F(xiàn)在,總收益為第i 類(lèi)是定義為加權(quán)平均收入的所有費(fèi)用i以上和包括i如下:著名的利特爾伍德的方程30在上下文的EMSR-b是對(duì)i= 1,2,n1,Pi ,保護(hù)水平, 表示數(shù)量的席位來(lái)保護(hù)票價(jià)類(lèi)i,i+ 1,n。沒(méi)有保護(hù)水平最低的類(lèi)1。預(yù)訂限制第i類(lèi)定義因?yàn)閕= 1,2,n1;注意,預(yù)訂限制的最高的類(lèi)應(yīng)該是能力的n的飛機(jī)。Can-cell

23、ations可以占在利特爾伍德的方程在上面的方程代替C通過(guò)C /(1問(wèn)),問(wèn)是取消了所有的平均概率的票價(jià)類(lèi)。一個(gè)人應(yīng)該注意,一個(gè)需要分配的每個(gè)隨機(jī)變量Yi解決上面的方程。5.4 實(shí)證結(jié)果我們首先實(shí)證驗(yàn)證假設(shè)1(第5.4.1之前) 然后現(xiàn)在的實(shí)證結(jié)果在收入管理問(wèn)題(部分5 4 2)。5.4.1實(shí)證驗(yàn)證假設(shè)1我們研究的十個(gè)小SMDPs過(guò)渡概率, 獎(jiǎng)勵(lì),和時(shí)間顯示為表1。 的價(jià)值對(duì)于每個(gè)SMDP決心通過(guò)詳盡的評(píng)估然后古典貼現(xiàn)值迭代進(jìn)行減小值從0.9開(kāi)始。企業(yè)化的貼現(xiàn)值迭代是基于優(yōu)化方程(2)和= 。這個(gè)政策造成的價(jià)值迭代的最優(yōu)政策來(lái)比較獲得詳盡的評(píng)估。的值在這個(gè)政策不同于最優(yōu)政策從而確定以經(jīng)驗(yàn)為主地

24、;這個(gè)值當(dāng)然是上面定義的是。表2顯示了值為所有的10 SMDPs描繪在表1。解釋結(jié)果在表2, 解決-SMDP的任何值大于但少比1相當(dāng)于解決最初的平均報(bào)酬SMDP。9日和10日為例,我們發(fā)現(xiàn)that可以承擔(dān)任何值在0和1之間。結(jié)果表明,在一般情況下, 必須經(jīng)過(guò)精心挑選,在實(shí)踐中,一個(gè)值接近嗎1應(yīng)該是一個(gè)安全的選擇。Tab1 輸入問(wèn)題用于驗(yàn)證假設(shè)1。5.4.2收益管理案例研究我們進(jìn)行了一次廣泛的實(shí)證分析我們的新算法在收入管理問(wèn)題描述以上。我們進(jìn)行了一系列的實(shí)驗(yàn)問(wèn)題3類(lèi)和4類(lèi)費(fèi)用費(fèi)用。不同的票價(jià)類(lèi)已經(jīng)被詳細(xì)的在表3。我們假設(shè)一個(gè)同質(zhì)的泊松過(guò)程和速率= 1.4每天飛機(jī)容量的100個(gè)席位。預(yù)訂地平線(xiàn)是1

25、00天漫長(zhǎng)。泊松過(guò)程的對(duì)于每個(gè)票價(jià)類(lèi)是一個(gè)獨(dú)立的泊松過(guò)程一個(gè)速度Pr公關(guān)(我)(我)是到達(dá)的概率類(lèi)i。取消的概率為票價(jià)類(lèi)是與一位顧客的概率能力在一個(gè)給定的票價(jià)類(lèi)取消??梢园l(fā)生的任何時(shí)間取消與統(tǒng)一從時(shí)間分布的離開(kāi)預(yù)訂,直到飛機(jī)。詳細(xì)的到達(dá)概率,取消概率和處罰,表4中提供。為3票類(lèi)系統(tǒng),我們使用Div = 500, 對(duì)4票類(lèi)系統(tǒng),我們使用Div = 1000;Div 一個(gè)重要的比例常數(shù)在方程(13)為一個(gè)低維的背包狀態(tài)空間為我們的問(wèn)題。這些值到達(dá)經(jīng)過(guò)多次實(shí)驗(yàn)。我們使用= 0.9在我們的計(jì)算,雖然我們發(fā)現(xiàn)價(jià)值低至0.5不影響政策獲得。在遵循步驟大小被用于三個(gè)主要的更新算法:該算法是運(yùn)行在所有的系統(tǒng)上

26、面所描述的(10的3票類(lèi)和10的4票類(lèi)), 學(xué)習(xí)階段花了最多26秒Pen-tium英特爾處理器的速度2.66 GHz在64位系統(tǒng)歌劇院讓人膽怯。一旦得到了最優(yōu)策略,這是重新運(yùn)行與政策凍結(jié)100復(fù)制, ()獲得的平均報(bào)酬從每個(gè)復(fù)制是平均計(jì)算的平均報(bào)酬政策生成的算法,我們表示交流為自適應(yīng)評(píng)論家算法。結(jié)果呈現(xiàn)在表5 和6是凍階段100復(fù)制。這個(gè)從EMSR-b溶液,用 EMSR ,也估計(jì)通過(guò)使用100復(fù)制。在測(cè)試了確定結(jié)果在統(tǒng)計(jì)上是不同的,是積極的在每一個(gè)再保險(xiǎn)封山案例研究在95%信心。改善在表5和6是定義在百分比作為從表中可以很清楚的看到,改善在av消除獎(jiǎng)勵(lì)范圍從1.35%到18.5%。平均收入等于

27、H每航班。作為樣品,我們現(xiàn)一些數(shù)字演示平均報(bào)酬im證明與迭代在學(xué)習(xí)階段。分別地,1和2顯示了學(xué)習(xí)曲線(xiàn)為3票類(lèi)和一個(gè)4票類(lèi)系統(tǒng)。Fig. 1圖表顯示了平均報(bào)酬的提高在學(xué)習(xí)階段迭代系統(tǒng)的FS1d 3票類(lèi)問(wèn)題。Fig. 2圖表顯示了平均報(bào)酬的提高在學(xué)習(xí)階段迭代系統(tǒng)的FS2c 4票類(lèi)問(wèn)題。6.總結(jié)自適應(yīng)評(píng)論家已經(jīng)成為不可或缺的部分文獻(xiàn)在ADP / RL自出版的影響力論文Werb¨os13,提出了策略迭代法,作為一種重要的機(jī)制,ADP / RL。她的論文et al。15是一個(gè)了不起的發(fā)展在這一領(lǐng)域。他們的算法設(shè)計(jì)為MDPs,和收斂性他們的算法成立于16。有些驚人的是,盡管這種性質(zhì)的算法先于q學(xué)習(xí)算法17從歷史上看,他們收到在文獻(xiàn)上的關(guān)注更少。另外,還有一個(gè)缺口是一種自適應(yīng)算法文獻(xiàn)批評(píng)為SMDP下平均報(bào)酬。在本文中,我們?cè)噲D填補(bǔ)這一空缺而提出一個(gè)算法,估計(jì)最優(yōu)平均和獎(jiǎng)勵(lì)值函數(shù)。我們證明我們的算法的收斂性在數(shù)學(xué)上使

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論