基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法_第1頁
基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法_第2頁
基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法_第3頁
基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法_第4頁
基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法摘要:隨著無線通信的飛速發(fā)展,無線頻譜資源日益緊張,然而某些頻段資源的利用率卻很低,認知無線電正好是能有效緩解頻譜分配與利用這對矛盾的技術。本文在認知用戶獨立學習的基礎上提出一種多用戶動態(tài)頻譜接入新算法。該算法中每個認知用戶都是一個基于獨立學習的智能體,它不知道在聯(lián)合行動中其他認知用戶的行動策略,僅維護自己的一個關于狀態(tài)-行動對的Q值表,并且每個認知用戶各自采取獨立的迭代過程。同時本文將各個用戶頻點的信噪比引入到獎賞函數(shù)r中,在降低認知用戶與主用戶發(fā)生沖突的概率的同時,提高了系統(tǒng)的平均容量。仿真結果表明該算法可以降低沖突概率,在考慮頻點信噪比的情況下

2、,系統(tǒng)的平均容量可以得到提高。關鍵詞:認知無線電;頻譜接入;多用戶;強化學習;雙Q學習算法A new algorithm of dynamic spectrum access of multi-usersbased on independent learningAbstract:With the rapid growth of wireless communications ,cognitive radio has been recognized as an effective solution to the conflict brought by the distribution and u

3、tilization of spectrum resources. In this paper, we put forward a new algorithm of dynamic spectrum access of multi-users based on independent learning. In this algorithm, each cognitive user is an agent based on independent learning. It only protects their own Q-value table of state-action without

4、knowing the actions of other cognitive users in joint operations.Each cognitive user takes their own independent iterative process. Meanwhile this paper takes SNR of each channel into account in the reward function r. Simulation results show that this new algorithm can reduce probability of conflict

5、 between the cognitive users and the main users. Furthermore when considering the SNR this new algorithm can enlarge the systems average capacity.Keywords: cognitive radio; spectrum accessing; multi-users; reinforcement learning;DAQL1 引言隨著無線通信技術的飛速發(fā)展,頻譜資源變得越來越緊張。為了解決頻譜資源匱乏的問題,基本思路就是盡量提高現(xiàn)有頻譜的利用率1。為此,

6、人們提出了認知無線電的概念2。認知無線電的基本出發(fā)點就是:為了提高頻譜利用率,具有認知功能的無線通信設備可以按照某種“伺機(Opportunistic Way)”的方式工作在已授權的頻段內(nèi)3。認知無線電的核心思想就是使無線通信設備具有發(fā)現(xiàn)“頻譜空洞”并合理利用的能力4。人工智能大師Simon Haykin在其認知無線電綜述文章中明確提到學習是認知無線電系統(tǒng)的一個重要環(huán)節(jié)5。在機器學習領域現(xiàn)在研究比較熱門的強化學習RL6(Reinforcement Learning,又稱加強學習、增強學習等)是一種以環(huán)境反饋作為輸入、適應環(huán)境的特殊學習方法。強化學習是一種從動物學習、自適應策略等理論發(fā)展而來的機

7、器學習方法,它的在線學習能力與自適應學習能力使其成為解決策略尋優(yōu)問題的有力工具7。文獻8提出了TD(Temporal Difference)方法,解決了強化學習中根據(jù)時間序列進行預測的問題,并證明了在系統(tǒng)滿足馬爾可夫屬性9、絕對遞減條件下, TD 方法收斂于最優(yōu)。文獻10,11提出一種著名的強化學習方法:Q-learning,不同于TD學習的迭代僅考慮狀態(tài)的值函數(shù), Q學習利用狀態(tài)-動作對的值函數(shù)Q ( s , a) 進行迭代,利用其獎賞并作為估計函數(shù)來選擇下一動作,即直接優(yōu)化Q函數(shù)。文獻12提出了Sarsa算法,它是一種基于模型算法,最初被稱為改進的Q學習算法。它仍然采用的是Q值迭代。Sar

8、sa是一種在策略TD學習(on-policy TD)。文獻13研究了單認知用戶情況下基于DAQL算法的動態(tài)頻譜接入方案,但是卻不能解決多認知用戶情況下的動態(tài)頻譜接入問題。本文在文獻14的基礎上,研究了多認知用戶情況下基于強化學習的頻譜接入算法,針對信息不完備的情況,提出了一種基于獨立學習的多用戶動態(tài)頻譜接入新算法。該算法在各認知用戶獨立學習的基礎上建立協(xié)調(diào)策略, 以實現(xiàn)協(xié)作決策過程的收斂,對所有認知用戶均采用相同的獎賞函數(shù), 即一般和對策。同時本文將各個用戶信道的信噪比引入到獎賞函數(shù)r中,在降低認知用戶與主用戶發(fā)生沖突的概率的同時,提高了系統(tǒng)的平均容量。本文安排如下,第二部分介紹了認知用戶動態(tài)

9、頻譜接入的系統(tǒng)模型,第三部分介紹了分布式獨立強化學習的基本原理,第四部分介紹了基于分布式獨立學習的多認知用戶動態(tài)頻譜接入新算法,第五部分對新算法進行了仿真。2 系統(tǒng)模型圖1 為認知無線電網(wǎng)絡結構圖, 在授權用戶覆蓋的大區(qū)域中存在多個認知用戶小區(qū),假設其中某個小區(qū)中存在k個認知用戶,n條可用信道,本文研究的系統(tǒng)模型其實就是某個小區(qū)的動態(tài)頻譜接入問題,且小區(qū)中的認知用戶數(shù)僅為2。認知無線電網(wǎng)絡是具有接入點(AP)的集中式結構,且其覆蓋范圍遠小于授權用戶發(fā)射機的覆蓋范圍。授權用戶是按照既定的策略來占用系統(tǒng)頻譜的,可以是固定占用頻譜,也可以是以某一序列動態(tài)的占用頻譜。本文研究的問題中,認知用戶無法和系

10、統(tǒng)交換信息,因此無法得知系統(tǒng)的頻譜圖1 認知無線電網(wǎng)絡結構圖分配情況。本文設計的目標便是認知用戶如何在不知道系統(tǒng)頻譜分配情況下,智能地占用信噪比高的空閑頻譜,即在降低沖突概率的同時,提高系統(tǒng)的平均容量。3分布式獨立強化學習分布式獨立強化學習中, 每個智能體都是一個獨立的學習體, 它們可以獨立地執(zhí)行單Agent強化學習算法。 智能體不知道在聯(lián)合行動中其它智能體的行動策略, 它只維護自己的一個關于狀態(tài)-行動對的Q 值表 , 并依據(jù)該評價函數(shù)確定修正后的行動策略,分布式獨立強化學習中每個智能體Q值表更新公式如下: (1)其中s S,S為智能體感知到的環(huán)境狀態(tài);,A為智能體作用于環(huán)境的動作集合;為所有

11、智能體的一個聯(lián)合行動; 為環(huán)境對聯(lián)合行動的獎賞函數(shù); t表示狀態(tài)-行動對(s,a)的迭代次數(shù)。由式(1) 可知, 迭代過程是一個單調(diào)非減的過程。 采用該分布式學習算法的意義在于: 在保證問題求解精度的前提下減少復雜問題的計算量, 并由此構造可并行的計算方式。文獻14論證了該算法的收斂性。每個智能體都進行各自的Markov決策過程(MDP) , 狀態(tài)的變遷決定于所有智能體的聯(lián)合行動, 稱這樣的決策過程為多智能體協(xié)作決策過程(MACMDP) , 定義為(S , M,A , T , R ) , S為狀態(tài),M為各個智能體的集合,A為智能體作用于環(huán)境的動作集合,T是狀態(tài)轉移概率函數(shù)。分布式獨立強化學習算

12、法中智能體優(yōu)化策略的更新規(guī)則: (2)式(2) 為貪婪策略,即智能體僅在能改進自己Q 值的情況下修改自己的行動策略, 否則維持原行動策略。這里存在一個探索和利用的問題。Q強化學習算法中,在當前狀態(tài)選擇動作的依據(jù)是的值,即選擇能獲得最大的。但是剛開始時學習沒有先驗經(jīng)驗,即每一個值都是不成熟的,也就是說值不能準確地表示對的適用程度。因此選擇最高值的動作導致了系統(tǒng)總是沿著相同的方向進行搜索而不可能探索到更好值,即容易造成系統(tǒng)停滯在局部最小值上。因此認知用戶要盡可能的選擇不同的動作,來尋求沒有嘗試但可能帶來豐厚獎賞的動作,以找到最優(yōu)的策略,即探索。但是也不可以盲目去探索,過度的探索將導致以前的經(jīng)驗無法

13、利用,學習沒有進步,降低系統(tǒng)的性能,影響學習的速度。所以學習開始時應該采用隨機動作選擇策略,然后隨著學習過程逐步轉向按照值大小選擇動作。分布式獨立強化學習算法中智能體的獎賞函數(shù): (3)其中,分別為任意智能體i和智能體j作用于環(huán)境的動作,分別為環(huán)境對智能體i和智能體j的獎賞,式(3) 表明, 對智能體的聯(lián)合行動采用一致的評價函數(shù),可以確保所有智能體建立共同的目標,從而各個智能體可以在獨立學習的基礎上,通過共同的獎賞函數(shù)建立協(xié)調(diào)策略,來解決分布式系統(tǒng)的各種問題。4基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法Q學習算法和DAQL學習算法13可以解決單用戶動態(tài)頻譜接入的問題,但對于多用戶動態(tài)頻譜接入

14、問題,我們應采用分布式強化學習算法來解決。本文將分布式獨立強化學習算法應用到多認知用戶動態(tài)頻譜接入環(huán)境中,同時將各個用戶頻點的信噪比引入到獎賞函數(shù)r中,在降低認知用戶與主用戶發(fā)生沖突的概率的同時,提高了系統(tǒng)的平均容量。4.1 算法描述 本文將分布式獨立強化學習算法應用到多用戶動態(tài)頻譜接入環(huán)境中,在各認知用戶不知道其他認知用戶具體頻譜分配情況下, 各認知用戶采取獨立學習的方式。它們只維護自己的一個關于狀態(tài)-行動對的Q 值表 , 并且每個認知用戶 i 各自采取獨立的迭代過程,其Q值表更新公式如下: = r (4)式(4)可見將分布式獨立強化學習算法應用到認知無線電中多用戶動態(tài)頻譜接入問題時需考慮授

15、權用戶和認知用戶的動作給系統(tǒng)環(huán)境帶來的影響。其中s S,S為認知用戶感知到的環(huán)境狀態(tài);,A為認知用戶作用于環(huán)境的動作集合;為系統(tǒng)中授權用戶的動作;為所有認知用戶的一個聯(lián)合行動; 為環(huán)境對聯(lián)合行動的獎賞函數(shù);t表示狀態(tài)-行動對(s,a)的迭代次數(shù)。Q值更新采用式(4)。動作選擇策略采用以下的更新規(guī)則 任取 (5)基于分布式獨立學習的多用戶動態(tài)頻譜接入新算法是為了獲得一種從狀態(tài)到動作的映射關系, 使每次經(jīng)歷這個狀態(tài)時, 都能利用以前學習的經(jīng)驗和知識, 做出最優(yōu)的動作決策。認知用戶能為每個感知到的環(huán)境狀態(tài)和自己的動作對建立一個Q 值函數(shù), 并不斷根據(jù)學習到的經(jīng)驗進行更新。通過一段時間的學習過程, 認

16、知用戶能夠在沒有人為干預的情況下自己選擇合適的頻率進行通信, 使得在通信時對已存在的主用戶產(chǎn)生的干擾最小。 同時為了提高系統(tǒng)的平均容量,在獎賞函數(shù)r中引入了各信道的信噪比,即 (6)系統(tǒng)的容量C定義為 (7)系統(tǒng)的平均容量定義為 (8) 其中B為頻點的帶寬,SNR為頻點的信噪比,c(i)為認知用戶第i次占用頻點時系統(tǒng)的容量,m為統(tǒng)計平均容量的次數(shù)。具體的算法流程圖如圖2所示,這是某一個認知用戶的算法流程圖,可以看出其本質上就是單個智能體的算法流程圖,兩個認知用戶通過共同的獎賞函數(shù)r建立協(xié)調(diào)策略,共同完成降低系統(tǒng)沖突概率這一目標。圖2 算法流程圖4.2算法實現(xiàn)假設多用戶動態(tài)頻譜接入問題中狀態(tài)為S

17、,動作集合為A,獎賞回報函數(shù)為R,下面具體說明基于分布式獨立學習的多用戶動態(tài)頻譜接入算法中的幾個要素:1)狀態(tài)空間S S = , , , , ,,, ,其中=0表示頻譜k被占用;=1表示頻譜k未被占用。表示主用戶占用的頻點,k為主用戶數(shù),表示認知用戶占用的頻點,表示m個認知用戶,本算法中m為2。 2) 可選動作集A 影響系統(tǒng)狀態(tài)的動作有2種: 一種是認知用戶選擇頻點時的動作,它占用頻點; 還有一種就是授權用戶占用頻點時動作。本文中授權用戶可能是以固定占用方式占用頻譜,也可能以跳頻等其他方式占用頻譜,另外系統(tǒng)環(huán)境中有2個認知用戶,因此此時系統(tǒng)是多Agent模型的。3) 即時回報R 該算法在獎賞函

18、數(shù)r中引入了各頻點的信噪比。設定認知用戶與授權用戶所選用頻點相同(沖突)或者各認知用戶所選用頻點相同(沖突)時,系統(tǒng)的獎賞函數(shù)r為 “”; 不相同(沒有沖突)時, r 為 “” ,獎賞函數(shù)前面一部分的參數(shù)反映降低沖突概率的要求,當認知用戶與主用戶或者其他認知用戶發(fā)生沖突時,即兩者占用同一頻點,獎賞函數(shù)為-5;當認知用戶與主用戶或者其他認知用戶沒有發(fā)生沖突時,即兩者占用不同的頻點,獎賞函數(shù)為1。獎賞函數(shù)后一部分反映了認知用戶占用該頻點時信噪比對獎賞函數(shù)的影響,其中為第i個頻點的信噪比占系統(tǒng)總信噪比的百分比,p(i)為第i個頻點的信噪比,n為系統(tǒng)的頻點數(shù),a,b為常數(shù)。 4) 評價方式本算法針對的

19、是多認知用戶動態(tài)頻譜接入問題,目的是在沒有人為干預的情況下,認知用戶可以智能的接入系統(tǒng),降低沖突概率,提高系統(tǒng)平均容量。仿真采用分段統(tǒng)計的方法,仿真了系統(tǒng)的沖突概率和不同信噪比時系統(tǒng)的平均容量,比較了考慮信噪比與不考慮信噪比這兩種情況下系統(tǒng)的沖突概率和平均容量情況,采用的是look-up表表達值函數(shù)。實現(xiàn)的過程如下:1)初始化參數(shù)初始化Q 值,設定折扣因子。2)構建狀態(tài)S由狀態(tài)感知模塊感知到的授權用戶占用系統(tǒng)頻譜的情況和認知用戶自身占用的情況來構建狀態(tài)空間S。3)獲取Q值根據(jù)狀態(tài)S和授權用戶將要采取的動作A, 從Q 值表中獲取Q 值。4)選擇和執(zhí)行動作 動作選擇模塊根據(jù)每一個和式(4) , 采

20、用貪婪算法從A中選擇兩個動作并執(zhí)行,其中為認知用戶一執(zhí)行的動作,為認知用戶二執(zhí)行的動作。本文采用的貪婪算法并不是完全執(zhí)行Q值最大所對應的動作,而是大部分時間選擇能得到最高回報的動作,偶爾也以小概率隨機選擇與動作估計值無關的工作。但隨著學習時間的推移,最終要選擇所處狀態(tài)的Q值最大所對應的動作,只有這樣,最終才能完全收斂,這是探索和利用的平衡問題。5)獲取回報本文設定當認知用戶選擇占用的頻率與主用戶或者其他認知用戶沖突時, r= ; 不沖突時, r= 。6)更新Q 值動作執(zhí)行后, 新的狀態(tài)s及其所有的Q 值就能夠由步驟(2) (3)得到,可由式(4)更新為。7)更新參數(shù)每輪迭代結束時, 折扣因子都

21、需要更新。本文設置它以負指數(shù)規(guī)律隨著學習的過程逐漸減小為0, 以滿足收斂性要求。5 仿真與分析本文對基于分布式獨立學習的多認知用戶動態(tài)頻譜接入新算法具體實現(xiàn)進行仿真,仿真時假設共有12個可選頻段(即信道),主用戶數(shù)位3個,認知用戶數(shù)為2個,每個主用戶和每個認知用戶每次都只占用一個,假設帶寬B為1HZ,同時分別令信道的平均信噪比SNR分別為6dB,8dB,10dB,12dB,14dB,16dB,18dB,每個信道的信噪比隨機分布。我們分別對以下兩種情況進行了仿真:(1)授權用戶固定占用信道,(2)授權用戶以一序列跳頻的方式占用信道。認知用戶共學習10000次,在迭代的基礎上,分20 個相等的學習

22、階段統(tǒng)計沖突概率,同時仿真了不同的平均信噪比時的系統(tǒng)的平均容量。本算法中系統(tǒng)的容量僅考慮認知用戶的容量,且是經(jīng)過學習,系統(tǒng)穩(wěn)定后的容量,本文中認知用戶數(shù)為2。圖3和圖4為授權用戶固定占用頻點時系統(tǒng)的沖突概率以及系統(tǒng)的平均容量。由圖3可以看出,隨著學習時間的增加, 沖突概率都能夠明顯降低, 直到完全避免沖突。由圖4可以看出,認知用戶接入時考慮了信道信噪比后,可以在降低沖突概率的同時,使得系統(tǒng)的平均容量增加。圖3授權用戶固定占用頻點時的沖突概率圖4授權用戶固定占用頻點時的系統(tǒng)平均容量圖5和圖6為授權用戶以隨機序列方式跳頻時系統(tǒng)的沖突概率以及系統(tǒng)的平均容量。仿真表明,授權用戶以隨機序列方式跳頻時,隨

23、著學習時間的增加, 沖突概率也可以明顯降低, 直到能完全避免沖突。同樣,當考慮頻點信噪比時,可以在實現(xiàn)降低沖突概率的同時,保證系統(tǒng)的平均容量增加,但是與授權用戶固定占用信道相比,容量會略有下降。 圖5多種授權用戶存在時的沖突概率圖6多種授權用戶存在時的系統(tǒng)平均容量曲線6 結束語單用戶動態(tài)頻譜接入問題,普通的Q學習算法和DAQL學習算法已經(jīng)可以很好解決了,但是對于多用戶動態(tài)頻譜接入問題就無能為力了。在分布式環(huán)境下,則由于時間或空間的約束, 認知用戶之間不能完全共享信息, 這種情況下的協(xié)作決策只能建立在認知用戶的獨立強化學習上。本文將基于分布式獨立學習多智能體協(xié)作決策應用到多用戶動態(tài)頻譜接入問題中

24、,理論和仿真實驗都表明, 這種方法在信息有限的情況下仍可收斂到一個優(yōu)化策略。同時本文將頻點的信噪比考慮到基于分布式獨立學習的多認知用戶動態(tài)頻譜接入新算法的獎賞函數(shù)中,提出了一種優(yōu)化系統(tǒng)容量的新方案,有效地提高了系統(tǒng)的容量,獲得了比較好的效果。參考文獻1 楊曦,郭愛煌,張超,龔增,趙文暉. 認知無線電主動切換的延時優(yōu)化J. 電子測量技術,2009,12(09):11-14.2 ALLEN B.MACKENZIE,JEFFREY H.REED,PETER ATHANAS.Cognitive Radio and Networking Research at Virginia TechJ.PROCEE

25、DINGS OF THE IEEE,2009,97(4):660-688.3 吳迎笑,楊震. 基于頻譜感知的認知無線電機會功率控制算法J. 儀器儀表學報, 2010,09(06):1235-1240.4 Peha, J.M. Sharing Spectrum Through Spectrum Policy Reform and Cognitive RadioJ. Proceedings of the IEEE, 2009,97(4):708-719.5 HAYK INS . Cognitive radio: brain-empowered wireless communicationsJ .

26、IEEE Journal on Selected Areas in Communications, 2005, 23 (2) : 201-220 . 6 Yang, M., & Grace, D. (2009, June). Cognitive radio with reinforcement learning applied to multicast terrestrial communication systems. In CROWNCOM. Hannover, German.7Mengfei Yang,David Grace.(2010,April). Cognitive radio with reinforcement learning applied to multicast Downlink Transmission with Power Adjustment.In Wireless Pers Commun.8 Huazhong Ning, Wei Xu,Yue Zhou, Yihong Gong,Huang

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論