支持向量機(jī)及相關(guān)向量機(jī)學(xué)習(xí)報(bào)告_第1頁(yè)
支持向量機(jī)及相關(guān)向量機(jī)學(xué)習(xí)報(bào)告_第2頁(yè)
支持向量機(jī)及相關(guān)向量機(jī)學(xué)習(xí)報(bào)告_第3頁(yè)
支持向量機(jī)及相關(guān)向量機(jī)學(xué)習(xí)報(bào)告_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SVM以及RVM學(xué)習(xí)報(bào)告-.支持向量機(jī)支持向量機(jī)是一種機(jī)器學(xué)習(xí)方法,以統(tǒng)計(jì)學(xué)習(xí)理論的vc維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ)。所以要首先理解VC維和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則這兩個(gè)概念。VC維就是一種含有特殊含義的維數(shù),可以聯(lián)我們平時(shí)熟悉的二維平面,三維空間等等。這種特殊含義就是,對(duì)于一個(gè)函數(shù)集,能夠把一個(gè)含有h個(gè)樣本的樣本集按照所有可能的2】、種形式分開而不能被2h+l分開,那么樣本的vc維就是ho其中的指示函數(shù)的函數(shù)值取-1和1或者是0和1。例如二維平面的線性函數(shù)集合,能夠把平面上的三個(gè)點(diǎn)分成8種形式,這三個(gè)點(diǎn)相當(dāng)于一個(gè)樣本集的樣本數(shù),而不能夠?qū)⑵矫嫔系?個(gè)點(diǎn)分成16種形式,而只能是14中形式。結(jié)構(gòu)風(fēng)險(xiǎn)包括兩個(gè)方面,一個(gè)是經(jīng)驗(yàn)風(fēng)險(xiǎn),一個(gè)是置信風(fēng)險(xiǎn)。之所以說(shuō)是經(jīng)驗(yàn)風(fēng)險(xiǎn),是因?yàn)閷?shí)際中學(xué)習(xí)樣本是有限的,即使是根據(jù)大數(shù)定理,經(jīng)驗(yàn)風(fēng)險(xiǎn)也是和期望風(fēng)險(xiǎn)有偏差的。一般是,函數(shù)集的VC維越大,經(jīng)驗(yàn)風(fēng)險(xiǎn)就越小。還有置信風(fēng)險(xiǎn)是與推廣能力有關(guān)的,即是預(yù)測(cè)未來(lái)的的準(zhǔn)確性。函數(shù)集的VC維越大,模型就越復(fù)雜,雖然很好地?cái)M合了有限的樣本,但是對(duì)預(yù)測(cè)未來(lái)的推廣能力不強(qiáng)。支持向量機(jī)使結(jié)風(fēng)險(xiǎn)最小化的方法是,保持經(jīng)驗(yàn)風(fēng)險(xiǎn)不變,然后最小化置信風(fēng)險(xiǎn)。這個(gè)的關(guān)鍵是最小化VC維,那么怎樣最小化VC維對(duì)于一個(gè)超平面v/x-/?=(X||vvj|=l),如果它對(duì)向量X按如下方式分類:I1,wT-b>AI—1,vv—bd+1d+1還有一個(gè)定理闡述了間隔△與VC維h的關(guān)系,用公式可以表示為這個(gè)公式說(shuō)明,可以通過(guò)最大化分類超平面的分類間隔△來(lái)間接地最小化vc維h,使vc維h最小。支持向量機(jī)就是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)不變的基礎(chǔ)上最大化分類間隔從而使vc維最小。支持向量機(jī)理論中,可分為線性支持向量機(jī),廣義線性支持向量機(jī)和非線性支持向量機(jī),這三個(gè)應(yīng)該是用來(lái)作分類的。還有用來(lái)做擬合的是回歸型支持向量機(jī),用于回歸擬合。對(duì)于回歸性支持向量機(jī),也是分為線性回歸和非線性回歸兩種。支持向量機(jī)方法是從線性可分情況下的最優(yōu)分類超平面提出的。就先從簡(jiǎn)單的線性可分支持向量機(jī)入手。在分類問(wèn)題中,n個(gè)樣本的訓(xùn)練集D={(召,牙)卩=1,2,…時(shí),兀=/?",);?={+1.-1}能被一個(gè)超平面H:wx+b=O沒(méi)有錯(cuò)誤地分開,并且離超平面最近的向量與超平面之間的距離是最大的,該平面就成為最優(yōu)超平面。兩個(gè)標(biāo)準(zhǔn)超平面Q:w?x+Z?=+1和日2:必/+“=-1,這兩個(gè)超平面過(guò)離分類超平面的距離最小的樣本點(diǎn),其中在這兩個(gè)標(biāo)準(zhǔn)超平面上的點(diǎn)成為支持向苦,起支撐作用,故而得名。然后就是,標(biāo)準(zhǔn)超平面到分類超平面的距離就是問(wèn)「好的,要想分類間隔最大,那么就使這個(gè)距離最大就行了。然后就是,可能是為了后面的一系列求解的方便吧,就轉(zhuǎn)換成求的最小值。當(dāng)然了,還有約束條件的,那就是,兩個(gè)標(biāo)準(zhǔn)平面之間是不能有樣本向量的,那么用數(shù)學(xué)式子表示就是:0?兀+b>+\.yi=+1

hv-x.+/?<-l,y.=_1合起來(lái)寫就是牙[3?兀)+/?]-1?0」=12…丿?,F(xiàn)在的情況是,有了U標(biāo)函數(shù),有了約束條件,要求U標(biāo)函數(shù)的最小值,實(shí)際上更需要的是求出最優(yōu)解對(duì)應(yīng)的磯然后書上書這是一個(gè)凸二次規(guī)劃問(wèn)題,求解可通過(guò)解拉格朗日函數(shù)獲得,這個(gè)拉格朗日函數(shù)如下:n厶=—wTw-^ai{牙[w?兀.+b]-1}j-I式中,az>0為拉格朗日乘子。然后就是經(jīng)過(guò)求導(dǎo),對(duì)偶二次規(guī)劃,求得最優(yōu)的玄,跟著就可以求得w,b。那么就可以確定這個(gè)分類超平面了再用符號(hào)函數(shù)換成分類函數(shù)形式就可以了。對(duì)于有限的樣本,支持向量的地位尤為重要,對(duì)于不是標(biāo)準(zhǔn)平面上的向量,隨便移動(dòng),只要不移動(dòng)到兩個(gè)標(biāo)準(zhǔn)平面之間就可以,結(jié)果是對(duì)分類沒(méi)有影響的。書中說(shuō)體現(xiàn)了其稀疏性。根據(jù)以上同樣的方法也就可以求得廣義線性支持向量機(jī),至于引入廣義支持向量機(jī)是因?yàn)閷?duì)于線性不可分和噪聲的情況,線性可分支持向量機(jī)并不能完全獲得期望風(fēng)險(xiǎn)最小,棋至是過(guò)學(xué)習(xí),過(guò)學(xué)習(xí)就是推廣能力差的意思吧。這就是說(shuō),比如對(duì)于一個(gè)樣本,其中的某些向量山于噪聲等原因偏離了本來(lái)最優(yōu)的分類范圍,如果在未知的情況下,再分類,會(huì)導(dǎo)致結(jié)果與原來(lái)有很大的偏差。也就偏離了本來(lái)真實(shí)的情況。因此引入非負(fù)松變量芻,與上面的線性支持向量機(jī)相比,相當(dāng)于縮小了分類間隔。在U標(biāo)函數(shù)一式子中還引入了規(guī)則化c,用于對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信風(fēng)險(xiǎn)進(jìn)行折中。這也是因?yàn)橐肓怂沙谧兞慷肓私?jīng)驗(yàn)風(fēng)險(xiǎn)的緣故吧。非線性支持向量機(jī)的實(shí)現(xiàn)思想是,既然在現(xiàn)有的vc維不行,就將輸入空間映射到一個(gè)新的高維空間,然后在此高維空間使用線性支持向量機(jī)進(jìn)行分類。想起了上述在闡述vc維過(guò)程中提到的例子,就是二維空間的線性分類器不能夠線性劃分平面上的四個(gè)點(diǎn),那么可以通過(guò)映射到三維空間,用三維空間線性分類器對(duì)四個(gè)點(diǎn)進(jìn)行劃分。由于高維特征空間計(jì)算復(fù)雜的問(wèn)題,引入核函數(shù),在求解過(guò)程中,發(fā)現(xiàn)這個(gè)核函數(shù)就是映射函數(shù)的內(nèi)積,即是= 其中°(x)為映射函數(shù)?;貧w性支持向量機(jī),用于回歸佔(zhàn)訃。和分類問(wèn)題相比,在數(shù)學(xué)描述提法上是相同的,不同的地方是變量y的取值,分類問(wèn)題,如果是分兩類的話,y的取值必然是兩個(gè)固定的值?;貧w估計(jì)中,變量y可以取任意值。對(duì)于估計(jì)中引入的損失函數(shù),稱其中,真實(shí)值與估汁值之差的絕對(duì)值的損失函數(shù),稱為最小模方法,是為魯棒回歸。為了使支持向量回歸佔(zhàn)計(jì)具有稀疏性,引入£不墩感損失函數(shù)。就是說(shuō),偏差£范圍內(nèi)是可以接受的。具體的求解方法和分類的差不多的。二.相關(guān)向量機(jī)相關(guān)向量機(jī)的訓(xùn)練是在貝葉斯框架下進(jìn)行的,在先驗(yàn)參數(shù)的結(jié)構(gòu)下基于主動(dòng)相關(guān)決策理論(automaticrelevancedetermination,簡(jiǎn)稱ARI)來(lái)移除不相關(guān)的點(diǎn),從而獲得稀疏化的模型。RVM通過(guò)最大化后驗(yàn)概率(MAP)求解相關(guān)向量的權(quán)重。對(duì)于給定的訓(xùn)練樣本集{tn,xn},類似于SVM,RVM的模型輸出定義為:y(x;汐)=£叫?K(x,x「)+vv()其中為權(quán)重,K(x,xJ為核函。因此對(duì)于,j-i?= 假設(shè)噪聲%服從均值為o,方差為R的高斯分布,則P(zJvV;(72)=N(Xx,k;.Xcf2),設(shè)獨(dú)立同分布,則整個(gè)訓(xùn)練樣本的似然函數(shù)可以表示出來(lái)。對(duì)W與/的求解如果直接使用最大似然法,結(jié)果通常使W中的元素大部分都不是0,從而導(dǎo)致過(guò)學(xué)習(xí)。在RVM中我們想要避免這個(gè)現(xiàn)像,因此我們?yōu)閃加上先決條件:它們的機(jī)率分布是落在0周圍的正態(tài)分布:p(wiai)二N(wi|0,ali),于是對(duì)w的求解轉(zhuǎn)化為對(duì)a的求解,當(dāng)Q趨于無(wú)窮大的時(shí)候,w趨于0oRVM的步驟可以歸結(jié)為下面兒步:選擇適當(dāng)?shù)暮撕瘮?shù),將特征向量映射到高維空間。雖然理論上講RVM可以使用任意的核函數(shù),但是在很多應(yīng)用問(wèn)題中,大部分人還是選擇了常用的兒種核函數(shù),RBF核函數(shù),Laplace核函數(shù),多項(xiàng)式核函數(shù)等。尤其以高斯核函數(shù)應(yīng)用最為廣泛。可能于高斯和核函數(shù)的非線性有關(guān)。選擇高斯核函數(shù)最重要的是帶寬參數(shù)的選擇,帶寬過(guò)小,則導(dǎo)致過(guò)學(xué)習(xí),帶寬過(guò)大,乂導(dǎo)致過(guò)平滑,都會(huì)引起分類或回歸能力的下降。初始化a,亍。在RVM中a,亍是通過(guò)迭代求解的,所以需要初始化。初始化對(duì)結(jié)果影響不大。迭代求解最優(yōu)的權(quán)重分布。預(yù)測(cè)新數(shù)據(jù)。三.工作小結(jié):這兩周主要是學(xué)習(xí)了一下支持向量機(jī)和相關(guān)向量機(jī),開始看的一頭的霧水,很多統(tǒng)計(jì)學(xué)習(xí)理論中的東西都不怎么懂。不過(guò)看了兒遍,就懂了其中的一些,但是像那些復(fù)雜的公式,定理等等也就放過(guò)了,但還是知道其中的一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論