版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)大作業(yè) 學(xué)生姓名 1.1機(jī)器學(xué)習(xí)的基本理論機(jī)器學(xué)習(xí)是人工智能的一種分支,是現(xiàn)代計(jì)算機(jī)技術(shù)研究一種重點(diǎn)也是熱點(diǎn)問題。顧名思義,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)模仿人類獲取知識的模式,通過建立對應(yīng)的模型,對外界輸入通過記憶"歸納"推理等等方式,獲得有效的信息和經(jīng)驗(yàn)總結(jié),進(jìn)而不停的自我完善,提高系統(tǒng)的功能。目前,機(jī)器學(xué)習(xí)的定義尚不統(tǒng)一,不一樣專業(yè)背景的學(xué)者出于不一樣的立場,對于機(jī)器學(xué)習(xí)的見解是不一樣的。下面重要簡介兩位機(jī)器學(xué)習(xí)專業(yè)研究者賦予機(jī)器學(xué)習(xí)的定義。蘭利(P.Langley)認(rèn)為:“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的重要研究對象是人工智能,尤其是怎樣在經(jīng)驗(yàn)學(xué)習(xí)中改善詳細(xì)算法的性能”。米切爾(T.M.Mitchell)在其著作《機(jī)器學(xué)習(xí)》中談到“機(jī)器學(xué)習(xí)”關(guān)注的問題是“計(jì)算機(jī)程序怎樣伴隨經(jīng)驗(yàn)積累自動提高自身的性能”,也就是重要指的是歸納學(xué)習(xí),此外“分析學(xué)習(xí)和增強(qiáng)學(xué)習(xí)也是學(xué)習(xí)的一種不可或缺構(gòu)成部分”。兩位學(xué)者的觀點(diǎn)類似,都把機(jī)器學(xué)習(xí)當(dāng)作是計(jì)算機(jī)或人工智能的一種分支學(xué)科,都強(qiáng)調(diào)的是歸納學(xué)習(xí)算法。機(jī)器學(xué)習(xí)在人工智能領(lǐng)域中是一種相對比較活躍的研究領(lǐng)域,其研究目的就是要增些發(fā)明應(yīng)用于各個(gè)領(lǐng)域。1.1.2機(jī)器學(xué)習(xí)的發(fā)展歷程機(jī)器學(xué)習(xí)(machinelearning)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計(jì)算的關(guān)鍵研究課題之一。作為人工智能研究的一種新崛起的分支,機(jī)器學(xué)習(xí)的發(fā)展歷程大至可分為如下幾種時(shí)期:(1)熱烈時(shí)期:20世紀(jì)50年代的神經(jīng)模擬和決策理論技術(shù),學(xué)習(xí)系統(tǒng)在運(yùn)行時(shí)很少具有構(gòu)造或知識。重要是建造神經(jīng)網(wǎng)絡(luò)和自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)體現(xiàn)為閾值邏輯單元傳送信號的反饋調(diào)整。(2)冷靜時(shí)期:20世紀(jì)60年代初期開始研究面向概念的學(xué)習(xí),即符號學(xué)習(xí)。使用的工具是語義網(wǎng)絡(luò)或謂詞邏輯,不再是數(shù)值或者記錄措施。在概念獲取中,學(xué)習(xí)系統(tǒng)通過(3)復(fù)興時(shí)期:20世紀(jì)70年代中期,研究活動日趨興旺,多種學(xué)習(xí)措施不停推出,試(4)蓬勃發(fā)展時(shí)期:從20世紀(jì)80年代中后期到目前,可以認(rèn)為機(jī)器學(xué)習(xí)研究進(jìn)入一機(jī)器學(xué)習(xí)系統(tǒng)重要由三個(gè)部分構(gòu)成:環(huán)境、知識庫和執(zhí)行部分,如圖1.1所示。環(huán)兼顧4個(gè)方面:體現(xiàn)能力強(qiáng);易于推理;輕易修改知識庫;知識表達(dá)易于擴(kuò)展。學(xué)習(xí)系統(tǒng)在沒有任何先驗(yàn)知識的前提下不能憑空獲取知識,它需要環(huán)境為其提供一定的知識作為基礎(chǔ),然后對其進(jìn)行擴(kuò)展和完善,從而完畢學(xué)習(xí)。整個(gè)學(xué)習(xí)系統(tǒng)的關(guān)鍵在于執(zhí)行,從而確定了執(zhí)行部分的關(guān)鍵地位。學(xué)習(xí)部分進(jìn)行學(xué)習(xí)的目的就是改善和完善執(zhí)行部分的動作。1.2機(jī)器學(xué)習(xí)重要算法決策樹可看作一種樹狀預(yù)測模型,它通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。決策樹的關(guān)鍵問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有諸多,有ID3、C4.5、CART等等。這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類效果最佳的屬性將節(jié)點(diǎn)分裂為2個(gè)或多種子結(jié)點(diǎn),繼續(xù)這一過程直到這棵樹能精確地分類訓(xùn)練集,或所有屬性都已被使用過。下面簡樸簡介最常用的決策樹算法—分類回歸樹(CART)。分類回歸樹(CART)是機(jī)器學(xué)習(xí)中的一種分類和回歸算法。設(shè)訓(xùn)練樣本集Y是有序的數(shù)量值時(shí),稱為回歸樹;當(dāng)Y是離散值時(shí),稱為分類樹。在樹的根節(jié)點(diǎn)t?處,搜索問題集(數(shù)據(jù)集合空間),找到使得下一代子節(jié)點(diǎn)中數(shù)據(jù)集的非純度下降最大的最優(yōu)分裂變量和對應(yīng)的分裂閾值。在這里非純度指標(biāo)用Gini指數(shù)來衡量,它定義為:是節(jié)點(diǎn)t中屬于j類的樣本所占的比例。用該分裂變量和分裂閾值把根節(jié)點(diǎn)t?分裂成t?和t?,假如在某個(gè)節(jié)點(diǎn)ti處,不也許再有深入非純度的明顯減少,則該節(jié)點(diǎn)t;成為葉結(jié)點(diǎn),否則繼續(xù)尋找它的最優(yōu)分裂變量和分裂閾值進(jìn)行分裂。對于分類問題,當(dāng)葉節(jié)點(diǎn)中只有一種類,那么這個(gè)類就作為葉節(jié)點(diǎn)所屬的類,若節(jié)點(diǎn)中有多種類中的樣本存在,根據(jù)葉節(jié)點(diǎn)中樣本最多的那個(gè)類來確定節(jié)點(diǎn)所屬的類別;對于回歸問題,則取其數(shù)量值的平均值。很明顯,一棵很大的樹也許過度擬合數(shù)據(jù),但應(yīng)當(dāng)由數(shù)據(jù)自適應(yīng)的選擇。一種可取的方略是增長一棵較大的樹TO,僅當(dāng)?shù)竭_(dá)最小節(jié)點(diǎn)大小(例如5)時(shí)才停止分裂過程。然后運(yùn)用剪枝方略和5折或10折交叉驗(yàn)證相結(jié)合的ANN的研究始于1943年,心理學(xué)家W.Mcculloch和數(shù)理邏輯學(xué)家W.Pitts首先提出從理論探討付諸工程實(shí)踐;60年代初期,Widrow提出了自適應(yīng)線性元件網(wǎng)絡(luò),這是一性。隨即,研究人員圍繞著Hop-field提出的措施展開了深入的研究工作,形成了80年代中期以來ANN的研究熱潮。是由一系列簡樸單元互相密集連接構(gòu)成,其中每一種單元有一定數(shù)量的實(shí)值輸入(也許學(xué)習(xí)算法及其應(yīng)用上。常見的ANN模型有:多層前向神經(jīng)網(wǎng)絡(luò)MLFN、自組織神經(jīng)網(wǎng)絡(luò)—SOM和ART、Hopfield對它們進(jìn)行求和,假如這個(gè)和到達(dá)或者超過了某個(gè)閾值,輸出一種量。如有輸入值a=(X?×W?)+(X?×W?)+…+(Xi×W;)+.…+(Xn×Wn),其中Xi是各條記錄出現(xiàn)頻率或其他參數(shù),Wi是實(shí)時(shí)特性評估模型中得到的權(quán)系數(shù)。神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)算法,有某些固有的缺陷,例如層數(shù)和神經(jīng)元個(gè)數(shù)難以確定,輕易陷入局部極小,尚有過學(xué)習(xí)現(xiàn)象,這些自身的缺陷在SVM算法中可以得到很好的處理。1.2.3貝葉斯學(xué)習(xí)算法Bayes法是一種在已知先驗(yàn)概率與類條件概率的狀況下的模式分類措施,待分樣本的分類成果取決于各類域中樣本的全體。設(shè)訓(xùn)練樣本集分為M類,記為C={ci1,….,Ci,….,Cm},每類的先驗(yàn)概率為P(ci),i=1,2,...,M。當(dāng)樣本集非常大時(shí),可以認(rèn)為P(ci)=ci類樣本數(shù)/總樣本數(shù)。對于一種待分樣本X,其則根據(jù)Bayes定理,可得到ci類的后驗(yàn)概率P(ci/X):式(6)是最大后驗(yàn)概率判決準(zhǔn)則,將式(5)代入式(6),則有:這就是最大后驗(yàn)概率判決準(zhǔn)則,這就是常用到的Bayes分類判決準(zhǔn)則。通過長期的研究,Bayes分類措施在理論上論證得比較充足,在應(yīng)用上也是非常廣泛的。Bayes措施的微弱環(huán)節(jié)在于實(shí)際狀況下,類別總體的概率分布和各類樣本的概率分布函數(shù)(或密度函數(shù))常常是不懂得的。為了獲得它們,就規(guī)定樣本足夠大。此外,當(dāng)用于文本分類時(shí),Bayes法規(guī)定體現(xiàn)文本的主題詞互相獨(dú)立,這樣的條件在實(shí)際文本中一般很難滿足,因此該措施往往在效果上難以到達(dá)理論上的最大值。1.2.4遺傳算法遺傳算法(GeneticAlgorithm,GA)最早由Holland于1975年初次提出。它是一種模擬達(dá)爾文進(jìn)化論的自然選擇和遺傳機(jī)制的隨機(jī)優(yōu)化搜索措施。其重要性質(zhì)可以描述如1.直接對構(gòu)造性對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)持續(xù)性限定。2.具有隱并行性和全局搜索能力。3.采用概率化的尋優(yōu)措施,可以自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)調(diào)整搜索方向,不需要確定的規(guī)則。由于遺傳算法具有這些性質(zhì),它已經(jīng)被廣泛地應(yīng)用于組合優(yōu)化、信號處理、自適應(yīng)控制和人工生命等領(lǐng)域。在用遺傳算法求解問題時(shí),問題的每一種候選解都被編碼成一種“染色體”,即個(gè)體。若干個(gè)體構(gòu)成了群體。遺傳算法初始時(shí),隨機(jī)產(chǎn)生某些個(gè)體。并根據(jù)目的函數(shù)對每個(gè)個(gè)體進(jìn)行評估,計(jì)算出適應(yīng)度值。根據(jù)適應(yīng)度值,選擇個(gè)體來通過交叉、變異等遺傳操作來生成下一代群體。遺傳算法可以看做是有若干可行解構(gòu)成的群體逐漸進(jìn)化的過程。圖1.2描述了遺傳算法的基本流程。該圖給出了遺傳算法求解優(yōu)化問題的基本框架,大多數(shù)遺傳算法均可包括于此框架內(nèi)。否圖1.21.2.5支持向量機(jī)支持向量機(jī)是Vapnik等人于1995年根據(jù)記錄學(xué)習(xí)理論提出的一種學(xué)習(xí)措施。它是建立在記錄學(xué)習(xí)理論的VC維理論和構(gòu)造風(fēng)險(xiǎn)最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以獲得最佳的推廣能力。其基本思想是:首先選擇一種非線性映射,將輸入空間映射到一種高維特性空間,在此高維空間中,運(yùn)用構(gòu)造風(fēng)險(xiǎn)最小化原則,構(gòu)造最優(yōu)決策函數(shù),尋找輸入變量和輸出變量之間的非線性關(guān){(x1,y1),(x2,y2),,(xi,yi)},xi∈R"為輸入向量,yi∈{-1,1},(1≤i≤1)為樣本類別標(biāo)志,1為樣本總數(shù)。用非線性映射φ·將樣本從原空間R"映射到高維特性空間,在此高維空間中構(gòu)造最優(yōu)線性決策函數(shù)y(x)=sgn[w·φ(x)+b]。其中w為權(quán)向量,b為常數(shù)。求解支持向量機(jī)決策函數(shù)的參數(shù)可以通過求解對偶問題得到,即:最大化公式得到解參數(shù)a=α=(a?,a?,…,α),對非支持向量數(shù)據(jù)點(diǎn)對應(yīng)的a?,取值以上算法是為二值分類問題設(shè)計(jì)的,當(dāng)處理多類問題時(shí),就需要構(gòu)造多類分類器。構(gòu)造支持向量機(jī)多類分類器的措施有兩大類:一類措施是直接法,直接在目的函數(shù)上進(jìn)行修改,將多種分類面的參數(shù)求解合并到一種最優(yōu)化問題中,通過求解該最優(yōu)化問題實(shí)現(xiàn)多分類。此類措施看似簡樸,但其計(jì)算復(fù)雜度比較高,實(shí)現(xiàn)起來就比較困難。另一類措施是間接法,重要是通過組合多種二分類器來實(shí)現(xiàn)多分類器的構(gòu)造,常見的措施有一對多法和一對一法兩種:1.一對多法(oneagainstall)。訓(xùn)練時(shí)一次把某個(gè)類別的樣本歸為一類,其他剩余的樣本歸為另一類。這樣k個(gè)類別的樣本構(gòu)造出k個(gè)支持向量機(jī)。分類時(shí)將未知樣本分類為具有最大分類函數(shù)值的那一類。樣本需要設(shè)計(jì)k(k-1)/2個(gè)支持向量機(jī)。當(dāng)對一種未知樣本進(jìn)行分類時(shí),得到k(k-1)/2個(gè)分類成果,分類時(shí)采用一種投票方略,最終得票最多的類別即為該樣本的類別。支持向量機(jī)(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它支持向量機(jī)措施是建立在記錄學(xué)習(xí)理論的VC維理論和構(gòu)造風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度,Accuracy)和學(xué)習(xí)能力(即無錯(cuò)誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最佳的推廣能力(或稱泛化能力)。自1995年Vapnik在記錄學(xué)習(xí)理論的基礎(chǔ)上提出SVM作為模式識別的新措施之后,誤差賠償之間的平衡過程;1996年,Vapnik等人又提出支持向量回歸(SupportVector面,但SVR的目的不是找到兩種數(shù)據(jù)的分割平面,而是找到能精確預(yù)測數(shù)據(jù)分布的平用于處理多類分類的SVM措施(Multi-ClassSupportVectorMachines,Multi-SVM),通過將多類分類轉(zhuǎn)化成二類分類,將SVM應(yīng)用于多分類問題的判斷:此外,在SVM算提出的最小二乘支持向量機(jī)(LeastSquareSupportVectorMachine,LS—SVM)算法,Joachims等人提出的SVM-light,張學(xué)工提出的中心支持向量機(jī)(CentralSupportVectorMachine,CSVM),Scholkoph和Smola基于二次規(guī)劃提出的v-SVM等。此后,臺灣大v-SVM是一種軟間隔分類器模型,其原理是通過引進(jìn)參數(shù)v,來調(diào)整支持向量數(shù)占輸入數(shù)據(jù)比例的下限,以及參數(shù)p來度量超平面偏差,替代一般依托經(jīng)驗(yàn)選用的軟間隔分類懲罰參數(shù),改善分類效果;LS-SVM則是用等式約束替代老式SVM中的不等式約束,將求解QP問題變成解一組等式方程來提高算法效率;LIBSVM是一種通用的SVM軟件包,可以處理分類、回歸以及分布估計(jì)等問題,它提供常用的幾種核函數(shù)可由顧客選擇,并且具有不平衡樣本加權(quán)和多類分類等功能,此外,交叉驗(yàn)證(crossvalidation)措施也是LIBSVM對核函數(shù)參數(shù)選用問題所做的一種突出奉獻(xiàn);SVM-light的特點(diǎn)則是通過引進(jìn)縮水(shrinking)逐漸簡化QP問題,以及緩存(caching)技術(shù)減少迭代運(yùn)算的計(jì)算代價(jià)來處理大規(guī)模樣本條件下SVM學(xué)習(xí)的復(fù)雜性問題。與老式記錄學(xué)理論相比,記錄學(xué)習(xí)理論(Statisticallearningtheory或SLT)是一種專門研究小樣本條件下機(jī)器學(xué)習(xí)規(guī)律的理論。該理論是針對小樣本記錄問題建立起的一套新型理論體系,在該體系下的記錄推理規(guī)則不僅考慮了對漸近性能的規(guī)定,并且追求在有限信息條件下得到最優(yōu)成果。Vapnik等人從上世紀(jì)六、七十年代開始致力于該領(lǐng)域研究,直到九十年代中期,有限樣本條件下的機(jī)器學(xué)習(xí)理論才逐漸成熟起來,形成了比較完善的理論體系——記錄學(xué)習(xí)理論。記錄學(xué)習(xí)理論的重要關(guān)鍵內(nèi)容包括:(1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則下記錄學(xué)習(xí)一致性條件;(2)這些條件下有關(guān)記錄學(xué)習(xí)措施推廣性的界的結(jié)論;(3)這些界的基礎(chǔ)上建立的小樣本歸納推理準(zhǔn)則;(4)發(fā)現(xiàn)新的準(zhǔn)則的實(shí)際措施(算法)SVM措施是20世紀(jì)90年代初Vapnik等人根據(jù)記錄學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)習(xí)措施,它以構(gòu)造風(fēng)險(xiǎn)最小化原則為理論基礎(chǔ),通過合適地選擇函數(shù)子集及該子集中的鑒別函數(shù),使學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)到達(dá)最小,保證了通過有限訓(xùn)練樣本得到的小誤差分類器,對獨(dú)立測試集的測試誤差仍然較小。支持向量機(jī)的基本思想是:首先,在線性可分狀況下,在原空間尋找兩類樣本的最優(yōu)分類超平面。在線性不可分的狀況下,加入了松弛變量進(jìn)行分析,通過使用非線性映射將低維輸入空間的樣本映射到高維屬性空間使其變?yōu)榫€性狀況,從而使得在高維屬性空間采用線性算法對樣本的非線性進(jìn)行分析成為也許,并在該特性空間中尋找最優(yōu)分類超平面。另一方面,它通過使用構(gòu)造風(fēng)險(xiǎn)最小化原理在屬性空間構(gòu)建最優(yōu)分類超平面,使得分類器得到全局最優(yōu),并在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。其突出的長處表目前:(1)基于記錄學(xué)習(xí)理論中構(gòu)造風(fēng)險(xiǎn)最小化原則和VC維理論,具有良好的泛化能力,即由有限的訓(xùn)練樣本得到的小的誤差可以保證使獨(dú)立的測試集仍保持小的誤差。(2)支持向量機(jī)的求解問題對應(yīng)的是一種凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最(3)核函數(shù)的成功應(yīng)用,將非線性問題轉(zhuǎn)化為線性問題求解。(4)分類間隔的最大化,使得支持向量機(jī)算法具有很好的魯棒性。由于SVM自身的突出優(yōu)勢,因此被越來越多的研究人員作為強(qiáng)有力的學(xué)習(xí)工具,以處理模式識別、回歸估計(jì)等領(lǐng)域的難題。2.3.1.最優(yōu)分類面和廣義最優(yōu)分類面SVM是從線性可分狀況下的最優(yōu)分類面發(fā)展而來的,基本思想可用圖1來闡明。對于一維空間中的點(diǎn),二維空間中的直線,三維空間中的平面,以及高維空間中的超平面,圖中實(shí)心點(diǎn)和空心點(diǎn)代表兩類樣本,H為它們之間的分類超平面,H,H?分別為過各類中離分類面近來的樣本且平行于分類面的超平面,它們之間的距離△叫做分類間隔圖2.1最優(yōu)分類面示意圖所謂最優(yōu)分類面規(guī)定分類面不僅能將兩類對的分開,并且使分類間隔最大。將兩類對的分開是為了保證訓(xùn)練錯(cuò)誤率為0,也就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小(為0)。使分類空隙最大實(shí)際設(shè)線性可分樣本集為(x,,y;),i=1,….,n,x∈R?,y∈{+1,-1}是類別符號。d維空間中線性鑒別函數(shù)的一般形式為是類別符號。d維空間中線性鑒別函數(shù)的一般形式為g(x)=w·x+b,分類線方程為w.x+b=0。將鑒別函數(shù)進(jìn)行歸一化,使兩類所有樣本都滿足|g(x)|=1,也就是使離分類面近來的樣本的|g(x)=1,此時(shí)分類間隔等于2/||w||,因此使間隔最大等價(jià)于使|wll(或||wll2)最小。規(guī)定分類線對所有樣本對的運(yùn)用Lagrange優(yōu)化措施可以把上述最優(yōu)分類面問題轉(zhuǎn)化為如下這種較簡樸的對偶α;≥0,i=1,2,..,n根據(jù)前面的分析,非支持向量對應(yīng)的α;均為0,因此上式中的求和實(shí)際上只對支持向量進(jìn)行。b是分類閾值,可以由任意一種支持向量通過式(2-1)求得(只有支持向量才滿足其中的等號條件),或通過兩類中任意一對支持向量取中值求得。從前面的分析可以看出,最優(yōu)分類面是在線性可分的前提下討論的,在線性不可分的狀況下,就是某些訓(xùn)練樣本不能滿足式(2-1)的條件,因此可以在條件中增長一種松弛項(xiàng)參數(shù)ε≥0,變成:y;[(w·x;)+b]-1+ε;≥0,i=1,2,..,n對于足夠小的s>0,只要使最小就可以使錯(cuò)分樣本數(shù)最小。對應(yīng)線性可分狀況下的使分類間隔最大,在線性不可分狀況下可引入約束:在約束條件(2-6)冪1(2-8)下對式(2-7)求極小,就得到了線性不可分狀況下的最優(yōu)分類面,稱作廣義最優(yōu)分類面。為以便計(jì)算,取s=1。為使計(jì)算深入簡化,廣義最優(yōu)分類面問題可以迸一步演化成在條件(2-6)的約束條件下求下列函數(shù)的極小值:其中C為某個(gè)指定的常數(shù),它實(shí)際上起控制對銠分樣本懲罰的程度的作用,實(shí)目前錯(cuò)分樣本的比例與算法復(fù)雜度之間的折衷。求解這一優(yōu)化問題的措施與求解最優(yōu)分類面時(shí)的措施相似,都是轉(zhuǎn)化為一種二次函數(shù)極值問題,其成果與可分狀況下得到的(1-2)到(1-5)幾乎完全相似,不過條件(1-2b)變2.3.2SVM的非線性映射對于非線性問題,可以通過非線性互換轉(zhuǎn)化為某個(gè)高維空間中的線性問題,在變換空間求最優(yōu)分類超平面。這種變換也許比較復(fù)雜,因此這種思緒在一般狀況下不易實(shí)現(xiàn)。不過我們可以看到,在上面對偶問題中,不管是尋優(yōu)目的函數(shù)(1-3)還是分類函數(shù)(1-5)都只波及訓(xùn)練樣本之間的內(nèi)積運(yùn)算(x·x;)。設(shè)有非線性映射Φ:R?→H將輸入空間的樣本映射到高維(也許是無窮維)的特性空間H中,當(dāng)在特性空間H中構(gòu)造最優(yōu)超平面時(shí),訓(xùn)練算法僅使用空間中的點(diǎn)積,即φ(x;)·φ(x;),而沒有單獨(dú)的φ(x;)出現(xiàn)。因此,假如可以找到一種函數(shù)K使得這樣在高維空間實(shí)際上只需進(jìn)行內(nèi)積運(yùn)算,而這種內(nèi)積運(yùn)算是可以用原空間中的函數(shù)實(shí)現(xiàn)的,我們甚至沒有必要懂得變換中的形式。根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)K(x,·x;)滿足Mercer條件,它就對應(yīng)某一變換空間中的內(nèi)積。因此,在最優(yōu)超平面中采用合適的內(nèi)積函數(shù)K(x,·x;)就可以實(shí)現(xiàn)某一非線性變換后的線性分類,而計(jì)算復(fù)雜度卻沒有增長。此時(shí)目的函數(shù)(2-3)變?yōu)椋憾鴮?yīng)的分類函數(shù)也變?yōu)樗惴ǖ钠渌麠l件不變,這就是SVM。概括地說SVM就是通過某種事先選擇的非線性映射將輸入向量映射到一種高維特性空間,在這個(gè)特性空間中構(gòu)造最優(yōu)分類超平面。在形式上SVM分類函數(shù)類似于一種神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對應(yīng)于一種支持向量,如圖2.3所示為基于s個(gè)支持向量x?,x?,…,x,的非線性變換(內(nèi)積),x=(x1,x2,….,x?)為輸入向量。2.3.3.核函數(shù)選擇滿足Mercer條件的不一樣內(nèi)積核丞數(shù),就構(gòu)造了不一樣的SVM,這樣也就形成了不一樣的算法。目前研究最多的核函數(shù)重要有三類:其中q是多項(xiàng)式的階次,所得到的是q階多項(xiàng)式分類器。所得的SVM是一種徑向基分類器,它與老式徑向基函數(shù)措施的基本區(qū)別是,這里每一種基函數(shù)的中心對應(yīng)于一種支持向量,它們以及輸出權(quán)值都是由算法自動確定的。徑向基形式的內(nèi)積函數(shù)類似人的視覺特性,在實(shí)際應(yīng)用中常常用到,不過需要注意的是,選擇不一樣的S參數(shù)值,對應(yīng)的分類面會有很大差異。這時(shí)的SVM算法中包括了一種隱層的多層感知器網(wǎng)絡(luò),不僅網(wǎng)絡(luò)的權(quán)值、并且網(wǎng)絡(luò)的隱層結(jié)點(diǎn)數(shù)也是由算法自動確定的,而不像老式的感知器網(wǎng)絡(luò)那樣由人憑借經(jīng)驗(yàn)確究方面應(yīng)用了SVM措施,獲得了較大的成功。在隨即的近幾年內(nèi),有關(guān)SVM的應(yīng)用研模式輸入的直接的SVM措施研究,進(jìn)入到多種措施取長補(bǔ)短的聯(lián)合應(yīng)用研究,對SVMOsuna最早將SVM應(yīng)用于人臉檢測.并獲得了很好的效果。其措施是汽接訓(xùn)練非線SVM的更有效的非人臉樣本,簡化SVM訓(xùn)練的難進(jìn)行人臉姿態(tài)的鑒定,將人臉姿態(tài)劃提成6個(gè)類別,從一種多姿態(tài)人練樣本集和測試樣本集,訓(xùn)練基于支持向量機(jī)姿態(tài)分類器,分類錯(cuò)誤率減少到1.67%。取方面的有效性以及SVM在處理小樣本問題和更高的識別率。王宏漫等在PCA基礎(chǔ)上深入做ICA,提取愈加有助于分類的面部特性的本的相似度,而SVM的輸出成果則體現(xiàn)了異類樣本間的差異。為了3.2.3文字/手寫體識別貝爾試驗(yàn)室對美國郵政手寫數(shù)字庫進(jìn)行的試驗(yàn),人工識別平均錯(cuò)誤率是2.5%,專門針對該特定問題設(shè)計(jì)的5層神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率為5.1%(其中運(yùn)用了大量先驗(yàn)知識),而用3種的多層次圖像處理框架,到達(dá)85%以上的精確率。行檢索,使用由9918幅圖像構(gòu)成的圖像庫進(jìn)行試驗(yàn),成果表明,在有限訓(xùn)練樣本狀目前3D虛擬物體圖像應(yīng)用越來越廣泛,肖俊等提出了一種基于SVM對相約減,然后使用SVM進(jìn)行識別與檢索。將該算法用于3D丘陵與山地的地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 世界地理 澳大利亞
- 一年級語文下冊《語文園地八》課件
- 單位管理制度收錄大全【員工管理】
- 港口生產(chǎn)組織與管理課件-港口企業(yè)的生產(chǎn)運(yùn)作
- 消防整改項(xiàng)目可行性研究報(bào)告兩
- 銅鋁合金制品項(xiàng)目可行性研究報(bào)告
- 生活中的經(jīng)濟(jì)學(xué)課件
- 2025年瓦楞紙生項(xiàng)目可行性研究報(bào)告
- 氧氣瓶項(xiàng)目安全風(fēng)險(xiǎn)評價(jià)報(bào)告
- 2025年中國公共云存儲服務(wù)行業(yè)發(fā)展前景預(yù)測及投資戰(zhàn)略研究報(bào)告
- 2022年版物理課程標(biāo)準(zhǔn)的特點(diǎn)探討與實(shí)施建議
- 幼兒園班級安全教育活動計(jì)劃表
- ppt模板:創(chuàng)意中國風(fēng)古風(fēng)水墨山水通用模板課件
- 展館精裝修工程施工方案(98頁)
- 香港聯(lián)合交易所有限公司證券上市規(guī)則
- 紡紗學(xué)-ppt課件
- (高清正版)JJF 1908-2021 雙金屬溫度計(jì)校準(zhǔn)規(guī)范
- (高清版)嚴(yán)寒和寒冷地區(qū)居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)JGJ26-2018
- 項(xiàng)目經(jīng)理績效考核評分表
- .運(yùn)維服務(wù)目錄
- 造紙化學(xué)品及其應(yīng)用
評論
0/150
提交評論