SVM原理與應(yīng)用課件_第1頁
SVM原理與應(yīng)用課件_第2頁
SVM原理與應(yīng)用課件_第3頁
SVM原理與應(yīng)用課件_第4頁
SVM原理與應(yīng)用課件_第5頁
已閱讀5頁,還剩100頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

原理與應(yīng)用大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包2大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包3背景支持向量機(jī)

4為什么要用(個(gè)人觀點(diǎn))分類效果好上手快種語言的個(gè)理論基礎(chǔ)完備婦孺皆知的好模型找工作需要它(利益相關(guān):面試狗一只)應(yīng)用與原理5發(fā)展歷史重要理論基礎(chǔ)年代,和提出維理論重要理論基礎(chǔ)年,提出結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論支持向量機(jī)()是和于年首先提出的它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中6作者之一簡介《》作者書中詳細(xì)的論證了統(tǒng)計(jì)機(jī)器學(xué)習(xí)之所以區(qū)別于傳統(tǒng)機(jī)器學(xué)習(xí)的本質(zhì),就在于統(tǒng)計(jì)機(jī)器學(xué)習(xí)能夠精確的給出學(xué)習(xí)效果,能夠解答需要的樣本數(shù)等等一系列問題。7理論基礎(chǔ)(比較八股)統(tǒng)計(jì)學(xué)習(xí)理論的維理論(或)是研究有限樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論()反映了函數(shù)集的學(xué)習(xí)能力,維越大則學(xué)習(xí)機(jī)器越復(fù)雜8理論基礎(chǔ)(比較八股)結(jié)構(gòu)風(fēng)險(xiǎn)最小化機(jī)器學(xué)習(xí)本質(zhì)上就是一種對(duì)問題真實(shí)模型的逼近。這個(gè)與問題真實(shí)解之間的誤差,就叫做風(fēng)險(xiǎn)。結(jié)構(gòu)化風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn)置信風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn)

分類器在給定樣本上的誤差置信風(fēng)險(xiǎn)分類器在未知文本上分類的結(jié)果的誤差,代表了我們?cè)诙啻蟪潭壬峡梢孕湃畏诸惼髟谖粗谋旧戏诸惖慕Y(jié)果。(無法準(zhǔn)確估值,給出估計(jì)的區(qū)間)9理論基礎(chǔ)(比較八股)結(jié)構(gòu)化風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn)置信風(fēng)險(xiǎn)置信風(fēng)險(xiǎn)因素:樣本數(shù)量,給定的樣本數(shù)量越大,學(xué)習(xí)結(jié)果越有可能正確,此時(shí)置信風(fēng)險(xiǎn)越?。环诸惡瘮?shù)的維,顯然維越大,推廣能力越差,置信風(fēng)險(xiǎn)會(huì)變大。泛化誤差界的公式*()≤()Ф()公式中()就是真實(shí)風(fēng)險(xiǎn),()就是經(jīng)驗(yàn)風(fēng)險(xiǎn),Ф()就是置信風(fēng)險(xiǎn)。統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)從經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化變?yōu)榱藢で蠼?jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)的和最小,即結(jié)構(gòu)風(fēng)險(xiǎn)最小。10理論基礎(chǔ)(小結(jié))統(tǒng)計(jì)學(xué)習(xí)理論的維理論關(guān)注的是維結(jié)構(gòu)風(fēng)險(xiǎn)最小化()≤()Ф()11特性小樣本與問題的復(fù)雜度比起來,算法要求的樣本數(shù)是相對(duì)比較少的非線性擅長應(yīng)付樣本數(shù)據(jù)線性不可分的情況,主要通過松弛變量和核函數(shù)技術(shù)來實(shí)現(xiàn)高維模式識(shí)別例如文本的向量表示,幾萬維,反例:12大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包13線性分類器問題的引入和是兩類樣本中間的直線就是一個(gè)分類函數(shù),它可以將兩類樣本完全分開。14線性函數(shù)?在一維空間里就是一個(gè)點(diǎn)在二維空間里就是一條直線在三維空間里就是一個(gè)平面……如果不關(guān)注空間的維數(shù),這種線性函數(shù)還有一個(gè)統(tǒng)一的名稱——超平面()15線性函數(shù)分類問題例如我們有一個(gè)線性函數(shù)()我們可以取閾值為,這樣當(dāng)有一個(gè)樣本需要判別的時(shí)候,我們就看()的值。若()>,就判別為類別若()<,則判別為類別、、均可以是向量中間那條直線的表達(dá)式是(),即,我們也把這個(gè)函數(shù)叫做分類面16分類面的決定分離超平面不是唯一上面的直線都可以對(duì)點(diǎn)正確分類分離超平面存在一個(gè)最好的17分類面的“好壞”量化一個(gè)很直觀的感受是,讓“離直線最近的點(diǎn),距離直線盡可能地遠(yuǎn)”就是分割的間隙越大越好,把兩個(gè)類別的點(diǎn)分得越開越好18“分類間隔”的引入文本分類分類時(shí)樣本格式(標(biāo)示出這個(gè)樣本屬于哪個(gè)類別)(文本特征所組成的向量)假設(shè)±,我們就可以定義一個(gè)樣本點(diǎn)到某個(gè)超平面的間隔為(這是定義)δ()19^分類間隔δ()()總大于的,而且它的值等于如果某個(gè)樣本屬于該類別的話,>,而也大于反之,<,而也小于現(xiàn)在把和進(jìn)行一下歸一化,即用和分別代替原來的和,那么間隔就可以寫成20^分類間隔幾何間隔解析幾何中點(diǎn)到直線()的距離公式推廣一下,是到超平面()的距離,()就是上節(jié)中提到的分類超平面是什么符號(hào)?叫做向量的范數(shù),向量長度其實(shí)指的是它的范數(shù)用歸一化的和代替原值之后的間隔有一個(gè)專門的名稱,叫做幾何間隔21量化問題之“支持向量”被紅色和藍(lán)色的線圈出來的點(diǎn)就是所謂的支持向量()22量化問題之“最大化間隔”原則就是(),紅色和藍(lán)色的線(與)就是所在的面,紅色、藍(lán)色線之間的間隔就是我們要最大化的分類間的間隔。23量化問題之“最大化間隔”原則幾何間隔24幾何間隔的現(xiàn)實(shí)含義是分類面,而和是平行于,且過離最近的兩類樣本的直線,與,與之間的距離就是幾何間隔25幾何間隔的存在意義幾何間隔與樣本的誤分次數(shù)間存在關(guān)系其中的δ是樣本集合到分類面的間隔,

,即是所有樣本中向量長度最長的值(也就是說代表樣本的分布有多么廣)誤分次數(shù)一定程度上代表分類器的誤差。(證明略)誤分次數(shù)的上界由幾何間隔決定(樣本已知的時(shí)候)26

為了使分類面更合適為了減少誤分次數(shù)最大化幾何間隔27

是否讓,目標(biāo)函數(shù)就最小了呢?。式子有還有一些限制條件,完整的寫下來,應(yīng)該是這樣的求最小值的問題就是一個(gè)優(yōu)化問題,一個(gè)帶約束的二次規(guī)劃(,)問題,是一個(gè)凸問題凸二次規(guī)劃區(qū)別于一般意義上的規(guī)劃問題,它有解而且是全局最優(yōu)的解,而且可以找到28如何解二次規(guī)劃問題等式約束,是求極值、拉格朗日轉(zhuǎn)化等方法轉(zhuǎn)化為無約束問題不等式約束的問題怎么辦?方法一:用現(xiàn)成的()優(yōu)化包進(jìn)行求解(效率低)方法二:求解與原問題等價(jià)的對(duì)偶問題()得到原始問題的最優(yōu)解(更易求解、可以推廣到核函數(shù))拉格朗日乘子法拉格朗日對(duì)偶性理論支撐29求解步驟轉(zhuǎn)化為對(duì)偶問題對(duì)偶轉(zhuǎn)化條件求解極小化拉格朗日乘子極值求解α極大化用算法求解α乘子30、對(duì)偶問題的轉(zhuǎn)化給每一個(gè)約束條件加上一個(gè)拉格朗日乘子(),定義拉格朗日函數(shù)根據(jù)對(duì)偶算法與條件約束,這個(gè)問題可以從轉(zhuǎn)化為其中*和*等價(jià)條件就是條件*31、的極小化那么問題轉(zhuǎn)化為先固定α,求的最小值將以上結(jié)果代入之前的,得到只含α的優(yōu)化結(jié)果32、α的極大化優(yōu)化問題接上一步處理結(jié)果如果求出了α*,那么和就可以隨之求解最終得出分離超平面和分類決策函數(shù)。那么有什么好方法求α呢?33、利用算法求解對(duì)偶問題中的拉格朗日乘子α優(yōu)化問題接上一步處理結(jié)果上述式子要解決的是在參數(shù)α上求最大值的問題,至于都是已知數(shù)算法(略)34表達(dá)式的感性分析(番外篇)線性函數(shù)表達(dá)式為()<>樣本確定了,用數(shù)學(xué)的語言描述,就是可以表示為樣本的某種組合αα…α同時(shí)不僅跟樣本點(diǎn)的位置有關(guān),還跟樣本的類別有關(guān)(也就是和樣本的“標(biāo)簽”有關(guān))。因此用下面這個(gè)式子表示才算完整:αα…α

35分類函數(shù)的預(yù)測(cè)將的表達(dá)式帶入分類函數(shù)后對(duì)于新點(diǎn)的預(yù)測(cè),只需要計(jì)算它與訓(xùn)練數(shù)據(jù)點(diǎn)的內(nèi)積即可(表示向量內(nèi)積)所有非所對(duì)應(yīng)的系數(shù)都α是等于零的,因此對(duì)于新點(diǎn)的內(nèi)積計(jì)算實(shí)際上只要針對(duì)少量的“支持向量”而不是所有的訓(xùn)練數(shù)據(jù)即可。36大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包37非線性分類——問題的引入我們把橫軸上端點(diǎn)和之間紅色部分里的所有點(diǎn)定為正類,兩邊的黑色部分里的點(diǎn)定為負(fù)類。試問能找到一個(gè)線性函數(shù)把兩類正確分開么?不能,因?yàn)槎S空間里的線性函數(shù)就是指直線,顯然找不到符合條件的直線。38非線性分類——問題的引入顯然通過點(diǎn)在這條曲線的上方還是下方就可以判斷點(diǎn)所屬的類別39非線性分類——問題的引入這條曲線就是我們熟知的二次曲線,它的函數(shù)表達(dá)式可以寫為:它不是一個(gè)線性函數(shù),但是,我們可以新建一個(gè)向量和:這樣()就可以轉(zhuǎn)化為()<>40非線性分類——問題的引入原先問題是:轉(zhuǎn)化后的問題:

在任意維度的空間中,這種形式的函數(shù)都是一個(gè)線性函數(shù)原來在二維空間中一個(gè)線性不可分的問題,映射到四維空間后,變成了線性可分的。解決線性不可分問題的基本思路——向高維空間轉(zhuǎn)化(這種特征變換稱作特征映射()),使其變得線性可分。41核函數(shù)——例子引入我們文本分類問題的原始空間是維的,在這個(gè)維度上問題是線性不可分的?,F(xiàn)在我們有一個(gè)維空間里的線性函數(shù)式中的’和’都是維的向量,只不過’是定值,而’是變量現(xiàn)在我們的輸入,是一個(gè)維的向量,分類的過程是先把變換為維的向量’,然后求這個(gè)變換后的向量’與向量’的內(nèi)積,再把這個(gè)內(nèi)積的值和相加,就得到了結(jié)果,看結(jié)果大于閾值還是小于閾值就得到了分類結(jié)果。42核函數(shù)——例子引入我們其實(shí)只關(guān)心那個(gè)高維空間里內(nèi)積的值,那個(gè)值算出來了,分類結(jié)果就算出來了。是否能有這樣一種函數(shù)(),他接受低維空間的輸入值,卻能算出高維空間的內(nèi)積值<’’>?如果有這樣的函數(shù),那么當(dāng)給了一個(gè)低維空間的輸入以后:這兩個(gè)函數(shù)的計(jì)算結(jié)果就完全一樣,我們也就用不著費(fèi)力找那個(gè)映射關(guān)系,直接拿低維的輸入往()里面代就可以了43假設(shè)映射函數(shù)是我們要將映射為那么定義核函數(shù)()為如果要實(shí)現(xiàn)該節(jié)開頭的效果,只需先計(jì)算,然后計(jì)算即可,然而這種計(jì)算方式是非常低效的。比如最初的特征是維的,我們將其映射到^維,然后再計(jì)算,這樣需要(^)的時(shí)間。那么我們能不能想辦法減少計(jì)算時(shí)間呢?核函數(shù)——形式化定義44核函數(shù)這樣的()確實(shí)存在。它被稱作核函數(shù)(),而且還不止一個(gè)事實(shí)上,只要是滿足了條件*的函數(shù),都可以作為核函數(shù)。核函數(shù)的基本作用就是接受兩個(gè)低維空間里的向量,能夠計(jì)算出經(jīng)過某個(gè)變換后在高維空間里的向量內(nèi)積值。45核函數(shù)——例子假設(shè)和都是維的展開后,得我們可以只計(jì)算原始特征和內(nèi)積的平方,時(shí)間復(fù)雜度是(),就等價(jià)與計(jì)算映射后特征的內(nèi)積。也就是說我們不需要花時(shí)間(^)了46核函數(shù)——例子核函數(shù)對(duì)應(yīng)的映射函數(shù)(時(shí))是47核函數(shù)舉例——高斯核如果和很相近(),那么核函數(shù)值為,如果和相差很大(),那么核函數(shù)值約等于。由于這個(gè)函數(shù)類似于高斯分布,因此稱為高斯核函數(shù),也叫做徑向基函數(shù)(簡稱)。它能夠把原始特征映射到無窮維。48核函數(shù)舉例——高斯核49核函數(shù)舉例——核既然高斯核函數(shù)能夠比較和的相似度,并映射到到,回想回歸,函數(shù)可以,因此還有核函數(shù)等等。50核函數(shù)舉例——多項(xiàng)式核剛才我們舉的例子是這里多項(xiàng)式核的一個(gè)特例(,)。雖然比較麻煩,而且沒有必要,不過這個(gè)核所對(duì)應(yīng)的映射實(shí)際上是可以寫出來的。51核函數(shù)舉例——線性核這實(shí)際上就是原始空間中的內(nèi)積。這個(gè)核存在的主要目的是使得“映射后空間中的問題”和“映射前空間中的問題”兩者在形式上統(tǒng)一起來52核函數(shù)小結(jié)我們會(huì)經(jīng)常遇到線性不可分的樣例,此時(shí),我們的常用做法是把樣例特征映射到高維空間中去如果凡是遇到線性不可分的樣例,一律映射到高維空間,那么這個(gè)維度大小是會(huì)高到可怕的核函數(shù)就隆重登場了,核函數(shù)的價(jià)值在于它雖然也是講特征進(jìn)行從低維到高維的轉(zhuǎn)換,但核函數(shù)絕就絕在它事先在低維上進(jìn)行計(jì)算,而將實(shí)質(zhì)上的分類效果表現(xiàn)在了高維上,也就如上文所說的避免了直接在高維空間中的復(fù)雜計(jì)算53核函數(shù)分類效果圖籬笆部署問題54核函數(shù)還有什么值得我們注意的既然有很多的核函數(shù),針對(duì)具體問題該怎么選擇?對(duì)核函數(shù)的選擇,現(xiàn)在還缺乏指導(dǎo)原則如果使用核函數(shù)向高維空間映射后,問題仍然是線性不可分的,那怎么辦?松弛變量55大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包56問題的引入現(xiàn)在我們已經(jīng)把一個(gè)本來線性不可分的文本分類問題,通過映射到高維空間而變成了線性可分的57問題的引入圓形和方形的點(diǎn)各有成千上萬個(gè),現(xiàn)在想象我們有另一個(gè)樣本點(diǎn),但是這個(gè)樣本的位置是這樣的:58近似線性可分問題就是圖中黃色那個(gè)點(diǎn),它是方形的,因而它是負(fù)類的一個(gè)樣本,這單獨(dú)的一個(gè)樣本,使得原本線性可分的問題變成了線性不可分的。這樣類似的問題(僅有少數(shù)點(diǎn)線性不可分)叫做“近似線性可分”的問題。59的處理分析有一萬個(gè)點(diǎn)都符合某種規(guī)律(因而線性可分),有一個(gè)點(diǎn)不符合,那這一個(gè)點(diǎn)是否就代表了分類規(guī)則中我們沒有考慮到的方面呢更有可能的是,這個(gè)樣本點(diǎn)壓根就是錯(cuò)誤,是噪聲,是提供訓(xùn)練集的同學(xué)人工分類時(shí)一打瞌睡錯(cuò)放進(jìn)去的。所以我們會(huì)簡單的忽略這個(gè)樣本點(diǎn),仍然使用原來的分類器,其效果絲毫不受影響。60硬間隔分類問題由于我們?cè)镜膬?yōu)化問題的表達(dá)式中,確實(shí)要考慮所有的樣本點(diǎn)(不能忽略某一個(gè),因?yàn)槌绦蛩趺粗涝摵雎阅囊粋€(gè)呢?),在此基礎(chǔ)上尋找正負(fù)類之間的最大幾何間隔,而幾何間隔本身代表的是距離,是非負(fù)的,像上面這種有噪聲的情況會(huì)使得整個(gè)問題無解。這種解法其實(shí)也叫做“硬間隔”分類法,因?yàn)樗残缘囊笏袠颖军c(diǎn)都滿足和分類平面間的距離必須大于某個(gè)值。61如何評(píng)價(jià)硬間隔分類硬間隔的分類法其結(jié)果容易受少數(shù)點(diǎn)的控制,這是很危險(xiǎn)的解決方法:允許一些點(diǎn)到分類平面的距離不滿足原先的要求62松弛變量的引入意思是說離分類面最近的樣本點(diǎn)函數(shù)間隔也要比大。如果要引入容錯(cuò)性,就給這個(gè)硬性的閾值加一個(gè)松弛變量,即允許因?yàn)樗沙谧兞渴欠秦?fù)的,因此最終的結(jié)果是要求間隔可以比小63松弛變量值的確定當(dāng)某些點(diǎn)出現(xiàn)這種間隔比小的情況時(shí)(這些點(diǎn)也叫離群點(diǎn)),意味著我們放棄了對(duì)這些點(diǎn)的精確分類,而這對(duì)我們的分類器來說是種損失但是放棄這些點(diǎn)也帶來了好處,那就是使分類面不必向這些點(diǎn)的方向移動(dòng),因而可以得到更大的幾何間隔(在低維空間看來,分類邊界也更平滑)64松弛變量優(yōu)化問題我們?cè)嫉挠查g隔分類對(duì)應(yīng)的優(yōu)化問題我們要把松弛變量加入到優(yōu)化問題中,即將損失越小越好65軟間隔分類器如果是,則為二階軟間隔分類器如果是,則為一階軟間隔分類器66懲罰因子懲罰因子把損失加入到目標(biāo)函數(shù)里的時(shí)候,就需要一個(gè)懲罰因子(,也就是中工具包中的參數(shù))67松弛變量懲罰因子的幾點(diǎn)說明并非所有的樣本點(diǎn)都有一個(gè)松弛變量與其對(duì)應(yīng)。實(shí)際上只有“離群點(diǎn)”才有,沒離群的點(diǎn)松弛變量都等于松弛變量的值實(shí)際上標(biāo)示出了對(duì)應(yīng)的點(diǎn)到底離群有多遠(yuǎn),值越大,點(diǎn)就越遠(yuǎn)懲罰因子決定了你有多重視離群點(diǎn)帶來的損失,顯然當(dāng)所有離群點(diǎn)的松弛變量的和一定時(shí),你定的越大,對(duì)目標(biāo)函數(shù)的損失也越大懲罰因子不是一個(gè)變量,整個(gè)優(yōu)化問題在解的時(shí)候,是一個(gè)事先指定的值68核函數(shù)松弛變量相同點(diǎn):都是解決線性不可分問題的不同點(diǎn):在原始的低維空間中,樣本相當(dāng)?shù)牟豢煞?,無論你怎么找分類平面,總會(huì)有大量的離群點(diǎn),此時(shí)用核函數(shù)向高維空間映射一下,雖然結(jié)果仍然是不可分的,但比原始空間里的要更加接近線性可分的狀態(tài)達(dá)到了近似線性可分的狀態(tài)后,此時(shí)再用松弛變量處理那些少數(shù)“冥頑不化”的離群點(diǎn)69的運(yùn)用:數(shù)據(jù)集偏斜()它指的是參與分類的兩個(gè)類別(也可以指多個(gè)類別)樣本數(shù)量差異很大。比如說正類有個(gè)樣本,而負(fù)類只給了個(gè)70數(shù)據(jù)集偏斜()方形的點(diǎn)是負(fù)類。,,是根據(jù)給的樣本算出來的分類面兩個(gè)灰色點(diǎn)有提供的話,那算出來的分類面應(yīng)該是’,’和負(fù)類給的樣本點(diǎn)越多,就越容易出現(xiàn)在灰色點(diǎn)附近的點(diǎn),我們算出的結(jié)果也就越接近于真實(shí)的分類面。71問題的解決方法()懲罰因子,那就是給樣本數(shù)量少的負(fù)類更大的懲罰因子,表示我們重視這部分樣本72問題的解決方法()不一定是樣本少,還可能是分布不夠廣“政治類”“體育類”文本分類,體育類集中在“籃球”領(lǐng)域比如可以算算他們?cè)诳臻g中占據(jù)了多大的體積,例如給負(fù)類找一個(gè)超球,它可以包含所有負(fù)類的樣本,再給正類找一個(gè),比比兩個(gè)球的半徑,就可以大致確定分布的情況但是有些領(lǐng)域分布的確不夠廣,比如“高考作文”“語言類”73問題的解決方法簡單的就是美的在解決偏斜問題的時(shí)候用的是方案一,樣本數(shù)量的比的初始值根據(jù)參數(shù)調(diào)優(yōu)計(jì)算出來咱們先假定說是這么大,就可以定為這么大(::)74大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包75多元分類是一種典型的兩類分類器,即它只回答屬于正類還是負(fù)類的問題而現(xiàn)實(shí)中要解決的問題,往往是多類的問題如何由兩類分類器得到多類分類器,就是一個(gè)值得研究的問題76方案一:一次求解個(gè)分類面一次性考慮所有樣本,并求解一個(gè)多目標(biāo)函數(shù)的優(yōu)化問題,一次性得到多個(gè)分類面可惜這種算法還基本停留在紙面上,因?yàn)橐淮涡郧蠼獾姆椒ㄓ?jì)算量實(shí)在太大,大到無法實(shí)用的地步77方案二:一類對(duì)其余一類對(duì)余類法(,)構(gòu)造類別數(shù)個(gè)的二元分類器訓(xùn)練時(shí)第個(gè)分類機(jī)取訓(xùn)練集中第類為正類,其余類別點(diǎn)為負(fù)類判別時(shí),輸入信號(hào)分別經(jīng)過個(gè)分類器輸出優(yōu)點(diǎn)每個(gè)優(yōu)化問題的規(guī)模比較小,而且分類的時(shí)候速度很快缺點(diǎn)分類重疊不可分類人為的數(shù)據(jù)偏斜78方案三:一對(duì)一該方法在每兩類問訓(xùn)練一個(gè)分類器,因此對(duì)于一個(gè)類問題,將有()個(gè)分類器優(yōu)點(diǎn)避免了數(shù)據(jù)偏斜訓(xùn)練階段(也就是算出這些分類器的分類平面時(shí))所用的總時(shí)間卻比“”方法少很多投票時(shí)也會(huì)有分類重疊的現(xiàn)象,但不會(huì)有不可分類現(xiàn)象缺點(diǎn)類別數(shù)為的時(shí)候,我們調(diào)用了個(gè)分類器,類別數(shù)如果是,要調(diào)用的分類器數(shù)目會(huì)上升至約個(gè)(但是時(shí)間上可能還是比少,因?yàn)榭紤]的樣本數(shù)少)79方案四:方法(有向無環(huán)圖)是針對(duì)存在誤分現(xiàn)象提出的這種方法的()個(gè)分類器,構(gòu)成一個(gè)有向無環(huán)圖。該有向無環(huán)圖中含有()個(gè)內(nèi)部節(jié)點(diǎn)和個(gè)葉結(jié)點(diǎn),每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)二類分類器80方案四:方法(有向無環(huán)圖)優(yōu)點(diǎn)簡單易行,只需要使用個(gè)決策函數(shù)即可得出結(jié)果,較“一對(duì)一"方法提高了測(cè)試速度,而且不存在誤分、拒分區(qū)域由于其特殊的結(jié)構(gòu),故有一定的容錯(cuò)性,分類精度較一般的二叉樹方法高缺點(diǎn)誤差積累81方案四:方法(有向無環(huán)圖)的錯(cuò)誤累積錯(cuò)誤累積在一對(duì)其余和一對(duì)一方法中也都存在,方法好于它們的地方就在于,累積的上限,不管是大是小,總是有定論的,有理論證明而一對(duì)其余和一對(duì)一方法中,盡管每一個(gè)兩類分類器的泛化誤差限是知道的,但是合起來做多類分類的時(shí)候,誤差上界是多少方法根節(jié)點(diǎn)的選取我們就總?cè)≡趦深惙诸愔姓_率最高的那個(gè)分類器作根節(jié)點(diǎn)置信度最大的路徑82其他方案:決策樹、決策樹方法糾錯(cuò)輸出編碼法()*維編碼矩陣類別判定用漢明距離83大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包84的應(yīng)用文本分類(下頁詳談)圖像處理圖像過濾、圖片分類與檢索生物信息技術(shù)蛋白質(zhì)分類語音識(shí)別人臉檢測(cè)、指紋識(shí)別手寫字體識(shí)別網(wǎng)絡(luò)入侵檢測(cè)、口令認(rèn)證、網(wǎng)頁分類……85的文本分類應(yīng)用例:分類萬條微信數(shù)據(jù),個(gè)類別。條測(cè)試數(shù)據(jù),其余數(shù)據(jù)為訓(xùn)練數(shù)據(jù)。分類句微博,個(gè)類別。句測(cè)試數(shù)據(jù),其余數(shù)據(jù)訓(xùn)練。省略恢復(fù)“小明買了蘋果,很甜?!?6大綱背景線性分類非線性分類松弛變量多元分類應(yīng)用工具包87工具包

……88簡介是林智仁()教授開發(fā)可以很方便的對(duì)數(shù)據(jù)做分類或回歸程序小,運(yùn)用靈活,輸入?yún)?shù)少,并且是開源的,易于擴(kuò)展,因此成為目前國內(nèi)應(yīng)用最多的的庫(,)

89工具包工具包組成(一個(gè)可視化的工具,用來展示訓(xùn)練數(shù)據(jù)和分類界面,里面是源碼,其編譯后的程序在文件夾下)(四個(gè)文件,用來數(shù)據(jù)集抽樣(),參數(shù)優(yōu)選(),集成測(cè)試(),數(shù)據(jù)檢查())(包含四個(gè)程序包)其他源碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論