支持向量機方法課件_第1頁
支持向量機方法課件_第2頁
支持向量機方法課件_第3頁
支持向量機方法課件_第4頁
支持向量機方法課件_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、支持向量機肖瑩2022/7/241知識管理與數據分析實驗室支持向量機支持向量機(Support Vector Machine,簡稱SVM)是在統(tǒng)計學習理論基礎上提出一種新型通用的機器學習方法。它建立在結構風險最小化原則基礎之上,具有很強的學習能力。2022/7/24知識管理與數據分析實驗室2支持向量機其主要借助于最優(yōu)化方法解決數據挖掘中的分類問題,是數據挖掘技術中一個新的研究熱點。它是統(tǒng)計學習理論中最年輕也最實用的部分,在很多領域得到了成功應用,如人臉檢測、手寫數字識別、文本分類、生物信息學等。2022/7/24知識管理與數據分析實驗室3支持向量機的提出SVM理論源于Vapinik在1963年

2、提出的用于解決模式識別問題的支持向量方法。這種方法從訓練集中選擇一組特征子集, 使得對特征子集的線性劃分等價于對整個數據集的分割。這組特征子集稱為支持向量SV。在此后近30年中, 對SV的研究主要集中在對分類函數的改進和函數預測上。2022/7/24知識管理與數據分析實驗室4支持向量機的提出在1971年,Kimel-dorf提出使用線性不等約束重新構造SV的核空間, 解決了一部分線性不可分的問題, 為以后SVM的研究開辟了道路。1990年, Grace, Boster和Vapnik等人開始對SVM技術進行研究, 并取得突破性進展。1995年, Vapnik提出了統(tǒng)計學習理論, 較好地解決了線性

3、不可分的問題, 正式奠定了SVM的理論基礎。2022/7/24知識管理與數據分析實驗室5支持向量機理論支持向量機的理論最初來自對數據分類問題的處理。對于數據分類問題, 如果采用通用的神經網絡方法來實現, 其機理可以簡單地描述為:系統(tǒng)隨機產生一個超平面并移動它, 直到訓練集中屬于不同分類的點正好位于平面的不同側面。這種處理機制決定了:用神經網絡方法進行數據分類最終獲得的分割平面將相當靠近訓練集中的點, 而在絕大多數情況下, 并不是一個最優(yōu)解。2022/7/24知識管理與數據分析實驗室6支持向量機理論為此SVM考慮尋找一個滿足分類要求的分割平面, 并使訓練集中的點距離該分割平面盡可能地遠,即尋找一

4、個分割平面, 使其兩側的空白區(qū)域(margin)最大。2022/7/24知識管理與數據分析實驗室7支持向量機理論在很多情況下, 訓練數據集中的數據是線性不可分的, 這使得SV的應用受到了很大的限制。為了解決這個問題, Vapnik等人提出使用SVM作為超平面分割方法的擴展。使用SVM進行數據集分類工作的典型流程如圖2所示。2022/7/24知識管理與數據分析實驗室8支持向量機理論首先, 通過預先選定的一些非線性映射將輸入空間映射到高維屬性空間, 使得在高維屬性空間中有可能對訓練數據實現超平面的分割, 避免了在原輸入空間中進行非線性曲面分割計算。SVM數據集形成的分類函數具有這樣的性質:它是一組

5、以SV為參數的非線性函數的線性組合, 因此分類函數的表達式僅和SV的數量相關, 而獨立于空間的維度。在處理高維輸入空間的分類時, 這種方式尤其有效。2022/7/24知識管理與數據分析實驗室9支持向量機算法的發(fā)展模糊支持向量機最小二乘支持向量機加權支持向量機(有偏樣本的加權,有偏風險加權)主動學習的支持向量機粗糙集與支持向量機的結合基于決策樹的支持向量機分級聚類的支持向量機2022/7/24知識管理與數據分析實驗室10支持向量機算法的發(fā)展算法上的提高-Vapnik 在1995 年提出了 “chunking” 算法, Osuna 提出了一種分解算法, Platt 于1998年提出了序貫最小優(yōu)化核

6、函數的構造和參數的選擇理論研究支持向量機從兩類問題向多類問題的推廣2022/7/24知識管理與數據分析實驗室11支持向量機的特點(1) 非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射;(2)對特征空間劃分的最優(yōu)超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心;(3)支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。2022/7/24知識管理與數據分析實驗室12支持向量機的特點(4)SVM是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同于現有的統(tǒng)計方法。從本質上看,它避開了從歸納到演繹的傳統(tǒng)

7、過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了分類和回歸等問題。2022/7/24知識管理與數據分析實驗室13支持向量機的特點(5)SVM的最終決策函數只由少數的支持向量所確定,計算的復雜性取決于支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。2022/7/24知識管理與數據分析實驗室14支持向量機的應用舉例以在手寫數字識別和文本分類中的應用為例說明。這個問題通常用來做分類器的測試平臺,最初是美國郵政服務部門使用手寫郵政編碼自動分類郵件的需要提出的。2022/7/24知識管理與數據分析實驗室15支持向量機的應用舉例這是一個可識別性較差的數據庫,人工識別

8、平均錯誤率是2.5%,用決策樹方法識別錯誤率是16.2%,兩層神經網絡中錯誤率最小的是5.9%,專門針對該問題設計的五層神經網絡錯誤率為5.1% (其中利用了大量先驗知識),而用SVM方法得到的錯誤率僅為4.0%,且其中直接采用了16X16的字符點陣作為svm的輸入,并沒有進行專門的特征提取。2022/7/24知識管理與數據分析實驗室16支持向量機的應用舉例文本分類的任務是將文本文件根據內容分為預先定義的幾個類別。很多領域都有這種問題,包括郵件過濾、網頁搜索、辦公自動化、主題索引和新聞故事的分類。因為一個文件可以分給不止一個類別,所以這不是一個多分類問題,而是兩分類問題,即是或不是屬于某類。2

9、022/7/24知識管理與數據分析實驗室17支持向量機的應用舉例Joachims等人用傳統(tǒng)的向量空間模型作為輸入訓練支持向量機,表現出比傳統(tǒng)方法如簡單貝葉斯、Rocchio、決策樹的C4.5算法和K近鄰等更好的性能,這是因為傳統(tǒng)方法在文本的高維向量空間中的推廣性能差,而支持向量機得到的最大間隔分類器克服了高維空間中的維數困難。2022/7/24知識管理與數據分析實驗室18支持向量機的不足(1)SVM算法對大規(guī)模訓練樣本難以實施。由于SVM是借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及m 階矩陣的計算(m 為樣本的個數),當m 數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間。20

10、22/7/24知識管理與數據分析實驗室19支持向量機的不足(2)用SVM解決多分類問題存在困難經典的支持向量機算法只給出了二類分類的算法,而在數據挖掘的實際應用中,一般要解決多類的分類問題??梢酝ㄟ^多個二類支持向量機的組合來解決。2022/7/24知識管理與數據分析實驗室20支持向量機的研究難點(1)核函數和參數的構造和選擇缺乏理論指導。核函數的選擇影響著分類器的性能,如何根據待解決問題的先驗知識和實際樣本數據,選擇和構造合適的核函數、確定核函數的參數等問題,都缺乏相應的理論指導。2022/7/24知識管理與數據分析實驗室21支持向量機的研究難點(2)訓練大規(guī)模數據集的問題。如何解決訓練速度與訓練樣本規(guī)模間的矛盾,測試速度與支持向量數目間的矛盾,找到對大規(guī)模樣本集有效的訓練算法和分類實現算法,仍是未很好解決的問題。2022/7/24知識管理與數據分析實驗室22支持向量機的研究難點(3)多類分類問題的有效算法與SVM 優(yōu)化設計問題。盡管訓練多類SVM 問題的算法已被提出,但用于多類分類問題時的有效算法、多類SVM 的優(yōu)化設計仍是一個需要進一步研究的問題。2022/7/24知識管理與數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論