設(shè)計(jì)基于SVM分類器_第1頁(yè)
設(shè)計(jì)基于SVM分類器_第2頁(yè)
設(shè)計(jì)基于SVM分類器_第3頁(yè)
設(shè)計(jì)基于SVM分類器_第4頁(yè)
設(shè)計(jì)基于SVM分類器_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SVMTherapiddevelopmentoftheInternetmakespeopleofinformationcollection,disseminationspeedandscalereachedunprecedentedlevels,toachievetheglobalinformationsharingandinteraction.However,italsobringsmanysideeffects,suchasmassiveinformationsometimesmakepeoplefeelatlooseends,howtointheshortestpossibletimegettousersthemostusefulinformationhas ethehotspotofcurrentresearch.Textclassificationtechnologyofdatamininginthefieldofaveryimportanttask,itcanhelpusersfromthenumerousandcomplicatedinformationquicklyandccuraypositioningtheneededinformation.Thispaperwithtextclassifierfortheoverallmodel,mainlyincludingtextpreprocessing,featureselection,featurevectorextraction,classifiertrainingandtestandevaluationoftheclassificationperformance.Focusonfeatureselection,featurevectorextraction,textclassificationalgorithm.Secondly,themaincontentofstatisticallearningtheory,thebasicprincipleofSVMalgorithmanditsadvantages,andthecorefunctionsandotherhotissuesare:textclassification,SVMalgorithm,statistical,learningSVM的研究現(xiàn)狀以及應(yīng)用做了簡(jiǎn)要說(shuō)明,最后,對(duì)本的組織結(jié)構(gòu)做了詳細(xì)規(guī)目的及意、文本分類是基于內(nèi)容的自動(dòng)信息管理的技術(shù)。應(yīng)用于信息過(guò)濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫(kù)、數(shù)字管等領(lǐng)域,有著廣泛的應(yīng)用前景。而SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論的新一代機(jī)器學(xué)習(xí)技術(shù),能很好地處理非線性數(shù)、局決,降低了算法的復(fù)雜度。現(xiàn)有的文本分類模型主要有決策樹(shù)(DecisionTree,DT)、支持向量機(jī)(SupportVectorMachineSVM)、神經(jīng)網(wǎng)絡(luò)算法、、文本分類的國(guó)內(nèi)外的發(fā)展?fàn)顕?guó)外對(duì)于文本分類的研究起步比較早,19世紀(jì)50年代末,H.P.Luhn提出詞頻思想并應(yīng)用于文本分類中。1960年,Maron教授了一篇《onrelevance,probabilisticindexingandinformationretrieval》,該對(duì)文本的自動(dòng)分類技術(shù)做了深入探討。1962年,H.Borko等人提出因子分析法,并用于文獻(xiàn)的自動(dòng)分類。1970,Salton(VectorSpaceModel,識(shí)工程技術(shù)的方法;80國(guó)內(nèi)對(duì)于文本分類的研究起步較晚。1980年,候漢清教授從計(jì)算機(jī)管理分等教授對(duì)基于詞典法的分類系統(tǒng)進(jìn)行了研究要武等教授對(duì)基于專家系統(tǒng)的自動(dòng)分類系統(tǒng)進(jìn)行了研究。等人用了n-gram方法對(duì)英文文本進(jìn)行分19901998Joachims(SVM),SVM的發(fā)展現(xiàn)的出現(xiàn),理論,稀近理論等對(duì)于支持向量機(jī)模型的性能完善有了很大幫助。一系列小的二次規(guī)劃問(wèn)題,簡(jiǎn)化了算法的運(yùn)行成本。C-SVM系列算法、υ-SVM系列算法、One-classSVM算法、RSVM算法、WSVM算法和LSSVM算法等變形算文本組織本主要對(duì)基于SVM的文本分類系統(tǒng)中的特征選擇和特征向量提取進(jìn)行況,支持向量機(jī)的發(fā)展應(yīng)用以及整個(gè)的組織結(jié)構(gòu)。第三章:本的部分,主要介紹了支持向量機(jī)算法的基本概念和理第四章:設(shè)計(jì)并實(shí)現(xiàn)一個(gè)英文文本的自動(dòng)分類系統(tǒng),并對(duì)該系統(tǒng)進(jìn)試文本分類文本分類(Textcategorization)就是在給定分類類別的情況下,將未文本分類預(yù)處理預(yù)處理去停用詞詞頻統(tǒng)預(yù)處理(去停用特征項(xiàng)選特征向量提文本分類訓(xùn)練過(guò) 文本分類測(cè)試過(guò)2.1文本的預(yù)停用詞(StopWords)指雖然在文本中出現(xiàn)的頻率很高,但是對(duì)文本分類沒(méi)有起到任何幫助作用的詞。它的存在只會(huì)增大特征向量的維數(shù),增加分類運(yùn)算的復(fù)雜程度。通常意義上,停用詞基本可分為兩類。一類是功能詞,只在文本中起到結(jié)構(gòu)作用而沒(méi)有什么實(shí)際含義。比如the、a、an、that、those文本中幫助描述名詞的限定詞,over、under、above、in、on相對(duì)位置的介詞。另一類詞是詞匯詞,在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率與在每篇文檔中出現(xiàn)的頻率大致相等的詞,對(duì)分類來(lái)說(shuō)作用不大。息)、句則(以詞類的各種組合方式來(lái)描述詞的聚合現(xiàn)象)以及有關(guān)詞和詞頻并按出現(xiàn)的頻率排序,詞頻(termfrequency,TF),是指給定單詞在該文件中出現(xiàn)的次數(shù),使用出現(xiàn)頻率較高的NNBFST,利用計(jì)數(shù)指針ij前字符位置。從主串Sn1;1。這種方法易操作、直觀、簡(jiǎn)單,每次只處理一個(gè)單詞,占用空間小且穩(wěn)定,但其消耗的時(shí)間與集合的大小2,樹(shù)的每個(gè)節(jié)點(diǎn)不是包含一個(gè)或幾個(gè)關(guān)鍵字,而是含有組成關(guān)鍵字的符號(hào)。詞頻統(tǒng)計(jì)時(shí),對(duì)集合中的找、計(jì)算各個(gè)詞的相關(guān)信息。此方法的分為兩部分:樹(shù)的構(gòu)造算法和詞頻文本的特征表下面對(duì)模型和向量空間模型這兩種特征表示的方法做一簡(jiǎn)單介紹。(Boolean)模型是基于集合論和代數(shù)的一種比較簡(jiǎn)單的文本表示1,0。缺點(diǎn)是對(duì)于一篇待分類的樣本,只有相關(guān)和不相關(guān)兩種狀態(tài),限制了文本的檢索性能。另外,很難將用戶所需的查詢信息轉(zhuǎn)換成表達(dá)式。一個(gè)文本所屬的類型只與其出現(xiàn)的頻率有關(guān),而與它出現(xiàn)的先后次序的沒(méi)有關(guān)系的,文本的長(zhǎng)度、上下文關(guān)系、位置以及出現(xiàn)的順目前文本表示最常用的方法是向量空間模型(VectorSpaceModel,簡(jiǎn)稱VSM),它是由G.Salton于1988年,SMART系統(tǒng)就是該模型的成功應(yīng)VSM文本():是由訓(xùn)練集、測(cè)試集組成的語(yǔ)料庫(kù)中的任意一篇文章,(featureterm):能準(zhǔn)確表示文本特征的單詞。一個(gè)文章可以被看特征項(xiàng)權(quán)重 weight):表示該特征項(xiàng)對(duì)于文本分類的重要程度在向量空間模型中,每篇文檔都被表示成向量形式,對(duì)于含有n個(gè)特征項(xiàng)D(,)),wk。2.12.1word word word word1…2…3……m………………在詞頻矩陣中,word第ij文本的特征選特征空間具有稀疏性、性等特點(diǎn),這大大提高了文本分類的復(fù)雜程度,增加了分類時(shí)間,并且很大程度降低了文本分類的性能。在空間中,文本的特征向量TF-IDF(termfrequency-inversefrequency)詞頻-反轉(zhuǎn)文件頻區(qū)別與其他文本的能力越強(qiáng)。TF表示一個(gè)單詞t在文本d中出現(xiàn)的頻率,即詞頻。IDF是逆向文件頻率,表示在所有文本中,包含單詞t的文本越少,即IDF越大。說(shuō)明該單詞t(2-(2-(2-文本分類都是基于機(jī)器學(xué)習(xí)的方法。大致可分為三類:1.KKK近鄰(K-NearestNeighbor,簡(jiǎn)稱KNN)分類算法,是數(shù)據(jù)挖掘分類技術(shù)中文檔集中各個(gè)文檔的向量的相似度,得到K檔,根據(jù)這K0。KNN算法的思想是:如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本,別中樣本的特性。KNNKNN來(lái)說(shuō),KNN樸素算pxp(x),p()。一般情況下x為觀測(cè)向量,是未知參數(shù)向量,通過(guò)觀測(cè)向量獲得未知參數(shù)向量的統(tǒng)計(jì),2.1SVMVapnikVC一項(xiàng)的值為零,并且使第二項(xiàng)最小化。SVMx(i)x偏置偏置2.2決策樹(shù)(decisiontree)是一個(gè)預(yù)測(cè)模型,運(yùn)用樹(shù)狀圖表示各決策的期望T1 F2.3一種是人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworksANNs),也簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動(dòng)物元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息、良好的輸入 隱含 輸出圖 性能評(píng)價(jià)指性能評(píng)價(jià)是文本分類中的重要環(huán)節(jié)。主要是率(recall)、準(zhǔn)確(precision)、以及用于評(píng)價(jià)全局性能的宏平均(macro-average)(micro-average)10,2.21AB標(biāo)記為0的文 率R準(zhǔn)確率P個(gè)指標(biāo)是互補(bǔ)的,想要提高準(zhǔn)確率,率就會(huì)將低,反之亦然。MP和MRmPmRi本數(shù),代表被分類器錯(cuò)分給類別ii1統(tǒng)計(jì)學(xué)習(xí)VCVC維是統(tǒng)計(jì)學(xué)習(xí)理論的一個(gè)概念,它描述了函數(shù)集或?qū)W習(xí)器的復(fù)雜或者學(xué)習(xí)能力的一個(gè)重要指標(biāo)。VC就越強(qiáng)。VCVCh2^hh打散,而不能把h+1的樣本集打散,則函數(shù)集的VC維就是h。若對(duì)于任意的樣本數(shù),總能找到一個(gè)樣本集能夠被這個(gè)函數(shù)集打散,則函數(shù)集的VC維就是無(wú)窮若在二維實(shí)數(shù)空間R^2中,函數(shù)集為有向直線集,則對(duì)一給定有向直線,空間中的數(shù)據(jù)點(diǎn)被直線分為兩類。直線方向如圖3.1中箭頭所示,位于直線正數(shù)空間R^2中,找不到有向直線集不能夠打散的由三個(gè)數(shù)據(jù)點(diǎn)構(gòu)成的點(diǎn)集,如3.23.3 3.1R^23.2R^2R^2VC其中hVC,nVCVCh,n,3.13.2n/h在結(jié)構(gòu)風(fēng)險(xiǎn)最小化中,先把函數(shù)集支持向量則記為-1。若訓(xùn)練集,這里或,樣本數(shù)為。支持向量機(jī)首先將向量映射到一個(gè)更的空間里,在其中建立最大間隔超平面,將數(shù)據(jù)分開(kāi);然后,在超平面距離最大化。SVM可以碰到某個(gè)訓(xùn)練點(diǎn)的輸入,這樣就得到了兩個(gè)的超平面和,稱這兩個(gè)超3.3 3.3即存在最優(yōu)超平面,使得只需令到該超平面的最小距離為。SVM權(quán)值向量和偏置b,3.7VapnikVC式中rSVMVC引入一組新的非負(fù)變量來(lái)處理不可分的樣本點(diǎn),也稱為松弛變量。給定訓(xùn)練樣本,尋找權(quán)值向量和偏置b條件:函數(shù)概念,就可以避免在特征空間中的運(yùn)算。要解決非線性可分的情況,就是 ,把映射到一個(gè)特征空間(Hilbert空間)中,然后在空間H中尋求最優(yōu)分類LagrangeSVMm3.43.4K(),或者是一個(gè)映射(),把樣本空間映射到一個(gè)甚至無(wú)窮維的特征空間中(Hilbert空間),使得在原來(lái)的Hilbert空間,相當(dāng)于選擇了不同的內(nèi)積。核函數(shù)將空間的內(nèi)積運(yùn)算轉(zhuǎn)化為低的核函數(shù)計(jì)算,巧妙地解決了“維數(shù)”等問(wèn)題,并且核函數(shù)的為了用線性的學(xué)習(xí)器學(xué)個(gè)非線性的關(guān)系,需要選擇一個(gè)非線性特HSVM,4線性核函數(shù)徑向基核函數(shù):K(x,y)=exp(-|x-多分類問(wèn)SVMk構(gòu)造kSVMiSVMi第i的第i的第i為了解決離散的不可分區(qū)域問(wèn)題,InoueAbeSVMKk(k-1)/2SVMij為訓(xùn)練樣本數(shù)據(jù)集,并將屬于類別ij負(fù)。第ij那么就把歸為第kkSVM在文本分類中的優(yōu)勢(shì)和Vapnik1995VC法相比,SVM用內(nèi)積的回旋巧妙地構(gòu)造核函數(shù),克服了特征空間中的維數(shù)問(wèn)題,通過(guò)盡管在文本分類領(lǐng)域中,SVMSVM的存在還可能造成過(guò)學(xué)習(xí),使泛化能力減弱。4、文本分類系統(tǒng)的設(shè)計(jì)與系統(tǒng)運(yùn)行LIBSVM系統(tǒng)運(yùn)行篇,放在名為測(cè)試集的文件夾中,方便系統(tǒng)進(jìn)試。所有語(yǔ)料庫(kù)樣本為英文文本,文本的格式為.txtLIBSVM工具箱的介L(zhǎng)IBSVM是大學(xué)(LinChih-Jen)等開(kāi)發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、SVMWindowsSVM供了交互檢驗(yàn)(CrossValidation)C-SVMSVM類、-SVMSVM通過(guò)綜合考慮,我決定采用該軟件作為工作軟件。SVMSVM方法及其參數(shù)、核函數(shù)及其參數(shù)的選擇,目前國(guó)際上還沒(méi)有形成一個(gè)統(tǒng)一LIBSVM的使用步LIBSVMRBF采用交叉驗(yàn)證選擇最佳參數(shù)Cg采用最佳參數(shù)Cg利用獲取的模型進(jìn)試與預(yù)測(cè)LIBSVM使用的數(shù)據(jù)格<label><index1>:<value1><index2>:<value2>持多個(gè)類);對(duì)于回歸,是任意實(shí)數(shù)。<index>是以1開(kāi)始的整數(shù),可以是不連續(xù)的;<value>;為實(shí)數(shù)也就是我們常說(shuō)的自變量檢驗(yàn)數(shù)據(jù)文件中的label只[1],.支持向量機(jī)及其算法研究[J].與信息化[2].基于SVM的中文文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D].吉林大學(xué),[3],.文本信息自動(dòng)分類系統(tǒng)ITC98(Ⅰ):ITC總體結(jié)構(gòu)與編碼子系統(tǒng)[J].中國(guó)學(xué)報(bào),1999,4(4):74-77.[4].分類法的發(fā)展趨勢(shì)簡(jiǎn)論[J].科學(xué),1981(1):58-[5].中文文本分類相關(guān)算法的研究與實(shí)現(xiàn)[D].西學(xué),[6].SVM在文本分類中的應(yīng)用[D].哈爾濱工程大學(xué),[7]瓦 .統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì) ,[8],呂宏偉.基于SVM的文本多類分類方法研究[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2006(3):162-162.[9].基于SVM的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論