基于支持向量機(jī)的圖書借閱問題研究_第1頁
基于支持向量機(jī)的圖書借閱問題研究_第2頁
基于支持向量機(jī)的圖書借閱問題研究_第3頁
基于支持向量機(jī)的圖書借閱問題研究_第4頁
基于支持向量機(jī)的圖書借閱問題研究_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Ⅱ平頂山學(xué)院2008屆本科生畢業(yè)論文彈簧振子振動(dòng)的探討王某某PINGDINGSHANUNIVERSITY畢業(yè)論文題目:基于支持向量機(jī)的圖書借閱問題研究 摘要圖書借閱量是衡量圖書館工作好壞的重要標(biāo)準(zhǔn),它度量了在單位時(shí)間內(nèi)館藏圖書的借出總量,反映了在該地區(qū)內(nèi)讀者的閱讀習(xí)慣,具有重要的研究?jī)r(jià)值和意義.保存完整的原始數(shù)據(jù)以及對(duì)此的相關(guān)研究,可以指導(dǎo)和改善圖書館的日常工作,從而更好的為讀者提供服務(wù).大量的專家學(xué)者對(duì)此作出了細(xì)致而科學(xué)的研究,比如灰色預(yù)測(cè)、馬氏鏈模型等等.本文博采眾家之所長(zhǎng),另辟蹊徑,將支持向量機(jī)這一學(xué)習(xí)機(jī)器引入進(jìn)來,并與兩種比較常見的模型作比較,得到了比較好的結(jié)論.本文首先獲取訓(xùn)練樣本的集合,然后選擇適當(dāng)?shù)暮撕瘮?shù),同時(shí)選擇自由參數(shù)和,由此將二次規(guī)劃問題轉(zhuǎn)化為凸優(yōu)化問題進(jìn)行求解,最后通過獲得的模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),得到結(jié)果.本文是對(duì)支持向量機(jī)的簡(jiǎn)單應(yīng)用,并比較三個(gè)模型的結(jié)果,來展示其優(yōu)越性.當(dāng)然,我們還可以對(duì)支持向量機(jī)進(jìn)行改進(jìn),以及和其它模型結(jié)合起來.該課題還存在著很大的研究空間.關(guān)鍵詞:圖書借閱量;支持向量機(jī);灰色模型;馬爾科夫模型Basedonsupportvectormachine(SVM)problemoflibraryresearchAbstracBookcirculationisanimportantstandardofwork,Itmeasuresthetotalcollectionbookslendinginunittime,Itreflectsintheregionthatthereader'sreadinghabits,hasimportantresearchvalueandsignificance.Intacttheoriginaldataandrelatedresearchtothis,canguideandimprovethedailyworkofthelibrary,soastobetterprovideserviceforreaders.Alargenumberofexpertsandscholarsmadeameticulousandscientificresearch,suchasgraypredictionandmarkovchainmodelandsoon.Thispaperwithfulluseoftheadvantages,directorofpath,thesupportvectormachine(SVM)isalearningmachineisintroduced,andcomparedwithtwokindsofcommonmodelcomparison,obtainedbetterresults.Atfirst,thispapergetthetrainingsampleset,andthenselecttheappropriatekernelfunction,thechoiceoffreeparametersandatthesametime,theconvexquadraticprogrammingproblemcanbeconvertedtooptimizationproblems,themodelisacquiredthroughforecasttestsample,theresultisobtained.Thisisthesimpleapplicationofsupportvectormachine(SVM),andcomparetheresultsofthreemodel,toshowitssuperiority.Ofcourse,wecanalsotoimprovethesupportvectormachine(SVM),andcombinedwithothermodels.Thesubjecttherearegreatstudyspace.KeyWords:Bookcirculation;Supportvectormachine(SVM);Markovchainmodel;Greymodel基于支持向量機(jī)的圖書借閱問題研究平頂山學(xué)院本科畢業(yè)論文4目錄1緒論 緒論1.1研究背景圖書借閱量是指在某圖書館的館藏圖書在一定時(shí)期內(nèi)借出總量.從時(shí)間長(zhǎng)短來劃分,一般分為日借閱量、月借閱量、季度借閱量和年度借閱量.在不同的情況下,我們會(huì)選取以上分類中的一種或是幾種作為衡量指標(biāo)來進(jìn)行研究.通常情況下,日借閱量由于截取的時(shí)間段過短,造成數(shù)據(jù)的浮動(dòng)過大,不足以反映出讀者的閱讀習(xí)慣,一般不會(huì)作為某種研究的參考指標(biāo).培根說過,書籍是人類進(jìn)步的階梯.圖書館因其藏書豐富、環(huán)境安靜,為大眾提供了良好的閱讀平臺(tái).近些年來,各地政府紛紛重視對(duì)圖書館的建設(shè),公共圖書館的館藏圖書量不斷增加,閱讀場(chǎng)所不斷擴(kuò)大.種種有利因素吸引越來越多的人在閑暇時(shí)間走進(jìn)圖書館,從中汲取知識(shí)和營(yíng)養(yǎng).所以說,圖書借閱量在某種程度上能夠反映出人們的閱讀習(xí)慣和知識(shí)層次,值得我們?nèi)パ芯亢吞剿?與此同時(shí),如何合理的安排工作人員、閱讀場(chǎng)地和工作時(shí)間,關(guān)系到圖書館能否正常有效的開展工作,關(guān)系到圖書館能否得到良好的建設(shè)和發(fā)展,關(guān)系到圖書館能否更好的為公眾服務(wù).要做好這些,重中之重在于對(duì)圖書借閱量的把握和預(yù)測(cè).只有掌握了相關(guān)數(shù)據(jù),才能對(duì)后期的工作作出科學(xué)合理的安排.1.2研究現(xiàn)狀目前,在對(duì)圖書借閱量的預(yù)測(cè)[1],通過各位專家學(xué)者的努力.形成了百花齊放的局面.主要的研究方法有統(tǒng)計(jì)回歸分析法、灰色GM(1,1)預(yù)測(cè)法、時(shí)間序列法以及由此延伸出的組合預(yù)測(cè):統(tǒng)計(jì)回歸與灰色預(yù)測(cè)相結(jié)合、灰色預(yù)測(cè)與馬爾科夫鏈相結(jié)合、線性回歸與馬爾科夫鏈相結(jié)合等.下面主要介紹兩種比較熱門的研究方法,本文在第四部分也會(huì)涉及.第一是灰色系統(tǒng)模型.該模型由鄧聚龍教授(任教于華中理工大學(xué))于1982年在國(guó)際上最先提出,到今天已經(jīng)得到了迅速的發(fā)展和廣泛的應(yīng)用.迄今為止,灰色系統(tǒng)理論已經(jīng)滲透到工業(yè)、農(nóng)業(yè)、醫(yī)學(xué)、經(jīng)濟(jì)、政策等多個(gè)領(lǐng)域,取得了許多重大成果.第二是馬爾科夫鏈.馬爾可夫鏈,因安德烈?馬爾可夫得名,主要研究數(shù)學(xué)中具有馬爾可夫性質(zhì)的離散隨機(jī)過程.在該過程中,如果已經(jīng)給定了某些知識(shí)和信息,那么過去(以前的狀態(tài))對(duì)于預(yù)測(cè)將來(即未來的狀態(tài))是無關(guān)的.1.3研究意義借閱量是圖書館業(yè)務(wù)統(tǒng)計(jì)中的重要指標(biāo),可以衡量圖書情報(bào)部門的工作質(zhì)量與效益,有關(guān)借閱量的調(diào)查、統(tǒng)計(jì)、分析、預(yù)測(cè)等研究和探討,一直是圖書情報(bào)學(xué)界的研究熱點(diǎn).上述模型固然有各自的優(yōu)點(diǎn),難免也存在著一定的不足:或是數(shù)據(jù)不能全部利用,或是誤差較大.比如灰色系統(tǒng)模型盡管需要的訓(xùn)練樣本較少,但是它對(duì)于非線性預(yù)測(cè)的能力較差;人工神經(jīng)網(wǎng)絡(luò)雖然有很強(qiáng)的非線性預(yù)測(cè)能力,但是由于它基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,容易收斂于局部極值,并且需要的訓(xùn)練樣本較多.支持向量機(jī)是CorinnaCortes和Vapnik8等于1995年首先提出的,它在解決小樣本、非線性和高維模式識(shí)別中表現(xiàn)出很多特有的優(yōu)勢(shì),并且能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)中.本文嘗試借助支持向量機(jī)在時(shí)間序列中的應(yīng)用,希望能夠比較精確的預(yù)測(cè)圖書借閱量.支持向量機(jī)至少有以下兩方面的優(yōu)點(diǎn):其目標(biāo)是在現(xiàn)有信息下獲得最優(yōu)解,而不單單是樣本數(shù)目趨于無窮大時(shí)的最優(yōu)解,進(jìn)而避免了過學(xué)習(xí)現(xiàn)象的出現(xiàn);其訓(xùn)練過程的實(shí)質(zhì)就是尋找決策邊界來確定最優(yōu)超平面的過程.其模型的訓(xùn)練可以看作一個(gè)二次規(guī)劃問題,利用對(duì)偶拉格朗日乘子方法求解,其中乘子不為零的項(xiàng)即為支持向量,其得到的是全局最優(yōu)點(diǎn),有效解決局部極值的問題.2支持向量機(jī)2.1統(tǒng)計(jì)學(xué)習(xí)理論[2]2.1.1研究的目的統(tǒng)計(jì)學(xué)理論的基本體系在20世紀(jì)70年代已經(jīng)建立起來,由于理論研究的限制,無法將其方法付諸實(shí)踐,直到90年代才廣泛應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域,并逐步發(fā)展完善.統(tǒng)計(jì)學(xué)理論是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,它統(tǒng)計(jì)推理規(guī)則不僅考慮了對(duì)漸近性能的要求,而且追求在現(xiàn)有有限信息的基礎(chǔ)上得到最優(yōu)結(jié)果.2.1.2VC維在模式識(shí)別方法中,我們對(duì)VC維的直觀定義為:假設(shè)有一個(gè)指示函數(shù)集,若函數(shù)集中的函數(shù)能夠把個(gè)樣本被按照所有可能的種形式分開,則稱該函數(shù)集能夠把這些樣本打散.函數(shù)集的VC維,其實(shí)就是它能打散的最大樣本數(shù)目.VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大,則學(xué)習(xí)機(jī)器越復(fù)雜,即學(xué)習(xí)能力越強(qiáng);反之,則學(xué)習(xí)機(jī)器越簡(jiǎn)單,即學(xué)習(xí)能力越差.2.1.3實(shí)際風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)實(shí)際風(fēng)險(xiǎn)也就是期望風(fēng)險(xiǎn).在對(duì)機(jī)器的學(xué)習(xí)中,我們認(rèn)為輸入變量和輸出變量存在著某種依賴關(guān)系,這種關(guān)系可以用一個(gè)聯(lián)合分布概率來表示.據(jù)個(gè)獨(dú)立同分布的觀測(cè)樣本:,其中.從一組預(yù)測(cè)函數(shù)集中求出一個(gè)最優(yōu)的函數(shù),使得預(yù)測(cè)實(shí)際風(fēng)險(xiǎn)最小.所謂實(shí)際風(fēng)險(xiǎn),其實(shí)就是選擇的損失函數(shù)遵循概率分布的Riemann-Stieltjes積分,也可以理解為預(yù)測(cè)時(shí)的平均損失程度.其表達(dá)式為:上式表明,實(shí)際風(fēng)險(xiǎn)由概率分布和損失函數(shù)所決定.但是在實(shí)際情況中,能夠用到的樣本信息有限,造成實(shí)際風(fēng)險(xiǎn)無法計(jì)算.因此,我們以經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化作為對(duì)實(shí)際風(fēng)險(xiǎn)的估計(jì).為了度量實(shí)際風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)的逼近程度,導(dǎo)出了推廣性的界.對(duì)于指示函數(shù)集中的所有函數(shù),實(shí)際風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)最少以概率滿足如下關(guān)系:(為函數(shù)集的VC維,為樣本數(shù))實(shí)際風(fēng)險(xiǎn)由經(jīng)驗(yàn)風(fēng)險(xiǎn)(即訓(xùn)練誤差)和置信范圍兩部分構(gòu)成.它與學(xué)習(xí)機(jī)器的VC維和訓(xùn)練樣本數(shù)有關(guān),可表示為:上式表明,在有限的訓(xùn)練樣本下,學(xué)習(xí)機(jī)器的VC維越高則置信范圍越大,由此導(dǎo)致真實(shí)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)之間可能的差別越大.這就是過學(xué)習(xí)現(xiàn)象出現(xiàn)的原因.2.1.4過學(xué)習(xí)的應(yīng)對(duì)策略首先我們把函數(shù)集分解成為一個(gè)函數(shù)子集序列:分解的基本原則是使得各子集能夠按照的大小排列,也就是按照VC維的大小排列,即:顯然,在同一個(gè)子集中置信范圍相同.在每一個(gè)子集中尋找最小經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,取得實(shí)際風(fēng)險(xiǎn)的最小值,稱做結(jié)構(gòu)風(fēng)險(xiǎn)最小化,即SRM準(zhǔn)則.2.1.5SRM準(zhǔn)則實(shí)現(xiàn)的思路(1)在每個(gè)子集中求得最小經(jīng)驗(yàn)風(fēng)險(xiǎn),然后選擇最小經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的和最小的子集.顯然該方法比較費(fèi)時(shí)費(fèi)力,并且當(dāng)子集數(shù)目很大甚至是無窮大時(shí)是無法進(jìn)行的.(2)設(shè)計(jì)函數(shù)集的某種結(jié)構(gòu),使得每個(gè)子集中都能取得最小的經(jīng)驗(yàn)風(fēng)險(xiǎn),然后只需選擇適當(dāng)?shù)淖蛹屩眯欧秶钚。敲丛撟蛹薪?jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)就是最優(yōu)函數(shù).2.2支持向量機(jī)回歸模型2.2.1損失函數(shù)所謂損失函數(shù),可以忽略真實(shí)值某個(gè)上下范圍內(nèi)的誤差.損失函數(shù)的引入,使得SVM能夠用于回歸.我們主要根據(jù)模型的實(shí)際特點(diǎn)來選擇損失函數(shù),其直接影響了經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的結(jié)果.常用的損失函數(shù)有:不敏感損失函數(shù):(2-2-1)Huber損失函數(shù)(2-2-2)此外,還有二次不敏感損失函數(shù)、Laplacian損失函數(shù)、拉普拉斯損失函數(shù)、最小二乘誤差損失函數(shù)等.Vapnik等人提出的不敏感損失函數(shù),是對(duì)Huber損失函數(shù)的近似,可以確保對(duì)偶變量的稀疏性,也是唯一具有稀疏性性質(zhì)的損失函數(shù),如此使得SVR依舊具有SVM稀疏性的特點(diǎn).不敏感函數(shù)可以使用訓(xùn)練點(diǎn)一個(gè)小的子集來表示解,同時(shí)確保全局最小解的存在和可靠泛化界得優(yōu)化.2.2.2拉格朗日乘子理論對(duì)于非線性優(yōu)化問題:我們這樣來定義拉格朗日函數(shù):(為拉格朗日乘子)其使得約束優(yōu)化問題向無約束優(yōu)化問題進(jìn)行轉(zhuǎn)換.對(duì)于凸規(guī)劃來說,函數(shù)的極值點(diǎn)就是拉格朗日函數(shù)的鞍點(diǎn).根據(jù)Wolfe對(duì)偶理論,利用拉格朗日函數(shù)法可以把原問題的極小值問題轉(zhuǎn)化為對(duì)偶問題的極大值問題.2.2.3核函數(shù)SVM總是通過某種映射將訓(xùn)練樣本,由低維輸入空間變換到高維特征空間.在高維特征空間中,再對(duì)映射后的訓(xùn)練點(diǎn)進(jìn)行運(yùn)算,并通過核函數(shù)將高維特征空間中復(fù)雜的內(nèi)積運(yùn)算轉(zhuǎn)換為原輸入空間的簡(jiǎn)單運(yùn)算.利用核函數(shù)可以在不知道具體形式的情況下,直接計(jì)算特征空間中向量的內(nèi)積.在實(shí)際應(yīng)用中,比較常用的核函數(shù)有如下幾種(1)線性核函數(shù)(2-2-3)(2)多項(xiàng)式核函數(shù)(2-2-4)其中,是多項(xiàng)式的次數(shù).當(dāng)時(shí)得到的是齊次多項(xiàng)式核函數(shù);當(dāng),得到非齊次多項(xiàng)式核函數(shù).此外,還有Gauss徑向基核函數(shù)、Sigmoid核函數(shù)和小波核函數(shù).核函數(shù)的選擇直接影響了SVM的解決效果,其形式和參數(shù)的確定決定了模型的類型以及復(fù)雜程度.2.2.4支持向量機(jī)回歸算法步驟(1)獲取訓(xùn)練樣本的集合{};(2)確定特征空間,即選取適當(dāng)?shù)暮撕瘮?shù);(3)對(duì)自由參數(shù)和的選擇,以此來確定經(jīng)驗(yàn)風(fēng)險(xiǎn);(4)將二次規(guī)劃問題轉(zhuǎn)化為凸優(yōu)化問題進(jìn)行求解;(5)將拉格朗日乘子和閥值代入決策函數(shù),確定最優(yōu)超平面,獲得SVR模型;(6)通過獲得的模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),輸出結(jié)果.2.2.5支持向量機(jī)線性回歸[3]對(duì)于給定的訓(xùn)練樣本集,,.支持向量機(jī)定義了一種機(jī)器學(xué)習(xí)算法,用以確定映射關(guān)系(其中為可調(diào)參數(shù)).在線性回歸中,定義映射,其中,.為了確定和,假設(shè)將所有的訓(xùn)練數(shù)據(jù)在精度(真實(shí)值某個(gè)范圍)下用線性擬合,即:(2-2-5)式中,、為松弛因子,度量了訓(xùn)練點(diǎn)上誤差的代價(jià),當(dāng)劃分有誤差時(shí),、均大于0,否則均等于0.這樣,問題轉(zhuǎn)化為求解優(yōu)化問題.(常數(shù),對(duì)誤差超出的樣本的懲罰程度).上式轉(zhuǎn)化為其對(duì)偶問題約束條件為求解出上述各參數(shù)和后,就可以用求得,其中為任選的兩個(gè)非支持向量.這樣就可以得到擬合函數(shù):對(duì)于非線性回歸,先使用非線性映射將數(shù)據(jù)映射到一個(gè)高維特征空間,再進(jìn)行線性回歸,引入核函數(shù),則相應(yīng)的擬合函數(shù)變?yōu)?支持向量機(jī)的建模過程某單位資料室近11周圖書借閱量如下表所示:周周次借閱量星期1234567891011一942114282111669007311098807810862二978854716823735648904760931715三1039710683697719525821770265788四1077640419602550651564574560204482五129189152310819923031094107388741110633.1樣條插值法求得空值在題目所給的表格當(dāng)中,出現(xiàn)了三個(gè)空值,即第八周周一、周二、周三三個(gè)數(shù)據(jù).它們當(dāng)然不可能全部為零,因此有必要運(yùn)用插值法對(duì)數(shù)據(jù)進(jìn)行完善.插值分為分段線性插值、三次方程式插值和樣條插值等幾種方法.我們?nèi)√囟ê瘮?shù)若干個(gè)自變量和函數(shù)值點(diǎn)作為已知數(shù)據(jù),選取若干個(gè)自變量的點(diǎn),運(yùn)用上述方法來確定插值函數(shù)的值,然后將插值結(jié)果與函數(shù)值進(jìn)行比較,繪制出實(shí)際數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)兩條曲線.實(shí)驗(yàn)表明,分段線性插值準(zhǔn)確性較差,而三次方程式插值和樣條插值效果較好.因此我們選取樣條插值法求得空值.輸入相關(guān)程序,在MATLAB中的運(yùn)行結(jié)果為:第一行的空值為952.5;第二行空值為832;第三行的空值為795.5.圖書借閱量不可能存在0.5的情況,因此采取四舍五入的方式計(jì)入.3.2圖書館借閱量的相空間重構(gòu)[4]為了降低建模誤差,首先對(duì)原始數(shù)據(jù)進(jìn)行均值零處理和數(shù)據(jù)歸一化,然后根據(jù)Taken理論進(jìn)行相空間重構(gòu).將上表中圖書借閱量按時(shí)間順序排列為一組數(shù)據(jù),;{}是預(yù)測(cè)的目標(biāo)值,建立一個(gè)時(shí)間滾動(dòng)的數(shù)據(jù)區(qū)間.在時(shí)間序列上從左向右移動(dòng)該區(qū)間,區(qū)間內(nèi)最左的數(shù)據(jù)從定長(zhǎng)區(qū)間移動(dòng)出去,則從區(qū)間右側(cè)相應(yīng)地會(huì)有新的數(shù)據(jù)加入,使得區(qū)間內(nèi)數(shù)據(jù)保持在個(gè).我們?nèi)∽鳛橹С窒蛄繖C(jī)訓(xùn)練樣本的容量,個(gè)數(shù)據(jù)作為測(cè)試樣本,根據(jù)序列的自相關(guān)性,建立訓(xùn)練輸入向量與輸出之間的映射關(guān)系,其中為嵌入維數(shù),反映了轉(zhuǎn)換后矩陣蘊(yùn)含的知識(shí)量.經(jīng)過變換得到用于預(yù)測(cè)的學(xué)習(xí)樣本().3.3圖書館借閱量的預(yù)測(cè)模型得到學(xué)習(xí)樣本后,就可以對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,得到回歸函數(shù):注意到?jīng)]有利用,故可以得到第點(diǎn)的預(yù)測(cè)值:由此得到第步的預(yù)測(cè)模型:3.4支持向量機(jī)模型的求解根據(jù)題目中給出的52組數(shù)據(jù)以及樣條插值得到的3個(gè)數(shù)據(jù),按上式進(jìn)行重構(gòu)(),共得到48個(gè)樣本;其中前38個(gè)樣本作為學(xué)習(xí)樣本,后10個(gè)樣本作為預(yù)測(cè)樣本.對(duì)學(xué)習(xí)樣本的擬合和預(yù)測(cè)樣本的檢測(cè)都采用線性核函數(shù),懲罰參數(shù),損失函數(shù)采用,計(jì)算結(jié)果如下所示表1支持向量機(jī)對(duì)學(xué)習(xí)樣本的擬合日期實(shí)際值擬合值絕對(duì)誤差相對(duì)誤差/%2.3710722-12-1.702.4640624162.502.5891870212.363.1821803182.203.2716720-4-0.563.3683654294.253.4419431-122.863.5523542-193.634.111661201-353.004.2823805182.194.3697675223.164.4602587152.504.510811100191.765.1900875252.785.2735721141.905.3719705141.955.4550568-183.275.599298570.716.1731721101.376.2648635132.016.3525506193.626.465164830.476.5303342-3912.877.110981074242.197.2904874283.107.3821795263.177.4564574-101.777.510941078161.468.1953936171.788.2832818141.688.3796748465.788.4574564101.748.51073106580.759.1807795121.499.2760741192.59.3770756141.829.456055461.079.5887857303.38注:上表中,2.3表示第二周星期三,下同.表2支持向量機(jī)對(duì)預(yù)測(cè)樣本的擬合日期實(shí)際值擬合值絕對(duì)誤差相對(duì)誤差/%10.1810798121.4810.2931915161.7210.3265254114.1510.420419862.9410.5411395163.8911.1862875-13-1.5111.2715701141.9611.3788765232.9211.4482471112.2811.510631045181.69由上兩表可以看出,無論是對(duì)學(xué)習(xí)樣本的擬合還是對(duì)檢驗(yàn)樣本的擬合,相對(duì)誤差均在3%左右.因此,支持向量機(jī)回歸可以很好的對(duì)圖書借閱量進(jìn)行預(yù)測(cè).第12到15周預(yù)測(cè)的20個(gè)數(shù)據(jù)如下表所示:周次借周次借閱量星期12131415一736718690675二795806815817三818844850860四514518495470五11961187119511584灰色GM(1,1)預(yù)測(cè)和馬爾科夫預(yù)測(cè)4.1灰色GM(1,1)預(yù)測(cè)4.1.1灰色系統(tǒng)世界上存在著很多現(xiàn)實(shí)問題,其內(nèi)部結(jié)構(gòu)、參數(shù)以及特征并未被人們所了解,只能依據(jù)某種思維邏輯來構(gòu)造模型.我們把這種部分信息已知,但是部分信息未知的系統(tǒng),稱為灰色系統(tǒng).4.1.2GM(1,1)模型的建立與求解我們注意到,圖書借閱量從周一到周五呈現(xiàn)周期性的擺動(dòng),這和人們的作息習(xí)慣和閱讀習(xí)慣是密切相關(guān)的.在下面,我們只選取一組數(shù)據(jù)(各周星期相同的看做一組數(shù)據(jù))進(jìn)行求解,其他幾組數(shù)據(jù)的計(jì)算過程與此相同.第一步:級(jí)比檢驗(yàn)原始數(shù)據(jù)列:=(942,1142,821,1166,900,731,1098,807,810,862).(1)求級(jí)比:=.=(0.8249,1.3910,0.7041,1.2956,1.2312,0.6658,1.3606,0.9963,0.939).(2)級(jí)比判斷(0.6658,1.3910)(0.1353,7.389),表明序列是平滑的,可以做數(shù)列灰色預(yù)測(cè).第二步:GM(1,1)建模(1)對(duì)原始數(shù)據(jù)作一次累加,即=(942,2084,2905,4071,4971,5702,6800,7607,8417,9279(2)構(gòu)造數(shù)據(jù)矩陣B以及數(shù)據(jù)向量Y,(3)計(jì)算(4)建立模型對(duì)應(yīng)的白化方程為:(5)求生成數(shù)列值以及模型還原值:令由上面的時(shí)間響應(yīng)函數(shù)可算得,其中?。?)=(1)=(1)=942.由(k)=(k)取k=1,2,,7,9,10,11,得=((1),(2),,(7),(9),(10),(11))=(942.0,1043.7,1012.2,981.6,952.0,923.3,895.4,868.4,842.2,816.8)第三步:模型檢驗(yàn)表4模型的各項(xiàng)檢驗(yàn)指標(biāo)周次原始值模型值殘差相對(duì)誤差級(jí)比偏差1942942.000211421043.798.30780.08610.20038211012.2-191.19540.2329-0.349041166981.6184.35090.15810.31715900952.0-52.02470.0578-0.25656731923.3-192.29420.2631-0.194071098895.4202.56920.18450.35439807868.4-61.40830.0761-0.319510810842.2-32.20130.03980.033811862816.845.21490.05250.0887由(k)-(k),k=1,2,,7,9,10,11,得到殘差數(shù)列為:=(98.3078,-191.1954,184.3509,-52.0247,-192.2942,202.5692,-61.4083,-32.2013,45.2149)再由相對(duì)誤差序列:=(8.61%,23.29%,15.81%,5.78%,26.31%,18.45%,7.61%,3.98%,5.25%)由此可以計(jì)算出平均相對(duì)誤差為:12.79%平均相對(duì)精度為1-=87.21%,該模型可用.第四步:根據(jù)上述模型,求得第8周以及第12-15周星期一的圖書借閱量由(k)=(k)取k=8,12,13,14,15即可得到:(8)=842,(12)=745,(13)=722,(14)=700,(15)=679.將周二的數(shù)據(jù)代入,所得到的結(jié)果如下:(8)=794、(12)=803、(13)=805、(14)=807、(15)=809,模型平均相對(duì)精度為89.56%.在對(duì)第三周到第五周的計(jì)算中,出現(xiàn)了相對(duì)誤差開始出現(xiàn)大于1的情況.這是由于異常數(shù)據(jù)的出現(xiàn),我們作出以下的推測(cè):一是在原始記錄方面出現(xiàn)錯(cuò)誤,導(dǎo)致異常數(shù)據(jù)的出現(xiàn);二是數(shù)據(jù)記錄雖然正確,但是在異常數(shù)據(jù)出現(xiàn)的時(shí)間段,恰好遇到法定假日,造成了讀者數(shù)量的銳減.上述推測(cè)當(dāng)然都是合情合理的,在模型的假設(shè)中,我們已經(jīng)排除了第一種情況,因此對(duì)于第二種情況,有必要對(duì)模型做一些變動(dòng),以便使其預(yù)測(cè)效果更加精確.下面,我們剔除了偶然出現(xiàn)的異常數(shù)據(jù),重新用灰色預(yù)測(cè)模型對(duì)周三到周五的借閱量進(jìn)行預(yù)測(cè).周三:(8)=765、(10)=796、(12)=829、(13)=845、(14)=863、(15)=880,平均相對(duì)精度為92.16%.周四:(3)=601、(10)=533、(11)=524、(12)=515、(13)=506、(14)=498、(15)=490,平均相對(duì)精度為96.18%.周五:(6)=1001、(10)=1161、(12)=1250、(13)=1297、(14)=1346、(15)=1397,平均相對(duì)精度為83.48%.4.1.3GM(1,1)模型的評(píng)價(jià)(1)優(yōu)點(diǎn)所需數(shù)據(jù)較少,不考慮變化趨勢(shì);運(yùn)算方便,易于檢驗(yàn).(2)缺點(diǎn)數(shù)據(jù)離散程度越大,則預(yù)測(cè)精度越差;最近一、兩個(gè)數(shù)據(jù)預(yù)測(cè)精度較高,長(zhǎng)遠(yuǎn)時(shí)間則有較大偏差;其微分方程指數(shù)解比較適合于具有指數(shù)增長(zhǎng)趨勢(shì)的指標(biāo),對(duì)于具有其他趨勢(shì)則預(yù)測(cè)精度較低.4.2馬爾科夫預(yù)測(cè)4.2.1馬爾科夫鏈[6]隨機(jī)過程:我們稱{是參數(shù)集}為隨機(jī)過程,即當(dāng)取不同的值時(shí),的取值也不同.{}的取值集合稱為該隨機(jī)過程的狀態(tài)空間.馬爾科夫鏈:若隨機(jī)過程{}的參數(shù)均為非負(fù)整數(shù),為離散隨機(jī)變量,且{}具有無后效性,則稱這一隨機(jī)過程為馬爾科夫鏈.4.2.2轉(zhuǎn)移概率和轉(zhuǎn)移概率矩陣對(duì)于具有個(gè)狀態(tài)的馬氏鏈,在時(shí)刻處于狀態(tài),那么在下一時(shí)刻轉(zhuǎn)移到狀態(tài)的可能性,稱為一步轉(zhuǎn)移概率:若該隨機(jī)過程是平穩(wěn)的,則上式的結(jié)果與的取值無關(guān),即.每步的轉(zhuǎn)移概率都可以記為,并記為轉(zhuǎn)移概率矩陣.我們考慮狀態(tài)多次進(jìn)行轉(zhuǎn)移的情況,得到步轉(zhuǎn)移概率矩陣:4.2.3轉(zhuǎn)移概率的估算主觀概率法:是指人們憑借長(zhǎng)期積累的經(jīng)驗(yàn)和對(duì)所預(yù)測(cè)事物的了解,對(duì)某種事件發(fā)生的可能性大小的一種主觀估計(jì).統(tǒng)計(jì)估算法:通過對(duì)現(xiàn)有數(shù)據(jù)的研究,得到某種內(nèi)在的規(guī)律.4.2.4馬氏鏈模型的建立與求解[7](1)狀態(tài)的選取為了確保預(yù)測(cè)的準(zhǔn)確和計(jì)算上的方便,我們將數(shù)據(jù)中出現(xiàn)的300以下的數(shù)據(jù),一律記入300-500這一區(qū)間.各個(gè)狀態(tài)和取值范圍的對(duì)應(yīng)關(guān)系如下:表5各種狀態(tài)的取值范圍狀態(tài)取值范圍01234(2)不同類型轉(zhuǎn)移數(shù)的統(tǒng)計(jì),如表6所示表601234行和0010102123131102065001130034184002013各類轉(zhuǎn)移總和等于觀測(cè)數(shù)據(jù)中馬氏鏈處于各種狀態(tài)次數(shù)總和減1,而行和是系統(tǒng)從狀態(tài)轉(zhuǎn)移到其它狀態(tài)的次數(shù),是由狀態(tài)到狀態(tài)的轉(zhuǎn)移次數(shù),則的估計(jì)值.計(jì)算得.(3)步轉(zhuǎn)移概率矩陣的恒定狀態(tài)計(jì)算極限或者解方程,得到該模型的極限概率分布(穩(wěn)態(tài)分布):(0.1107,0.2415,0.3708,0.2221,0.0549).(4)分析和預(yù)測(cè)在第11周周五處于狀態(tài)3,但由于一步轉(zhuǎn)移矩陣中第4行中第3和第4列中數(shù)值相同,因此認(rèn)為第12周周1等可能的處于狀態(tài)2和狀態(tài)3.我們觀察二步轉(zhuǎn)移矩陣,當(dāng)處于狀態(tài)2時(shí),下一時(shí)刻處于狀態(tài)2的可能性最大;當(dāng)處于狀態(tài)3時(shí),下時(shí)刻處于狀態(tài)2的可能性仍舊最大.并根據(jù)二步到十九步轉(zhuǎn)移矩陣,我們有理由相信,第12周到第15周的借閱量將相對(duì)穩(wěn)定在狀態(tài)2,即.(5)模型的評(píng)價(jià)根據(jù)馬氏鏈模型預(yù)測(cè)的結(jié)果,只是一個(gè)大致的區(qū)間,不能得到準(zhǔn)確的數(shù)據(jù).在實(shí)際應(yīng)用中,只能給圖書館管理人員提供大概的參考,并且該參考并無多少實(shí)用價(jià)值.所得到的區(qū)間數(shù)據(jù)浮動(dòng)太大,管理人員無法據(jù)此來安排工作.5結(jié)論本文是基于支持向量機(jī)回歸模型來對(duì)圖書館借閱量進(jìn)行預(yù)測(cè),并結(jié)合GM(1,1)和馬爾科夫預(yù)測(cè)來進(jìn)行對(duì)比.三個(gè)模型中共有的步驟是對(duì)原始數(shù)據(jù)進(jìn)行插值完善,無論哪種插值方法,必然都存在誤差.支持向量機(jī)的關(guān)鍵在于尋求最優(yōu)超平面,使問題轉(zhuǎn)化為凸優(yōu)化規(guī)劃問題;GM(1,1)模型的關(guān)鍵在于對(duì)原始數(shù)據(jù)進(jìn)行累加處理;而馬氏鏈模型的關(guān)鍵在于將原始數(shù)據(jù)劃定正確的狀態(tài)范圍.結(jié)果證明,馬爾科夫預(yù)測(cè)只能得到一個(gè)大致的區(qū)間,這個(gè)區(qū)間一般較大,數(shù)據(jù)出入很大,只能作為一個(gè)參考數(shù)據(jù),對(duì)圖書館以后的工作不具備任何的指導(dǎo)意義.灰色模型由于將一組隨機(jī)數(shù)據(jù)作線性處理這一先天的不足,雖然能得到確定的數(shù)值,但是誤差往往較大,有的甚至在10%左右,不可能成為我們最佳的選擇.支持向量機(jī)回歸預(yù)測(cè)則會(huì)比較精確,大部分在3%左右,能起到很好的預(yù)測(cè)作用.參考文獻(xiàn)[1]王麗華.基于支持向量機(jī)的圖書借閱量預(yù)測(cè).PLC技術(shù)應(yīng)用200例.[2]劉崇林.人口時(shí)間序列的支持向量機(jī)預(yù)測(cè)模型[J].寧夏大學(xué)學(xué)報(bào),2006(4):112-114[3]克里斯特安尼等.支持向量機(jī)導(dǎo)論.北京:電子工業(yè)出版社,2004.3.[4]丁世飛.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011(1).[5]孫寶.圖書借閱量預(yù)測(cè)模型[J].華北科技學(xué)院學(xué)報(bào),2006(3):77-78.[6]夏莉.馬爾科夫鏈在市場(chǎng)經(jīng)濟(jì)預(yù)測(cè)中的應(yīng)用[J].重慶商學(xué)學(xué)報(bào),2000(8):88-90[7]吳蓓.馬氏鏈預(yù)測(cè)模型的代數(shù)處理方法[J].安慶師范學(xué)院學(xué)報(bào),2010(1):77-78.附錄灰色模型程序代碼x0=[942114282111669007311098807810862];n=length(x0);lamda=x0(1:n-1)./x0(2:n)range=minmax(lamda)x1=cumsum(x0)fori=2:nz(i)=0.5*(x1(i)+x1(i-1));endB=[-z(2:n)',ones(n-1,1)];Y=x0(2:n)';u=B\Yx=dsolve('Dx+a*x=b','x(0)=x0');x=subs(x,{'a','b','x0'},{u(1),u(2),x1(1)});yuce1=subs(x,'t',[0:n-1]);digits(9),y=vpa(x)yuce=[x0(1),diff(yuce1)]epsilon=x0-yucedelta=abs(epsilon./x0)rho=1-(1-0.5*u(1))/(1+0.5*u(1))*lamdax1=cumsum(x0)lamda=Columns1through50.82491.39100.70411.29561.2312Columns6through90.66581.36060.99630.9397range=0.66581.3910x1=Columns1through4942208429054071Columns5through84971570268007607Columns9through1084179279u=1.0e+003*0.00001.0886y=35526.2516-34584.2516/exp(0.0306429884*t)yuce=1.0e+003*0.94201.04371.01220.98160.95200.92330.89540.86840.84220.8168epsilon=098.3078-191.1954184.3509-52.0247-192.2942202.5692-61.4083-32.201345.2149delta=00.08610.23290.15810.05780.26310.18450.07610.03980.0525rho=0.2000-0.34900.3171-0.2565-0.19400.3543-0.31950.03380.0887樣條插值程序代碼x1=942208429054071497157026800760784179279x=[123456791011];y=[1039710683697719525821770265788];y1=interp1(x,y,8)y1=795.5000支持向量機(jī)回歸程序代碼(1)支持向量機(jī)回歸m文件%SVMNR.m%輸入?yún)?shù)列表%X輸入樣本原始數(shù)據(jù),n×l(字母)的矩陣,n為變量個(gè)數(shù),l(字母)為樣本個(gè)數(shù)%Y輸出樣本原始數(shù)據(jù),1×l(字母)的矩陣,l(字母)為樣本個(gè)數(shù)%Epsilonε不敏感損失函數(shù)的參數(shù),Epsilon越大,支持向量越少%C懲罰系數(shù),C過大或過小,泛化能力變差%TKFTypeofKernelFunction核函數(shù)類型%TKF=1線性核函數(shù),注意:使用線性核函數(shù),將進(jìn)行支持向量機(jī)的線性回歸%TKF=2多項(xiàng)式核函數(shù)%TKF=3徑向基核函數(shù)%TKF=4指數(shù)核函數(shù)%TKF=5Sigmoid核函數(shù)%TKF=任意其它值,自定義核函數(shù)%Para1核函數(shù)中的第一個(gè)參數(shù)%Para2核函數(shù)中的第二個(gè)參數(shù)%注:關(guān)于核函數(shù)參數(shù)的定義請(qǐng)見Regression.m和SVMNR.m內(nèi)部的定義%輸出參數(shù)列表%Alpha1α系數(shù)%Alpha2α*系數(shù)%Alpha支持向量的加權(quán)系數(shù)(α-α*)向量%Flag1×l標(biāo)記,0對(duì)應(yīng)非支持向量,1對(duì)應(yīng)邊界支持向量,2對(duì)應(yīng)標(biāo)準(zhǔn)支持向量%B回歸方程中的常數(shù)項(xiàng)%數(shù)據(jù)歸一化處理nntwarnoffX=premnmx(X);Y=premnmx(Y);%核函數(shù)參數(shù)初始化switchTKFcase1%線性核函數(shù)K=sum(x.*y)%沒有需要定義的參數(shù)case2%多項(xiàng)式核函數(shù)K=(sum(x.*y)+c)^dc=Para1;%c=0;d=Para2;%d=2;case3%徑向基核函數(shù)K=exp(-(norm(x-y))^2/(2*sigma^2))sigma=Para1;%sigma=6;case4%指數(shù)核函數(shù)K=exp(-norm(x-y)/(2*sigma^2))sigma=Para1;%sigma=3;case5%Sigmoid核函數(shù)K=1/(1+exp(-v*sum(x.*y)+c))v=Para1;%v=0.5;c=Para2;%c=0;%構(gòu)造K矩陣l(字母)=size(X,2);K=zeros(l,l);%K矩陣初始化fori=1:l(字母)forj=1:l(字母)x=X(:,i);y=X(:,j);switchTKF%根據(jù)核函數(shù)的類型,使用相應(yīng)的核函數(shù)構(gòu)造K矩陣case1K(i,j)=sum(x.*y);case2K(i,j)=(sum(x.*y)+c)^p;case3K(i,j)=exp(-(norm(x-y))^2/(2*sigma^2));case4K(i,j)=exp(-norm(x-y)/(2*sigma^2));case5K(i,j)=1/(1+exp(-v*sum(x.*y)+c));H=[K,-K;-K,K];H=(H+H')/2;%構(gòu)造二次規(guī)劃模型的參數(shù)H,Ft,Aeq,Beq,lb,ub%支持向量機(jī)非線性回歸,回歸函數(shù)的系數(shù),要通過求解一個(gè)二次規(guī)劃模型得以確定Ft=[Epsilon*ones(1,l)-Y,Epsilon*ones(1,l)+Y];Aeq=[ones(1,l),-ones(1,l)];Beq=0;lb=eps.*ones(2*l,1);ub=C*ones(2*l,1);%調(diào)用優(yōu)化工具箱quadprog函數(shù)求解二次規(guī)劃OPT=optimset;OPT.LargeScale='off';OPT.Display='off';%整理輸出回歸方程的系數(shù)[Gamma,Obj]=quadprog(H,Ft,[],[],Aeq,Beq,lb,ub,[],OPT);%[Gamma,Obj]=fmincon('myfun',5.*ones(18,1),[],[],Aeq,Beq,lb,ub);Alpha1=(Gamma(1:l,1))';Alpha2=(Gamma((l+1):end,1))';Alpha=Alpha1-Alpha2;Flag=2*ones(1,l);%支持向量的分類Err=0.000000000001;fori=1:lAA=Alpha1(i);BB=Alpha2(i);if(abs(AA-0)<=Err)&&(abs(BB-0)<=Err)Flag(i)=0;%非支持向量endif(AA>Err)&&(AA<C-Err)&&(abs(BB-0)<=Err)Flag(i)=2;%標(biāo)準(zhǔn)支持向量endif(abs(AA-0)<=Err)&&(BB>Err)&&(BB<C-Err)Flag(i)=2;%標(biāo)準(zhǔn)支持向量endif(abs(AA-C)<=Err)&&(abs(BB-0)<=Err)Flag(i)=1;%邊界支持向量endif(abs(AA-0)<=Err)&&(abs(BB-C)<=Err)Flag(i)=1;%邊界支持向量endend%計(jì)算回歸方程中的常數(shù)項(xiàng)BB=0;counter=0;fori=1:lAA=Alpha1(i);BB=Alpha2(i);if(AA>Err)&&(AA<C-Err)&&(abs(BB-0)<=Err)%計(jì)算支持向量加權(quán)值SUM=0;forj=1:lifFlag(j)>0switchTKF

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論