基于svm的耕地分類識別_第1頁
基于svm的耕地分類識別_第2頁
基于svm的耕地分類識別_第3頁
基于svm的耕地分類識別_第4頁
基于svm的耕地分類識別_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于svm的耕地分類識別

0耕地資源缺乏效率,重實傳統(tǒng)的土地監(jiān)控是通過統(tǒng)計或地面調(diào)查進(jìn)行的。這種方法僅適用于局部精細(xì)的土地管理。而對整個耕地的監(jiān)測,不僅會消耗大量的人力、物力和財力,還會缺乏效率,從而無法在短時間內(nèi)反映耕地資源的實時變化。使用遙感技術(shù)獲得的圖像還需要經(jīng)過遙感圖像分類技術(shù)處理才能夠得到耕地的信息。遙感圖像分類技術(shù)是指通過模式識別理論,分析圖像中反映同類地物的光譜、空間相似性和異類地物的差異,進(jìn)而將遙感圖像自動地分成若干地物類別的技術(shù)1svm算法的優(yōu)勢支持向量機(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中。小樣本并不是說樣本的絕對數(shù)量少,而是說與問題的復(fù)雜度比起來,SVM算法要求的樣本數(shù)是相對比較少的。SVM算法的最終決策函數(shù)只由少數(shù)的支持向量所決定,其計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這樣可以在一定程度上避免“維數(shù)災(zāi)難。支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力1.1svm的分類原理支持向量機(SVM)的基本模型定義為特征空間上的間隔最大的線性二類分類器,即找到一個分類超平面,使得樣本空間中距離分類超平面最近的點到分類超平面的距離最大,也就是分類間隔最大。應(yīng)用SVM對分類問題進(jìn)行分析時,假設(shè)訓(xùn)練集為(xSVM解決問題的思路是找到離超平面最近的樣本點,通過其約束條件求出最優(yōu)解。SVM的基本分類器是一個線性函數(shù),可用于線性分類,分類函數(shù)為:其中W和b是訓(xùn)練樣本數(shù)據(jù)后得到的參數(shù)。對于訓(xùn)練數(shù)據(jù)集T,其數(shù)據(jù)可以分為C1和C2。對于C1類的數(shù)據(jù)xw分類超平面的函數(shù)為f(x)=xw設(shè)分類器的間隔為γ,如果令γ=maxyf(x),那么就有一個問題,就是w和b可以等比例增大,導(dǎo)致間隔yf(x)可以無限大。所以需要變成求等價的最大幾何間隔:此時,目標(biāo)函數(shù)是嚴(yán)格的凸二次型,可以使用拉格朗日乘子法和KKT條件來求解w和b。SVM的問題滿足使用拉格朗日乘子法的條件,因此問題變成:其中,α其中,〈x現(xiàn)實情況中,不可能總是能夠完美地把所有樣本分離開來,也就是無法找到一個分類超平面,使得樣本能完全正確地被超平面分開。這種無法被分類超平面正確分類的點被稱為異常點。SVM對這種情況的處理方法就是引入松弛變量ξ。通過修改之前的約束條件為:則運用拉格朗日乘子法后的公式變?yōu)?其中,參數(shù)C為懲罰系數(shù),即對誤差的寬容度。C越高,越不能容忍出現(xiàn)誤差,即容易過擬合;C越小,越容易欠擬合。ξ為對所有樣本數(shù)據(jù)都有效的松弛變量,比如0.0001。至此,可以通過SMO(SequentialMinimalOptimization)算法快速地求解出最優(yōu)解α1.2svm的核函數(shù)支持非線性分類能力經(jīng)過以上過程,SVM已經(jīng)能夠高效地解決線性可分的二分類問題。不過SVM能夠如此受歡迎的原因更多是因為它強大的支持非線性分類的能力。SVM通過核函數(shù)將非線性問題映射到高維空間并將其變成一個在高維空間線性可分的問題。SVM中關(guān)于向量x的計算,總是在計算兩個向量的內(nèi)積K(x常用的核函數(shù)如下:(1)線性核函數(shù):K(x(2)多項式核函數(shù):(3)徑向基函數(shù)(RBF):(4)sigmoid核函數(shù):其中,K(x1.3多類分類使用SVM進(jìn)行多類分類多通過組合多個二類分類器的方法來實現(xiàn)。常見的方法有一對多法(OVRSVMs)和一對一法(OVOSVMs)一對一法每個分類器選擇一個類的樣本作為正樣本,選擇一個類的樣本作為負(fù)樣本,這樣就避免了數(shù)據(jù)集偏斜的問題。分類時,每一個分類器都對其類別進(jìn)行判斷,并為相應(yīng)的類別“投上一票”,最后得票最多的類別即作為該未知樣本的類別。這種方法會構(gòu)造k(k-1)/2個分類器。雖然分類器的數(shù)目變多了,但是在訓(xùn)練階段所用的總時間卻比一對多法少很多。不過這種方法也會出現(xiàn)分類重疊的現(xiàn)象,但不會出現(xiàn)不可分類現(xiàn)象。因為一對一法存在誤分類,Piatt提出了決策導(dǎo)向的有向無環(huán)圖(DAGSVMs)方法。其原理是依次構(gòu)造分類器,每次構(gòu)造都利用上一次構(gòu)造的分類器的分類結(jié)果來構(gòu)造下一個分類器,這樣只需要構(gòu)造k-1個分類器。因此相對于一對一法,其分類速度更快,而且不存在分類重疊的現(xiàn)象2支持向量機的遙感圖像耕地識別2.1研究區(qū)域的主要地類研究區(qū)域為江蘇省某地級市,面積901平方公里,海拔在4~8m之間,市內(nèi)地勢平坦,湖泊眾多,森林覆蓋率在44%左右。研究區(qū)域的主要地類有:水域、農(nóng)田、公路、房屋、大棚、林地等。實驗數(shù)據(jù)來自Google地圖采集的圖像,總共有三個通道,共有27777813個像素點,如圖1所示。2.2分類準(zhǔn)確性程度要求分類器自對于遙感圖像分類結(jié)果的評價,混淆矩陣是最常用到的精度分析方法?;煜仃?confusionmatrix)能夠刻畫一個分類器的分類準(zhǔn)確程度?!盎煜币辉~也形象地表達(dá)了分類器面對多個分類時可能造成的混淆?;煜仃嚨拿恳涣斜硎疽粋€預(yù)測的類別,每一列的數(shù)據(jù)的總數(shù)表示分類器預(yù)測為該類別的數(shù)據(jù)的數(shù)目,而每一行表示數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的真實的數(shù)目。由混淆矩陣可以很容易地得到分類的準(zhǔn)確率。所以,本文使用混淆矩陣作為分類效果的評價標(biāo)準(zhǔn),并由混淆矩陣計算分類的準(zhǔn)確率。2.3svm的算法性能分析首先設(shè)計實驗的基本步驟如下:1)遙感圖像預(yù)處理,進(jìn)行輻射校正和空間域增強處理濾波;2)確定分類數(shù)目,選擇訓(xùn)練樣本,得到訓(xùn)練集;3)在選擇的訓(xùn)練集上訓(xùn)練支持向量機分類器;4)將測試數(shù)據(jù)輸入訓(xùn)練好的分類器得到分類結(jié)果,對最終的分類結(jié)果進(jìn)行分類精度分析。為提高分類精度,在步驟2)中依據(jù)實驗區(qū)域的地表物體將地表類型分為10個類型:行道樹、溫室大棚、房屋、田埂、公路、河流、池塘、森林、在耕地和休耕地。通過ENVI5.1的地表真實感興趣區(qū)(ROI)選擇訓(xùn)練樣本共計1323786個像素點,統(tǒng)計如表1所示。在SVM算法的眾多核函數(shù)中,應(yīng)用最廣的是RBF核函數(shù),無論是小樣本還是大樣本,高維還是低維等情況,RBF核函數(shù)均適用。而且RBF核函數(shù)與多項式核函數(shù)相比,RBF需要確定的參數(shù)要少很多,數(shù)值的計算和調(diào)參會相對簡單。而對于某些參數(shù),RBF和sigmoid具有相似的性能當(dāng)使用RBF核函數(shù)時,SVM的訓(xùn)練效果主要取決于兩個參數(shù)C和γ。其中,C是懲罰系數(shù),即對誤差的寬容度。C越高,越不能容忍出現(xiàn)誤差,即容易過擬合,C越小,越容易欠擬合。C過大或者過小,都會使得算法的泛化能力變差。γ是選擇RBF函數(shù)作為核函數(shù)之后,該函數(shù)自帶的一個參數(shù)。它隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,如果γ太大,支持向量太少,那么對于未知樣本的分類效果會很差,會存在訓(xùn)練準(zhǔn)確率很高但是測試準(zhǔn)確率不高的可能,也就是過擬合。如果γ值太小,支持向量太多,則會造成平滑效應(yīng)太大,無法在訓(xùn)練集上得到特別高的準(zhǔn)確率,也會影響測試集的準(zhǔn)確率。對于這兩個參數(shù)的選取可以通過使用交叉驗證和網(wǎng)格搜索的方法來尋找最優(yōu)的一組C和γ。3不同類別地物的識別效果通過設(shè)置不同的參數(shù)可以得到不同的分類精度。事先設(shè)定一組參數(shù),通過窮舉法將所有的參數(shù)都代入算法中運行一遍,然后計算每組參數(shù)下的分類準(zhǔn)確率,并從中找出總體分類準(zhǔn)確率最高的一組參數(shù)作為最優(yōu)的參數(shù),最終得到如表2的分類準(zhǔn)確率數(shù)據(jù)。從表2可以看出,當(dāng)C=2.0,γ=0.15時,分類器的總體準(zhǔn)確率最高,達(dá)到了75.6%。圖2給出了原始圖像和分類后的圖像的比較,可以看出分類的結(jié)果是很明顯的,對于休耕地和在耕地都給出了很好的識別效果。表3給出了此時分類結(jié)果的混淆矩陣,可以看出此時分類器對于耕地類型的地物(包括休耕地和在耕地)的識別準(zhǔn)確率已經(jīng)很高了,分別達(dá)到了91.81%和90.05%。因為房屋類型地物的特征的復(fù)雜,分類器對于房屋的識別準(zhǔn)確率比較低,僅為44.56%。而由于田埂和休耕地的相似性,導(dǎo)致對田埂的識別準(zhǔn)確率也比較低,僅為51.91%。不過由于本文的目的是從遙感圖像中識別出耕地類型地物,所以對于房屋和田埂等其他地物的低識別準(zhǔn)確率是在可以接受的范圍內(nèi)的。4遙感圖像識別結(jié)果本文通過使用支持向量機模型,對江蘇省某地級市的衛(wèi)星遙感圖像中的耕地進(jìn)行識別。通過調(diào)整支持向量機模型的參數(shù),可以使得模型對耕地的識別準(zhǔn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論