統(tǒng)計學習精要第五章_第1頁
統(tǒng)計學習精要第五章_第2頁
統(tǒng)計學習精要第五章_第3頁
統(tǒng)計學習精要第五章_第4頁
統(tǒng)計學習精要第五章_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五章基展開與正則化

本章的核心思想

用附加的變量(X的變換)替換輸入向量X,在新的導出的輸入特征空間上使用線性模型。5.2分段多項式和樣條第一個圖定義三個基函數:第二個圖添加三個基函數第三個圖分段連續(xù)線性“knots”cubicspline三次樣條Numberofparameters=(3regions)X(4paramsperregion) -(2knotsX3constraintsperknot) =6

Knotdiscontinuityessentiallyinvisibletothehumaneye三次分段多項式,具有連續(xù)的一階和二階導數一個具有紐結(j=1,2,···k)的M次樣條是一個M-1次分段多項式,并具有高達M-2階連續(xù)導函數。三次樣條有M=4。事實上,圖5.1中的分段常數函數是1次樣條。而連續(xù)的分段線性函數是2次樣條,截尾冪基集的一般形式是:5.2.1自然三次樣條增加一些約束條件1)在中間每個區(qū)間都是一個三次多項式(分段多項式)2)在節(jié)點處一、二階導數連續(xù),3)在2個邊界分段處函數的一階導數為0,這樣三次樣條就變成自然三次樣條。K個節(jié)點的自然三次樣條,用K個基函數來表示(習題5.4):5.2.2例南非心臟病fit.glm<-glm(chd~.,data=heart,family=binomial())summary(fit.glm)step(fit.glm)逐步logistic回歸之后,再用逐步回歸進行變量選擇R程序logistic回歸是線性分類器的一種,我們現在需要挖掘該分類規(guī)則中非線性的一些成分

matrix<-as.matrix(heart[1:8])#matrixlibrary(splines)matrix.spline<-ns(matrix,df=32)heart.splne<-data.frame(cbind(matrix.spline,heart$chd))#head(heart.splne)fit.spline<-glm(V37~.,data=heart.splne)summary(fit.spline)#step(fit.spline)pred.spline<-predict(fit.spline)pred.spline.1<-rep(0,length)for(iin1:length){if(pred.spline[i]>0.5){pred.spline.1[i]<-1}}error.spline<-sum(abs(pred.spline.1-heart$chd))error.rate.spline<-error.spline/length5.4光滑樣條如下準則的前一項度量平滑器與原數據的接近程度,而后一項確保平滑曲線不至于太曲則:smoothingparameter

=0:f變成了插值=infinity:變成了最小二乘擬合的直線Schoenberg(1964)證明了penalizedRSS有唯一解,并寫出了其表達式,即自然三次樣條,節(jié)點為所有不同的x值。5.4.1自由度和光滑矩陣最小二乘方擬合領域,線性算子是眾所周知的。設是M個三個樣條基函數的N*M矩陣,在N個訓練點x上求值,具有紐結序列,而MN。則擬合樣條值向量由下式給出:它們都是對稱的、半正定矩陣HH=H冪等,而SS<=S,起到收縮的效果H的秩為M,S的秩為N。

給出投影空間的維數,它也是基函數的個數,因而是擬合涉及的參數的個數。根據類推,定義光滑樣條的有效自由度

在圖5.6中,對每條曲線指定df=12,并且通過解推出對應的具有如下特征分解其中為K對應的特征值特征向量不受變化的影響,因而被索引的整個光滑樣條族(對于一個特定的序列x)具有相同的本征值。

從而光滑樣條通過關于(整個)基分解y,并使用微分的收縮貢獻來進行操作。

序列,按的遞減排列,看來增加了復雜度。確實,它們具有遞增次數多項式的零交叉行為。

前兩個本征值總是1,并且它們對應于x上線性函數的二維本征空間(見習題5.11),永遠不被收縮。

特征值是罰矩陣K的本征值的逆函數,被調節(jié);控制遞減到0的速率。可以使用基向量對光滑樣條重新參數化

,對于投影光滑,所有本征值為1,每個對應投影子空間的一個維。圖5.8顯示了一個光滑樣條矩陣,行按x排序。這種表示的帶狀特點暗示光滑樣條是一種局部擬合方法,像第6章的局部加權回歸過程。那其中的右圖詳細顯示了S的選定行,稱作等價核。隨,并且即N維恒等矩陣。隨并且即X上線性回歸的帽矩陣。5.5光滑參數的自動選擇回歸樣條的光滑參數包括樣條的次數、紐結個數和位置。對于光滑樣條,我們只有罰參數需要選擇,因為紐結在所有訓練X上,并且在實踐中總是使用三次樣條。5.5.1固定自由度由并通過固定df來確定S-PLUS(R)中,使用

指定光滑量。實驗多個不同的df值,并根據近似的F-檢驗,殘差圖或其他更主觀的標準選擇一個。

5.5.2偏倚-方差權衡圖5.9顯示,在下面的簡單例子上使用光滑樣條是選擇df的影響:訓練樣本包含N=100個x和y對,獨立地從該模型抽取。df=5:樣條擬合不足,并且顯然裁剪了高峰,填充了低谷。這導致在高曲率區(qū)域偏倚非常大。標準誤差頻帶非常窄,因此,我們以很高的可靠性形成了一個真實函數的很大偏倚的估計!df=9:這里,擬合韓式是最接近真實函數,盡管還可以看到少量的偏倚。方差沒有明顯的增加。df=15:擬合函數有些擺動,但接近于真實函數。擺動也是造成標準誤差帶寬加寬的原因-曲線開始過于接近某些點。Leave-one-out(缺一)交叉驗證

5.6無參邏輯斯蒂回歸考慮具有單個量化輸入變量

x:構造罰數對數似然準則:AgaincanshowthattheoptimalfisanaturalsplinewithknotsatthedatapointCanuseNewton-Raphsontodothefitting.Thin-PlateSplinesThediscussionuptothispointhasbeenone-dimensional.Thehigher-dimensionalanalogueofsmo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論