版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
使用R軟件預(yù)測(cè)海藻數(shù)量李強(qiáng)強(qiáng)2013.112/3/20231R軟件R是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡(jiǎn)便而強(qiáng)大的編程語(yǔ)言:可操縱數(shù)據(jù)的輸入和輸出,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能。R在語(yǔ)義上是函數(shù)設(shè)計(jì)語(yǔ)言。它允許在“語(yǔ)言上計(jì)算”。這使得它可以把表達(dá)式作為函數(shù)的輸入?yún)?shù),而這種做法對(duì)統(tǒng)計(jì)模擬和繪圖非常有用。R是一個(gè)免費(fèi)的自由軟件。本案例使用的是R的3.0.1版。2/3/20232背景描述某些高濃度的有害藻類嚴(yán)重破壞著河流的生態(tài)環(huán)境,因此,能夠監(jiān)測(cè)并及早對(duì)海藻的繁殖進(jìn)行預(yù)測(cè)對(duì)提高河流的質(zhì)量是很有必要的。在約一年時(shí)間內(nèi),在不同的時(shí)間收集了多條不同河流的水樣。每個(gè)水樣測(cè)定了它們不同的化學(xué)性質(zhì)和7種有害藻類的存在頻率。還記錄了如收集的季節(jié)、河流大小和水流速度。案例研究動(dòng)機(jī):1.化學(xué)監(jiān)測(cè)相對(duì)人工檢測(cè)價(jià)格便宜,且易于自動(dòng)化。2.更好地了解藻類的頻率和水樣的某些化學(xué)性質(zhì)以及其他特性(如季節(jié)、河流類型等)是如何相關(guān)的。2/3/202330海藻數(shù)據(jù)第一個(gè)數(shù)據(jù)集:包含200個(gè)水樣。每條記錄是一條河流在該年的同一季節(jié)的三個(gè)月內(nèi)收集的水樣的平均值。其中,每條記錄由11個(gè)變量組成。其中3個(gè)名義變量:水樣收集的季節(jié)、河流大小和河水速度。8個(gè)變量是水樣的不同化學(xué)參數(shù):最大pH值、最小含氧量、平均氯化物含量、平均硝酸鹽含量、平均氨含量、平均正磷酸鹽含量、平均磷酸鹽含量和平均葉綠素含量。與之相關(guān)的是7種不同的有害藻類的頻率數(shù)目。第二個(gè)數(shù)據(jù)集:140個(gè)不含7種藻類頻率數(shù)目的測(cè)試集。2/3/202341數(shù)據(jù)加載1.點(diǎn)擊文件菜單下的"改變工作目錄"來(lái)設(shè)定當(dāng)前工作目錄。2.輸入以下命令把文件中的數(shù)據(jù)讀入:
algae<-read.table('Analysis.txt',
s=c('season',
'size',
'speed',
'mxPH','mnO2',
'Cl',
'NO3',
'NH4',
'oPO4','PO4','Chla',
'a1',
'a2',
'a3',
'a4',
'a5',
'a6',
'a7'),
na.strings=c('XXXXXXX'))3.點(diǎn)擊文件菜單下的“保存工作空間”,輸入文件名,退出,下次打開R后可通過(guò)拖拽的方式直接打開。2/3/202352數(shù)據(jù)摘要鑒于沒(méi)有該問(wèn)題領(lǐng)域足夠的信息,首先了解一些數(shù)據(jù)的統(tǒng)計(jì)特性是一種較好的方式,它方便我們更好地理解問(wèn)題。獲取數(shù)據(jù)統(tǒng)計(jì)特性的方法之一是獲取其描述性的統(tǒng)計(jì)摘要。命令如下:
summary(algae)對(duì)于名義變量,它給出了每個(gè)可能取值的頻數(shù)。對(duì)于數(shù)值變量,它提供了均值、中位數(shù)、四分位數(shù)和極值等一系列統(tǒng)計(jì)信息。NA's表示缺失值的個(gè)數(shù)。通過(guò)觀察這些值,我們可以了解到數(shù)據(jù)分布的偏度和分散情況。2/3/202363數(shù)據(jù)可視化(1)1.繪制變量mxPH的直方圖的兩種方式:
hist(algae$mxPH)
hist(algae$mxPH,prob=T) 區(qū)別在于前者給出的是頻數(shù),后者是區(qū)間的概率。2.繪制mxPH的Q-Q圖: library(car) qqPlot(algae$mxPH,main='NormalQQplotofmaximumpH')
Q-Q圖繪制變量值和正態(tài)分布的理論分位數(shù)的散點(diǎn)圖。同時(shí),它給出正態(tài)分布的95%置信區(qū)間的帶狀圖(虛線)。main為設(shè)置圖形的標(biāo)題。2/3/202373數(shù)據(jù)可視化(2)3.繪制變量oPO4的箱圖: boxplot(algae$oPO4,ylab="oPO4") rug(algae$oPO4,side=4) abline(h=mean(algae$oPO4,na.rm=T),lty=2) ylab為設(shè)置y軸標(biāo)題;
rug函數(shù)繪制變量的實(shí)際值,side=4表示繪制在圖的右側(cè)(1在下方,2在左側(cè),3在上方);
abline函數(shù)繪制水平線,mean表示均值,na.rm=T指計(jì)算時(shí)不考慮NA值,lty=2設(shè)置線型為虛線。2/3/202384數(shù)據(jù)清理 數(shù)據(jù)缺失的情形在實(shí)際問(wèn)題中非常普遍。處理含有缺失值的數(shù)據(jù)時(shí)常用的幾種策略:將含有缺失值的案例剔除。用中心趨勢(shì)值來(lái)填補(bǔ)缺失值。根據(jù)變量之間的相關(guān)關(guān)系填補(bǔ)缺失值。根據(jù)案例之間的相似性填補(bǔ)缺失值。使用能夠處理缺失值數(shù)據(jù)的工具(見下一節(jié))。2/3/202394.1剔除缺失值(1)1.適用范圍:含缺失值的記錄在整個(gè)數(shù)據(jù)集中比例很小時(shí)。2.檢查含缺失值的記錄:
algae[!complete.cases(algae),
]3.剔除所有含缺失值的記錄: algae<-na.omit(algae)4.找出每個(gè)記錄中缺失值的個(gè)數(shù): apply(algae,1,function(x)sum(is.na(x)))
函數(shù)apply()是元函數(shù),可在某些條件下對(duì)對(duì)象應(yīng)用其他函數(shù)。第二個(gè)參數(shù)“1”表示第一個(gè)參數(shù)algae中的對(duì)象的第一個(gè)維度,即行數(shù)據(jù)。第三個(gè)參數(shù)是臨時(shí)函數(shù),功能是計(jì)算對(duì)象x中NA的數(shù)量。(注:R中有TRUE=1,FALSE=0)2/3/2023104.1剔除缺失值(2)5.可根據(jù)4編寫一個(gè)找出algae中含有給定數(shù)目缺失值的行。以下函數(shù)的功能是找出缺失值個(gè)數(shù)大于列數(shù)20%的行: library(DMwR) manyNAs(algae,0.2) 第二個(gè)參數(shù)如不指定,默認(rèn)為0.2,下面的命令與上一條等價(jià): manyNAs(algae)6.我們利用上面的函數(shù)來(lái)剔除缺失值較多的記錄: algae<-algae[-manyNAs(algae),]
這里第二個(gè)參數(shù)的默認(rèn)值為0.2。2/3/2023114.2用中心趨勢(shì)值填補(bǔ)缺失值 代表中心趨勢(shì)的值反映了變量分布的最常見值,這種方法也最自然、簡(jiǎn)便和快捷。對(duì)于接近正態(tài)的分布來(lái)說(shuō),均值是最佳選擇;對(duì)偏態(tài)分布或有離群值的分布而言,中位數(shù)通常是更好的代表數(shù)據(jù)中心趨勢(shì)的指標(biāo);對(duì)于名義變量,通常采用眾數(shù)??捎靡韵潞瘮?shù)完成填補(bǔ)所有缺失值: data(algae)
algae<-algae[-manyNAs(algae),
] algae<-centralImputation(algae) 上述方法特別適用于大數(shù)據(jù)集,但是這種方法可能導(dǎo)致較大的數(shù)據(jù)偏差,影響后期的數(shù)據(jù)分析。但使用復(fù)雜的無(wú)偏方法尋找最佳數(shù)據(jù)填補(bǔ)對(duì)大型數(shù)據(jù)集可能也不適用。2/3/2023124.3通過(guò)變量的相關(guān)性填補(bǔ)缺失值(1)
1.用以下命令獲取變量之間的相關(guān)矩陣: data(algae) symnum(cor(algae[,4:18],use="complete.obs")) 其中,函數(shù)cor()產(chǎn)生相關(guān)值矩陣(忽略前3個(gè)名義變量),use參數(shù)指計(jì)算相關(guān)值時(shí)忽略含有NA的記錄。2.結(jié)果顯示,有兩個(gè)相關(guān)性較大的值:NH4和NO3之間,PO4和oPO4之間。 前者相關(guān)性不是特別明顯(0.6~0.8),考慮到只樣本62和樣本199含有過(guò)多的缺失值,若剔除它們,樣本中NH4和NO3就不存在缺失值了。后者相關(guān)值很高(大于0.9)*,可用變量的相關(guān)性填補(bǔ)缺失值。*根據(jù)領(lǐng)域?qū)<业慕忉專偟牧姿猁}值包含正磷酸鹽值。2/3/2023134.3通過(guò)變量的相關(guān)性填補(bǔ)缺失值(2)3.尋找PO4和oPO4之間的線性關(guān)系的方法: algae<-algae[-manyNAs(algae),] lm(formula=PO4~oPO4,data=algae) 我們得到線性模型:PO4=42.897+1.293*oPO4.4.剔除樣本62和樣本199后,僅樣本28在PO4上有缺失值,我們用上面的線性關(guān)系來(lái)填補(bǔ):
algae[28,"PO4"]<-42.897+1.293*algae[28,"oPO4"]
查看填補(bǔ)的記錄: algae[28,]2/3/2023144.4通過(guò)案例的相關(guān)性填補(bǔ)缺失值1.度量相似性時(shí),最常用的指標(biāo)是歐式距離。我們可通過(guò)使用這種度量來(lái)尋找與任何含有缺失值的案例最相似的10個(gè)水樣,并用它們填補(bǔ)缺失值。 方法一:簡(jiǎn)單計(jì)算這10個(gè)最近的案例的中位數(shù)并用中位數(shù)填補(bǔ)缺失值;若缺失值是名義變量則采用眾數(shù)。 方法二:采用這些最相似數(shù)據(jù)的加權(quán)均值。這里用高斯核函數(shù)從距離獲得權(quán)重。命令如下:
clean.algae<-knnImputation(algae,k=10)2.這種方法看起來(lái)更合理,但也可能存在不相關(guān)的變量扭曲相似性,甚至造成大型數(shù)據(jù)集的計(jì)算特別復(fù)雜等問(wèn)題。因此,填補(bǔ)缺失值時(shí),大多應(yīng)根據(jù)分析領(lǐng)域的知識(shí)來(lái)確定。2/3/2023155獲取預(yù)測(cè)模型用于預(yù)測(cè)海藻的兩種模型:多元線性回歸模型和回歸樹模型。線性回歸不能使用有缺失值的數(shù)據(jù)集,而回歸樹模型可以很自然地處理帶缺失值的數(shù)據(jù)。多元線性回歸模型是最常用的統(tǒng)計(jì)數(shù)據(jù)分析方法,該方法給出了一個(gè)有關(guān)目標(biāo)變量與一組解釋變量關(guān)系的線性函數(shù)。由于多元線性回歸模型中沒(méi)有處理缺失值的方法,因此,我們可以做如下的數(shù)據(jù)預(yù)處理:data(algae)algae<-algae[-manyNAs(algae),]clean.algae<-knnImputation(algae,k=10)這里還是先移除缺失值較多的記錄,然后根據(jù)訓(xùn)練集數(shù)據(jù)個(gè)案的相似性來(lái)填補(bǔ)缺失值。2/3/2023165.1線性回歸模型(1) 建立用于預(yù)測(cè)海藻頻率的線性回歸模型:
lm.a1<-lm(a1~.,data=clean.algae[,1:12]) 函數(shù)lm()建立一個(gè)線性回歸模型,其中,第一個(gè)參數(shù)給出了模型的函數(shù)形式。這個(gè)函數(shù)的形式是用數(shù)據(jù)中的其他所有變量來(lái)預(yù)測(cè)變量a1,第一個(gè)參數(shù)中的點(diǎn)“.”代表數(shù)據(jù)框中的所有除a1外的變量。如需要用變量mxPH和NH4來(lái)預(yù)測(cè)變量a1,就要定義模型為"a1~mxPH+NH4"。參數(shù)data是用來(lái)設(shè)定建模所用的數(shù)據(jù)集。2/3/2023175.1線性回歸模型(2) 通過(guò)下面的代碼,我們可以獲取更多線性模型的信息:
summary(lm.a1) 首先,給出數(shù)據(jù)擬合的殘差(residuals)。殘差應(yīng)該是均值為0且為正態(tài)分布的。 其次,對(duì)于每個(gè)多元線性回歸方程的系數(shù)(變量),給出它的估計(jì)值和標(biāo)準(zhǔn)誤差,并使用t檢驗(yàn)來(lái)驗(yàn)證系數(shù)為0的假設(shè)檢驗(yàn)。 再者,給出模型與數(shù)據(jù)的吻合度,即模型所能解釋的數(shù)據(jù)變差的比例。R-squared越接近于1說(shuō)明模型擬合得越好,越小則代表模型擬合得越差。 最后,還可以檢驗(yàn)任何解釋變量與目標(biāo)變量的依賴關(guān)系。
2/3/2023185.2回歸樹模型(1)因模型解釋的方差比例太低,才約32%,故實(shí)際驗(yàn)證結(jié)果表明:對(duì)海藻案例應(yīng)用線性模型是不合適的。用線性思維去考慮非線性問(wèn)題,得不到理想的結(jié)果。我們考慮使用回歸樹預(yù)測(cè)。建立回歸樹: library(rpart) data(algae) algae<-algae[-manyNAs(algae),] rt.a1<-rpart(a1~.,data=algae[,1:12])函數(shù)的形式是用數(shù)據(jù)中其他所有變量來(lái)預(yù)測(cè)a1,data是用來(lái)設(shè)定建模所用的數(shù)據(jù)集。2/3/2023195.2回歸樹模型(2) 回歸樹rt.a1的圖形表示的兩種方法: plot(rt.a1) text(rt.a1) 或
prettyTree(rt.a1) 建立回歸樹通常分兩步。最初,生成一棵較大的樹,然后通過(guò)統(tǒng)計(jì)估計(jì)刪除底部的一些結(jié)點(diǎn)來(lái)對(duì)樹進(jìn)行修剪。這樣是為了防止過(guò)度擬合。2/3/2023206模型評(píng)價(jià)和選擇 使用已有的訓(xùn)練數(shù)據(jù)獲得模型的性能指標(biāo)是不可靠的,因?yàn)檫@些計(jì)算是有偏的。實(shí)際上,有的模型可以很容易獲得訓(xùn)練數(shù)據(jù)的零誤差預(yù)測(cè)。然而,這一優(yōu)秀性能很難推廣到目標(biāo)變量值未知的新樣本上。這種現(xiàn)象我們通常稱為過(guò)度擬合訓(xùn)練數(shù)據(jù)。我們需要一個(gè)模型,使它在未知數(shù)據(jù)上有可靠的預(yù)測(cè)性能。 k折交叉驗(yàn)證是獲得模型性能可靠估計(jì)的一種常用方法,它適用于小數(shù)據(jù)集。2/3/202321k折交叉驗(yàn)證方法
K折交叉驗(yàn)證:初始采樣分割成K個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來(lái)訓(xùn)練。交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一估測(cè)。常見的選擇是k=10。有時(shí)還會(huì)重復(fù)進(jìn)行多次K折交叉驗(yàn)證以獲得更加可靠的估計(jì)。 總之,在做一項(xiàng)預(yù)測(cè)任務(wù)時(shí)要做出以下決策: 1)為預(yù)測(cè)任務(wù)選擇模型; 2)選擇比較模型性能的評(píng)估指標(biāo); 3)選擇獲取評(píng)估指標(biāo)的可靠估計(jì)的實(shí)驗(yàn)方法。2/3/202322進(jìn)行模型比較的函數(shù) 在R中,有函數(shù)experimentalComparison()可用來(lái)進(jìn)行模型之間的選擇和比較。它有三個(gè)參數(shù):1)用于比較的數(shù)據(jù)集;2)需要比較的可選模型;3)實(shí)驗(yàn)過(guò)程中的系數(shù)。此函數(shù)適用于任何模型和任何數(shù)據(jù),從這個(gè)意義上說(shuō),它是一個(gè)泛型函數(shù)。 使用者提供一組實(shí)現(xiàn)待比較的模型的函數(shù),其中每一個(gè)函數(shù)應(yīng)該對(duì)訓(xùn)練集和測(cè)試集實(shí)現(xiàn)一個(gè)完整的“訓(xùn)練+測(cè)試+評(píng)估”周期。在評(píng)估過(guò)程的每一次迭代中,調(diào)用這些函數(shù)。這些函數(shù)返回一個(gè)向量,其元素為交叉驗(yàn)證中用戶需要的性能評(píng)估指標(biāo)量。2/3/202323兩個(gè)目標(biāo)模型的函數(shù)cv.rpart<-function(form,train,test,...){ m<-rpartXse(form,train,...) p<-predict(m,test) mse<-mean((p-resp(form,test))^2) c(nmse=mse/mean((mean(resp(form,train))-resp(form,test))^2))}cv.lm<-function(form,train,test,...){ m<-lm(form,train,...) p<-predict(m,test) p<-ifelse(p<0,0,p) mse<-mean((p-resp(form,test))^2) c(nmse=mse/mean((mean(resp(form,train))-resp(form,test))^2))}2/3/202324函數(shù)的說(shuō)明11.我們用NMSE(標(biāo)準(zhǔn)化后的平均絕對(duì)誤差)作為回歸樹模型和線性回歸模型的性能評(píng)估指標(biāo)。2.這些函數(shù)的前三個(gè)參數(shù)是公式、訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。3.特殊參數(shù)"..."可用在任意的R函數(shù)中,它允許一個(gè)特定函數(shù)具有可變的參數(shù),它用來(lái)給實(shí)際模型傳遞所需要的額外參數(shù)。4.函數(shù)resp()用于根據(jù)公式獲得數(shù)據(jù)集的目標(biāo)變量值。2/3/202325模型的交叉驗(yàn)證比較
定義好用于模型學(xué)習(xí)和測(cè)試的函數(shù)后,我們可按下列代碼進(jìn)行模型的交叉驗(yàn)證比較:
res<-experimentalComparison(
c(dataset(a1~.,clean.algae[,1:12],'a1')),
c(variants('cv.lm'),
variants('cv.rpart',se=c(0,0.5,1))),
cvSettings(3,10,1234)
)
參數(shù)一的形式為dataset(<formula>,<dataframe>,<label>);
參數(shù)二包含可選的模型方法并通過(guò)variants()指定,該函數(shù)第一個(gè)參數(shù)為目標(biāo)模型的函數(shù)名,第二個(gè)作為可選參數(shù);
參數(shù)三設(shè)定交叉驗(yàn)證試驗(yàn)的參數(shù)(repetition,fold,seed)。2/3/202326查看比較結(jié)果1.查看比較結(jié)果的摘要:
summary(res) 從結(jié)果中可知,apart.v1有最優(yōu)的平均NMSE值。2.驗(yàn)證結(jié)果也可轉(zhuǎn)化成可視化圖形:
plot(res)3.可通過(guò)以下代碼查看模型所對(duì)應(yīng)的參數(shù): getVariant("cv.rpart.v1",res)2/3/202327多個(gè)預(yù)測(cè)任務(wù)同時(shí)進(jìn)行DSs
<-
sapply(
names(clean.algae)[12:18], function(x,names.attrs){ f<-as.formula(paste(x,"~.")) dataset(f,clean.algae[,c(names.attrs,x)],x) }, names(clean.algae)[1:11])res.all<-experimentalComparison(
DSs, c(variants('cv.lm'),
variants('cv.rpart',se=c(0,0.5,1)) ), cvSettings(5,10,1234))2/3/202328函數(shù)的說(shuō)明21.該代碼首先創(chuàng)建用于比較7個(gè)預(yù)測(cè)任務(wù)的數(shù)據(jù)集向量。對(duì)每一個(gè)預(yù)測(cè)問(wèn)題需構(gòu)建一個(gè)公式,該公式由一個(gè)字符串構(gòu)成,它是數(shù)據(jù)集中相應(yīng)的需要預(yù)測(cè)的目標(biāo)變量和符號(hào)"~."連接而成的。然后,該字符串通過(guò)函數(shù)as.formula()轉(zhuǎn)換為一個(gè)R公式。2.這次采用重復(fù)5次10折交叉驗(yàn)證以提高統(tǒng)計(jì)結(jié)果的顯著性。3.本條指令運(yùn)行的時(shí)間稍長(zhǎng)(處理器:Intel(R)Core(TM)i5-3210MCPU@2.50GHz,2501Mhz,2個(gè)內(nèi)核,4個(gè)邏輯處理器,約需1分鐘)。2/3/202329模型對(duì)不同海藻的結(jié)果1.所有海藻交叉驗(yàn)證結(jié)果的可視化:
plot(res.all) 圖中顯示有幾個(gè)結(jié)果很差,即其NMSE值明顯大于1。這意味著測(cè)試結(jié)果比簡(jiǎn)單采用目標(biāo)變量的均值這一基準(zhǔn)模型還要差!2.查看每個(gè)問(wèn)題對(duì)應(yīng)的最優(yōu)模型的代碼:
bestScores(res.all)
其結(jié)果說(shuō)明,只有海藻1的預(yù)測(cè)結(jié)果尚可。3.考慮用組合法進(jìn)行模型構(gòu)建。通過(guò)產(chǎn)生大量可選模型并把其進(jìn)行組合,這樣得到的模型可以克服單個(gè)模型的局限性。2/3/202330隨機(jī)森林1.隨機(jī)森林作為組合模型的代表,它由大量的樹模型(回歸樹或分類樹)構(gòu)成。每個(gè)樹是完全生長(zhǎng)的(沒(méi)有事后剪枝),在樹生長(zhǎng)的每一步,最好的結(jié)點(diǎn)分割方法將從變量集合的一個(gè)隨機(jī)子集中選取?;貧w任務(wù)的預(yù)測(cè)采用組合中預(yù)測(cè)結(jié)果的平均值。2.以下代碼是包含三個(gè)版本的隨機(jī)森林模型的交叉驗(yàn)證,在組合中每個(gè)模型有不同數(shù)目的數(shù)。2/3/202331隨機(jī)森林的交叉驗(yàn)證library(randomForest)cv.rf<-function(form,train,test,...){ m<-randomForest(form,train,...) p<-predict(m,test) mse<-mean((p-resp(form,test))^2) c(nmse=mse/mean((mean(resp(form,train))-resp(form,test))^2))}res.all<-experimentalComparison(
DSs, c(variants('cv.lm'),
variants('cv.rpart',se=c(0,0.5,1)),
variants('cv.rf',ntree=c(200,500,700))), cvSettings(5,10,1234))2/3/202332模型應(yīng)用的結(jié)果1.采用下面的函數(shù)來(lái)證實(shí)組合方法的優(yōu)勢(shì):
bestScores(res.all) 對(duì)于某些問(wèn)題,隨機(jī)森林給出很好的結(jié)果。但像海藻7,結(jié)果還不能令人滿意。2.還不知道這些最佳模型和其它模型之間的區(qū)別是否顯著。即,采用別的隨機(jī)數(shù)據(jù)我們能得到相似結(jié)果的可能性有多大? 我們用Wilcoxon(威爾科克森)檢驗(yàn)來(lái)判斷顯著性。上述結(jié)果表明,對(duì)海藻1、2、4和6,模型"cv.rf.v3"最好,檢驗(yàn)代碼為:
compAnalysis(res.all,against='cv.rf.v3',
datasets=c('a1','a2','a4','a6'))2/3/202333顯著性分析1.結(jié)果中的“sig.X”列是我們需要的信息。沒(méi)有任何標(biāo)識(shí)符則意味著相應(yīng)的模型和"cv.rf.v3"模型之間有顯著差異的可能性低于95%。加號(hào)意味著相應(yīng)模型的平均性能估計(jì)指標(biāo)顯著高于模型"cv.rf.v3"。由于好的模型對(duì)應(yīng)較低的NMSE值,所以該模型的性能比模型"cv.rf.v3"差。減號(hào)的含義相反。2.從結(jié)果可知,不同版本之間的隨機(jī)森林模型的差異在統(tǒng)計(jì)上通常不顯著。與其他模型相比,在大部分情況下,隨機(jī)森林具有顯著的優(yōu)勢(shì)。3.參數(shù)against和datasets取不同的值,可對(duì)在其他海藻上有最優(yōu)性能的模型進(jìn)行類似分析。2/3/2023347預(yù)測(cè)海藻頻率 本案例的目的:預(yù)測(cè)140個(gè)水樣的7個(gè)海藻的頻率值。 我們已經(jīng)采用交叉驗(yàn)證的過(guò)程給出了最佳的預(yù)測(cè)模型,下面應(yīng)該應(yīng)用所有可得的訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建模型,并將得到的模型應(yīng)用到測(cè)試數(shù)據(jù)集。為了避免回歸樹采用它自身的缺失值的處理方法,我們采用了k近鄰法填補(bǔ)數(shù)據(jù)框clean.algae的NA值。隨機(jī)森林本身沒(méi)有處理缺失值的方法,我們把數(shù)據(jù)框clean.algae作為它的訓(xùn)練集數(shù)據(jù)。1.為每種藻類選擇最優(yōu)的預(yù)測(cè)模型:
bestModelsNames<-sapply(bestScores(res.all),
function(x)x['nmse','system'])
learners<-c(rf='randomForest',rpart='rpartXse')
funcs<-learners[sapply(strsplit(bestModelsNames,'\\.'),
function(x)x[2])]2/3/202335parSetts<-lapply(bestModelsNames, function(x)getVariant(x,res.all)@pars)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上??苿?chuàng)職業(yè)技術(shù)學(xué)院《軟件技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海交通職業(yè)技術(shù)學(xué)院《機(jī)械制造基礎(chǔ)C》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海建設(shè)管理職業(yè)技術(shù)學(xué)院《女裝制版與工藝》2023-2024學(xué)年第一學(xué)期期末試卷
- 公司員工管理制度范例合集
- 上海海洋大學(xué)《電氣系統(tǒng)建模與仿真技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 第一單元 第5節(jié) 物聯(lián)網(wǎng)的控制 教學(xué)實(shí)錄 -2023-2024學(xué)年粵教清華版初中信息技術(shù)八年級(jí)下冊(cè)
- 企業(yè)員工管理制度收錄大合集
- 上海工商外國(guó)語(yǔ)職業(yè)學(xué)院《算法設(shè)計(jì)與分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 招投標(biāo)課程設(shè)計(jì)的總結(jié)
- 機(jī)械設(shè)計(jì)基礎(chǔ)課件 模塊7 連接件分析與設(shè)計(jì)
- 少兒美術(shù)教案課件-《美麗的楓葉》
- 中國(guó)傳統(tǒng)文化剪紙PPT模板
- 高中家長(zhǎng)給孩子寄語(yǔ)
- 藥物警戒體系主文件(根據(jù)指南撰寫)
- 2022重癥醫(yī)學(xué)科優(yōu)質(zhì)護(hù)理工作計(jì)劃
- 系列壓路機(jī)xmr30s40s操作保養(yǎng)手冊(cè)
- 廣州教科版六年級(jí)英語(yǔ)上冊(cè)M1-6復(fù)習(xí)練習(xí)題(含答案)
- GB/T 24159-2022焊接絕熱氣瓶
- GB/T 22412-2016普通裝飾用鋁塑復(fù)合板
- GB/T 20388-2006紡織品鄰苯二甲酸酯的測(cè)定
- GB/T 18370-2014玻璃纖維無(wú)捻粗紗布
評(píng)論
0/150
提交評(píng)論