數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch03】可視化圖與分組檢驗_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch03】可視化圖與分組檢驗_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch03】可視化圖與分組檢驗_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch03】可視化圖與分組檢驗_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch03】可視化圖與分組檢驗_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第三章可視化圖與分組檢驗數(shù)據(jù)分析與數(shù)據(jù)挖掘01數(shù)據(jù)的常用可視化圖分析數(shù)據(jù)的常用可視化圖P-P圖(P-Pplot)又稱概率-概率圖(Probability-probabilityplot)或百分比-百分比圖(Percent-percentplot),用于展示兩組數(shù)據(jù)相接近的程度。

散點圖(Scatterplot)主要用于展示兩個變量X和Y的相關(guān)性,也常在立體空間中用散點圖分析三個變量的相關(guān)性。數(shù)據(jù)的常用可視化圖順序圖(Sequenceplot)是對一組樣本數(shù)據(jù)X按照從前到后的順序以折線圖形式展示,橫坐標(biāo)代表樣本的順序,縱坐標(biāo)代表對應(yīng)樣本點值。時滯圖(Lagplot)是一種展示數(shù)據(jù)是否具有隨機性的散點圖,用于展示數(shù)據(jù)的時間序列關(guān)系。數(shù)據(jù)的常用可視化圖對于一組數(shù)值數(shù)據(jù),基于圖的數(shù)據(jù)可視化包括:(1)進(jìn)行數(shù)據(jù)的描述性統(tǒng)計并繪制盒圖,掌握數(shù)據(jù)的總體情況。(2)繪制頻數(shù)的直方圖,繪制樣本數(shù)據(jù)的經(jīng)驗分布圖,掌握數(shù)據(jù)的分布情況。(3)繪制分位數(shù)圖(Q-Q圖),了解數(shù)據(jù)的總體趨勢。(4)繪制四圖,掌握數(shù)據(jù)的隨機性、是否具備正態(tài)分布特性。(5)如果猜測具有某種已知的參考分布,如正態(tài)分布、指數(shù)分布、均勻分布等,可以繪制P-P圖,查看數(shù)據(jù)是否滿足猜想的分布。(6)計算中心值(中位數(shù)或均值),對每組數(shù)減去中心值,繪制折線圖(或順序圖),了解數(shù)據(jù)的正負(fù)波動情況和離群點情況。基于圖的可視化觀測一般過程02均值比較和t檢驗20%30%40%50%

分組統(tǒng)計就是將指定的一個或多個屬性變量作為分組依據(jù),對樣本進(jìn)行分組,然后分別對每組數(shù)據(jù)統(tǒng)計。

分組統(tǒng)計是在掌握數(shù)據(jù)的整體狀態(tài)后,對樣本數(shù)據(jù)做更細(xì)致的分析,其作用包括:①掌握各組的頻數(shù)和相對頻數(shù),可以繪制直方圖;②掌握各組的各個統(tǒng)計量信息,如均值、方差等,用于各組數(shù)據(jù)的對比,可以通過圖形展示各組信息,以及將各組情況做對比。分組統(tǒng)計

數(shù)據(jù)標(biāo)準(zhǔn)化(Normalization),又稱數(shù)據(jù)規(guī)范化,主要用于數(shù)據(jù)的可理解性、數(shù)據(jù)的可比性、數(shù)據(jù)的無量綱化。數(shù)據(jù)標(biāo)準(zhǔn)化與Z-Score

單樣本t檢驗是檢驗?zāi)硞€樣本均值和某個指定值(一般是總體期望值)之間是否存在顯著性差異。該檢驗的前提是,假設(shè)樣本所在總體必須服從正態(tài)分布。單樣本t檢驗兩獨立樣本t檢驗兩個獨立樣本是指兩個樣本之間彼此獨立沒有關(guān)聯(lián)。獨立樣本t檢驗用于判別兩個樣本所在兩個總體均值之間是否有顯著性差異。兩配對樣本(Twopairedsample,Tworelativesample)是指兩個樣本具有相同容量,并且按照順序,相同順序號的元素—一對應(yīng)。令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)為兩個樣本,具有相同容量n。如果對每個i,(xi,yi)被視為配對數(shù)據(jù),則稱x和y為兩配對樣本。兩配對樣本t檢驗03方差齊性檢驗

Levene方差齊性檢驗又稱Levene檢驗(Levene'stest),可用于對兩組或多組樣本進(jìn)行方差齊性檢驗。

方差用于度量一組數(shù)據(jù)與其平均值的偏離程度,屬于一種離散程度的度量。在樣本容量相同的情況下,方差越大,說明數(shù)據(jù)的波動越大,越不穩(wěn)定。Levene方差齊性檢驗

F檢驗(F-test)可以用于樣本所在兩正態(tài)總體的方差齊性檢驗。F檢驗又稱方差比率齊性檢驗(Ratiotestofvarianceequality)。F檢驗是參數(shù)檢驗方法。

F檢驗的前提條件是:①樣本來自的兩個總體必須服從正態(tài)分布X~N(H,c2),Y~N(H?,C?);②X和Y的抽樣相互獨立,樣本容量分別為m和m?且可以不同,各樣本內(nèi)部的個案順序任意。基于F檢驗的方差齊性檢驗

Brown-Forsythe方差齊性檢驗是Levene檢驗的修改版。在Levene中,Zg是由式(3.15)計算的,即按照數(shù)據(jù)減去均值計算偏離程度。Brown-Forsythe方差齊性檢驗Bartlett's方差齊性檢驗(Bartlett'stestofequalvariances)用于檢驗多組樣本所在總體是否具有方差齊性(方差相等)。方差齊性(Homogeneityofvariances)是指若干總體具有(統(tǒng)計上)相等的方差。Bartlett's方差齊性檢驗

04兩獨立樣本的非參數(shù)檢驗

Mann-WhitneyU檢驗的核心思想是:若兩個樣本有差異,則它們的中心位置將不同,屬于非參數(shù)檢驗。該檢驗常用于檢驗平均中心趨勢(如中位數(shù))是否存在顯著性差異。

Mann-WhitneyU檢驗(曼-惠特尼秩和檢驗),簡稱秩和檢驗。該檢驗用于檢驗兩個獨立樣本所在的總體分布是否存在顯著性差異,或者說,兩個獨立樣本是否是從具有同樣分布的總體中抽取的。Mann-WhitneyU檢驗兩獨立樣本t檢驗K-S檢驗(Kolmogorov-Smirnov檢驗)用于檢驗兩個獨立樣本所在總體分布是否存在顯著性差異,或者說兩個獨立樣本是否來自同一個概率分布的總體。在兩獨立樣本檢驗中,K-S檢驗統(tǒng)計量為式(3.29)。在雙樣本分布中,如圖3.4(a)所示,雖然第1個樣本容量n和第2個樣本容量m的個數(shù)可能不同,但仍然能夠?qū)ν粁計算出兩個分布的偏差,如圖3.4(b)所示,所獲得的Dnm值代表最大絕對偏差值。兩獨立樣本K-S檢驗

兩獨立樣本的游程檢驗(Wald-Wolfwitzrunstest,W-W檢驗)用來檢驗樣本所在總體分布是否存在顯著性差異。2.6.4節(jié)中的單樣本游程檢驗用于檢驗一個變量是否具有隨機性。兩獨立樣本的游程檢驗將兩組數(shù)據(jù)按序混合重新排序(升序或降序)",在排序過程中組號也隨排序過程一起變動。這樣排序之后,獲得了組號的重排序列。兩獨立樣本游程檢驗

20%30%40%50%

Moses極端反應(yīng)檢驗(Mosesextremereactions)用來檢驗兩個樣本所在總體分布是否存在顯著性差異。Moses極端反應(yīng)檢驗是一種非參數(shù)檢驗方法。

對于輸入的兩個樣本x和y,將其中一個樣本作為控制樣本(Controlsample),另一個樣本作為實驗樣本(Experimentalsample),假設(shè)第1組樣本是控制樣本,第2組樣本是實驗樣本。兩獨立樣本Moses極端反應(yīng)檢驗

兩獨立樣本Brown-Mood中位數(shù)檢驗的原假設(shè)Ho:Mx與My沒有顯著性差異,即Mx=Mr。相應(yīng)的備選假設(shè)可以有:①H:Mx≠My,此時采用雙側(cè)檢驗;②H?:Mx<My,此時采用左側(cè)檢驗;③H?:Mx>My,此時采用右側(cè)檢驗。應(yīng)根據(jù)問題選擇備選假設(shè)。下面以雙側(cè)檢驗為例,另兩種只需檢驗時的P-Value按單側(cè)檢驗計算即可。

Brown-Mood中位數(shù)檢驗,用于檢驗兩組獨立樣本所在兩總體的中位數(shù)是否存在顯著性差異。兩獨立樣本Brown-Mood中位數(shù)檢驗05兩配對樣本的非參數(shù)檢驗20%30%40%50%

符號檢驗(Signtest)是一種非參數(shù)檢驗方法,用于測試兩組觀察結(jié)果之間的一致性差異,可進(jìn)行兩配對樣本的檢驗。

符號檢驗的前提條件是:①兩個樣本x=(x1,x2,…,xn),y=(y1,y2,…,yn)是配對的,每個對(xi,yi)被獨立地采樣;②x和y中的數(shù)據(jù)可以是數(shù)值屬性數(shù)據(jù),也可以是序數(shù)屬性數(shù)據(jù),要求能夠進(jìn)行xi和yi的大小關(guān)系比較,即能判斷出xi>yi、xi<yi或xi=yi;③x中的數(shù)據(jù)來自同一個總體,y中的數(shù)據(jù)來自同一個總體。兩配對樣本符號檢驗

具體來說:①統(tǒng)計“+”符號的個案數(shù)為n1,“-”符號的個案數(shù)為n2;②構(gòu)建檢驗統(tǒng)計量S=n1/(n1+n2),然后按照指定比例0.5進(jìn)行二項分布檢驗。分位數(shù)檢驗也類似中位數(shù)檢驗,只是檢驗比例按照分位點所處的比例計算。符號檢驗(Signtest)還能用于單樣本中位數(shù)檢驗、分位數(shù)檢驗及比例檢驗。數(shù)據(jù)排序后,中位數(shù)之前的數(shù)據(jù)量約占50%,之后的數(shù)據(jù)量約占50%。兩中位數(shù)、分位數(shù)及比例的符號檢驗

Wilcoxon符號秩檢驗(Wilcoxonsigned-ranktest)用于檢驗兩配對樣本的總體均值是否存在顯著性差異,或者理解成兩配對樣本是否來自同一總體。

Wilcoxon符號秩檢驗的直接原假設(shè)Ho:兩配對樣本所在總體分布的差異,圍繞0服從對稱分布;備選假設(shè):兩配對樣本所在總體分布的差異,不圍繞0服從對稱分布。兩配對樣本W(wǎng)ilcoxon符號秩檢驗Wilcoxon符號秩檢驗還可以用于檢驗單樣本的總體中心(中位數(shù))是否與某一特定值存在顯著性差異。Wilcoxon符號秩檢驗屬于非參數(shù)檢驗,因此,當(dāng)不能假設(shè)總體服從正態(tài)分布時,不能使用單樣本t檢驗,可以使用Wilcoxon符號秩檢驗。原假設(shè)Ho:樣本所在總體均值μ與指定值Ho沒有顯著性差異。Wilcoxon符號秩單樣本檢驗兩配對樣本McNemar檢驗McNemar檢驗(McNemar'stest)用于對分類屬性上的配對檢驗。McNemar檢驗屬于一種非參數(shù)檢驗方法。邊緣齊性檢驗(Marginalhomogeneitytest),也稱邊際齊性檢驗,用于兩配對樣本所在總體分布的顯著性差異檢驗,其中兩個樣本具有相同的分類水平(Level)且各分類水平有序。邊緣齊性檢驗06多樣本的非參數(shù)檢驗

中位數(shù)檢驗(Mood'sMediantest,Median檢驗)用于檢驗兩個或多個樣本(兩組或多組樣本)的總體中位數(shù)是否存在顯著性差異。多獨立樣本中位數(shù)檢驗Kruskal-Wallis檢驗(Kruskal-Wallistest,K-W檢驗),用于檢驗多組樣本所在總體分布是否存在顯著性差異,或者說多組樣本是否來自同一分布。K-W檢驗是一種基于平均秩的單因素分析方法,是一種非參數(shù)檢驗方法。K-W檢驗擴展了Mann-WhitneyU檢驗,可以用于檢驗多組樣本所在總體分布的顯著性差異。多獨立樣本Kruskal-Wallis檢驗

20%30%40%50%

Jonckheere-Terpstra檢驗(Jonckheere-Terpstratest,J-T檢驗),又稱Jonckheere趨勢檢驗(Jonckheere'strendtest),用于檢驗多組樣本(多個樣本)所在總體分布是否存在顯著性差異,或者說檢驗幾個獨立樣本是否來自同一總體。

令g(g≥2)代表總組數(shù),日是第i組樣本所在總體的中位數(shù),簡稱第i個總體的中位數(shù)。

J-T檢驗的原假設(shè)Ho:樣本所在各個總體分布沒有顯著性差異,或者說,各組樣本來自同一個總體。多獨立樣本Jonckheere-Terpstra檢驗Friedman檢驗(Friedmantest),用于檢驗多組配對樣本所在總體分布是否存在顯著性差異。Friedman檢驗是一種非參數(shù)統(tǒng)計檢驗,用于測試多次實驗中配對結(jié)果是否存在顯著性差異。假設(shè)各組樣本以列向量形式排列在一起構(gòu)成一個矩陣,組數(shù)為g,樣本容量為n,因此構(gòu)成一個矩陣{x,}mg。Fricdman檢驗原假設(shè)Ho:樣本所在多個配對總體分布沒有顯著性差異。多配對樣本Friedman檢驗Kendall協(xié)同系數(shù)檢驗(Kendall'sCoefficientofConcordancetest),用于檢驗多個評價者是否有一致的評分標(biāo)準(zhǔn)。多配對樣本Kendall協(xié)同系數(shù)檢驗多配對樣本Cochran'sQ檢驗Cochran‘sQ檢驗(Cochran’sQtest),用于檢驗多配對樣本所在配對總體是否存在顯著性差異。它屬于一種非參數(shù)檢驗方法。每組樣本中的數(shù)據(jù)以兩分類數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論