非參數(shù)統(tǒng)計(jì)課件

上傳人：子*** IP屬地：未知上傳時(shí)間：2023-11-19 格式：PPTX 頁(yè)數(shù)：215 大?。?.77MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩210頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

非參數(shù)統(tǒng)計(jì)第一章緒論主要內(nèi)容1.統(tǒng)計(jì)的實(shí)踐2.非參數(shù)統(tǒng)計(jì)方法簡(jiǎn)介3.參數(shù)統(tǒng)計(jì)過(guò)程與非參數(shù)統(tǒng)計(jì)的比較4.非參數(shù)統(tǒng)計(jì)的歷史5.必要的準(zhǔn)備知識(shí)1.統(tǒng)計(jì)的實(shí)踐我們周圍的世界符號(hào)和數(shù)據(jù)就是整個(gè)世界。數(shù)據(jù)繁衍，信息匱乏：觀察數(shù)據(jù)激增，設(shè)計(jì)數(shù)據(jù)細(xì)分。數(shù)據(jù)的復(fù)雜性和不確定性的特點(diǎn)更為突出。數(shù)據(jù)分析方法和手段不足。統(tǒng)計(jì)的方法論就方法論而言，統(tǒng)計(jì)分析主要解決兩方面的問(wèn)題：

尋找數(shù)據(jù)內(nèi)部差異中共同的特征。尋找數(shù)據(jù)之間本質(zhì)的差異。統(tǒng)計(jì)分析的目標(biāo)是從數(shù)據(jù)中發(fā)現(xiàn)比數(shù)據(jù)本身更為有用的知識(shí)2.非參數(shù)統(tǒng)計(jì)方法簡(jiǎn)介參數(shù)方法定義：樣本被視為從分布族的某個(gè)參數(shù)族抽取出來(lái)的總體的代表，而未知的僅僅是總體分布具體的參數(shù)值，推斷問(wèn)題就轉(zhuǎn)化為對(duì)分布族的若干個(gè)未知參數(shù)的估計(jì)問(wèn)題，用樣本對(duì)這些參數(shù)做出估計(jì)或者進(jìn)行某種形式的假設(shè)檢驗(yàn)，這類推斷方法稱為參數(shù)方法。比如：（1）研究保險(xiǎn)公司的索賠請(qǐng)求數(shù)時(shí)，可能假定索賠請(qǐng)求數(shù)來(lái)自泊松分布P(a);（2）研究化肥對(duì)農(nóng)作物產(chǎn)量的影響效果時(shí)，平均意義之下，每測(cè)量單元（可能是）產(chǎn)量服從正態(tài)分布N(a,b).一個(gè)典型的參數(shù)檢驗(yàn)過(guò)程1.總體參數(shù)Example:PopulationMean2.假定數(shù)據(jù)的形態(tài)為

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很強(qiáng)的假定Example:正態(tài)分布4.例子:ZTest,tTest,

2Test一個(gè)例子：對(duì)兩組學(xué)生進(jìn)行語(yǔ)法測(cè)試，如何比較兩組學(xué)生的成績(jī)是否存在差異？原始數(shù)據(jù)秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5非參數(shù)檢驗(yàn)過(guò)程1.不涉及總體的分布Example:ProbabilityDistributions,Independence2.數(shù)據(jù)的形態(tài)各異定量數(shù)據(jù)定序數(shù)據(jù)Example:Good-Better-Best名義數(shù)據(jù)Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F3.參數(shù)統(tǒng)計(jì)與非參數(shù)統(tǒng)計(jì)比較對(duì)總體假定較少，有廣泛的適用性，結(jié)果穩(wěn)定性較好。1.假定較少2.不需要對(duì)總體參數(shù)的假定3.與參數(shù)結(jié)果接近針對(duì)幾乎所有類型的數(shù)據(jù)形態(tài)。容易計(jì)算在計(jì)算機(jī)盛行之前就已經(jīng)發(fā)展起來(lái)。非參數(shù)檢驗(yàn)的優(yōu)點(diǎn)1. 可能會(huì)浪費(fèi)一些信息特別當(dāng)數(shù)據(jù)可以使用參數(shù)模型的時(shí)候。Example:ConvertingDataFromRatiotoOrdinalScale2. 大樣本手算相當(dāng)麻煩3. 一些表不易得到非參數(shù)檢驗(yàn)的弱點(diǎn)本學(xué)期內(nèi)容結(jié)構(gòu)體系非參數(shù)統(tǒng)計(jì)的主要內(nèi)容內(nèi)容非參數(shù)檢驗(yàn)相應(yīng)的參數(shù)檢驗(yàn)2獨(dú)立樣本中位數(shù)檢驗(yàn)秩和檢驗(yàn)獨(dú)立樣本t檢驗(yàn)2配對(duì)樣本/單一樣本符號(hào)檢驗(yàn)Wilcoxon檢驗(yàn)成對(duì)樣本t-檢驗(yàn)>2獨(dú)立樣本Kruskal-Wallis檢驗(yàn)單一因素ANOVA兩因素Friedman檢驗(yàn)雙因素ANOVA相關(guān)性檢驗(yàn)Spearman秩相關(guān)Pearson相關(guān)性檢驗(yàn)分布的檢驗(yàn)Kolmogorov-Smirnov4.非參數(shù)統(tǒng)計(jì)的歷史非參數(shù)統(tǒng)計(jì)的歷史非參數(shù)統(tǒng)計(jì)的形成主要?dú)w功于20世紀(jì)40年代～50年代化學(xué)家F.Wilcoxon等人的工作。Wilcoxon于1945年提出兩樣本秩和檢驗(yàn)，1947年Mann和Whitney二人將結(jié)果推廣到兩組樣本量不等的一般情況；Pitman于1948年回答了非參數(shù)統(tǒng)計(jì)方法相對(duì)于參數(shù)方法來(lái)說(shuō)的相對(duì)效率方面的問(wèn)題；非參數(shù)統(tǒng)計(jì)的歷史（續(xù)）60年代中后期，Cox和Ferguson最早將非參數(shù)方法應(yīng)用于生存分析。70年代到80年代，非參數(shù)統(tǒng)計(jì)借助計(jì)算機(jī)技術(shù)和大量計(jì)算獲得更穩(wěn)健的估計(jì)和預(yù)測(cè)，以P.J.Huber以及F.Hampel為代表的統(tǒng)計(jì)學(xué)家從計(jì)算技術(shù)的實(shí)現(xiàn)角度，為衡量估計(jì)量的穩(wěn)定性提出了新準(zhǔn)則。90年代有關(guān)非參數(shù)統(tǒng)計(jì)的研究和應(yīng)用主要集中在非參數(shù)回歸和非參數(shù)密度估計(jì)領(lǐng)域，其中較有代表性的人物是Silverman和J.Fan。5.必要的準(zhǔn)備知識(shí)（1）假設(shè)檢驗(yàn)（2）漸進(jìn)相對(duì)效率（3）秩檢驗(yàn)統(tǒng)計(jì)量（4）U統(tǒng)計(jì)量(1)假設(shè)檢驗(yàn)回顧問(wèn)題：

(a)新引進(jìn)的生產(chǎn)過(guò)程是否優(yōu)于舊過(guò)程？（b）幾種不同的肥料哪一種更有效？（c）大學(xué)生的就業(yè)率與城市失業(yè)率之間是否存在關(guān)系？?jī)?nèi)容

（a）假設(shè)的真正涵義和作用（b）如何選擇零假設(shè)和備擇假設(shè)（c）檢驗(yàn)的p-值和顯著性水平的作用（d）兩類錯(cuò)誤（e）置信區(qū)間和假設(shè)檢驗(yàn)之間的關(guān)系單邊檢驗(yàn)和雙邊檢驗(yàn)的p值??例2：Poisson分布

H0:>1H1:按照假設(shè)檢驗(yàn)的步驟，可以選取統(tǒng)計(jì)量為檢驗(yàn)統(tǒng)計(jì)量，檢驗(yàn)的目的是使得

C=5C=7同樣顯著性水平之下的檢驗(yàn)在

不同樣本量下的勢(shì)函數(shù)0.99012630.9997043（2）檢驗(yàn)的相對(duì)效率漸進(jìn)效率的概念分位數(shù)和非參數(shù)置信區(qū)間秩檢驗(yàn)統(tǒng)計(jì)量無(wú)結(jié)點(diǎn)秩的定義例題：某學(xué)院本科三年級(jí)有9個(gè)專業(yè)組成，統(tǒng)計(jì)每個(gè)專業(yè)學(xué)生每月消費(fèi)數(shù)據(jù)如下，用S-Plus求消費(fèi)數(shù)據(jù)的秩和順序統(tǒng)計(jì)量的現(xiàn)值：

300230208580690200263215520

2.有結(jié)數(shù)據(jù)的秩設(shè)樣本取自總體X的簡(jiǎn)單隨機(jī)抽樣，將數(shù)據(jù)排序后,相同的數(shù)據(jù)點(diǎn)組成一個(gè)“結(jié)”，稱重復(fù)數(shù)據(jù)的個(gè)數(shù)為結(jié)長(zhǎng)。例1：3.83.21.21.23.43.23.2解：結(jié)長(zhǎng)為3。U統(tǒng)計(jì)量核的概念例：總體期望有無(wú)偏估計(jì)X1，總體期望是1可估的，X1是總體期望的核。對(duì)稱核和U統(tǒng)計(jì)量的概念U統(tǒng)計(jì)量的特征計(jì)算U統(tǒng)計(jì)量的大樣本性質(zhì)U統(tǒng)計(jì)量舉例第一節(jié)S-Plus環(huán)境S-Plus用戶界面算術(shù)運(yùn)算S-PlusS語(yǔ)言和S的擴(kuò)展S-Plus，是由AT&TBell實(shí)驗(yàn)室于20世紀(jì)70年代末~80年代初研制開(kāi)發(fā)的，其中RickBecker和JohnChambers是主要?jiǎng)?chuàng)始人之一。S-Plus的主要應(yīng)用特點(diǎn)：S-Plus擁有強(qiáng)大的面向?qū)ο蟮拈_(kāi)發(fā)環(huán)境。作為標(biāo)準(zhǔn)的統(tǒng)計(jì)語(yǔ)言，S擁有幾乎所有，在S-Plus中，用戶可以隨處自定義的各種函數(shù)，延伸基本的分析方法。

作為面向?qū)ο蟮恼Z(yǔ)言，S集數(shù)據(jù)的定義、插入、修改和函數(shù)計(jì)算等功能于一體，語(yǔ)言風(fēng)格統(tǒng)一，可以獨(dú)立完成數(shù)據(jù)分析生命周期的全部活動(dòng)。S-Plus提供了非常豐富的2D和3D圖形庫(kù)。與S-Plus類似的有新近開(kāi)發(fā)的R，R最早由Auckland大學(xué)統(tǒng)計(jì)系的RobertGentleman和RossIhaka于1995年開(kāi)始研制開(kāi)發(fā)，從1997年開(kāi)始免費(fèi)公開(kāi)發(fā)布。R在計(jì)算功能上比S-Plus有更高的效率，但由于推出時(shí)間較短，因而不如S-Plus普及。S-Plus和R二者在語(yǔ)法和功能實(shí)現(xiàn)上區(qū)別不大，因而學(xué)習(xí)S-Plus的用戶可以輕松轉(zhuǎn)到R，反之亦然。S-Plus界面六項(xiàng)內(nèi)容：ObjectExplorer（對(duì)象瀏覽器）；CommandsWindow（命令窗口）；GraphSheets（圖形操作表）；ScriptWindow（草稿窗口）；Menus（菜單）；Toolbars（工具欄）。第二節(jié)向量的基本操作

一、向量的定義和表示二、向量的基本操作二、向量的算術(shù)運(yùn)算三、向量的邏輯運(yùn)算一、向量的定義一、算術(shù)運(yùn)算：S-Plus默認(rèn)的命令提示符是“>”1)計(jì)算7X3，可如下執(zhí)行命令：

>7*3>212)計(jì)算(7+2)X3，可如下執(zhí)行命令：

>(7+2)*3>423)計(jì)算\log2

（12/3），可如下執(zhí)行命令：

>log(12/3,2)>24)計(jì)算冪2X32，可如下執(zhí)行命令：

>2*(3^2)>18一、向量的定義二、賦值：

>x<-3>y_1+x

屏幕打印變量如下，x：

>x>3>print(x*y)>12

二、向量的基本操作

1、連接命令;2、序列命令seq;3、循環(huán)命令rep;1、連接命令

例1：>A.brand<-c(15,27,89)#生成數(shù)值類型的向量

>A.brand*0.8[1]12.021.671.2>title.text<-c(“This”,“is”,“for”,“sale”)#生成非數(shù)值類型的向量1.向量a中第i位置元素表示：

>A.brand[1][1]15>A.brand[length(A.brand)][1]89

如果輸入的位置超出向量的長(zhǎng)度，則S-Plus輸出NA，NA表示數(shù)據(jù)缺失，如下所示：

>A.brand[6][1]NA1、連接命令（續(xù)）2.在向量中插入新的數(shù)據(jù)：在A.brand向量末尾添加兩個(gè)新產(chǎn)品價(jià)格的書(shū)寫(xiě)方法是：例1續(xù):>add.A.brand<-c(A.brand,189,240)>add.A.brand[1]152789189240在向量的開(kāi)頭插入新數(shù)據(jù)的書(shū)寫(xiě)方法如下：>addbegin.A.brand<-c(12,13,A.brand)[1]1213152789思考題1：如何在向量的第i個(gè)位置后插入數(shù)據(jù)？1、連接命令（續(xù)）3.向量與向量的合并：B.brand<-c(35,40,58)AB.brand<-c(A.brand,B.brand)[1]152789354658

向量中元素的個(gè)數(shù)，稱為向量的長(zhǎng)度，查看向量中元素的個(gè)數(shù)，可以使用length命令，如下所示：length(add.A.brand)[1]51、連接命令（續(xù)）4.在向量中刪除數(shù)據(jù)：將A.brand向量中起始位置的產(chǎn)品價(jià)格刪除的方法用減法表示，如下表示：例1續(xù):>delete.A.brand<-add.A.brand[-1]>delete.A.brand[1]2789189240

將A.brand向量末尾的產(chǎn)品價(jià)格刪除的方法是：

>delete.A.brand<-add.A.brand[-length(add.A.brand)]>delete.A.brand[1]1527891892、序列命令seqseq命令的語(yǔ)法如下所示：

seq(lower,upper,[increment],[length],...)例2:>seq(1,10)[1]12345678910>seq(1900,2000,6)[1]1900190619121918192419301936194219481954[11]1960196619721978198419901996>seq(1,0,-0.1)[1]1.00.90.80.70.60.50.40.30.20.10.0>1:10#seq(1,10)>seq(0,1,0.05,length=10)3、循環(huán)命令reprep命令的語(yǔ)法結(jié)構(gòu)如下所示：

rep(pattern,numberoftimes,length)例3>rep(2,6)222222>rep(c(0,5),2)0505>rep(1:3,3)123123123>rep(c(1,4,6),length=5)14614

思考題3：猜測(cè)如下程序的輸出結(jié)果：rep(c(1,2,3),c(1,2,3))三、向量的算術(shù)運(yùn)算向量算術(shù)運(yùn)算是對(duì)標(biāo)量運(yùn)算的擴(kuò)展：例4:>a<-seq(0,20,3)>2*a061218243036>a<-2*(0:2)>b<-1:3四、向量的邏輯運(yùn)算S-Plus中有兩個(gè)邏輯值：TRUE和FALSE：>3==4F

常用的邏輯運(yùn)算符如表1.3：向量的邏輯運(yùn)算例：例6:假設(shè)price表示某一公司推出的所有產(chǎn)品價(jià)目表，將price中大于10的所有數(shù)據(jù)找出來(lái)：

>price<-c(2,3,10,11,15)>large10<-price[price>10][1]1115第三節(jié)復(fù)雜的數(shù)據(jù)結(jié)構(gòu)矩陣數(shù)組數(shù)據(jù)框架列表一、矩陣1.定義矩陣：

例7：假定有國(guó)民經(jīng)濟(jì)數(shù)據(jù)data，其中顯示了2003年中國(guó)、日本、韓國(guó)三個(gè)國(guó)家的國(guó)家生產(chǎn)總值GDP（單位：1012US$），年末人口（單位：億）及通貨膨脹率（單位：100%）：>macroecno<-c(1.4,12.92,1.2,4.5,0.56,-0.8,10.88,2.91,1.2)>asia.data<-matrix(macroecno,nrow=3,ncol=3,byrow=T,dimnames)>asia.data[,1][,2][,3][1,]1.412.921.2[2,]4.50.56-0.8[3,]0.40.51.7例題例7續(xù):給數(shù)據(jù)指定列名和行名：>dimnames(asia.data)NULL>dim(asia.data)3,3><-c("P.R.China","Japan","KOREA")><-c("GDP","POP","INFLAT")>dimnames(asia.data)<-list(,NULL)>asia.data[,1][,2][,3]P.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)<-list(NULL,)例題（續(xù)）>asia.dataGDPPOPINFLAT[1]1.412.921.2[2]4.50.56-0.8[3]0.40.51.7>dimnames(asia.data)<-list(,)>asia.dataGDPPOPINFLATP.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)[[1]]:[1]"P.R.China""Japan""KOREA"[[2]]:[1]"GDP""POP""INFLAT"1、矩陣2.矩陣元素的表示：矩陣a中第i,j位置的元素表示為：a[i,j]，比如：

>asia.data[2,1:2]GDPPOP4.50.56例7續(xù):>asia.data[2,]GDPPOPINFLAT4.50.56-0.8>asia.data["Japan","POP"]<-59#可以用行名或列名直接提取行或列向量

>asia.data["Japan","POP"]591、矩陣3.矩陣的運(yùn)算：（1）元素對(duì)元素的加、減、乘、除法運(yùn)算是向量的運(yùn)算的確延拓。（2）一個(gè)數(shù)與矩陣的運(yùn)算相當(dāng)于數(shù)與矩陣的每一個(gè)元素的運(yùn)算。（3）矩陣用%*%表示：

>a[,1][,2][1,]13[2,]24

（4）>x<-c(2,1)>a%*%x[,1][1,]5[2,]8>solve(a)[,1][,2][1,]-21.5[2,]1-0.5思考題4.計(jì)算asia.data中的人均GDP.1、矩陣4.矩陣的合并:

增加若干列用cbind函數(shù)，增加若干行用rbind函數(shù)；求矩陣列數(shù)用cnol表示，求解矩陣行數(shù)用rnol表示:>a[,1][,2][1,]13[2,]24>addc<-c(5,6)>a<-cbind(a,addc)>aaddc[1,]135[2,]246思考題5.在asia.data中插入Australia數(shù)據(jù)：GDP:0.53;POP:0.10;INFL:2.3.二、數(shù)組數(shù)組則是多維矩陣，生成數(shù)組與生成矩陣類似：>a<-array(1:24,c(3,4,2))>a,,1[,1][,2][,3][,4][1,]14710[2,]25811[3,]36912,,2[,1][,2][,3][,4][1,]13161922[2,]14172023[3,]151821242.數(shù)組的行列計(jì)算函數(shù)：

apply(data,dim,function,...)

例1.7續(xù)：計(jì)算asia.data中GDP,POP,INFLAT的最小值：>apply(asia.data,2,min)GDPPOPINFLAT0.40.5-0.8例1.7續(xù):求數(shù)組asia.data中的最小值所在的行和列：

>col(a)[asia.data==min(asia.data)]>3>row(a)[asia.data==min(asia.data)]>2思考題6.請(qǐng)輸出asia.data中GDP最小值所在的行和列.三、數(shù)據(jù)框架

數(shù)據(jù)框架可以理解為二維數(shù)據(jù)表，其中不同列具有不同的數(shù)據(jù)類型。

>asia.frame<-data.frame(asia.frame,IS.AS)>asia.frameGDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA0.40.51.7AS>apply(asia.data,2,max)GDPPOPINFLAT4.512.921.7四、列表

列表是比數(shù)據(jù)框架更為松散的數(shù)據(jù)結(jié)構(gòu)，列表可以將不同類型，不同長(zhǎng)度的數(shù)據(jù)打包，而數(shù)據(jù)框架中要求被插入的數(shù)據(jù)長(zhǎng)度和原來(lái)的長(zhǎng)度是一致的。

>IS.AS<-c("P.R.China","Japan","KOREA")>list(asia.frame,country)[[1]]:GDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA1.44.50.4AS[[2]]:[1]"P.R.China""Japan""KOREA"第四節(jié)數(shù)據(jù)處理1.從鍵盤(pán)輸入數(shù)據(jù):

例8:>x_scan()1:23456885:3477:>x[1]23456883472.讀入矩陣：

例9:>matrix(scan("c:\\data\\wh.txt"),,3)V1V2V310.640.32020.280.14130.001.230第四節(jié)數(shù)據(jù)處理3.讀入數(shù)據(jù)框架:>a_read.table("c:\\data\\wh.txt",header=T)V1V2V310.640.32020.280.14130.001.230第四節(jié)數(shù)據(jù)處理編寫(xiě)函數(shù):常用的函數(shù)控制命令及語(yǔ)法如下所示：

控制結(jié)構(gòu)：if(condition){語(yǔ)句1}else{語(yǔ)句2}

循環(huán)結(jié)構(gòu)：for(變量in序列)語(yǔ)句while(condition)語(yǔ)句repeat(語(yǔ)句)

跳出：break舉例例11：計(jì)算1,2,…數(shù)列的連乘積，直到積大于105.\small\begin{verbatim}>n<-0#iterationcounter>times.so.far<-1while(times.so.far<=10^5){n<-n+1times.so.far<-times.so.far*n}常用統(tǒng)計(jì)函數(shù)dnorm(x):計(jì)算標(biāo)準(zhǔn)正態(tài)分布點(diǎn)x處的密度值;pnorm(x,2,1):計(jì)算均值為2，標(biāo)準(zhǔn)差為1的正態(tài)分布點(diǎn)x處的分布函數(shù)值P(X<x);qnorm(p,3,2):計(jì)算均值為3，標(biāo)準(zhǔn)差為2的正態(tài)分布p-分位數(shù);rnorm(n):產(chǎn)生標(biāo)準(zhǔn)正態(tài)分布偽隨機(jī)數(shù)n個(gè).x<-1:20y<-x**3plot(x,y)points(rev(x),y)lines(x,5432-0.5*y)points(x^0.5,y,pch=3)#addcrossespoints(x,8000-y,pch="$")#useadollarsymbollines(x,y,lwd=4)#thicklinelines(rev(x),y,lty=2)#dashedlineplot(x,y,xlab="XIsAcross",ylab="YisUp")title("TitlesareTops")text(6,4000,"Thisgoesanywhere")

第五節(jié)S-Plus圖形功能作圖：繼續(xù)y<-rt(200,df=5)qqnorm(y)qqline(y,col=2)x<-seq(-10,10,length=30)y<-xf<-function(x,y){r<-sqrt(x^2+y^2);10*sin(r)/r}z<-outer(x,y,f)persp(x,y,z)第一節(jié)符號(hào)檢驗(yàn)和分位數(shù)推斷假設(shè)總體，M是總體的中位數(shù)，對(duì)于假設(shè)檢驗(yàn)問(wèn)題：是待檢驗(yàn)的中位數(shù)取值

定義,,，則,在零假設(shè)情況下，在顯著性水平為的拒絕域?yàn)槠渲衚是滿足上式最大的k值。

例3.1.假設(shè)某地16座預(yù)出售的樓盤(pán)均價(jià)，單位(百元/平方米)如下表所示：

36323125283640324126353532873335

One-samplet-Testdata:build.price-37t=-0.1412,df=15,p-value=0.8896alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-8.0458537.045853sampleestimates:meanofx-0.5結(jié)果討論k是滿足式子的最大值

單邊符號(hào)檢驗(yàn)問(wèn)題結(jié)論：符號(hào)檢驗(yàn)在總體分布未知的情況下優(yōu)于t檢驗(yàn)！大樣本結(jié)論當(dāng)n較大時(shí)：當(dāng)n不夠大的時(shí)候可用修正公式進(jìn)行調(diào)整。雙邊：，p-值左側(cè)：，p-值右側(cè)：，p-值

置信區(qū)間采用Neyman原則選擇最優(yōu)置信區(qū)間，首先找出置信度大于的所有區(qū)間，然后再?gòu)闹羞x擇區(qū)間長(zhǎng)度最小的一個(gè)。對(duì)于大樣本，可以用近似正態(tài)分布求置信區(qū)間。

根據(jù)順序統(tǒng)計(jì)量構(gòu)造置信區(qū)間：符號(hào)檢驗(yàn)在配對(duì)樣本比較運(yùn)用

配對(duì)樣本(x1,y1),(x2,y2),…(xn,yn)

將記為“+”，記為“-”，記為“0”，記P+

為“+”比例，P-

為“-”比例，那么假設(shè)檢驗(yàn)問(wèn)題：可以用符號(hào)秩檢驗(yàn)。H0:P+=P-

H1:P+=P-例3.4如右表是某種商品在12家超市促銷活動(dòng)前后的銷售額對(duì)比表，用符號(hào)檢驗(yàn)分析促銷活動(dòng)的效果如何？連促銷前促銷后鎖銷售額銷售額符號(hào)店14240+25760-33838044947+56365-63639-74849-85850+947470105152-118372+122733-

根據(jù)同樣原理，可以將中位數(shù)符號(hào)檢驗(yàn)推廣為任意分位點(diǎn)的符號(hào)檢驗(yàn)。Cox-Staut趨勢(shì)存在性檢驗(yàn)

檢驗(yàn)原理:設(shè)數(shù)據(jù)序列：，雙邊假設(shè)檢驗(yàn)問(wèn)題：令：取數(shù)對(duì)，，為正的數(shù)目，為負(fù)的數(shù)目,當(dāng)正號(hào)或者負(fù)號(hào)太多的時(shí)候，認(rèn)為數(shù)據(jù)存在趨勢(shì)。在零假設(shè)情況下Di服從二項(xiàng)分布。從而轉(zhuǎn)化為符號(hào)檢驗(yàn)問(wèn)題。X1,X2,…,Xn例3.6某地區(qū)32年來(lái)的降雨量如下表問(wèn)（1）：該地區(qū)前10年來(lái)降雨量是否有變化？（2）：該地區(qū)32年來(lái)降雨量是否有變化？年份19711972197319741975197619771978

降雨量206223235264229217188204

年份19791980198119821983198419851986

降雨量182230223227242238207208

年份19871988198919901991199219931994

降雨量216233233274234227221214

年份19951996199719981999200020012002

降雨量226228235237243240231210隨機(jī)游程檢驗(yàn)隨機(jī)游程問(wèn)題：一個(gè)二元0/1序列當(dāng)中，一段全由0或者全由1構(gòu)成的串成為一個(gè)游程，游程中數(shù)據(jù)的個(gè)數(shù)稱為游程長(zhǎng)度，序列中游程的個(gè)數(shù)記為R，反映0和1輪換交替的頻繁程度。在序列長(zhǎng)度N固定的時(shí)候，如果游程過(guò)少過(guò)者過(guò)多，都說(shuō)明序列的隨機(jī)性不好。當(dāng)游程過(guò)多或者過(guò)少時(shí)，就會(huì)懷疑序列的隨機(jī)性。例3.7序列1100001110110000111100共有8個(gè)游程檢驗(yàn)原理和計(jì)算方法

設(shè)是由0或者1組成的序列，假設(shè)檢驗(yàn)問(wèn)題：

R為游程個(gè)數(shù)，假設(shè)有個(gè)0，個(gè)1，，這時(shí)R取任何一個(gè)值的概率都是，R的條件分布

建立了抽樣分布之后，在零假設(shè)成立時(shí)，可以計(jì)算或者的值，進(jìn)行檢驗(yàn)。

X1,X2,…,Xn小樣本的例子H0:樣本中的觀測(cè)是隨機(jī)產(chǎn)生的.Ha:樣本中的觀測(cè)是隨機(jī)產(chǎn)生的

=.05n1=18n2=8如果7

17,不能拒絕H0否則拒絕H0.1

12DCCCCCDCCDCCCCDCDCCCDDDCCCR=12由于7

R=12

17,不能拒絕H0RunsTest:大樣本的例子經(jīng)驗(yàn)表明：如果n1或n2>20,R

的抽樣分布近似為正態(tài)RunsTest:大樣本例子H0:樣本中的觀測(cè)是隨機(jī)產(chǎn)生的.Ha:樣本中的觀測(cè)是隨機(jī)產(chǎn)生的

=.05n1=40n2=10如果-1.96

1.96,不能拒絕H0否則拒絕H0.11

11NNNFNNNNNNNFNNFFNNNNNNFNNNNFNNNNN12

13FFFFNNNNNNNNNNNN

R=13RunsTest:大樣本例子-1.96

Z=-1.81

1.96,不能拒絕H0正態(tài)近似當(dāng)時(shí)，利用正態(tài)分布近似：給定水平之后，可以利用近似公式得到拒絕域的臨界值：Wilcoxon符號(hào)秩檢驗(yàn)

基本概念及性質(zhì)

對(duì)稱分布的中心一定是中位數(shù)，在對(duì)稱分布情況下，中位數(shù)不唯一，研究對(duì)稱中心比中位數(shù)更有意義。

例：下面的數(shù)據(jù)中，O是對(duì)稱中心嗎？0Wilcoxon符號(hào)秩檢驗(yàn)原理以及性質(zhì)

首先設(shè)樣本絕對(duì)值的順序統(tǒng)計(jì)量，如果數(shù)據(jù)關(guān)于0點(diǎn)對(duì)稱，那么對(duì)稱中心兩側(cè)的數(shù)據(jù)疏密程度應(yīng)該一樣，整數(shù)在取絕對(duì)值以后的樣本中的秩應(yīng)該和負(fù)數(shù)在絕對(duì)值樣本中的秩和相近。

用表示在絕對(duì)值樣本中的秩，反秩由定義。表示的符號(hào)，稱為符號(hào)秩統(tǒng)計(jì)量。Wilcoxon符號(hào)秩統(tǒng)計(jì)量定義為：Wilcoxon符號(hào)秩統(tǒng)計(jì)量的性質(zhì)定理3.2如果零假設(shè)成立，那么獨(dú)立于

定理3.3如果零假設(shè)成立，那么獨(dú)立于

定理3.4如果零假設(shè)成立，那么獨(dú)立同分布，

Wilcoxon符號(hào)秩檢驗(yàn)步驟：3.令表示和對(duì)應(yīng)的的秩和，令表示和對(duì)應(yīng)的的秩和。

2.找出的秩，打結(jié)時(shí)取平均秩。1.計(jì)算4.雙邊檢驗(yàn),取，當(dāng)W很小時(shí)拒絕零假設(shè)；對(duì),取；對(duì)，取。

5.根據(jù)W的值查Wilcoxon符號(hào)秩檢驗(yàn)分布表。對(duì)n很大的時(shí)候，可以采用正態(tài)近似。

Wilcoxon符號(hào)秩統(tǒng)計(jì)量分布

在小樣本情況下可以計(jì)算Wilcoxon符號(hào)秩統(tǒng)計(jì)量的精確分布。在大樣本情況下可以使用正態(tài)近似：

計(jì)算出Z值以后，查正態(tài)分布表對(duì)應(yīng)的p-值，如果p-值很小，則拒絕零假設(shè)。

在小樣本情況下，用連續(xù)性修正公式：

Wilcoxon符號(hào)秩檢驗(yàn)導(dǎo)出Hodges-Lemmann估計(jì)性質(zhì)及運(yùn)用

定義：簡(jiǎn)單隨機(jī)樣本，計(jì)算其中任意兩個(gè)數(shù)的平均，稱為Walsh平均，即

定理：Wilcoxon符號(hào)秩統(tǒng)計(jì)量可表示為：

定義：假設(shè)獨(dú)立同分布于，當(dāng)F對(duì)稱時(shí)，定義Walsh平均中位數(shù)：作為的Hodges-Lemmann估計(jì)。正態(tài)計(jì)分檢驗(yàn)檢驗(yàn)原理以及計(jì)算:基本思想是把升冪排列的秩用對(duì)應(yīng)的正態(tài)分位點(diǎn)替代，為了保證秩為正的，用變化的式子：其中就是第個(gè)數(shù)據(jù)的正態(tài)記分。計(jì)算步驟

對(duì)假設(shè)檢驗(yàn)問(wèn)題：對(duì)單邊或者雙邊。

1.將的秩按升冪排列，并加上對(duì)應(yīng)的符號(hào)，也就是構(gòu)造符號(hào)秩.2.用正態(tài)記分代替符號(hào)秩：

記，構(gòu)造統(tǒng)計(jì)量：

3.T有近似的正態(tài)分布,當(dāng)T大的時(shí)候，考慮拒絕零假設(shè)。

擬合優(yōu)度檢驗(yàn)原理以及計(jì)算

類別12….C總和觀測(cè)頻數(shù)

假設(shè)檢驗(yàn)問(wèn)題：觀測(cè)頻數(shù)和理論頻數(shù)的差別作為檢驗(yàn)總體分布和理論分布是否一致的標(biāo)準(zhǔn)，定義Pearson統(tǒng)計(jì)量：當(dāng)，拒絕零假設(shè)。

Kolmogorov-Smirnov正態(tài)性檢驗(yàn)

Kolmogorov-Smirnov正態(tài)性檢驗(yàn)根據(jù)樣本經(jīng)驗(yàn)分布和理論分布的比較，檢驗(yàn)樣本是否來(lái)自于該理論分布。假設(shè)檢驗(yàn)問(wèn)題：

假設(shè)樣本的經(jīng)驗(yàn)分布函數(shù)為，定義當(dāng)時(shí)，拒絕零假設(shè)。

Liliefor正態(tài)性檢驗(yàn)

正態(tài)性檢驗(yàn)根據(jù)樣本經(jīng)驗(yàn)分布和理論分布的比較，檢驗(yàn)樣本是否來(lái)自于該理論分布。假設(shè)檢驗(yàn)問(wèn)題：兩樣本位置和尺度檢驗(yàn)樣本之間相互獨(dú)立，為位置參數(shù)，稱為尺度參數(shù)。假設(shè)樣本：(X1,X2,…,Xn)~i.i.d.F1

(Y1,Y2,…,Yn)~i.i.d.F2

Brown-Mood中位數(shù)檢驗(yàn)Moses方法Mood檢驗(yàn)Mann-Whitney秩和檢驗(yàn)。

Brown-Mood中位數(shù)檢驗(yàn)原理：在零假設(shè)成立時(shí)，如果數(shù)據(jù)有相同中位數(shù)，那么混合樣本的中位數(shù)應(yīng)該和混合前的項(xiàng)等。假設(shè)(X1,X2,…,Xn)~i.i.d.F(x)，

(Y1,Y2,…,Yn)~i.i.d.F(x-)首先將兩個(gè)樣本混合，找出混合樣本中位數(shù)，將X和Y按照在兩側(cè)分類計(jì)數(shù)，即：

在給定m，n和t的時(shí)候，在零假設(shè)成立時(shí),A的分布服從超幾何分布：

當(dāng)A值太大時(shí)，考慮拒絕零假設(shè)。

計(jì)算和例子檢驗(yàn)基本內(nèi)容P-值

檢驗(yàn)統(tǒng)計(jì)量

對(duì)于水平，如果p-值小于，那么拒絕零假設(shè)

大樣本檢驗(yàn)對(duì)于大樣本情況下，可以使用超幾何分布的正態(tài)近似進(jìn)行檢驗(yàn)：另外可求得置信區(qū)間：其中c和c’滿足：

Mann-Whitney秩和檢驗(yàn)假設(shè)樣本來(lái)自于，來(lái)自于并且獨(dú)立。假設(shè)檢驗(yàn)問(wèn)題：

將兩個(gè)樣本混合，在混合樣本中的秩；定義，同樣可定義，稱為Wilcoxon秩和統(tǒng)計(jì)量。

W-M-W統(tǒng)計(jì)量稱為Man-Whitney統(tǒng)計(jì)量：在零假設(shè)情況下，和獨(dú)立同分布,并且和Wilcoxon秩和統(tǒng)計(jì)量等價(jià)。當(dāng)統(tǒng)計(jì)量偏小的時(shí)候，考慮拒絕零假設(shè)。性質(zhì)和檢驗(yàn)定理4.2在零假設(shè)下：若，且，時(shí)：在檢驗(yàn)時(shí)，，，其中a，b值由前面定理確定。在水平為拒絕域?yàn)椋?，其中k是使式子成立的最大值。對(duì)于打結(jié)的情況需要使用修正的公式。

典型例題例4.2例題解答Mood方差檢驗(yàn)檢驗(yàn)問(wèn)題以及原理假定兩分布位置參數(shù)相等，設(shè)，獨(dú)立，檢驗(yàn)問(wèn)題：令表示在混合樣本之中的秩，在零假設(shè)成立的情況下，有：考慮Mood秩統(tǒng)計(jì)量：如果X的方差偏大，那么M的值也應(yīng)該偏大，對(duì)于大的M可以考慮拒絕零假設(shè)。

大樣本近似在,且，的時(shí)候，可以采用大樣本近似：其中對(duì)于打結(jié)情況可以考慮用修正公式.

Moses方差檢驗(yàn)原理及計(jì)算過(guò)程：不用假定均值相等，設(shè)來(lái)自方差為的獨(dú)立同分布樣本；來(lái)自方差為的獨(dú)立同分布樣本。假設(shè)檢驗(yàn)問(wèn)題：

Moses方差檢驗(yàn)統(tǒng)計(jì)量計(jì)算1.將隨機(jī)分為組，每組k個(gè)觀測(cè)，記為；將隨機(jī)分為組，每組k個(gè)觀測(cè)，記為

2.求每組內(nèi)樣本偏差平方和:

Moses方差檢驗(yàn)統(tǒng)計(jì)量計(jì)算3.將，混合，并求出在混合樣本中對(duì)應(yīng)的秩.4.求第1組樣本對(duì)應(yīng)的秩和，構(gòu)造Moses統(tǒng)計(jì)量：如果值很大，那么就考慮拒絕零假設(shè)。實(shí)際檢驗(yàn)時(shí)可以查分布表。

本章內(nèi)容多總體的統(tǒng)計(jì)檢驗(yàn)多總體檢驗(yàn)問(wèn)題：Kruskal-Wallis單因素方差分析

基本原理：類似處理兩個(gè)樣本相關(guān)性位置檢驗(yàn)的W-M-W方法類似，將多個(gè)樣本混合起來(lái)求秩，如果遇到打結(jié)的情況，采用平均秩，然后再按樣本組求秩和。

檢驗(yàn)方法計(jì)算第j組的樣本平均秩：

對(duì)秩仿照方差分析原理：得到Kruskal-Wallis的H統(tǒng)計(jì)量：

在零假設(shè)情況下，H近似服從，當(dāng)?shù)臅r(shí)候拒絕零假設(shè)。

對(duì)比其中每?jī)山M差異對(duì)比其中每?jī)山M差異的時(shí)候，用Dunn(1964)年提出用：其中如果那么表示i和j兩組之間存在差異，，為標(biāo)準(zhǔn)正態(tài)分布分位數(shù)。

Jonckheere-Terpstra檢驗(yàn)檢驗(yàn)原理以及方法假設(shè)k個(gè)獨(dú)立的樣本：分別來(lái)自于k個(gè)形狀相同的分布：.假設(shè)檢驗(yàn)問(wèn)題：至少有一不等式嚴(yán)格成立。計(jì)算步驟2.計(jì)算Jonckheere-Terpstra統(tǒng)計(jì)量：3.當(dāng)J取大值的時(shí)候，考慮拒絕零假設(shè)，J精確分布可以查零分布表，對(duì)于大樣本，可以考慮正態(tài)近似。

1.計(jì)算打結(jié)的情況時(shí)，采用變形的公式：例5.3例5.3解Friedman秩方差分析

樣本1樣本2…樣本k區(qū)組1…區(qū)組2………………區(qū)組b…完全隨機(jī)區(qū)組設(shè)計(jì)表

假設(shè)檢驗(yàn)問(wèn)題：

樣本1樣本2…樣本k區(qū)組1…區(qū)組2………………區(qū)組b…秩和…在同一區(qū)組內(nèi)，計(jì)算樣本的秩,并求出：

檢驗(yàn)統(tǒng)計(jì)量利用普通類似方差分析構(gòu)造統(tǒng)計(jì)量：在零假設(shè)成立下，如果偏大，那么就考慮拒絕原價(jià)設(shè)。如果存在打結(jié)的情況，則可采用修正公式計(jì)算。

例5.5Hollander-Wolfe兩處理

比較檢驗(yàn)

當(dāng)用Friedman秩方差分析，檢驗(yàn)出認(rèn)為處理之間表現(xiàn)出差異的時(shí)候，那么可以進(jìn)一步研究處理兩兩之間是否存在差異。

Hollander-Wolfe檢驗(yàn)公式：

其中，在打結(jié)的情況下可使用修正的公式。當(dāng)時(shí)認(rèn)為兩個(gè)處理之間存在差異，其中，是顯著性水平。例5.6隨機(jī)區(qū)組調(diào)整秩和檢驗(yàn)

假設(shè)檢驗(yàn)問(wèn)題：計(jì)算步驟1.計(jì)算每一區(qū)組的位置估計(jì)，中位數(shù)或平均值等，如:

2.計(jì)算，被稱為調(diào)整觀察值。

3.將全部調(diào)整觀測(cè)值混合求秩，設(shè)對(duì)應(yīng)的混合秩為，者稱為調(diào)整秩。

其中檢驗(yàn)在零假設(shè)成立時(shí)，Q

近似服從，當(dāng)Q

偏大的時(shí)候，考慮拒絕原價(jià)設(shè)。出現(xiàn)打結(jié)時(shí)，需要用修正的公式。例5.7解答解答（續(xù)）Cochran檢驗(yàn)檢驗(yàn)原理以及計(jì)算：當(dāng)完全區(qū)組設(shè)計(jì)，并且觀測(cè)只是二元定性數(shù)據(jù)時(shí)，CochranQ檢驗(yàn)方法進(jìn)行處理。數(shù)據(jù)形式見(jiàn)下表。其中檢驗(yàn)假設(shè)檢驗(yàn)問(wèn)題：CochranQ檢驗(yàn)統(tǒng)計(jì)量：

Q近似服從分布，當(dāng)Q值偏大的時(shí)候，考慮拒絕零假設(shè)。Durbin不完全區(qū)組分析

原理：可能存在處理非常多，但是每個(gè)區(qū)組中允許的樣本量有限的時(shí)候，每一個(gè)區(qū)組中不可能包含所有的處理，比如重要的均衡不完全區(qū)組BIB設(shè)計(jì)。Durbin檢驗(yàn)便是針對(duì)這種問(wèn)題。表示第j個(gè)處理第i個(gè)區(qū)組中的觀測(cè)值，Rij

為在第i個(gè)區(qū)組中第j個(gè)處理的秩，計(jì)算：構(gòu)造統(tǒng)計(jì)量：當(dāng)D值較大的時(shí)候，可以考慮拒絕零假設(shè)，認(rèn)為處理之間存在差異。在零假設(shè)成立時(shí)，大樣本情況下，D近似服從分布。打結(jié)的時(shí)候，只要長(zhǎng)度不大，對(duì)結(jié)果影響不太大。例5.9

解答列聯(lián)表和檢驗(yàn)獨(dú)立性檢驗(yàn)

假設(shè)檢驗(yàn)問(wèn)題：

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

非參數(shù)統(tǒng)計(jì)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

非參數(shù)統(tǒng)計(jì)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔