已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)分析讀書筆記閱讀書籍:R語(yǔ)言與統(tǒng)計(jì)分析、統(tǒng)計(jì)學(xué)1. 概述統(tǒng)計(jì)分析分為統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷兩部分。2. 描述性分析 標(biāo)準(zhǔn)差(Standard Deviation)是樣本數(shù)據(jù)方差的平方根,它衡量的是樣本數(shù)據(jù)的離散程度;標(biāo)準(zhǔn)誤是樣本均值的標(biāo)準(zhǔn)差,衡量的是樣本均值的離散程度。標(biāo)準(zhǔn)誤(英文:Standard Error),也稱標(biāo)準(zhǔn)誤差,即樣本均數(shù)的標(biāo)準(zhǔn)差(英文:Standard Deviation),是描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度。2.1 描述統(tǒng)計(jì)量統(tǒng)計(jì)量計(jì)算公式含義均值中位數(shù)百分位數(shù)方差數(shù)據(jù)取值分散性的一個(gè)度量樣本方差樣本標(biāo)準(zhǔn)差標(biāo)準(zhǔn)誤sn樣本均值的標(biāo)準(zhǔn)差,描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度極差偏度系數(shù)(Skewness)刻畫數(shù)據(jù)的對(duì)稱性指標(biāo)。關(guān)于均值對(duì)稱時(shí)為0,右側(cè)更分散時(shí)為正;左側(cè)更分散時(shí)為負(fù)峰度系數(shù)(kurtosis)數(shù)據(jù)的總體分布為正態(tài)分布時(shí),接近0;系數(shù)為正時(shí),兩側(cè)極端數(shù)據(jù)較多;系數(shù)為負(fù)時(shí),極端數(shù)據(jù)較少。2.2 離散隨機(jī)變量隨機(jī)變量Y是一個(gè)定義在樣本空間上的數(shù)值函數(shù),樣本空間中的每個(gè)事件都被指派一個(gè)Y值。離散隨機(jī)變量Y是一個(gè)僅能取可數(shù)個(gè)值的變量。離散隨機(jī)變量Y的概率分布是給出Y的每個(gè)可能取值Y=y以及相應(yīng)概率p(y)的表、圖或公式。伯努利(Bernoulli)概率分布/二項(xiàng)概率分布: Y = n次試驗(yàn)中S的次數(shù)(每次試驗(yàn)的兩個(gè)可能結(jié)果:S和F)泊松分布Y = 單位時(shí)間、面積或體積內(nèi)稀有事件S發(fā)生的次數(shù)。py=ye-y! (y=0,1,2)隨機(jī)變量P(y)2*m(t)離散(一般)P(y)EY=yp(y)EY2-2伯努利Bernoullipy=pyq1-y 其中q=1-p,y=0,1ppq二項(xiàng)binomialpy=nypyqn-y其中q=1-p,y=0,1,nnpnpq超幾何py=ryN-rn-yNnnrNrN-rn(N-n)N2(N-1)泊松py=ye-y! y=1,2,=給定的單位時(shí)間、面積或體積內(nèi)事件的平均數(shù)幾何py=p(1-p)y-1 y=1,2,1p1-pP2負(fù)二項(xiàng)py=y-1r-1pr1-py-r y=r,r+1,rpr(1-p)P2多項(xiàng)py1,y2.yk=n!y1!y2!yk!(p1)y1(p2)y2(pk)yknpinpi(1-pi)負(fù)二項(xiàng)分布:表示直至觀測(cè)到第r次成功時(shí)試驗(yàn)(時(shí)間單位)的次數(shù)。如直到一個(gè)設(shè)備失效的時(shí)間長(zhǎng)度;一個(gè)顧客排隊(duì)等候直到得到服務(wù)的時(shí)間長(zhǎng)度。幾何:對(duì)于r=1的特殊情況2.3 連續(xù)隨機(jī)變量連續(xù)隨機(jī)變量Y1 在區(qū)間(-,+)上的隨機(jī)變量Y取不可數(shù)無(wú)窮多個(gè)值。2 累積分布函數(shù)F(y)是連續(xù)的3 Y等于任意特定值的概率為0.密度函數(shù)fy=dF(y)dy?f(y)與p(y)的關(guān)系正態(tài)概率分布。密度函數(shù)為:fy=12e-(y-)2(22)型概率分布:是關(guān)于壽命長(zhǎng)度(如計(jì)算機(jī)的使用壽命)或等待時(shí)間的連續(xù)隨機(jī)變量模型;兩種特殊類型,卡方隨機(jī)變量和指數(shù)隨機(jī)變量正態(tài)性檢驗(yàn):l QQ圖l Shaprio-Wilk檢驗(yàn):shaprio.test()卡方(Chi-Square)概率分布威布爾概率分布是表示失效時(shí)間的連續(xù)隨機(jī)變量模型型概率分布是落在區(qū)間(0,1)上連續(xù)隨機(jī)變量模型。 貝塔(Beta,)分布,be(,), 均勻分布2.4 二元概率分布及抽樣分布統(tǒng)計(jì)量的抽樣分布:統(tǒng)計(jì)量的概率分布中心極限定理:如果n個(gè)觀察值Y1,Y2,Yn的隨機(jī)樣本來(lái)自有限均值和方差2的總體,那么當(dāng)n充分大時(shí),樣本均值Y的抽樣分布可由正態(tài)密度函數(shù)近似。設(shè)Y1,Y2,Yn來(lái)自于有限均值和有限標(biāo)準(zhǔn)差的總體n個(gè)觀測(cè)值的隨機(jī)樣本。那么Y的抽樣分布的均值和標(biāo)準(zhǔn)差,記為y和y,分別是:y=,y=n卡方密度函數(shù):如果n個(gè)觀察值Y1,Y2,Yn的隨機(jī)樣本來(lái)自有限均值和方差2的正態(tài)分布,那么2=(n-1)S22 (S2:樣本方差)的抽樣分布式自由度為=(n-1)的卡方密度函數(shù)學(xué)生氏T分布設(shè)Z是標(biāo)準(zhǔn)正態(tài)隨機(jī)變量,2是自由度為的卡方隨機(jī)變量,如果Z與2獨(dú)立,那么稱T=Z2是自由度為的學(xué)生氏T分布。F分布如果12和22是自由度為1和2的卡方隨機(jī)變量,若12和22是獨(dú)立的,則稱F=121222為分子自由度為1,分母自由度為2的F分布。2.5 相關(guān)分析統(tǒng)計(jì)建模與R語(yǔ)言(上冊(cè))3.4Pearson相關(guān)性檢驗(yàn)(原假設(shè):不相關(guān))當(dāng)(X,Y)T是二元正態(tài)總體,且X,Y=0, 則統(tǒng)計(jì)量t=rxyn-21-rxy2t(n-2)cov() 協(xié)方差矩陣cor() 相關(guān)矩陣Kendall秩相關(guān)系數(shù):非參數(shù)相關(guān)分析偏相關(guān)分析:3. 參數(shù)估計(jì)參數(shù)估計(jì):在很多實(shí)際問(wèn)題中,總體的分布類型已知但它包含一個(gè)或多個(gè)參數(shù),總體的分布完全由所含的參數(shù)決定,這樣就需要對(duì)參數(shù)作出估計(jì)。推斷總體參數(shù)有兩種方法:估計(jì)未知參數(shù)值或?qū)?shù)的假設(shè)值進(jìn)行決策。參數(shù)估計(jì)有兩類:點(diǎn)估計(jì);區(qū)間估計(jì)。無(wú)偏:E=最小方差無(wú)偏估計(jì):3.1 估計(jì)方法矩估計(jì)法:用樣本矩去估計(jì)總體矩矩估計(jì) 1,2 等可以通過(guò)前m階樣本矩等于m階總體矩來(lái)求等EY=1nyiEY2=1nyi2極大似然法: 隨機(jī)選取離散隨機(jī)變量Y的n個(gè)觀察值y1,y2,yn,如果概率分布p(y)是單個(gè)參數(shù)的函數(shù),那么觀測(cè)到Y(jié)的這n個(gè)獨(dú)立值的概率是p(y1,y2,yn)=p(y1)p(y2)p(yn),稱樣本值的聯(lián)合概率為樣本的似然函數(shù)L,并建議使L達(dá)到最大的值為的估計(jì)值。3.2 單正態(tài)總體參數(shù)(均值、方差)的估計(jì)一個(gè)置信區(qū)間的置信系數(shù)等于在抽樣前隨機(jī)區(qū)間包含被估參數(shù)的概率如:1總體均值u的大樣本(1-)100%置信區(qū)間:yz2y=yz2n如何推導(dǎo)?P191,定義6.15;抽樣總體的標(biāo)準(zhǔn)差,s為標(biāo)準(zhǔn)樣本差yz2sn為抽樣總體的標(biāo)準(zhǔn)差,n是樣本大小,s是樣本標(biāo)準(zhǔn)差。N大于30假設(shè):沒(méi)有,中心極限定理保證無(wú)論抽樣總體服從什么分布,y均近似正態(tài)。總體均值u的小樣本(1-)100%置信區(qū)間:yt2snT為自由度為n1的學(xué)生氏T分布。假設(shè)抽樣總體近似服從正態(tài)分布 R函數(shù):t.test()總體方差的估計(jì):設(shè)y1,y2,yn是來(lái)自均值為u、方差為2的正態(tài)分布隨機(jī)樣本,2(n-1)s22是具有自由度為(n-1)的卡方分布。置信區(qū)間為:(n-1)s222,(n-1)s21-22)3.3 兩正態(tài)總體參數(shù)(均值、方差)的估計(jì)兩均值差如何推導(dǎo)?:T檢驗(yàn)設(shè)方差未知且相等: 檢驗(yàn)統(tǒng)計(jì)量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)其中:s2= n1-1s12+(n2-1)s22n1-1+(n2-1)方差比:F檢驗(yàn)(方差齊性檢驗(yàn)) 原假設(shè):方差相等,或大于等于一方,或小于等于一方12(n1-1)s1212 , 22(n2-1)s2222S1與S2相互獨(dú)立,F(xiàn)s1212s2222 F(n1-1, n2-1)假定:被抽樣樣本的兩個(gè)總體有近似正態(tài)的相對(duì)頻率分布;隨機(jī)樣本是獨(dú)立地從兩個(gè)總體中抽取的。3.4 單總體比率p的區(qū)間估計(jì)二項(xiàng)分布中成功比率p(即總體中具有某種特征的元素比率)的估計(jì)方法樣本比率p=yn,當(dāng)n較大時(shí),p近似正態(tài)分布Ep=p, Vp=p(1-p)n總體比率p的大樣本(1)100置信區(qū)間pZ2ppZ2p(1-p)n假定:樣本容量n必須充分大。R語(yǔ)言: prop.test()3.5 兩總體比率差p1-p2的區(qū)間估計(jì)R語(yǔ)言: prop.test()3.6 樣本容量的確定精度要求:置信度1,允許均值的最大絕對(duì)誤差d4. 參數(shù)的假設(shè)檢驗(yàn)先對(duì)總體的某個(gè)未知參數(shù)或總體的分布形式作某種假設(shè),然后由抽取的樣本提供的信息, 構(gòu)造合適的統(tǒng)計(jì)量,對(duì)所提供的假設(shè)進(jìn)行檢驗(yàn),以做出統(tǒng)計(jì)判斷是接受假設(shè)還是拒絕假設(shè),這類統(tǒng)計(jì)推斷問(wèn)題稱為假設(shè)檢驗(yàn)問(wèn)題,前者稱為參數(shù)假設(shè)檢驗(yàn),后者稱為非參數(shù)假設(shè)檢驗(yàn)。歸納得到假設(shè)檢驗(yàn)的主要步驟:1) 提出原假設(shè)H0與備擇假設(shè)H1;2) 選擇檢驗(yàn)統(tǒng)計(jì)量W并確定其分布;3) 在給定的顯著性水平下, 確定H0關(guān)于統(tǒng)計(jì)量W的拒絕域;4) 算出樣本點(diǎn)對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量的值;5) 判斷: 若統(tǒng)計(jì)量的值落在拒絕域內(nèi), 則拒絕H0, 否則接受H0.在一個(gè)假設(shè)檢驗(yàn)問(wèn)題中, 拒絕原假設(shè)H0的最小顯著性水平稱為檢驗(yàn)的p值.觀測(cè)到檢驗(yàn)統(tǒng)計(jì)量一個(gè)值至少如從樣本數(shù)據(jù)計(jì)算的統(tǒng)計(jì)量值那樣與原假設(shè)矛盾,且支持備擇假設(shè)的概率。4.1 單正態(tài)總體參數(shù)(均值、方差)的檢驗(yàn)均值的假設(shè)檢驗(yàn):Z檢驗(yàn),t檢驗(yàn)方差的假設(shè)檢驗(yàn):2檢驗(yàn)2(n-1)s224.2 兩正態(tài)總體參數(shù)(均值、方差)的檢驗(yàn)均值的比較:t檢驗(yàn)l 大樣本檢驗(yàn)統(tǒng)計(jì)量:Z檢驗(yàn)假定:樣本容量足夠大,兩個(gè)樣本都是從目標(biāo)總體中獨(dú)立、隨機(jī)地選取的。l 小樣本檢驗(yàn)統(tǒng)計(jì)量:t檢驗(yàn)設(shè)方差相等,在u1,u2相等的原假設(shè)下檢驗(yàn)統(tǒng)計(jì)量:T= x-y- (1-2)(1n1+1n2)s2 t(n1+n2-2)假定:抽取樣本的兩個(gè)總體有近似正態(tài)的相對(duì)頻率分布;兩個(gè)總體的方差相等;隨機(jī)樣本是獨(dú)立地取自兩個(gè)總體。R語(yǔ)言:t.test(x, y, var.equal=TRUE); 當(dāng)方差齊性不滿足時(shí),var.equal=FALSE例子:可燃?xì)怏w和電力能源,哪種能以較低的成本產(chǎn)生出更多的有用能量。(基于兩種方法的投入產(chǎn)出比數(shù)據(jù))原假設(shè):u1=u2方差的比較:F檢驗(yàn)R語(yǔ)言:var.test()4.3 成對(duì)數(shù)據(jù)的t檢驗(yàn)對(duì)一般情況下的兩樣本均值檢驗(yàn)還沒(méi)有完全解決. 所謂成對(duì)數(shù)據(jù),是指兩個(gè)樣本的樣本容量相等,且兩個(gè)樣本之間除均值之外沒(méi)有另的差異。大樣本:Z檢驗(yàn)小樣本:t檢驗(yàn) T= d-D0dn d-D0sdnT分布的自由度為(n-1), d和sd表示差的樣本均值和標(biāo)準(zhǔn)差。假定:差的總體相對(duì)頻率分布是近似正態(tài)的;配對(duì)差是從差的總體中隨機(jī)選取的。當(dāng)正態(tài)性假定嚴(yán)重違反時(shí),t檢驗(yàn)可能導(dǎo)致錯(cuò)誤的推斷。這種情況下,采用非參數(shù)Wilcoxon檢驗(yàn)。R語(yǔ)言:t.test(x, y, paired=TRUE)4.4 檢驗(yàn)總體比率總體比率假設(shè)的大樣本檢驗(yàn): 檢驗(yàn)統(tǒng)計(jì)量:Z= p-p0p01-p0n假定:樣本容量n足夠大以保證近似正態(tài)性。np,n(1p) 4R語(yǔ)言:prop.test( )例:某產(chǎn)品的優(yōu)質(zhì)品率一直保持在40%, 近期技監(jiān)部門抽查了12件產(chǎn)品, 其中優(yōu)質(zhì)品為5件, 問(wèn)在=0.05水平上能否認(rèn)為其優(yōu)質(zhì)品率仍保持在40%?binom.test(c(7, 5), p=0.4)4.5 檢驗(yàn)兩個(gè)總體比率的差(p1-p2)假設(shè)的大樣本檢驗(yàn):獨(dú)立樣本 / Z檢驗(yàn)l P1-p2 0l P1-p2 = 0 假定:樣本容量足夠大以保證p1, p2近似正態(tài)性檢驗(yàn)統(tǒng)計(jì)量:p1,p2相等的情況下:Z= p1-p2n1+n2p(1-p)n1n2 N(0,1)其中p= n1p1+n2p2n1+n2R語(yǔ)言:prop.test( )有電腦沒(méi)有電腦男女1) 男、女生家中擁有電腦的比例是否一致?2) 有沒(méi)有電腦跟性別是否有關(guān)系?5. 非參數(shù)的假設(shè)檢驗(yàn) 許多非參數(shù)技術(shù)適用于分析不服從正態(tài)分布的數(shù)據(jù);盡量從數(shù)據(jù)本身來(lái)獲取所需要的信息。非參數(shù)檢驗(yàn)著重于總體概率分布的位置,而不是總體參數(shù),如均值。 不假定總體分布的具體形式,盡量從數(shù)據(jù)(或樣本)本身來(lái)獲得所需信息的統(tǒng)計(jì)方法稱為非參數(shù)方法。5.1 檢驗(yàn)單個(gè)總體的位置符號(hào)檢驗(yàn)(位置檢驗(yàn)),專門用于檢驗(yàn)任一連續(xù)總體中位數(shù)的假設(shè);與均值一樣,中位數(shù)是分布中心或位置的度量。注:從一個(gè)肯定是非正態(tài)總體抽取一個(gè)小樣本時(shí),T檢驗(yàn)是無(wú)效的。中位數(shù)的符號(hào)檢驗(yàn):對(duì)于充分大的n,均值為u=np,=np(1-p)的正態(tài)分布可以用來(lái)近似二項(xiàng)分布(n次中,每次概率為p,最后結(jié)果為k的概率,k=1,2,n)。檢驗(yàn)統(tǒng)計(jì)量:Z= S-E(S)V(S)= S-0.5n0.5n R語(yǔ)言:借助于binom.testWilcoxon符號(hào)秩檢驗(yàn):大樣本(n=25)檢驗(yàn)統(tǒng)計(jì)量:Z=T - n(n+1)4n(n+1)(2n+1)24R語(yǔ)言:wilcox.test()5.2 分布的一致性檢驗(yàn): 2檢驗(yàn)檢驗(yàn)樣本是否屬于某種分布的假設(shè) 擬合性檢驗(yàn)將a,b分成m份區(qū)間,假定分布為F0(x), 每個(gè)小區(qū)間Ai對(duì)應(yīng)的概率pi0= F0ai- F0(ai-1)設(shè)ni為落入Ai的頻數(shù),總共為n。若假設(shè)成立,則實(shí)際頻數(shù)ni與理論頻數(shù)npi0比較接近,因此擬合優(yōu)度檢驗(yàn)轉(zhuǎn)化為分類數(shù)據(jù)的實(shí)際頻數(shù)與理論頻數(shù)的一致性檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量:1)分布完全已知(不帶有未知參數(shù))2=i=1m(ni-npi0)2npi0 2(m-1) 2)分布含有r個(gè)未知參數(shù):2=i=1m(ni-npi0)2npi0 2(m-r-1)R語(yǔ)言:chisq.test(); 沒(méi)有直接算帶參數(shù)的擬合檢驗(yàn)函數(shù) Kolmogorov-Smirnov Tests: ks.test()5.3 兩總體的比較與檢驗(yàn)分類數(shù)據(jù)分析2獨(dú)立性檢驗(yàn)與5.2還是一致的若隨機(jī)變量X, Y 的分布函數(shù)分別為F1(x)和F2(y), 且聯(lián)合分布為F(x; y),則X與Y 的獨(dú)立性歸結(jié)為假設(shè)檢驗(yàn)問(wèn)題:H0 : F(x; y) = F1(x)F2(y) H1 : F(x; y) F1(x)F2(y)單向表:P3191) Pi的大樣本置信區(qū)間2) Pi-pj的置信區(qū)間3) 假設(shè)檢驗(yàn),p相同(卡方檢驗(yàn))在r x s聯(lián)列表下,問(wèn)題等價(jià)為:pij= pi.p.j 其中pi.=PX=Xi,p.j=P(Y=Yj)pi.= ni.n; p.j=n.jn檢驗(yàn)統(tǒng)計(jì)量:2=i=1rk=1snij-ni.n.jn2ni.n.jn在H0成立時(shí),近似服從于 2(r-1s-1)R語(yǔ)言中函數(shù)chisq.test( )可完成獨(dú)立性檢驗(yàn)。drink - data.frame(tors=c(s,s,t,t),dr=c(drink,nodrink,drink,nodrink), num=c(90,10,20,80)drink.x - xtabs(num tors + dr, data=drink)chisq.test(drink.x)當(dāng)22時(shí),與“檢驗(yàn)兩個(gè)總體比率的差”的區(qū)別:某種特質(zhì)的x1/n1,x2/n2兩者的差獨(dú)立性檢驗(yàn):比較兩個(gè)因素之間是否有關(guān)系(獨(dú)立)吸煙不吸煙肺癌患病者5030對(duì)照組100800Fisher精確檢驗(yàn)在格子的期望頻數(shù)小于5,選擇Fisher精確檢驗(yàn)獨(dú)立性R語(yǔ)言中的fisher.test( )Wilcoxon秩和檢驗(yàn)法在正態(tài)總體的假定下, 兩樣本的均值檢驗(yàn)通常用t檢驗(yàn)。但在不知總體分布時(shí),t檢驗(yàn)有風(fēng)險(xiǎn)。Wilcoxon秩和檢驗(yàn)法是比較整個(gè)概率分布將兩組樣本排序,分別計(jì)算他們的秩,通過(guò)秩進(jìn)行兩總體的比較,而不僅僅是中位數(shù)。大樣本(n110, n210)Wilcoxon秩和檢驗(yàn):(P617-618)檢驗(yàn)統(tǒng)計(jì)量:Z=T1-n1n2+n1(n1+1)2n1n2(n1+n2+1)12wilcox.testMood檢驗(yàn)位置參數(shù):描述了總體的位置尺度參數(shù):描述總體概率分布離散程度的參數(shù)兩總體的方差檢驗(yàn)在總體為正態(tài)時(shí),可采用F檢驗(yàn);Mood檢驗(yàn)是用來(lái)檢驗(yàn)兩樣本尺度參數(shù)之間關(guān)系的一種非參數(shù)方法。樣本X1;X2; ;Xm F(x-11)F分布?Y1; Y2; ; Yn F(y-22)構(gòu)造秩統(tǒng)計(jì)量 符合正態(tài)分布R語(yǔ)言中函數(shù)mood.test( )可完成原假設(shè)的檢驗(yàn)例子:兩村農(nóng)民的月收入的內(nèi)部差異是否相同?5.4 多總體的比較與檢驗(yàn)位置參數(shù)的Kruskal-Wallis秩和檢驗(yàn)R中函數(shù)kruskal.test( )可完成原假設(shè)的檢驗(yàn)例子:游泳、打籃球、騎自行車三種不同的運(yùn)動(dòng)在30分鐘內(nèi)消耗的熱量是否相同?尺度參數(shù)的Ansari-Bradley檢驗(yàn)R語(yǔ)言中函數(shù)ansari.test( )可完成原假設(shè)的檢驗(yàn)例子:已知兩個(gè)工人加工的零件尺寸,推斷兩人的加工精度是否一樣?尺度參數(shù)的Fligner-Killeen檢驗(yàn)6. 方差分析方差分析的主要工作就是將觀測(cè)數(shù)據(jù)的總變異(波動(dòng))按照變異的原因的不同分解為因子效應(yīng)與試驗(yàn)誤差,并對(duì)其作出數(shù)量分析,比較各種原因在總變異中所占的重要程度,以此作為進(jìn)一步統(tǒng)計(jì)推斷的依據(jù).在總體方差相同的假定下,對(duì)兩總體均值差異的顯著性進(jìn)行了檢驗(yàn)。在許多情況下有必要對(duì)3個(gè)或更多樣本均值差異的顯著性進(jìn)行檢驗(yàn),或者等同于去檢驗(yàn)零假設(shè),樣本均值全相等。(全美經(jīng)典統(tǒng)計(jì)學(xué))Understanding Group differences對(duì)只有一個(gè)因素兩個(gè)水平的方差分析,與兩總體均值檢驗(yàn)的區(qū)別?6.1 單因子方差分析因素A有r個(gè)水平A1;A2; : : : ;Ar. 現(xiàn)在水平Ai下進(jìn)行ni次獨(dú)立觀測(cè), 得到觀測(cè)數(shù)據(jù)為Xij ; j 1; 2; ; ni; i=1; 2; ; r; 則單因素方差模型可表示為 Xij= + i+ ij ij N(0,2) i=1rnii=0原假設(shè):H0: 1=2=r注:則 Xij N(+i, 2) ; 上式也就是多正態(tài)總體均值是否相等的檢驗(yàn)(vs. 4.2)條件:獨(dú)立性、正態(tài)性、方差齊性SST 總離差平方和(總變差):所有數(shù)據(jù)與總平均之差的平方和SST=i=1rj=1ni(Xij-X)2, X=1ni=1rj=1niXijSSE 誤差平方和(組內(nèi)平方和):對(duì)于固定的i,觀測(cè)值之間的差異大小的度量SSE=i=1rj=1ni(Xij-Xi.)2, Xi.=1nj=1niXijSSA 效應(yīng)平方(組間平方和):各水平下平均值與總平均值之差的平方和SSA=i=1rj=1ni(Xi.-X)2當(dāng)H0成立時(shí)SSE2 2n-r, SSA2 2r-1且SSe,SSa獨(dú)立,于是F= SSA(r-1)SSE(n-r) F(r-1, n-r)R語(yǔ)言:aov()均值的多重比較:找出在進(jìn)行方差分析時(shí),哪些均值是不相等的原假設(shè):H0: i= j , ijR軟件中p值調(diào)整使用函數(shù)p.adjust( )R軟件中函數(shù)pairwise.t.test( )可以得到多重比較的p值TukeyHSD(fit)同時(shí)置信區(qū)間:基于學(xué)生化極差分布的Tukey方法當(dāng)原假設(shè)被拒絕,則因子A的r個(gè)水平色效應(yīng)不全相等,希望對(duì)效應(yīng)之差均值的多重比較只是找出哪些不一樣i- j (ij)做出置信區(qū)間R語(yǔ)言:函數(shù)qtukey( )用于計(jì)算q分位數(shù), 函數(shù)TukeyHSD( )用于計(jì)算同時(shí)置信區(qū)間方差齊性檢測(cè)多正態(tài)總體方差的檢驗(yàn):檢驗(yàn)數(shù)據(jù)在不同水平下方差是否相同R軟件中, 函數(shù)Barlett.test( )提供Bartlett檢驗(yàn)R的程序包c(diǎn)ar中提供了Levene檢驗(yàn)的函數(shù)levene.test( )6.2 雙因子方差分析無(wú)交互作用的方差分析每一個(gè)水平組合Ai,Bj下進(jìn)行一次獨(dú)立試驗(yàn)得到觀察值Xij Xij= + i+ j + ij, i=1,2.,r;j=1,2,.,s ij N0,2,且各ij相互獨(dú)立 i=1ri=0 ;j=1sj=0原假設(shè):H01: 1=2=r=0; H02: 1=2=s=0 有交互作用的方差分析 為了考察因素間的交互作用, 要求在兩個(gè)因素的每一水平組合下進(jìn)行重復(fù)試驗(yàn). 設(shè)在每種水平組合(Ai;Bj)下重復(fù)試驗(yàn)t次. 記第k次的觀測(cè)值為Xijk. Xijk= + i+ j + ij + ijk, i=1,2.,r;j=1,2,.,s;k=1,2,t ijk N0,2,且各ijk相互獨(dú)立 i=1ri=0 ;j=1sj=0; i=1rij=j=1sij=0原假設(shè):H01: 1=2=r=0;A對(duì)指標(biāo)X沒(méi)有影響H02: 1=2=s=0;B對(duì)指標(biāo)X沒(méi)有影響H03: 11=12=rs=0;A和B對(duì)指標(biāo)X沒(méi)有聯(lián)合影響6.3 協(xié)方差分析協(xié)方差分析(Analysis of Covariance, 簡(jiǎn)稱ancova)是將線性回歸分析與方差分析結(jié)合起來(lái)的一種統(tǒng)計(jì)分析方法. 協(xié)變量:將那些很難控制的因素作為協(xié)變量。協(xié)變量必須是連續(xù)數(shù)值型變量,多個(gè)協(xié)變量間相互獨(dú)立,且與因素變量之間也沒(méi)有交互影響。其基本思想就是: 將一些對(duì)響應(yīng)變量Y 有影響的變量(指未知或難以控制的因素)看作協(xié)變量(covariate), 建立響應(yīng)變量Y 隨協(xié)變量X變化的線性回歸關(guān)系, 并利用這種回歸關(guān)系把X值化為相等后再對(duì)各處理組Y 的修正均值(adjusted means)間差別進(jìn)行假設(shè)檢驗(yàn), 其實(shí)質(zhì)就是從Y 的總的平方和中扣除X對(duì)Y 的回歸平方和, 對(duì)殘差平方和作進(jìn)一步分解后再進(jìn)行方差分析, 以更好地評(píng)價(jià)這種處理的效應(yīng). Yij= + i+Xij-X.+ ij, i=1,2,r;j=1,2,ni ij N(0,2) ,且各ij相互獨(dú)立 i=1rnii=0, 0 其中為總平均, i為第i個(gè)水平的效應(yīng), 是Y 對(duì)X的線性回歸函數(shù), ij為隨機(jī)誤差,其中 X.是Xij的總平均原假設(shè):H0: 1=2=rR中HH程序包中的函數(shù)ancova( )提供了協(xié)方差分析的計(jì)算7. 回歸分析7.1 相關(guān)性及其度量cor.test()8. 主成分分析library(psych)data(USJudgeRatings)fa.parallel(USJudgeRatings,-1, fa=PC, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)pc - principal(USJudgeRatings,-1, nfactors=1)data(Harman23.cor)fa.parallel(Harman23.cor$cov, n.obs=302, fa=both, n.iter=100, show.legend=FALSE, main=Scree plot with parallel analysis)PC - principal(Harman23.cor$cov, nfactors=2, rotate=none)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)library(GPArotation)pc - principal(USJudgeRatings,-1, nfactors=1, score=TRUE)head(pc$scores)rc - principal(Harman23.cor$cov, nfactors=2, rotate=varimax)round(unclass(rc$weights), 2)rc$loadingsunclass(pc$weights)pc$loadingspc$scores與princomp不同,依據(jù)標(biāo)準(zhǔn)化的輸入產(chǎn)生標(biāo)準(zhǔn)化的weights和scores9. 因子分析因子分析概念和理解因子分析是主成分分析的推廣和擴(kuò)展。主成分分析是將主成分表示為觀察變量的線性組合;而因子分析是將變量表示為因子的線性組合。因子分析用以分析隱藏在表面現(xiàn)象(觀察)背后的因子作用。例子:通過(guò)體育項(xiàng)目測(cè)試結(jié)果,發(fā)現(xiàn)決定體育成績(jī)的因子(耐力、速度等),并計(jì)算各個(gè)學(xué)生因子的得分;通過(guò)面試結(jié)果,發(fā)現(xiàn)決定面試成績(jī)的因子(外露能力、經(jīng)驗(yàn)、專業(yè)、外貌等),并計(jì)算各個(gè)面試者各因子的得分,從而決定錄取名單。 因子分析是研究相關(guān)陣或協(xié)方差陣的內(nèi)部依賴關(guān)系,它將多個(gè)變量綜合為少數(shù)幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系。l R型因子分析:研究變量之間的相關(guān)關(guān)系(相關(guān)陣)l Q型因子分析:研究樣本之間的相關(guān)關(guān)系(相似陣)主成分分析和因子分析都是數(shù)據(jù)降維的方法,但是因子分析在以下兩個(gè)方面區(qū)別于主成分分析:1) 二者使用的模型不同。主成分分析并非一種模型,得到的主成分只是原始變量的線性組合;因子分析則假定存在因子模型,認(rèn)為原始變量的變異可以用少數(shù)幾個(gè)公共因子以及一個(gè)特殊因子來(lái)解釋;2) 因子數(shù)目不同。主成分分析生成的主成分的數(shù)目與原始變量個(gè)數(shù)相同,事后由研究者根據(jù)需要保留一定數(shù)目的主成分;而在因子分析中,公因子數(shù)目是在公因子模型中事先規(guī)定的。因子分析過(guò)程模型:X=+AF+其中 X是隨機(jī)向量(一個(gè)觀察樣本結(jié)果),A為因子載荷(loading)矩陣,F(xiàn)為公共因子(common factor)矩陣,為特殊因子(specific factor)向量1)參數(shù)估計(jì):估計(jì)因子載荷矩陣和特殊方差矩陣l 主成分法l 主因子法l 極大似然法2)方差最大的正交旋轉(zhuǎn) (因子載荷不唯一,通過(guò)因子旋轉(zhuǎn),使得新因子有更好的實(shí)際意義)3)計(jì)算因子得分:加權(quán)最小二乘法(或Bartlett因子得分)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度固定資產(chǎn)借款合同還款計(jì)劃與利率調(diào)整3篇
- 研學(xué)旅行教學(xué)課程設(shè)計(jì)
- 二零二五年度商業(yè)地產(chǎn)買賣委托代理合同3篇
- 二零二五年度數(shù)據(jù)中心安全維護(hù)與管理服務(wù)合同
- 內(nèi)部公司會(huì)議方案樣本(2篇)
- 質(zhì)量管理課程設(shè)計(jì)簡(jiǎn)介
- 會(huì)計(jì)員安全生產(chǎn)責(zé)任制(4篇)
- 運(yùn)籌學(xué)課程設(shè)計(jì)旅游
- 二零二五年度互聯(lián)網(wǎng)公司員工持股計(jì)劃協(xié)議范本3篇
- 二氧化碳滅火器的維修安全操作規(guī)程(3篇)
- 山西省晉中市2023-2024學(xué)年高一上學(xué)期期末考試 化學(xué) 含解析
- 2024國(guó)家安全員資格考試題庫(kù)加解析答案
- 過(guò)程審核表(產(chǎn)品組評(píng)分矩陣評(píng)審提問(wèn)表(評(píng)分))-2024年百度過(guò)
- 操作手冊(cè)模板【范本模板】
- 2025年湖北省武漢市高考數(shù)學(xué)模擬試卷附答案解析
- 【工作總結(jié)】建筑中級(jí)職稱專業(yè)技術(shù)工作總結(jié)
- 江蘇省2022年普通高中學(xué)業(yè)水平合格性考試數(shù)學(xué)試題(考試版)
- 2023年二輪復(fù)習(xí)解答題專題三:一次函數(shù)的應(yīng)用方案選取型(原卷版+解析)
- 2024版小學(xué)英語(yǔ)新課程標(biāo)準(zhǔn)測(cè)試題及答案
- 多旋翼無(wú)人機(jī)駕駛員執(zhí)照(CAAC)備考試題庫(kù)大全-上部分
- 2024年村級(jí)意識(shí)形態(tài)工作計(jì)劃
評(píng)論
0/150
提交評(píng)論