




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章2.1.試敘述多元聯(lián)合分布和邊際分布之間的關(guān)系。解:多元聯(lián)合分布討論多個(gè)隨機(jī)變量聯(lián)合到一起的概率分布狀況,X=(X,X,…X)'的12P聯(lián)合分布密度函數(shù)是一個(gè)p維的函數(shù),而邊際分布討論是X=(X,X,…X)'的子向量的12P概率分布,其概率密度函數(shù)的維數(shù)小于P。2.2設(shè)二維隨機(jī)向量(XiX2)'服從二元正態(tài)分布’寫出其聯(lián)合分布。解:設(shè)(Xi解:設(shè)(XiX2)'的均值向量為p=(卩?!瘏f(xié)方差矩陣為、12Q2丿2則其聯(lián)合分布密度函數(shù)為f(f(x)(1]W2兀)2(Q2、-1/2廠1(C2、-11112exp<—牙(x—p)112(x-p)>、21Q2丿22&21Q2丿22?3已知隨機(jī)向量(XiX2)'的聯(lián)合密度函數(shù)為2[(d—c)(x—a)+(b—a)(x—c)—2(x—a)(x—c)]
f(x,x)=1212—i2(b-a)2(d-c)2其中a<x<b,c<x<d。求12⑴隨機(jī)變量X1和X2的邊緣密度函數(shù)、均值和方差;⑵隨機(jī)變量X1和X2的協(xié)方差和相關(guān)系數(shù);3)判斷X1和X2是否相互獨(dú)立。1)解:隨機(jī)變量X1和X2的邊緣密度函數(shù)、均值和方差
fx1(x1)d2[(d一c)(x一a)fx1(x1)d2[(d一c)(x一a)+(b一a)(x一c)一2(x一a)(x一c)]=J1212dxc2(b一a)2(d一c)22(d一c)(x一a)x
=+2(b一a)2(d—c)2d,Jd2[(b一a)(x一c)一2(x一a)(x一c)]c(b—a)2(d—c)2cdx2(d一c)(x一a)x
=12(b一a)2(d一c)2'+Jd-c2[(b-a"-2(珥一a”]dto(b—a)2(d—c)2c2(d一c)(x一a)x
=12(b一a)2(d一c)2d[(b—a)t2—2(x—a)t2]+1(b—a)2(d—c)2所以由于Xi服從均勻分布,b+a則均值為〒,方差為(b-a)212同理,由于X服從均勻分布f(x)=<2x22g[c,d],則均值為2x1其它(d一c萬差為p⑵解:隨機(jī)變量Xi和X的協(xié)方差和相關(guān)系數(shù);cov(x,x)12=JdJb=JdJbca\、(xI2d+c)2[(d—c)(x—a)+(b—a)(x—c)—2(x—a)(x—c)]—12122丿2(b一a)2(d一c)2dxdx12(c—d)(b—a)36cov(x,x)P=1——2—x1x2(3)解:判斷X和X是否相互獨(dú)立。12X和X由于f(x,x)豐f(x)f(x),所以不獨(dú)立。1212x11x222.4設(shè)X=(X,X,…X)'服從正態(tài)分布,已知其協(xié)方差矩陣E為對角陣,證明其分量是相12P互獨(dú)立的隨機(jī)變量。解:因?yàn)閄=(X1,X2,…Xp)'的密度函數(shù)為f(x1,f(x1,...,xp)£-1/2C21exp<-2(x-p),£-i(x-卜)£=Q£=Q202???O212p£-i二0211O22OO2£=020£=0202..Q2-1/2exp<-2(x-?!?1=O22(x-p)>1O2p丿Coo...oLexp<1Coo...oLexp<12p(X-K)21(X-K)211—23-0220212(X-K)2PP—02pi=11eXp'i=11eXp'Oi(X-K.)2「202「i=/(X1).J(xp)則其分量是相互獨(dú)立。2.5由于多元正態(tài)分布的數(shù)學(xué)期望向量和均方差矩陣的極大似然分別為
£二工(X-X)(x-X)iii=1(35650.00\12.3317325.00£二工(X-X)(x-X)iii=1(35650.00\12.3317325.00152.50丿(201588000.0038900.0083722500.00-736800.00\38900.0013.06716710.00-35.8083722500.0016710.0036573750.00-199875.00I-736800.00-35.800-199875.0016695.10丿1注:利用X=-X1,pxinn在SPSS中求樣本均值向量的操作步驟如下:選擇菜單項(xiàng)Analyze*DescriptiveStatisticLDescriptives,打開Descriptives對話框。將待估計(jì)的四個(gè)變量移入右邊的Variables列表框中,如圖2.1。圖2.1圖2.1Descriptives對話框2.單擊Options按鈕,打開Options子對話框。在對話框中選擇Mean復(fù)選框,即計(jì)算樣本均值向量,如圖2.2所示。單擊Continue按鈕返回主對話框。
圖2.2Options子對話框3.單擊0K按鈕,執(zhí)行操作。則在結(jié)果輸出窗口中給出樣本均值向量,如表2.1,即樣本均值向量為(35.3333,12.3333,17.1667,1.5250E2)。描謎績計(jì)里NX1635650.0000x2612.3333x3617325.0000>::46152.5000有效的Nf列耒狀杰)6表2.1樣本均值向量在SPSS中計(jì)算樣本協(xié)差陣的步驟如下:1.選擇菜單項(xiàng)Analyze^CorrelatefBivariate,打開BivariateCorrelations對話框。將三個(gè)變量移入右邊的Variables列表框中,如圖2.3。圖2.3BivariateCorrelations對話框2.單擊Options按鈕,打開Options子對話框。選擇Cross-productdeviationsandcovariances復(fù)選框,即計(jì)算樣本離差陣和樣本協(xié)差陣,如圖2.4。單擊Continue按鈕,返回主對話框。
Statistics3andsi自nciarel血Sallons両Crose-prcductdewsrtlonsandcovariancesHMissingV^ikiesi?Exclude^ars^iseExcludeesseslistwisE圖2.4Options子對話框3.單擊OK按鈕,執(zhí)行操作。則在結(jié)果輸出窗口中給出相關(guān)分析表,見表2.2。表中Covariance給出樣本協(xié)差陣。(另外,PearsonCorrelation為皮爾遜相關(guān)系數(shù)矩陣,SumofSquaresandCross-products為樣本離差陣。)nX2>4n1Irz-"扌氐主1.758.gzs"-402SS性0B1.001430平定i與更秋的和1.QD0E919450000011B6E0-36B400D0D0忖2.016E0ii3B9D000060.372E76-7360000006熄F■朋怡口時(shí)朕性.75S1764-JJ77顯苓性C刃倒).DS1廠J385平方與愿枳的和194500.DOO65.33333550.DOO-170.000N3B900000&13067IST'IO.DOO5?35800Sn3Fearsan性天乜.975"1-2569壬T(囚側(cè))ii-.D77625平啟與更積的和4.1B6E8935500001.929Ee-999375.000般建N8.372E7ii16?1O.DOO63.657E76-109S75.OOQ6Pears口門扌貝關(guān)〔隹-.402-.D77-.2561性曲川;.430.B85.525-3634000.000-1T9.DOO-999375.000B3475.50Q-735B00nnn-35.BOO-1990T5.DOO16695100忖66662.6漸近無偏性、有效性和一致性;2.7設(shè)總體服從正態(tài)分布,X?N刀),有樣本X,X,…,X。由于X是相互獨(dú)立的正p12n態(tài)分布隨機(jī)向量之和,所以X也服從正態(tài)分布。又E(X)二E(X)二ED(X)二D工XIn]匸i“丿工X/n]、匸1'/丿二工E(X)/n二工a.n=pi=1:i=1'=—工D(X)=—工E=-n2ii=1n2ni=1所以X?Np(p,叭2?8方法1:£二nh為(X-X)(X-X)‘i=1—工XX-nXXn—1iii=1E(£)=丄E(工XX'—nXX)
n—1iii=1(XX')—nE(XX')iii=1(n—1)£=(n—1)£=£。ni=1方法2:S=工(X-X)(X-X)'iii=1=工[X-p—(X—p川X-p—(X—卩)丁i=1=工(X-p)(X-p)'—2工(X-p)(X-p)'+n(X—p)(Xp—Xp)'iiii=1i=1=Y(X-p)(X-p)'—2n(X—p)(X—p)'+n(X—p)(X—p)'iii=1=Yn(Xp)'-n(X一p)(X一p)'iii=1E(二)=厶EpE(X-p)(X-p)'—n(X—p)(X—p)'n—1n—1Iii丿i=1=丄(工E(X-p)(X-p)'—nE(X—p)(X—p)'|=£。
n-11耳ii丿故2為£的無偏估計(jì)。n—129設(shè)X(1),X(2)'???'X(n)是從多元正態(tài)分布X~Np(p,£)抽出的一個(gè)簡單隨機(jī)樣本,試求S的分布。證明:設(shè)1r~v'n=5為一正交矩陣’即FT=「令Z=(Z]1.??114n丿…z)=(xxx)r,n12n由于X(i=1,2,3,4,)獨(dú)立同正態(tài)分布,且r為正交矩陣所以Z'=(ZZ…Z)獨(dú)立同正態(tài)分布。且有12nZ=丄另XXe(X)=2亦,Var(Z)=EonU=11n嘰=11nE(Z)=E(Xn=1,2,3,…,n-1)jjj=1=Jn區(qū)r丄gajVnj=1=fnp瓦r'r=0ajnji=1Var(Z)=Var(區(qū)rX)aajjj=1ajj=1=Xr2Var(X)=刀區(qū)r2=Eajj=1所以Z所以Z1z獨(dú)立同N(0,刀)分布。n-1又因?yàn)閟=Xn(Xjji=1=XXX-nXXjjj=1因?yàn)閚XX'=n(麗亠工X丫扳丄工=ZZnn又因?yàn)椤闤X=(X(X,)1X,2j=1=(X1)r,rnX,丿n(X,)1X,2=(Z1Xn丿(Z,)1Z,2=EZZ,-ZZ,jj=EZZ,-ZZ,jjj=1jjj=1=ZZ,+ZZ,+...+ZZ,-zz,1122nn故S=EZZ,,由于Z,Z,…,Z獨(dú)立同正態(tài)分布N(0,E),所以TOC\o"1-5"\h\zjj12n-1Pj=1S=EZZ,?W(n-12)jjpj=12.10.設(shè)X(nxp)是來自N(p,E)的簡單隨機(jī)樣本,i=1,2,3,…,k,iipii(1)已知p=p=...=p=p且E=E二...=EzE,求p和E的估計(jì)。12k12k(2)已知E=E=...=E=E求p,p,…,,p和E的估計(jì)。12k12k解:((1)p=x=1EE%Xa,n1+n+..2.+n1ka=1i=1TOC\o"1-5"\h\z"a(x?-X)Ca-X)E=^4=11-n+n+...+n12k⑵InL(p,…,p,E)1k=In[(2兀)pE|]-n2exp[-—EE(xap),E-i(xap)]a=1i=1InL(p,£)=—1pnln(2兀)—-In|E—2aInL(p,£)=—1pnln(2兀)—-In|E—2a=1i=1iaia2lnL(p,£)=—n£—1+丄工E亞22a=1i=1
(Xa—p)(Xa—p)(Si-1)=0iaia2lnL(p/£)=E£—1Opj(X—P)=0(j=1,2,...,k)ijji=1解之,得丄藝x,nij
ji=1—X)(K—X)ijjijj£=j=1i=in+n+...+n12k第三章3.1試述多元統(tǒng)計(jì)分析中的各種均值向量和協(xié)差陣檢驗(yàn)的基本思想和步驟。其基本思想和步驟均可歸納為:答:第一,提出待檢驗(yàn)的假設(shè)叫和H1;第二,給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分布;第三,給定檢驗(yàn)水平,查統(tǒng)計(jì)量的分布表,確定相應(yīng)的臨值,從而得到否定域;第四,根據(jù)樣本觀測值計(jì)算出統(tǒng)計(jì)量的值,看是否落入否定域中,以便對待判假設(shè)做出決策(拒絕或接受)。均值向量的檢驗(yàn):統(tǒng)計(jì)量拒絕域在單一變量中Iz卜za/2111>t(n—1)a/2(S2=n—1i=11_E(X—X)2作為G2的估計(jì)量)i一個(gè)正態(tài)總體H°:協(xié)差陣刀已知協(xié)差陣刀未知T2=n(X—“)'刀-1(X—“)~X2(p)000(n—1)—p+T2~F(p,n—p)(n-1)pT2>F(n—1)pa(T2=(n—i爪n(X—p)‘s*n(X—p)])00兩個(gè)正態(tài)總體H0:P1=P2
n?m有共同已知協(xié)差陣T2二——(X-Y)'£-1(X-Y)~X2(p)0n+m廠(n+m一2)一p+1仃”八有共同未知協(xié)差陣F=T2?F(p,n+m—p—1)(n+m一2)p(其中T2=(n+m一2)(X一Y)S-iVn+m協(xié)差陣不等n=mF=也_p^Z'S-iZ?F(p,n一p)p協(xié)差陣不等n豐mF=也_p^Z'S-iZ?F(p,n一p)pT2>X2
oaF>Fa(XT2>X2
oaF>Fa(X-Y)單因素方差F=SSA(k-1)=SSE(n—k)?F(k一1,n一k)多因素方差?A(p,n一k,k一1)多因素方差協(xié)差陣的檢驗(yàn)檢驗(yàn)£=£0九=exp九=exp<—*trS>|Sn/2np/2n/2npn/2np/2檢驗(yàn)£=£=???=£檢驗(yàn)£=£=???=£H:£12k0=£=….=£12k統(tǒng)計(jì)量九=nnp/21ISni/2k1i/i=1n/211npn./2ii=13.2試述多元統(tǒng)計(jì)中霍特林丁分布和威爾克斯上分布分別與一元統(tǒng)計(jì)中t分布和F分布的關(guān)系。答:(1)霍特林1分布是t分布對于多元變量的推廣。t2==n(X一卩)'(S2)-1(X一卩)而若設(shè)X?N(p,£),S?W(n,£)且X與SS2pp相互獨(dú)立,n>p,則稱統(tǒng)計(jì)量「X卩r飛卩的分布為非中心霍特林T2分布。若X?N(0,£),S?W(n,£)且X與S相互獨(dú)立,令T2=nX'S-1X,則pp
--T2?F(p,n-p+1)。np(2)威爾克斯二分布在實(shí)際應(yīng)用中經(jīng)常把二統(tǒng)計(jì)量化為T2統(tǒng)計(jì)量進(jìn)而化為F統(tǒng)計(jì)量,利用F統(tǒng)計(jì)量來解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問題。A與F統(tǒng)計(jì)量的關(guān)系pn1n2F統(tǒng)計(jì)量及分別任意任意1n—p+11—A(p,n,1)?F(p,np+1)pA(p,n,1)11任意任意2n-p1-JA(p,n,2)/]-?F(2p,2(np))pJA(p,件,2)11任意任意n1-A(1,n,n)nA(1,n,n)2/2122任意任意n-11-^A(2‘n,n)口(22(-1))「1=2—F(2n,2(n-1))nJA(2,n,n)212123.3試述威爾克斯統(tǒng)計(jì)量在多元方差分析中的重要意義。答:威爾克斯統(tǒng)計(jì)量在多元方差分析中是用于檢驗(yàn)均值的統(tǒng)計(jì)量。H:p=p=..?=pH:至少存在i豐j使p豐u012k1ij用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為E-用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為E-ETA+E?A(p,n—k,k—1)給定檢驗(yàn)水平Q,查Wilks分布表,確定臨界值,然后作出統(tǒng)計(jì)判斷。第四章4.1簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答:設(shè)p維歐幾里得空間中的兩點(diǎn)X=二’二卞和…丫"。則歐幾里得距離為-。歐幾里得距離的局限有①在多元數(shù)據(jù)分析中,其度量不合理。②會(huì)受到實(shí)際問題中量綱的影響。設(shè)X,Y是來自均值向量為:協(xié)方差為的總體G中的p維樣本。則馬氏距離為一1_1Vex,-Y,)2D(X,Y)二丫丫'丫。當(dāng)—即單位陣時(shí),D(X,Y)=:--「二=1即歐幾里得距離。因此,在一定程度上,歐幾里得距離是馬氏距離的特殊情況,馬氏距離是歐幾里得距離的推廣。4.2試述判別分析的實(shí)質(zhì)。答:判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。設(shè)Rl,R2,…,Rk是p維空間Rp的k個(gè)子集,如果它們互不相交,且它們的和集為二則稱為氣的勺一個(gè)劃分。判別分析問題實(shí)質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間構(gòu)造一個(gè)“劃分”這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。4.3簡述距離判別法的基本思想和方法。答:距離判別問題分為①兩個(gè)總體的距離判別問題和②多個(gè)總體的判別問題。其基本思想都是分別計(jì)算樣本與各個(gè)總體的距離(馬氏距離),將距離近的判別為一類。兩個(gè)總體的距離判別問題設(shè)有協(xié)方差矩陣刀相等的兩個(gè)總體q和G2,其均值分別是片和卩2,對于一個(gè)新的樣品X,要判斷它來自哪個(gè)總體。計(jì)算新樣品X到兩個(gè)總體的馬氏距離D2(X,q)和D2(X,G2),則X'山,D2(X,G)D2(X,G)12X'叫,D2(X,G)>D2(X,G,12具體分析,D2(X,G)-D2(X,G)12
=(X-p),£-i(X-”)-(X-p),£-i(X-p)1122二X2-1X-2X2-1P+p'£-ip-(X遲-1X-2X'£-ip+p'£-ip)111222=2X2-i(p-p)+p'£-ip-p'E-ip211122=2X'E-1(p-p)+(p+p)'£-1(p-p)211212f(p+pA=-2X-p1p2E-1(p-p)I2丿12=-2(X一p)'a=-2a'(X一p)記W(X)二a'(X—p)則判別規(guī)則為X‘5,W(X):二'X'(匕,W(X)<0多個(gè)總體的判別問題。設(shè)有k個(gè)總體G,G,…,G,其均值和協(xié)方差矩陣分別是p,p,…,p和刀,刀,…,刀TOC\o"1-5"\h\z12k12k12k且EE=???=EE。計(jì)算樣本到每個(gè)總體的馬氏距離,到哪個(gè)總體的距離最小就屬12k于哪個(gè)總體。具體分析,D2(X,G)-(X一p)'E-1(X一p)aaa二XE-1X-2p'E-1X+p'E-1paaa二XE-1X-2(I'X+C)aa1取1=E-1p,C=一7;p'E-1p,a=1,2,…,k。aaa2aa可以取線性判別函數(shù)為W(X)二I'X+C,a二1,2,…,kaaa相應(yīng)的判別規(guī)則為XGG.若W(X)=max(I'X+C)ii一—aa4.4簡述貝葉斯判別法的基本思想和方法?;舅枷耄涸O(shè)k個(gè)總體G,G,…,G,其各自的分布密度函數(shù)f(x),f(x),…,f(x),假設(shè)k12k12k個(gè)總體各自出現(xiàn)的概率分別為q,q,…,q,q>°,丈q=1。設(shè)將本來屬于G總體的樣品12kiiii=1錯(cuò)判到總體G時(shí)造成的損失為C(jIi),i,j=1,2,…,k。設(shè)k個(gè)總體G,G,…,G相應(yīng)的p維樣本空間為R=(R,R,…,R)。12k12^在規(guī)則R下,將屬于G的樣品錯(cuò)判為G?的概率為ijP(jIi,R)=Jf(x)dxi,j=1,2,…,kj則這種判別規(guī)則下樣品錯(cuò)判后所造成的平均損失為r(iIR)=丈[C(jIi)P(jIi,R)]i=1,2,…,kj=1
則用規(guī)則R來進(jìn)行判別所造成的總平均損失為g(R)=丈qr(i,R)ii=1=》q為C(jIi)P(jIi,R)ii=1j=1貝葉斯判別法則,就是要選擇一種劃分R,R,…,R,使總平均損失g(R)達(dá)到極小。TOC\o"1-5"\h\z12k基本方法:g(R)=C(jIi)P(jIi,R)ii=1j=1f(x)dxi=EJ(工xR11g(R)g(R)=Jh(x)dxRj
j=1j,g(R*)=》Jh(x)dxR*jj=1j令丈qC(jIi)f(x)=h(x),則iiji=1若有另一劃分R*=(R*,R*,…,R*)則在兩種劃分下的總平均損失之差為12k則在兩種劃分下的總平均損失之差為g(R)-g(R*)=迓工Ji=1j=1C9因?yàn)樵赗上h(x)<h(x)對一切j成立,故上式小于或等于零,是貝葉斯判別的解。iijR={xIh(x)=minhR={xIh(x)=minh(x)}為''1<j<kJi=1,2,…,k從而得到的劃分(R1‘S',Rk)4.5簡述費(fèi)希爾判別法的基本思想和方法。答:基本思想:從k個(gè)總體中抽取具有P個(gè)指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù)U(X)=uX+uX+???+uX=u'X1122pp系數(shù)u=(u,u,…,u)'可使得總體之間區(qū)別最大,而使每個(gè)總體內(nèi)部的離差最小。將新樣12p品的p個(gè)指標(biāo)值代入線性判別函數(shù)式中求出U(X)值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個(gè)總體。4.6試析距離判別法、貝葉斯判別法和費(fèi)希爾判別法的異同。答:①費(fèi)希爾判別與距離判別對判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對來說較為簡單。當(dāng)k=2時(shí),若:二三則費(fèi)希爾判別與距離判別等價(jià)。當(dāng)判別變量服從正態(tài)分布時(shí),二者與貝葉斯判別也等價(jià)。VVV_LV當(dāng)~~時(shí),費(fèi)希爾判別用~~作為共同協(xié)差陣,實(shí)際看成等協(xié)差陣,此與距離判別、貝葉斯判別不同。
距離判別可以看為貝葉斯判別的特殊情形。貝葉斯判別的判別規(guī)則是X'5,W(X)■-!-丄X'兀,W(X)〈lnd.距離判別的判別規(guī)則是X小'|,W(X)WX'叫,w(X)〈O二者的區(qū)別在于閾值點(diǎn)。當(dāng)q二q,C(112)二C(211)時(shí),d二1,lnd=0。二者完全12相同。4.7設(shè)有兩個(gè)二元總體"和:、,從中分別抽取樣本計(jì)算得到假設(shè)一假設(shè)一二,試用距離判別法建立判別函數(shù)和判別規(guī)則。樣品X=(6,0)'應(yīng)屬于哪個(gè)總體?解:—〕-0,5/3\解:—〕-0,5/Wp—?'(x-p)-(x-了)’-舊)(x-ji)-(&0)-〔4』土)一C2.0.5)-1_J—3967-2.1-1_J—3967-2.15.8W卩—(2』.5)7.6-Z1-2.15.824.4旳白7>°''*'厲即樣品X屬于總體54.8某超市經(jīng)銷十種品牌的飲料,其中有四種暢銷,三種滯銷,三種平銷。下表是這十種品牌飲料的銷售價(jià)格(元)和顧客對各種飲料的口味評分、信任度評分的平均數(shù)。銷售情況產(chǎn)品序號銷售價(jià)格口味評分信任度評分12.258暢銷22.56733.03943.28652.876平銷63.58774.89881.734滯銷92.242102.743(1)根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進(jìn)行回判。⑵現(xiàn)有一新品牌的飲料在該超市試銷,其銷售價(jià)格為3.0,顧客對其口味的評分平均為8,信任評分平均為5,試預(yù)測該飲料的銷售情況。解:增加group變量,令暢銷、平銷、滯銷分別為groupl、2、3;銷售價(jià)格為X】,口味評分為X2,信任度評分為X3,用spss解題的步驟如下:在SPSS窗口中選擇Analyze—ClassifyfDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將X]、X2、X3變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。如圖4.1圖4.1判別分析主界面3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's:給出Bayes判別函數(shù)的系數(shù)。(注意:這個(gè)選項(xiàng)不是要給出Fisher判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所以為Fisher's,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)如圖4.2。單擊Continue按鈕,返回主界面。圖4.2statistics子對話框4.單擊Classify...按鈕,彈出classification子對話框,選中Display選項(xiàng)欄中的Summarytable復(fù)選框,即要求輸出錯(cuò)判矩陣,以便實(shí)現(xiàn)題中對原樣本進(jìn)行回判的要求。如圖4.3。
圖4.3classification對話框5.返回判別分析主界面,單擊OK按鈕,運(yùn)行判別分析過程。1)根據(jù)判別分析的結(jié)果建立Bayes判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應(yīng)類的Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下:Groupl:Y1=—81.843—11.689X1+12.297X2+16.761X3Group2:Y2=—94.536—10.707X1+13.361X2+17.086X3Group3:Y3=—17.449—2.194X1+4.960X2+6.447X3將各樣品的自變量值代入上述三個(gè)Bayes判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。ClassifcationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進(jìn)行回判,結(jié)果如表4.2。從中可以看出在4種暢銷飲料中,有3種被正確地判定,有1種被錯(cuò)誤地判定為平銷飲料,正確率為75%。在3種平銷飲料中,有2種被正確判定,有1種被錯(cuò)誤地判定為暢銷飲料,正確率為66.7%。3種滯銷飲料均正確判定。整體的正確率為80.0%。Class^cat^nResultsaPredictedGroupMembershipgroup123TotalOriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2錯(cuò)判矩陣2)該新飲料的X1二3.0,X2二8,X3二5,將這3個(gè)自變量代入上一小題得到的Bayes判別函數(shù),Y2的值最大,該飲料預(yù)計(jì)平銷。也可通過在原樣本中增加這一新樣本,重復(fù)上述的判別過程,并在classification子對話框中同時(shí)要求輸出casewiseresults,運(yùn)行判別過程,得到相同的結(jié)果。4.9銀行的貸款部門需要判別每個(gè)客戶的信用好壞(是否未履行還貸責(zé)任),以決定是否給予貸款??梢愿鶕?jù)貸款申請人的年齡(X)、受教育程度(X)、現(xiàn)在所從事工作的年數(shù)12(X)、未變更住址的年數(shù)(X)、收入(X)、負(fù)債收入比例(X)、信用卡債務(wù)(X)、34567其它債務(wù)(X)等來判斷其信用情況。下表是從某銀行的客戶資料中抽取的部分?jǐn)?shù)據(jù),(1)8根據(jù)樣本資料分別用距離判別法、Bayes判別法和Fisher判別法建立判別函數(shù)和判別規(guī)則。⑵某客戶的如上情況資料為(53,1,9,18,50,11.20,2.02,3.58),對其進(jìn)行信用好壞的判別。目前信用好壞客戶序號X1X2X3X4X5X6X7X8123172316.600.341.71已履行還234117359&001.812.913422723414.600.94.94貸責(zé)任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行還貸責(zé)任7291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36解:令已履行還貸責(zé)任為groupO,未履行還貸責(zé)任為group1。令(53,1,9,18,50,11.20,2.02,3.58)客戶序號為11,group未知。用spss解題步驟如下:在SPSS窗口中選擇AnalyzefClassifyfDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將X1-X6變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為0到1,所以在最小值和最大值中分別輸入0和1。單擊Continue按鈕,返回主界面。單擊Statistics...按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's和Unstandardized。單擊Continue按鈕,返回主界面。單擊Classify.按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,以輸出一個(gè)判別結(jié)果表。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊Continue按鈕。5.返回判別分析主界面,單擊OK按鈕,運(yùn)行判別分析過程。1)用費(fèi)希爾判別法建立判別函數(shù)和判別規(guī)則:未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。具體見表4.3。CanoriiccilDtscrJmlnarTtFunctionCoethcieiKsFundion111KB雨XS[Constant)-.032S.6B7■173-.357710.7922.303-10.70JUnstandardized匚口efficients表4.3未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由此表可知,F(xiàn)isher判別函數(shù)為:Y=—10.794—0.32X1+6.687X2+0.173X3+0.357X4+0.024X5+0.710X6+0.792X7—2.383X8用Y計(jì)算出各觀測值的具體坐標(biāo)位置后,再比較它們與各類重心的距離,就可以得知分類,如若與groupO的重心距離較近則屬于groupO,反之亦然。各類重心在空間中的坐標(biāo)位置如表4.4所示。FunctionsatGroupCentroidsgrouFuncton1o0-143711437Unstandardizedcaronicadiscriminantfunctonsevaluatedatg-oupmeans表4.4各類重心處的費(fèi)希爾判別函數(shù)值用bayes判別法建立判別函數(shù)與判別規(guī)則,由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等,所以距離判別法與bayes判別完全一致。如表4.5所示,group欄中的每一列表示樣品判入相應(yīng)列的Bayes判別函數(shù)系數(shù)。由此可得,各類的Bayes判別函數(shù)如下:G0=—118.693+0.340X1+94.070X2+1.033X3—4.943X4+2.969X5+13.723X6—10.994X7—37.504X8G1=—171.296+0.184X1+126.660X2+1.874X3—6.681X4+3.086X5+17.182X6—7.133X7—49.116X8
group01.340/04X294.070126.660x3-.UJJx4-i.y-i'j-6.681x5x613.72317.182k7-10.994-7.133kS-37.504-49.116(Constant}-110.693-171.296Fisher'slineardiscnminantfunctians表4.5Bayes判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個(gè)Bayes判別函數(shù),得到兩個(gè)函數(shù)值。比較這兩個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品該判入哪一類。2)在判別結(jié)果的CasewiseStastics表中容易查到該客戶屬于groupO,信用好。4.10從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個(gè)病人進(jìn)行四項(xiàng)生化指標(biāo)的化驗(yàn):血清銅蛋白(X)、藍(lán)色反應(yīng)(X)、尿吲哚乙酸(X)和中性硫化物(X),數(shù)據(jù)見1234下表。試用距離判別法建立判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進(jìn)行回判。胃癌患者胃炎患者
萎縮性非胃炎患者12345678910-11121314154137106611005184027胃癌患者胃炎患者
萎縮性非胃炎患者12345678910-111213141541371066110051840278146261019122解:令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為groupl、group2、group3,由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等,所以距離判別法與bayes判別完全一致。用spss的解題步驟如下:1.在SPSS窗口中選擇AnalyzefClassifyfDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將X]、X2、X3、X4變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。單擊Statistics...按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's:給出Bayes判別函數(shù)的系數(shù)。單擊Classify...按鈕,彈出classification子對話框,選中Display選項(xiàng)欄中的Summarytable復(fù)選框,即要求輸出錯(cuò)判矩陣,以便實(shí)現(xiàn)題中對原樣本進(jìn)行回判的要求。5?返回判別分析主界面,單擊OK按鈕,運(yùn)行判別分析過程。根據(jù)判別分析的結(jié)果建立Bayes判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.6。表中每一列表示樣本判入相應(yīng)類的Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下:Group1:Group2:Y1二-79.212+0.164X1+0.753X2+0.778X3+0.073X4Y2=—46.721+0.130X1+0.595X2+0.317X3+0.012X4Group3:Y3=-49.598+0.130X1+0.637X2+0.100X3—0.059X4將各樣品的自變量值代入上述三個(gè)Bayes判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。ClassificationFunctionCoeTTicientsgraup12:Ki疝x:3k4(Constant).'£4.778.073-4'.'17.130.^17.C12-iH.130hr.130-.059Fisher'slineardiscnrninantfunctiuns表4.6Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進(jìn)行回判,結(jié)果如表4.7。從中可以看出在5個(gè)胃癌患者中,有4個(gè)被正確地判定,有1個(gè)被錯(cuò)誤地判定為非胃炎患者,正確率為80%。在5個(gè)萎縮性胃炎患者中,有4個(gè)被正確判定,有1個(gè)被錯(cuò)誤地判定為非胃炎患者,正確率為80%。在5個(gè)非胃炎患者中,有4個(gè)被正確判定,有1個(gè)被錯(cuò)誤地判為萎縮性胃炎患者。整體的正確率為80.0%。ClassiriizstionRbsijIIs-8□roudPredictedGroupMsmhership015113OriginalCoiinl14015204153015%1BD.O.02D.010D.O2.aODC2K-ODC2.a2DCOK'QIiCa.90.0%oforiginalgroupedcasescorrectlyclasoifiQd.表4.7錯(cuò)判矩陣
第五章判別分析和聚類分析有何區(qū)別?答:即根據(jù)一定的判別準(zhǔn)則,判定一個(gè)樣本歸屬于哪一類。具體而言,設(shè)有!個(gè)樣本,對每個(gè)樣本測得P項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類別(或總體)中的某一類,通過找出一個(gè)最優(yōu)的劃分,使得不同類別的樣本盡可能地區(qū)別開,并判別該樣本屬于哪個(gè)總體。聚類分析是分析如何對樣品(或變量)進(jìn)行量化分類的問題。在聚類之前,我們并不知道總體,而是通過一次次的聚類,使相近的樣品(或變量)聚合形成總體。通俗來講,判別分析是在已知有多少類及是什么類的情況下進(jìn)行分類,而聚類分析是在不知道類的情況下進(jìn)行分類。試述系統(tǒng)聚類的基本思想。答:系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。對樣品和變量進(jìn)行聚類分析時(shí),所構(gòu)造的統(tǒng)計(jì)量分別是什么?簡要說明為什么這樣構(gòu)造?答:對樣品進(jìn)行聚類分析時(shí),用距離來測定樣品之間的相似程度。因?yàn)槲覀儼裯個(gè)樣本看作p維空間的n個(gè)點(diǎn)。點(diǎn)之間的距離即可代表樣品間的相似度。常用的距離為(一)閔可夫斯基距離:dj(q)=ElXi.-Xj』)1/qk=1q取不同值,分為(1)絕對距離(q=1)d(1)=蘭X-Xijikjkk=1(2)歐氏距離(q=2)d(2)=(嚴(yán)X-X2)i/2jk=13jk=13)切比雪夫距離d(a)=maxij1<k<p二)馬氏距離三)蘭氏距離(q=g)X—Xikjkd(L)=一蘭一ik返ijpX+Xk=1ikjkd2(M)=(X-X)'吝1(X-X)ijijij對變量的相似性,我們更多地要了解變量的變化趨勢或變化方向,因此用相關(guān)性進(jìn)行衡量。將變量看作p維空間的向量,一般用(一)夾角余弦Yxxcos0cos0ij(二)相關(guān)系數(shù)刀(x-X)(x-X)ikijkjY(X-X)2Y(X-X)2工k=1ik(X-X)2jkjk=15.4在進(jìn)行系統(tǒng)聚類時(shí),不同類間距離計(jì)算方法有何區(qū)別?選擇距離公式應(yīng)遵循哪些原則?答:設(shè)dij表示樣品^與X之間距離,用D..表示類色與G之間的距離(1).最短距離法D=-mindijX.eG,XeGijIIJJD==mind=min{D,D}krXeG,XeGij切kqik,jr(2)最長距離法D==maxdpqXeG,XeGjipjqD=maxd=max{D,D}krXeG,XeGijkpkq1kjr(3)中間距離法D2=—D2+—D2+BD2kr2kp2kqpq其中1.I」|;門重心法D2=(X-X)'(X-X)X=±(nX+nX)pqpqpqrnpprnnnnD2二亠D2+亠D2一pqD2krnkpnkqn2pq類平均法D2工工d2D2工工d2pqnnjpqX-哲krkpkqXeGXeG-kjr可變類平均法cnncD2可變類平均法cnncD2=(1-P)(-^D2+qD2)+BD2
krnkPnkqpqrr其中卩是可變的且卩<1可變法1—BD2=(D2+D2)+PD2kr2kpkqpq離差平方和法其中P是可變的且P<1s=家(x-X)(x-X)tittittt=1n+nn+nnD2=—kpD2+_kqD2一k—D2krn+nkpn+nkqn+npqrkrkrk通常選擇距離公式應(yīng)注意遵循以下的基本原則:要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。要考慮研究對象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定最合適的距離測度方法。5.5試述K均值法與系統(tǒng)聚類法的異同。答:相同:K—均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的。不同:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開實(shí)踐經(jīng)驗(yàn)的積累;有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為K—均值法確定類數(shù)的參考。5.6試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的基本思想。答:K均值法的基本思想是將每一個(gè)樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類,其結(jié)果作為K均值法確定類數(shù)的參考。有序聚類就是解決樣品的次序不能變動(dòng)時(shí)的聚類分析問題。如果用X,X,…,X表示⑴(2)(n)n個(gè)有序的樣品,則每一類必須是這樣的形式,即X,X,…,X,其中1<i<n,且(i)(i+1)(j)j<n,簡記為G二{i,i+1,…,j}。在同一類中的樣品是次序相鄰的。一般的步驟是(1)計(jì)算直徑{D(i,j)}。(2)計(jì)算最小分類損失函數(shù){L[p(l,k)]}。⑶確定分類個(gè)數(shù)k。(4)最優(yōu)分類。5.7檢測某類產(chǎn)品的重量,抽了六個(gè)樣品,每個(gè)樣品只測了一個(gè)指標(biāo),分別為1,2,3,6,9,11?試用最短距離法,重心法進(jìn)行聚類分析。(1)用最短距離法進(jìn)行聚類分析。采用絕對值距離,計(jì)算樣品間距離陣"4G2G4G6Gq0G.,210G.3210G坤5430乞87630G61098520由上表易知"?中最小元素是'-「I-,于是將聚為一類,記為;;計(jì)算距離陣"|G?G4匹"1中最小元素是''-=2于是將聚為一類,記為“計(jì)算樣本距離陣"’sG40G430Gg630"?:中最小元素是'廣八―于是將聚為一類,記為因此,%込G隔——G4石眾罠一時(shí)|気i2r(2)用重心法進(jìn)行聚類分析計(jì)算樣品間平方距離陣|4G4G5GtiG101041025169064493690G610081642540.2.22.易知"1中最小元素是■1于是將聚為一類,記為匚Y)2計(jì)算距離陣G7G4G'i%
TOC\o"1-5"\h\z耳160£4990"召812540D注:計(jì)算方法=D注:計(jì)算方法='6--U1210],其他以此類推?!汩T中最小元素是°驚=4于是將力,G召聚為一類,記為G&計(jì)算樣本距離陣"?°4G0Gr70416064160.2.22D⑺中最小元素是°訕?biāo)枚坝谑菍弓,6、%聚為一類,記為d因此,5.8下表是15個(gè)上市公司2001年的一些主要財(cái)務(wù)指標(biāo),使用系統(tǒng)聚類法和K—均值法分別對這些公司進(jìn)行聚類,并對結(jié)果進(jìn)行比較分析。公司編號凈資產(chǎn)每股凈總資產(chǎn)資產(chǎn)負(fù)流動(dòng)負(fù)每股凈凈利潤總資產(chǎn)收益率利潤周轉(zhuǎn)率債率債比率資產(chǎn)增長率增長率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11
300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74解:令凈資產(chǎn)收益率為X1,每股凈利潤X2,總資產(chǎn)周轉(zhuǎn)率為X3,資產(chǎn)負(fù)債率為X4,流動(dòng)負(fù)債比率為X5,每股凈資產(chǎn)為X6,凈利潤增長率為X7,總資產(chǎn)增長率為X8,用spss對公司聚類分析的步驟如下:a)系統(tǒng)聚類法:1.在SPSS窗口中選擇Analyze—Classify^HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1-X8移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進(jìn)行聚類(若選擇Variables,則對變量進(jìn)行聚類)。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。XI立曲Mxs-stJSECIviAH>ClEfEXI立曲Mxs-stJSECIviAH>ClEfE圖5.1系統(tǒng)分析法主界面點(diǎn)擊Statistics按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)量。我們選擇Agglomerationschedule與ClusterMembership中的Rangeofsolution2-4,如圖5.2所示,點(diǎn)擊Continue按鈕,返回主界面。(其中,Agglomerationschedule表示在結(jié)果中給出聚類過程表,顯示系統(tǒng)聚類的詳細(xì)步驟;Proximitymatrix表示輸出各個(gè)體之間的距離矩陣;ClusterMembership表示在結(jié)果中輸出一個(gè)表,表中顯示每個(gè)個(gè)體被分配到的類別,Rangeofsolution2-4即將所有個(gè)體分為2至4類。)點(diǎn)擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)圖。選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,如圖5.3,即只給出聚類樹形圖,而不給出冰柱圖。單擊Continue按鈕,返回主界面。
堀HierarchicalclusterAnalysis;sta.回童ikMierHiijn丸Fiedug□EfoxJrrivrtisUlxTOC\o"1-5"\h\z-ClusterhJenribi^rshiii(QtJoneQ.Snefa^iJlanriiirba-afcLislefa:|(?;RonQear.sajlionsUhmumnurnt^tor>?lusters:2電HigipnehicjJ匸111北前血詁盧益Pio-JifcHjI0QHK*fl!F-yi電HigipnehicjJ匸111北前血詁盧益Pio-JifcHjI0QHK*fl!F-yikxteQAll-=kji1vaQ気加I跆rAT<|4O'口山£>打玄ix?Mrt4ik)hIContinue:CflHCtiIFtIp圖5.2Statistics子對話框I<crtirij&]|CmdIW□圖5.3Plots子對話框單擊Continue按鈕,返回主界面。圖單擊Continue按鈕,返回主界面。圖5.4Method子對話框4.點(diǎn)擊Method按鈕,設(shè)置系統(tǒng)聚類的方法選項(xiàng)。ClusterMethod下拉列表用于指定聚類的方法,這里選擇Between-groupinkage(組間平均數(shù)連接距離);Measure欄用于選擇對距離和相似性的測度方法,選擇SquaredEuclideandistance(歐氏距離);圖5.5Save子對話框點(diǎn)擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。None表示不保存任何新變量;Singlesolution表示生成一個(gè)分類變量,在其后的矩形框中輸入要分成的類數(shù);Rangeofsolutions表示生成多個(gè)分類變量。這里我們選擇Rangeofsolutions,并在后面的兩個(gè)矩形框中分別輸入2和4,即生成三個(gè)新的分類變量,分別表明將樣品分為2類、3類和4類時(shí)的聚類結(jié)果,如圖5.5。點(diǎn)擊Continue,返回主界面。點(diǎn)擊OK按鈕,運(yùn)行系統(tǒng)聚類過程。聚類結(jié)果分析:下面的群集成員表給出了把公司分為2類,3類,4類時(shí)各個(gè)樣本所屬類別的情況,另外,從右邊的樹形圖也可以直觀地看到,若將15個(gè)公司分為2類,則13獨(dú)自為一類,其余的為一類;若分為3類,則公司8分離出來,自成一類。以此類推。表5.1各樣品所屬類別表
刊14栓2曲黑EEBcaltdBist-onceCIllsterContiine11112111CAS2a5ID15£0£53111LakielNub—-4_.q————4————一——4_--一44111:&2119E11127111124B321ID911111D1117:41111131-1111513A3211U1115B1511113圖5.6聚類樹形圖b)K均值法的步驟如下:1.在SPSS窗口中選擇AnalyzefClassifyfK-MeansCluster,調(diào)出K均值聚類分析主界面,并將變量X1-X8移入Variables框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計(jì)算新的類中心,并替換舊的類中心(若選擇Classifyonly,則根據(jù)初始類中心進(jìn)行聚類,在聚類過程中不改變類中心)。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將15個(gè)公司分為3類。(Centers按鈕,則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,則系統(tǒng)會(huì)自動(dòng)設(shè)置初始類中心,這里我們不作設(shè)置。)圖5.7K均值聚類分析主界面2.點(diǎn)擊Iterate按鈕,對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),輸入10,ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),輸入0,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。單擊Continue,返回主界面。圖5.8圖5.8Iterate子對話框3.點(diǎn)擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。我們將兩個(gè)復(fù)選框都選中,其中Clustermembership選項(xiàng)用于建立一個(gè)代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;Distancefromclustercenter選項(xiàng)建立一個(gè)新變量,代表各觀測量與其所屬類中心的歐氏距離。單擊Continue按鈕返回。3.圖5.9Save子對話框4.點(diǎn)擊Options按鈕,指定要計(jì)算的統(tǒng)計(jì)量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個(gè)公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距離。單擊Continue返回。4.5.圖5.10Options子對話框點(diǎn)擊0K按鈕,運(yùn)行K均值聚類分析程序。5.聚類結(jié)果分析:以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各類的公司數(shù)。由以上表格可得公司13與公司8各自成一類,其余的公司為一類。通過比較可知,兩種聚類方法得到的聚類結(jié)果完全一致。
聚類成員室…1398.153聚類成員室…1398.15323'12.9代33235.34643531609.9586393.39913205.5M02.OOC9395.9231J338.967113834.134123101.3521?1.OOC143346.882153433.1?8每個(gè)聚案中的案洌敎11.00021.000313.000有效15.000.000聚類123X195.7911.126.48竝-5.20-1.69.08X3.5012.39姻252.34132.1471.483(599.34100.0092.06妨-5.42-.661.90-9816.52-4454.39-103.94如-46.82-627511.915.9下表是某年我國16個(gè)地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù),每個(gè)地區(qū)調(diào)查了反映每人平均生活消費(fèi)支出情況的六個(gè)經(jīng)濟(jì)指標(biāo)。試通過統(tǒng)計(jì)分析軟件用不同的方法進(jìn)行系統(tǒng)聚類分析,并比較何種方法與人們觀察到的實(shí)際情況較接近。地區(qū)食品衣著燃料住房交通和通訊娛樂教育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25內(nèi)蒙128.4127.638.9412.5823.992.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山東115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:令食品支出為X1,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如5.8題,不同的方法在第4個(gè)步驟的Method子對話框中選擇不同的Clustermethod。1.Between-groupinkage(組間平均數(shù)連接距離)4枠34枠3梅丄F級111l222I3321出3215221621?221a231g432ID221iii111-22113221U2211532I15321CASE0210152D25LabelNinu十十+十+一十上表給出了把全國16個(gè)地區(qū)分為2類、3類和4類時(shí),各地區(qū)所屬的類別,另外從右邊的樹形圖也可以直觀地觀察到,若用組間平均數(shù)連接距離將這些地區(qū)分為3類,則9(上海)獨(dú)自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。Within-grouplinkage(組內(nèi)平均連接距離)3薛2^-W113薛2^-W11112221332143215221622172218321g>1311D221li22112E11132211J221152211g321CASELabelNum5B151013IE611119-■-+■若用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類,則9(上海)獨(dú)自為一類,1(北京)獨(dú)自為一類,剩余地區(qū)為一類。Nearestneighbor(最短距離法)
卻1?3SI生2群生11卻1?3SI生2群生11122:21322142215221G22172Q1S22193321022111421122Q113221142211522116221CASELabelNum:!:■5:;1314121I61:.1_191020若用最短距離法將這些地區(qū)分為3類,則9(上海)獨(dú)自為一類,1(北京)獨(dú)自為一類,剩余地區(qū)為一類。Furthestneighbor(最遠(yuǎn)距離法)冊兌咸員土51戟3群集11土51戟3群集111122243£225326223722283229a3110222111111222213222H2221532216922匚A5ELabelHuaS=15z121314127ii9HescaledinstanceCluacerCoutolne若用最遠(yuǎn)距離法將這些地區(qū)分為3類,則9(上海)獨(dú)自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。Centroidcluster(重心法)
霸隼矗員4:-10(上海)獨(dú)自為一類,1(北京)和11(浙江)1119L十霸隼矗員4:-10(上海)獨(dú)自為一類,1(北京)和11(浙江)1119L十ENumCiSLabelEn?103164MedianclusterEn?103164若用中位數(shù)距離法將這些地區(qū)分為3類,則9(上海)獨(dú)自為一類,1(北京)和11(浙江)為一類,剩余地區(qū)為一類。7.Wardmethod(離差平方和)群梟威員二I+C1SELabel7.Wardmethod(離差平方和)群梟威員二I+C1SELabelJJiuti1015-+■2025-+若用離差平方和法將這些地區(qū)分為3類,則9(上海),1(北京)和11(浙江)為一類,2(天津)、6(遼寧)、7(吉林)、10(江蘇)、12(安徽)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計(jì)分析軟件進(jìn)行快速聚類運(yùn)算,并與系統(tǒng)聚類分析結(jié)果進(jìn)行比較。解:快速聚類運(yùn)算即K均值法聚類,具體步驟同5.8,聚類結(jié)果如下:室…汩嘗1室…汩嘗1146.7512122.9203322.4004316.8645313.8006115.2557126.265037.51392.00010114.59311117.93612319.50113125.91214325.20815319.20116316.403123166.77221…117.-602.7939.6425.4113.9612.5311.4030.15115.6519.4033.33508321.895.595B34.23/.UJJ11.0DO38.0DO有啟16.0DO.000聚類的結(jié)果為9(上海)獨(dú)自為一類,1(北京)、2(天津)、6(遼寧)、7(吉林)、10(江蘇)、11(浙江)、13(福建)和14(江西)為一類,剩余地區(qū)為一類。5.11下表是2003年我國省會(huì)城市和計(jì)劃單列市的主要經(jīng)濟(jì)指標(biāo):人均GDPx(元)、1人均工業(yè)產(chǎn)值X(元)、客運(yùn)總量x(萬人)、貨運(yùn)總量x(萬噸)、地方財(cái)政預(yù)算內(nèi)收入XTOC\o"1-5"\h\z2345(億元)、固定資產(chǎn)投資總額X(億元)、在崗職工占總?cè)丝诘谋壤齒(%)、在崗職工人均67工資額X(元)、城鄉(xiāng)居民年底儲(chǔ)蓄余額X(億元、。試通過統(tǒng)計(jì)分析軟件進(jìn)行系統(tǒng)聚類分89析,并比較何種方法與人們觀察到的實(shí)際情況較接近。城市X1X2X3X4X5X6X7X8X9北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家莊15134131591184310008494169.5123061044太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈陽23268154466612146368155714.8149611423大連2914527615110012108111140714.7175601310長春18630210456999108924629412.513870831哈爾濱148257561645895187642317.7124511154
上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466寧波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876廈門5359093126444130557023838.619024397南昌142219205572844543121011.013913483濟(jì)南23437226345810143547642913.516027758青島2470535506146663055312054814.515335908鄭州16674140231070978476637312.7135381048武漢212781708311882166108062317.4137301286長沙15446887310609106316043410.016987705廣州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南寧8176339070165893361708.313171451???644214553132843304129916.514819284重慶71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494貴陽11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211蘭州1445917136220955812120318.013489468西寧706656052788203787610.114629175銀川1178711013214621271213421.913497193烏魯木齊22508171372188127544118026.116509420南寧31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825資料來源:《中國統(tǒng)計(jì)年鑒2004》解:用spss對37個(gè)地區(qū)聚類分析的步驟如5.8題,不同的方法在第4個(gè)步驟的Method子對話框中選擇不同的Clustermethod。I.Between-groupinkage(組間平均數(shù)連接距離)從上面的樹形圖可以直觀地觀察到,若用組間平均數(shù)連接距離將這些地區(qū)分為3類,則24(深圳)獨(dú)自為一類,10(上海)和16(廈門)為一類,剩余地區(qū)為一類。
Within-grouplinkage(組內(nèi)平均連接距離)若用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類,則24(上海)獨(dú)自為一類,27(重慶)和28(成都)為一類,剩余地區(qū)為一類。Nearestneighbor(最短距離法)EE7E5LBEB4743D3.169D54*5330.-7P33LL63D7B6Ji33ziiii322323z33zJT-JT-3E1EE1E若用最短距離法將這些地區(qū)分為2類,則24(深圳)獨(dú)自為一類,剩余地區(qū)為一類。Furthestneighbor(最遠(yuǎn)距離法)
□719111231口i£asI3.S18日1-5-1Is?;湘53230一11—一Z3—:M若用最遠(yuǎn)距離法將這些地區(qū)分為3類,則24(深圳)獨(dú)自為一類,1(北京)、2(天津)、7(大連)、10(上海))11(南京))12(杭州)、13(寧波))16(廈門)、19(青島)、23(廣州)、36(海寧)和37(??冢橐活悾S嗟貐^(qū)為一類。Centroidcluster(重心法)若用重心法將這些地區(qū)分為3類,則24(深圳)獨(dú)自為一類,10(上海)和16(廈門)為一類,剩余地區(qū)為一類。Mediancluster(中位數(shù)距離)
若用中位數(shù)距離法將這些地區(qū)分為3類,則24(深圳)獨(dú)自為一類,1(北京)、2(天津)、7(大連))10(上海))11(南京))12(杭州))13(寧波))16(廈門))19(青島))23(廣州)、36(海寧)和37(??冢橐活?,剩余地區(qū)為一類。7.Wardmethod(離差平方和)若用離差平方和法將這些地區(qū)分為3類,則24(深圳)獨(dú)自為一類,1(北京)、2(天津)、7(大連)、10(上海)、11(南京)、12(杭州)、13(寧波)、16(廈門)、19(青島)、23(廣州)、36(海寧)和37(??冢橐活?,剩余地區(qū)為一類。經(jīng)過比較,各種方法得到的結(jié)果又相似點(diǎn)也有不同點(diǎn)。筆者認(rèn)為,其中最遠(yuǎn)距離法、中位數(shù)距離、離差平方和這三種方法所得到的結(jié)果與現(xiàn)實(shí)生活中人們的感覺比較相近。5.12下表是我國1991-2003年的固定資產(chǎn)投資價(jià)格指數(shù),試對這段時(shí)期進(jìn)行分段,并據(jù)此對我國固定資產(chǎn)投資的價(jià)格變化情況進(jìn)行分析。年份1991199219931994199519961997指數(shù)109.5115.3126.6110.4105.9104.0101.7年份199819992000200120022003指數(shù)99.899.6101.1100.4100.2100.2第八早6.1試述主成分分析的基本思想。答:我們處理的問題多是多指標(biāo)變量問題,由于多個(gè)變量之間往往存在著一定程度的相關(guān)性,人們希望能通過線性組合的方式從這些指標(biāo)中盡可能快的提取信息。當(dāng)?shù)谝粋€(gè)組合不能提取更多信息時(shí),再考慮第二個(gè)線性組合。繼續(xù)這個(gè)過程,直到提取的信息與原指標(biāo)差不多時(shí)為止。這就是主成分分析的基本思想。6.2主成分分析的作用體現(xiàn)在何處?答:一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;主成分分析的作用就是在降低數(shù)據(jù)“維數(shù)”的同時(shí)又保留了原數(shù)據(jù)的大部分信息。6.3簡述主成分分析中累積貢獻(xiàn)率的具體含義。答:主成分分析把P個(gè)原始變量X,X,…,X的總方差tr(E分解成了“個(gè)相互獨(dú)立的變量TOC\o"1-5"\h\z12pY,丫,…,Y的方差之和另\。主成分分析的目的是減少變量的個(gè)數(shù),所以一般不會(huì)使用所有12pP個(gè)主成分的,忽略一些帶有較小方差的主成分將不會(huì)給總方差帶來太大的影響。這里我們稱9亠乞九為第k個(gè)主成分Yk的貢獻(xiàn)率。第一主成分的貢獻(xiàn)率最大,這表明Y二TXkkkk=i綜合原始變量X,X,…,X的能力最強(qiáng),而Y,Y,…,Y的綜合能力依次遞減。若只取12p23pm(<p)個(gè)主成分,則稱屮=Y入:刀入為主成分Y,…,Y的累計(jì)貢獻(xiàn)率,累計(jì)貢獻(xiàn)率kjk1mk=1k=lm,使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分表明I;,]Ym綜合Xi,b…,X的能力。通常取數(shù)(如85m,使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分6.4在主成分分析中“原變量方差之和等于新的變量的方差之和”是否正確?說明理由。答:這個(gè)說法是正確的。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省課題申報(bào)評審書
- 婦聯(lián)調(diào)研課題申報(bào)書
- 課題申報(bào)書序號
- 節(jié)水潔具研究課題申報(bào)書
- Unit 3 Keep Fit 單元檢測練習(xí)(含答案)七年級英語下冊(人教版2024)
- 員工合同范本32條
- 學(xué)校美育工作課題申報(bào)書
- 付款保證合同范本
- 三拆除工程合同范本
- 農(nóng)村梯田出租合同范本
- 電鍍園區(qū)現(xiàn)場管理
- 電腦終端安全培訓(xùn)
- 成人重癥患者顱內(nèi)壓增高防控護(hù)理專家共識2024
- 物品消毒知識培訓(xùn)課件
- 2025年安徽淮北市建投控股集團(tuán)招聘筆試參考題庫含答案解析
- 《孤獨(dú)的小螃蟹》導(dǎo)讀課件
- 城市軌道交通行車組織 課件 項(xiàng)目3 車站行車作業(yè)組織
- 少兒足球基礎(chǔ)知識
- 兒童家長非免疫規(guī)劃疫苗猶豫量表的編制及信效度檢驗(yàn)
- 咖啡店飲品配方保密協(xié)議
- 2025年岳陽市岳陽樓區(qū)招考網(wǎng)格管理員高頻重點(diǎn)提升(共500題)附帶答案詳解
評論
0/150
提交評論