朱建平：應(yīng)用多元統(tǒng)計(jì)分析課后答案-

上傳人：d*** IP屬地：天津上傳時(shí)間：2023-09-14 格式：DOCX 頁數(shù)：80 大小：744.02KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩75頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章2.1.試敘述多元聯(lián)合分布和邊際分布之間的關(guān)系。解：多元聯(lián)合分布討論多個(gè)隨機(jī)變量聯(lián)合到一起的概率分布狀況，X=(X,X，…X)'的12P聯(lián)合分布密度函數(shù)是一個(gè)p維的函數(shù)，而邊際分布討論是X=(X,X，…X)'的子向量的12P概率分布，其概率密度函數(shù)的維數(shù)小于P。2.2設(shè)二維隨機(jī)向量(XiX2)'服從二元正態(tài)分布’寫出其聯(lián)合分布。解：設(shè)(Xi解：設(shè)(XiX2)'的均值向量為p=(卩?！瘏f(xié)方差矩陣為、12Q2丿2則其聯(lián)合分布密度函數(shù)為f(f(x)(1]W2兀)2(Q2、-1/2廠1(C2、-11112exp<—牙(x—p)112(x-p)>、21Q2丿22&21Q2丿22?3已知隨機(jī)向量(XiX2)'的聯(lián)合密度函數(shù)為2[(d—c)(x—a)+(b—a)(x—c)—2(x—a)(x—c)]

f(x,x)=1212—i2(b-a)2(d-c)2其中a<x<b，c<x<d。求12⑴隨機(jī)變量X1和X2的邊緣密度函數(shù)、均值和方差;⑵隨機(jī)變量X1和X2的協(xié)方差和相關(guān)系數(shù);3)判斷X1和X2是否相互獨(dú)立。1)解：隨機(jī)變量X1和X2的邊緣密度函數(shù)、均值和方差

fx1（x1）d2［（d一c）（x一a）fx1（x1）d2［（d一c）（x一a）+（b一a）（x一c）一2（x一a）（x一c）］=J1212dxc2（b一a）2（d一c）22（d一c）（x一a）x

=+2（b一a）2（d—c）2d,Jd2［（b一a）（x一c）一2（x一a）（x一c）］c（b—a）2（d—c）2cdx2（d一c）（x一a）x

=12（b一a）2（d一c）2'+Jd-c2［（b-a"-2（珥一a”］dto（b—a）2（d—c）2c2（d一c）（x一a）x

=12（b一a）2（d一c）2d［（b—a）t2—2（x—a）t2］+1（b—a）2（d—c）2所以由于Xi服從均勻分布,b+a則均值為〒，方差為（b-a）212同理，由于X服從均勻分布f(x)=<2x22g［c,d］，則均值為2x1其它(d一c萬差為p⑵解：隨機(jī)變量Xi和X的協(xié)方差和相關(guān)系數(shù);cov（x,x）12=JdJb=JdJbca\、（xI2d+c）2［（d—c）（x—a）+（b—a）（x—c）—2（x—a）（x—c）］—12122丿2（b一a）2（d一c）2dxdx12（c—d）（b—a）36cov（x,x）P=1——2—x1x2(3)解：判斷X和X是否相互獨(dú)立。12X和X由于f(x,x)豐f(x)f(x)，所以不獨(dú)立。1212x11x222.4設(shè)X=(X,X，…X)'服從正態(tài)分布，已知其協(xié)方差矩陣E為對角陣，證明其分量是相12P互獨(dú)立的隨機(jī)變量。解：因?yàn)閄=(X1,X2,…Xp)'的密度函數(shù)為f(x1,f(x1,...,xp)￡-1/2C21exp<-2(x-p)，￡-i(x-卜)￡=Q￡=Q202???O212p￡-i二0211O22OO2￡=020￡=0202..Q2-1/2exp<-2(x-?！?1=O22(x-p)>1O2p丿Coo...oLexp<1Coo...oLexp<12p(X-K)21(X-K)211—23-0220212(X-K)2PP—02pi=11eXp'i=11eXp'Oi(X-K.)2「202「i=/(X1).J(xp)則其分量是相互獨(dú)立。2.5由于多元正態(tài)分布的數(shù)學(xué)期望向量和均方差矩陣的極大似然分別為

￡二工(X-X)(x-X)iii=1(35650.00\12.3317325.00￡二工(X-X)(x-X)iii=1(35650.00\12.3317325.00152.50丿(201588000.0038900.0083722500.00-736800.00\38900.0013.06716710.00-35.8083722500.0016710.0036573750.00-199875.00I-736800.00-35.800-199875.0016695.10丿1注：利用X=-X1,pxinn在SPSS中求樣本均值向量的操作步驟如下：選擇菜單項(xiàng)Analyze*DescriptiveStatisticLDescriptives,打開Descriptives對話框。將待估計(jì)的四個(gè)變量移入右邊的Variables列表框中，如圖2.1。圖2.1圖2.1Descriptives對話框2.單擊Options按鈕，打開Options子對話框。在對話框中選擇Mean復(fù)選框，即計(jì)算樣本均值向量，如圖2.2所示。單擊Continue按鈕返回主對話框。

圖2.2Options子對話框3.單擊0K按鈕，執(zhí)行操作。則在結(jié)果輸出窗口中給出樣本均值向量，如表2.1,即樣本均值向量為(35.3333，12.3333，17.1667,1.5250E2)。描謎績計(jì)里NX1635650.0000x2612.3333x3617325.0000＞：:46152.5000有效的Nf列耒狀杰)6表2.1樣本均值向量在SPSS中計(jì)算樣本協(xié)差陣的步驟如下：1.選擇菜單項(xiàng)Analyze^CorrelatefBivariate,打開BivariateCorrelations對話框。將三個(gè)變量移入右邊的Variables列表框中，如圖2.3。圖2.3BivariateCorrelations對話框2.單擊Options按鈕，打開Options子對話框。選擇Cross-productdeviationsandcovariances復(fù)選框，即計(jì)算樣本離差陣和樣本協(xié)差陣，如圖2.4。單擊Continue按鈕，返回主對話框。

Statistics3andsi自nciarel血Sallons両Crose-prcductdewsrtlonsandcovariancesHMissingV^ikiesi?Exclude^ars^iseExcludeesseslistwisE圖2.4Options子對話框3.單擊OK按鈕，執(zhí)行操作。則在結(jié)果輸出窗口中給出相關(guān)分析表，見表2.2。表中Covariance給出樣本協(xié)差陣。（另外，PearsonCorrelation為皮爾遜相關(guān)系數(shù)矩陣，SumofSquaresandCross-products為樣本離差陣。）nX2>4n1Irz-"扌氐主1.758.gzs"-402SS性0B1.001430平定i與更秋的和1.QD0E919450000011B6E0-36B400D0D0忖2.016E0ii3B9D000060.372E76-7360000006熄F■朋怡口時(shí)朕性.75S1764-JJ77顯苓性C刃倒）.DS1廠J385平方與愿枳的和194500.DOO65.33333550.DOO-170.000N3B900000&13067IST'IO.DOO5?35800Sn3Fearsan性天乜.975"1-2569壬T（囚側(cè)）ii-.D77625平啟與更積的和4.1B6E8935500001.929Ee-999375.000般建N8.372E7ii16?1O.DOO63.657E76-109S75.OOQ6Pears口門扌貝關(guān)〔隹-.402-.D77-.2561性曲川；.430.B85.525-3634000.000-1T9.DOO-999375.000B3475.50Q-735B00nnn-35.BOO-1990T5.DOO16695100忖66662.6漸近無偏性、有效性和一致性；2.7設(shè)總體服從正態(tài)分布，X?N刀），有樣本X,X，…,X。由于X是相互獨(dú)立的正p12n態(tài)分布隨機(jī)向量之和，所以X也服從正態(tài)分布。又E(X)二E(X)二ED(X)二D工XIn]匸i“丿工X/n]、匸1'/丿二工E(X)/n二工a.n=pi=1:i=1'=—工D(X)=—工E=-n2ii=1n2ni=1所以X?Np（p,叭2?8方法1：￡二nh為(X-X)(X-X)‘i=1—工XX-nXXn—1iii=1E(￡)=丄E(工XX'—nXX)

n—1iii=1(XX')—nE(XX')iii=1(n—1)￡=(n—1)￡=￡。ni=1方法2：S=工(X-X)(X-X)'iii=1=工［X-p—(X—p川X-p—(X—卩)丁i=1=工(X-p)(X-p)'—2工(X-p)(X-p)'+n(X—p)(Xp—Xp)'iiii=1i=1=Y(X-p)(X-p)'—2n(X—p)(X—p)'+n(X—p)(X—p)'iii=1=Yn(Xp)'-n(X一p)(X一p)'iii=1E(二)=厶EpE(X-p)(X-p)'—n(X—p)(X—p)'n—1n—1Iii丿i=1=丄(工E(X-p)(X-p)'—nE(X—p)(X—p)'|=￡。

n-11耳ii丿故2為￡的無偏估計(jì)。n—129設(shè)X(1)，X(2)'???'X(n)是從多元正態(tài)分布X~Np(p，￡)抽出的一個(gè)簡單隨機(jī)樣本，試求S的分布。證明：設(shè)1r~v'n=5為一正交矩陣’即FT=「令Z=(Z]1.??114n丿…z)=(xxx)r,n12n由于X(i=1,2,3,4,)獨(dú)立同正態(tài)分布,且r為正交矩陣所以Z'=(ZZ…Z)獨(dú)立同正態(tài)分布。且有12nZ=丄另XXe(X)=2亦，Var(Z)=EonU=11n嘰=11nE(Z)=E(Xn=1,2,3,…，n-1)jjj=1=Jn區(qū)r丄gajVnj=1=fnp瓦r'r=0ajnji=1Var(Z)=Var(區(qū)rX)aajjj=1ajj=1=Xr2Var(X)=刀區(qū)r2=Eajj=1所以Z所以Z1z獨(dú)立同N(0,刀)分布。n-1又因?yàn)閟=Xn(Xjji=1=XXX-nXXjjj=1因?yàn)閚XX'=n(麗亠工X丫扳丄工=ZZnn又因?yàn)椤闤X=（X(X，)1X，2j=1=(X1)r，rnX，丿n(X，)1X，2=(Z1Xn丿(Z，)1Z，2=EZZ，-ZZ，jj=EZZ，-ZZ，jjj=1jjj=1=ZZ，+ZZ，+...+ZZ，-zz，1122nn故S=EZZ，，由于Z,Z，…,Z獨(dú)立同正態(tài)分布N(0,E)，所以TOC\o"1-5"\h\zjj12n-1Pj=1S=EZZ，?W(n-12)jjpj=12.10.設(shè)X(nxp)是來自N(p,E)的簡單隨機(jī)樣本，i=1,2,3,…,k,iipii（1）已知p=p=...=p=p且E=E二...=EzE，求p和E的估計(jì)。12k12k（2）已知E=E=...=E=E求p,p，…,,p和E的估計(jì)。12k12k解：（(1)p=x=1EE%Xa，n1+n+..2.+n1ka=1i=1TOC\o"1-5"\h\z"a(x?-X)Ca-X)E=^4=11-n+n+...+n12k⑵InL(p，…，p,E)1k=In[(2兀)pE|]-n2exp[-—EE(xap)，E-i(xap)]a=1i=1InL(p,￡)=—1pnln(2兀)—-In|E—2aInL(p,￡)=—1pnln(2兀)—-In|E—2a=1i=1iaia2lnL(p,￡)=—n￡—1+丄工E亞22a=1i=1

(Xa—p)(Xa—p)(Si-1)=0iaia2lnL(p/￡)=E￡—1Opj(X—P)=0(j=1,2,...,k)ijji=1解之，得丄藝x,nij

ji=1—X)(K—X)ijjijj￡=j=1i=in+n+...+n12k第三章3.1試述多元統(tǒng)計(jì)分析中的各種均值向量和協(xié)差陣檢驗(yàn)的基本思想和步驟。其基本思想和步驟均可歸納為：答：第一，提出待檢驗(yàn)的假設(shè)叫和H1；第二，給出檢驗(yàn)的統(tǒng)計(jì)量及其服從的分布；第三，給定檢驗(yàn)水平，查統(tǒng)計(jì)量的分布表，確定相應(yīng)的臨值，從而得到否定域；第四，根據(jù)樣本觀測值計(jì)算出統(tǒng)計(jì)量的值，看是否落入否定域中，以便對待判假設(shè)做出決策（拒絕或接受）。均值向量的檢驗(yàn):統(tǒng)計(jì)量拒絕域在單一變量中Iz卜za/2111>t(n—1)a/2(S2=n—1i=11_E（X—X）2作為G2的估計(jì)量）i一個(gè)正態(tài)總體H°：協(xié)差陣刀已知協(xié)差陣刀未知T2=n(X—“)'刀-1(X—“)~X2(p)000(n—1)—p+T2~F(p,n—p)(n-1)pT2>F(n—1)pa(T2=(n—i爪n(X—p)‘s*n(X—p)])00兩個(gè)正態(tài)總體H0：P1=P2

n?m有共同已知協(xié)差陣T2二——(X-Y)'￡-1(X-Y)~X2(p)0n+m廠(n+m一2)一p+1仃”八有共同未知協(xié)差陣F=T2?F(p,n+m—p—1)(n+m一2)p(其中T2=(n+m一2)(X一Y)S-iVn+m協(xié)差陣不等n=mF=也_p^Z'S-iZ?F(p,n一p)p協(xié)差陣不等n豐mF=也_p^Z'S-iZ?F(p,n一p)pT2>X2

oaF>Fa(XT2>X2

oaF>Fa(X-Y)單因素方差F=SSA(k-1)=SSE(n—k)?F(k一1,n一k)多因素方差?A(p,n一k,k一1)多因素方差協(xié)差陣的檢驗(yàn)檢驗(yàn)￡=￡0九=exp九=exp<—*trS>|Sn/2np/2n/2npn/2np/2檢驗(yàn)￡=￡=???=￡檢驗(yàn)￡=￡=???=￡H:￡12k0=￡=….=￡12k統(tǒng)計(jì)量九=nnp/21ISni/2k1i/i=1n/211npn./2ii=13.2試述多元統(tǒng)計(jì)中霍特林丁分布和威爾克斯上分布分別與一元統(tǒng)計(jì)中t分布和F分布的關(guān)系。答：(1)霍特林1分布是t分布對于多元變量的推廣。t2==n(X一卩)'(S2)-1(X一卩)而若設(shè)X?N(p,￡),S?W(n,￡)且X與SS2pp相互獨(dú)立，n>p，則稱統(tǒng)計(jì)量「X卩r飛卩的分布為非中心霍特林T2分布。若X?N(0,￡)，S?W(n,￡)且X與S相互獨(dú)立，令T2=nX'S-1X，則pp

--T2?F(p,n-p+1)。np(2)威爾克斯二分布在實(shí)際應(yīng)用中經(jīng)常把二統(tǒng)計(jì)量化為T2統(tǒng)計(jì)量進(jìn)而化為F統(tǒng)計(jì)量,利用F統(tǒng)計(jì)量來解決多元統(tǒng)計(jì)分析中有關(guān)檢驗(yàn)問題。A與F統(tǒng)計(jì)量的關(guān)系pn1n2F統(tǒng)計(jì)量及分別任意任意1n—p+11—A(p,n,1)?F(p,np+1)pA(p,n,1)11任意任意2n-p1-JA(p,n,2)/]-?F(2p,2(np))pJA(p,件,2)11任意任意n1-A(1,n,n)nA(1,n,n)2/2122任意任意n-11-^A(2‘n,n)口(22(-1))「1=2—F(2n,2(n-1))nJA(2,n,n)212123.3試述威爾克斯統(tǒng)計(jì)量在多元方差分析中的重要意義。答：威爾克斯統(tǒng)計(jì)量在多元方差分析中是用于檢驗(yàn)均值的統(tǒng)計(jì)量。H:p=p=..?=pH:至少存在i豐j使p豐u012k1ij用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為E-用似然比原則構(gòu)成的檢驗(yàn)統(tǒng)計(jì)量為E-ETA+E?A(p,n—k,k—1)給定檢驗(yàn)水平Q,查Wilks分布表，確定臨界值，然后作出統(tǒng)計(jì)判斷。第四章4.1簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答:設(shè)p維歐幾里得空間中的兩點(diǎn)X=二’二卞和…丫"。則歐幾里得距離為-。歐幾里得距離的局限有①在多元數(shù)據(jù)分析中，其度量不合理。②會(huì)受到實(shí)際問題中量綱的影響。設(shè)X,Y是來自均值向量為：協(xié)方差為的總體G中的p維樣本。則馬氏距離為一1_1Vex,-Y,）2D（X,Y）二丫丫'丫。當(dāng)—即單位陣時(shí)，D（X,Y）=：--「二=1即歐幾里得距離。因此，在一定程度上，歐幾里得距離是馬氏距離的特殊情況，馬氏距離是歐幾里得距離的推廣。4.2試述判別分析的實(shí)質(zhì)。答：判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù)，找出一種判別函數(shù)，使得這一函數(shù)具有某種最優(yōu)性質(zhì)，能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。設(shè)Rl,R2,…，Rk是p維空間Rp的k個(gè)子集，如果它們互不相交，且它們的和集為二則稱為氣的勺一個(gè)劃分。判別分析問題實(shí)質(zhì)上就是在某種意義上，以最優(yōu)的性質(zhì)對p維空間構(gòu)造一個(gè)“劃分”這個(gè)“劃分”就構(gòu)成了一個(gè)判別規(guī)則。4.3簡述距離判別法的基本思想和方法。答:距離判別問題分為①兩個(gè)總體的距離判別問題和②多個(gè)總體的判別問題。其基本思想都是分別計(jì)算樣本與各個(gè)總體的距離（馬氏距離），將距離近的判別為一類。兩個(gè)總體的距離判別問題設(shè)有協(xié)方差矩陣刀相等的兩個(gè)總體q和G2,其均值分別是片和卩2,對于一個(gè)新的樣品X，要判斷它來自哪個(gè)總體。計(jì)算新樣品X到兩個(gè)總體的馬氏距離D2（X，q）和D2（X，G2），則X'山，D2（X，G）D2（X，G）12X'叫，D2（X，G）＞D2（X，G，12具體分析，D2（X,G）-D2（X,G）12

=(X-p)，￡-i(X-”)-(X-p)，￡-i(X-p)1122二X2-1X-2X2-1P+p'￡-ip-(X遲-1X-2X'￡-ip+p'￡-ip)111222=2X2-i(p-p)+p'￡-ip-p'E-ip211122=2X'E-1(p-p)+(p+p)'￡-1(p-p)211212f(p+pA=-2X-p1p2E-1(p-p)I2丿12=-2(X一p)'a=-2a'(X一p)記W(X)二a'(X—p)則判別規(guī)則為X‘5,W(X):二'X'(匕,W(X)<0多個(gè)總體的判別問題。設(shè)有k個(gè)總體G,G，…,G，其均值和協(xié)方差矩陣分別是p,p，…,p和刀，刀，…,刀TOC\o"1-5"\h\z12k12k12k且EE=???=EE。計(jì)算樣本到每個(gè)總體的馬氏距離，到哪個(gè)總體的距離最小就屬12k于哪個(gè)總體。具體分析，D2(X,G)-(X一p)'E-1(X一p)aaa二XE-1X-2p'E-1X+p'E-1paaa二XE-1X-2(I'X+C)aa1取1=E-1p，C=一7；p'E-1p，a=1,2，…,k。aaa2aa可以取線性判別函數(shù)為W(X)二I'X+C，a二1,2,…,kaaa相應(yīng)的判別規(guī)則為XGG.若W(X)=max(I'X+C)ii一—aa4.4簡述貝葉斯判別法的基本思想和方法?；舅枷耄涸O(shè)k個(gè)總體G,G，…,G，其各自的分布密度函數(shù)f(x),f(x),…,f(x)，假設(shè)k12k12k個(gè)總體各自出現(xiàn)的概率分別為q,q，…,q,q>°，丈q=1。設(shè)將本來屬于G總體的樣品12kiiii=1錯(cuò)判到總體G時(shí)造成的損失為C(jIi)，i,j=1,2,…,k。設(shè)k個(gè)總體G,G，…,G相應(yīng)的p維樣本空間為R=(R,R,…,R)。12k12^在規(guī)則R下，將屬于G的樣品錯(cuò)判為G?的概率為ijP(jIi,R)=Jf(x)dxi,j=1,2,…,kj則這種判別規(guī)則下樣品錯(cuò)判后所造成的平均損失為r(iIR)=丈[C(jIi)P(jIi,R)]i=1,2,…,kj=1

則用規(guī)則R來進(jìn)行判別所造成的總平均損失為g(R)=丈qr(i,R)ii=1=》q為C(jIi)P(jIi,R)ii=1j=1貝葉斯判別法則，就是要選擇一種劃分R,R，…,R，使總平均損失g(R)達(dá)到極小。TOC\o"1-5"\h\z12k基本方法：g(R)=C(jIi)P(jIi,R)ii=1j=1f(x)dxi=EJ(工xR11g(R)g(R)=Jh(x)dxRj

j=1j，g(R*)=》Jh(x)dxR*jj=1j令丈qC(jIi)f(x)=h(x)，則iiji=1若有另一劃分R*=(R*,R*,…,R*)則在兩種劃分下的總平均損失之差為12k則在兩種劃分下的總平均損失之差為g(R)-g(R*)=迓工Ji=1j=1C9因?yàn)樵赗上h(x)<h(x)對一切j成立，故上式小于或等于零，是貝葉斯判別的解。iijR={xIh(x)=minhR={xIh(x)=minh(x)}為''1<j<kJi=1,2,…,k從而得到的劃分(R1‘S',Rk)4.5簡述費(fèi)希爾判別法的基本思想和方法。答：基本思想：從k個(gè)總體中抽取具有P個(gè)指標(biāo)的樣品觀測數(shù)據(jù)，借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù)U(X)=uX+uX+???+uX=u'X1122pp系數(shù)u=(u,u,…,u)'可使得總體之間區(qū)別最大，而使每個(gè)總體內(nèi)部的離差最小。將新樣12p品的p個(gè)指標(biāo)值代入線性判別函數(shù)式中求出U(X)值，然后根據(jù)判別一定的規(guī)則，就可以判別新的樣品屬于哪個(gè)總體。4.6試析距離判別法、貝葉斯判別法和費(fèi)希爾判別法的異同。答：①費(fèi)希爾判別與距離判別對判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對來說較為簡單。當(dāng)k=2時(shí)，若：二三則費(fèi)希爾判別與距離判別等價(jià)。當(dāng)判別變量服從正態(tài)分布時(shí)，二者與貝葉斯判別也等價(jià)。VVV_LV當(dāng)~~時(shí)，費(fèi)希爾判別用~~作為共同協(xié)差陣，實(shí)際看成等協(xié)差陣，此與距離判別、貝葉斯判別不同。

距離判別可以看為貝葉斯判別的特殊情形。貝葉斯判別的判別規(guī)則是X'5,W(X)■-!-丄X'兀，W(X)〈lnd.距離判別的判別規(guī)則是X小'|,W(X)WX'叫，w(X)〈O二者的區(qū)別在于閾值點(diǎn)。當(dāng)q二q,C(112)二C(211)時(shí)，d二1,lnd=0。二者完全12相同。4.7設(shè)有兩個(gè)二元總體"和：、,從中分別抽取樣本計(jì)算得到假設(shè)一假設(shè)一二，試用距離判別法建立判別函數(shù)和判別規(guī)則。樣品X=(6,0)'應(yīng)屬于哪個(gè)總體?解:—〕-0,5/3\解:—〕-0,5/Wp—?'(x-p)-(x-了)’-舊)(x-ji)-(&0)-〔4』土)一C2.0.5)-1_J—3967-2.1-1_J—3967-2.15.8W卩—(2』.5)7.6-Z1-2.15.824.4旳白7>°''*'厲即樣品X屬于總體54.8某超市經(jīng)銷十種品牌的飲料，其中有四種暢銷，三種滯銷，三種平銷。下表是這十種品牌飲料的銷售價(jià)格(元)和顧客對各種飲料的口味評分、信任度評分的平均數(shù)。銷售情況產(chǎn)品序號銷售價(jià)格口味評分信任度評分12.258暢銷22.56733.03943.28652.876平銷63.58774.89881.734滯銷92.242102.743(1)根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù)，并根據(jù)此判別函數(shù)對原樣本進(jìn)行回判。⑵現(xiàn)有一新品牌的飲料在該超市試銷，其銷售價(jià)格為3.0，顧客對其口味的評分平均為8,信任評分平均為5,試預(yù)測該飲料的銷售情況。解：增加group變量，令暢銷、平銷、滯銷分別為groupl、2、3；銷售價(jià)格為X】，口味評分為X2，信任度評分為X3，用spss解題的步驟如下：在SPSS窗口中選擇Analyze—ClassifyfDiscriminate,調(diào)出判別分析主界面，將左邊的變量列表中的“group”變量選入分組變量中，將X］、X2、X3變量選入自變量中，并選擇Enterindependentstogether單選按鈕，即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕，定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕，返回主界面。如圖4.1圖4.1判別分析主界面3.單擊Statistics…按鈕，指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's：給出Bayes判別函數(shù)的系數(shù)。(注意：這個(gè)選項(xiàng)不是要給出Fisher判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之所以為Fisher's，是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由Fisher提出來的。這里極易混淆，請讀者注意辨別。)如圖4.2。單擊Continue按鈕，返回主界面。圖4.2statistics子對話框4.單擊Classify...按鈕，彈出classification子對話框，選中Display選項(xiàng)欄中的Summarytable復(fù)選框，即要求輸出錯(cuò)判矩陣，以便實(shí)現(xiàn)題中對原樣本進(jìn)行回判的要求。如圖4.3。

圖4.3classification對話框5.返回判別分析主界面，單擊OK按鈕，運(yùn)行判別分析過程。1)根據(jù)判別分析的結(jié)果建立Bayes判別函數(shù)：Bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應(yīng)類的Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下：Groupl：Y1=—81.843—11.689X1+12.297X2+16.761X3Group2：Y2=—94.536—10.707X1+13.361X2+17.086X3Group3：Y3=—17.449—2.194X1+4.960X2+6.447X3將各樣品的自變量值代入上述三個(gè)Bayes判別函數(shù)，得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。ClassifcationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進(jìn)行回判，結(jié)果如表4.2。從中可以看出在4種暢銷飲料中，有3種被正確地判定，有1種被錯(cuò)誤地判定為平銷飲料，正確率為75%。在3種平銷飲料中，有2種被正確判定，有1種被錯(cuò)誤地判定為暢銷飲料，正確率為66.7%。3種滯銷飲料均正確判定。整體的正確率為80.0%。Class^cat^nResultsaPredictedGroupMembershipgroup123TotalOriginalCount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2錯(cuò)判矩陣2）該新飲料的X1二3.0,X2二8,X3二5，將這3個(gè)自變量代入上一小題得到的Bayes判別函數(shù)，Y2的值最大，該飲料預(yù)計(jì)平銷。也可通過在原樣本中增加這一新樣本，重復(fù)上述的判別過程，并在classification子對話框中同時(shí)要求輸出casewiseresults，運(yùn)行判別過程，得到相同的結(jié)果。4.9銀行的貸款部門需要判別每個(gè)客戶的信用好壞（是否未履行還貸責(zé)任），以決定是否給予貸款?？梢愿鶕?jù)貸款申請人的年齡（X）、受教育程度（X）、現(xiàn)在所從事工作的年數(shù)12（X）、未變更住址的年數(shù)（X）、收入（X）、負(fù)債收入比例（X）、信用卡債務(wù)（X）、34567其它債務(wù)（X）等來判斷其信用情況。下表是從某銀行的客戶資料中抽取的部分?jǐn)?shù)據(jù)，（1）8根據(jù)樣本資料分別用距離判別法、Bayes判別法和Fisher判別法建立判別函數(shù)和判別規(guī)則。⑵某客戶的如上情況資料為（53,1，9，18，50，11.20，2.02，3.58），對其進(jìn)行信用好壞的判別。目前信用好壞客戶序號X1X2X3X4X5X6X7X8123172316.600.341.71已履行還234117359&001.812.913422723414.600.94.94貸責(zé)任43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行還貸責(zé)任7291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36解：令已履行還貸責(zé)任為groupO,未履行還貸責(zé)任為group1。令（53，1，9，18，50，11.20，2.02，3.58）客戶序號為11，group未知。用spss解題步驟如下：在SPSS窗口中選擇AnalyzefClassifyfDiscriminate,調(diào)出判別分析主界面，將左邊的變量列表中的“group”變量選入分組變量中，將X1-X6變量選入自變量中，并選擇Enterindependentstogether單選按鈕，即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕，定義分組變量的取值范圍。本例中分類變量的范圍為0到1,所以在最小值和最大值中分別輸入0和1。單擊Continue按鈕，返回主界面。單擊Statistics...按鈕，指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's和Unstandardized。單擊Continue按鈕，返回主界面。單擊Classify.按鈕，定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults，以輸出一個(gè)判別結(jié)果表。其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊Continue按鈕。5.返回判別分析主界面，單擊OK按鈕，運(yùn)行判別分析過程。1）用費(fèi)希爾判別法建立判別函數(shù)和判別規(guī)則：未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測的樣品觀測值直接代入求出判別得分，所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。具體見表4.3。CanoriiccilDtscrJmlnarTtFunctionCoethcieiKsFundion111KB雨XS[Constant)-.032S.6B7■173-.357710.7922.303-10.70JUnstandardized匚口efficients表4.3未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由此表可知，F(xiàn)isher判別函數(shù)為：Y=—10.794—0.32X1+6.687X2+0.173X3+0.357X4+0.024X5+0.710X6+0.792X7—2.383X8用Y計(jì)算出各觀測值的具體坐標(biāo)位置后，再比較它們與各類重心的距離，就可以得知分類，如若與groupO的重心距離較近則屬于groupO，反之亦然。各類重心在空間中的坐標(biāo)位置如表4.4所示。FunctionsatGroupCentroidsgrouFuncton1o0-143711437Unstandardizedcaronicadiscriminantfunctonsevaluatedatg-oupmeans表4.4各類重心處的費(fèi)希爾判別函數(shù)值用bayes判別法建立判別函數(shù)與判別規(guī)則，由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等，所以距離判別法與bayes判別完全一致。如表4.5所示，group欄中的每一列表示樣品判入相應(yīng)列的Bayes判別函數(shù)系數(shù)。由此可得，各類的Bayes判別函數(shù)如下：G0=—118.693+0.340X1+94.070X2+1.033X3—4.943X4+2.969X5+13.723X6—10.994X7—37.504X8G1=—171.296+0.184X1+126.660X2+1.874X3—6.681X4+3.086X5+17.182X6—7.133X7—49.116X8

group01.340/04X294.070126.660x3-.UJJx4-i.y-i'j-6.681x5x613.72317.182k7-10.994-7.133kS-37.504-49.116(Constant}-110.693-171.296Fisher'slineardiscnminantfunctians表4.5Bayes判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個(gè)Bayes判別函數(shù)，得到兩個(gè)函數(shù)值。比較這兩個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品該判入哪一類。2）在判別結(jié)果的CasewiseStastics表中容易查到該客戶屬于groupO，信用好。4.10從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個(gè)病人進(jìn)行四項(xiàng)生化指標(biāo)的化驗(yàn)：血清銅蛋白（X）、藍(lán)色反應(yīng)（X）、尿吲哚乙酸（X）和中性硫化物（X），數(shù)據(jù)見1234下表。試用距離判別法建立判別函數(shù)，并根據(jù)此判別函數(shù)對原樣本進(jìn)行回判。胃癌患者胃炎患者

萎縮性非胃炎患者12345678910-11121314154137106611005184027胃癌患者胃炎患者

萎縮性非胃炎患者12345678910-111213141541371066110051840278146261019122解：令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為groupl、group2、group3，由于此題中假設(shè)各類出現(xiàn)的先驗(yàn)概率相等且誤判造成的損失也相等，所以距離判別法與bayes判別完全一致。用spss的解題步驟如下：1.在SPSS窗口中選擇AnalyzefClassifyfDiscriminate,調(diào)出判別分析主界面，將左邊的變量列表中的“group”變量選入分組變量中，將X］、X2、X3、X4變量選入自變量中，并選擇Enterindependentstogether單選按鈕，即使用所有自變量進(jìn)行判別分析。點(diǎn)擊DefineRange按鈕，定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕，返回主界面。單擊Statistics...按鈕，指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher's：給出Bayes判別函數(shù)的系數(shù)。單擊Classify...按鈕，彈出classification子對話框，選中Display選項(xiàng)欄中的Summarytable復(fù)選框，即要求輸出錯(cuò)判矩陣，以便實(shí)現(xiàn)題中對原樣本進(jìn)行回判的要求。5?返回判別分析主界面，單擊OK按鈕，運(yùn)行判別分析過程。根據(jù)判別分析的結(jié)果建立Bayes判別函數(shù)：Bayes判別函數(shù)的系數(shù)見表4.6。表中每一列表示樣本判入相應(yīng)類的Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下：Group1：Group2：Y1二-79.212+0.164X1+0.753X2+0.778X3+0.073X4Y2=—46.721+0.130X1+0.595X2+0.317X3+0.012X4Group3：Y3=-49.598+0.130X1+0.637X2+0.100X3—0.059X4將各樣品的自變量值代入上述三個(gè)Bayes判別函數(shù)，得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。ClassificationFunctionCoeTTicientsgraup12:Ki疝x：3k4(Constant).'￡4.778.073-4'.'17.130.^17.C12-iH.130hr.130-.059Fisher'slineardiscnrninantfunctiuns表4.6Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進(jìn)行回判，結(jié)果如表4.7。從中可以看出在5個(gè)胃癌患者中，有4個(gè)被正確地判定，有1個(gè)被錯(cuò)誤地判定為非胃炎患者，正確率為80%。在5個(gè)萎縮性胃炎患者中，有4個(gè)被正確判定，有1個(gè)被錯(cuò)誤地判定為非胃炎患者，正確率為80%。在5個(gè)非胃炎患者中,有4個(gè)被正確判定，有1個(gè)被錯(cuò)誤地判為萎縮性胃炎患者。整體的正確率為80.0%。ClassiriizstionRbsijIIs-8□roudPredictedGroupMsmhership015113OriginalCoiinl14015204153015%1BD.O.02D.010D.O2.aODC2K-ODC2.a2DCOK'QIiCa.90.0%oforiginalgroupedcasescorrectlyclasoifiQd.表4.7錯(cuò)判矩陣

第五章判別分析和聚類分析有何區(qū)別？答：即根據(jù)一定的判別準(zhǔn)則，判定一個(gè)樣本歸屬于哪一類。具體而言，設(shè)有!個(gè)樣本，對每個(gè)樣本測得P項(xiàng)指標(biāo)（變量）的數(shù)據(jù)，已知每個(gè)樣本屬于k個(gè)類別（或總體）中的某一類，通過找出一個(gè)最優(yōu)的劃分，使得不同類別的樣本盡可能地區(qū)別開，并判別該樣本屬于哪個(gè)總體。聚類分析是分析如何對樣品（或變量）進(jìn)行量化分類的問題。在聚類之前，我們并不知道總體，而是通過一次次的聚類，使相近的樣品（或變量）聚合形成總體。通俗來講，判別分析是在已知有多少類及是什么類的情況下進(jìn)行分類，而聚類分析是在不知道類的情況下進(jìn)行分類。試述系統(tǒng)聚類的基本思想。答：系統(tǒng)聚類的基本思想是：距離相近的樣品（或變量）先聚成類，距離相遠(yuǎn)的后聚成類，過程一直進(jìn)行下去，每個(gè)樣品（或變量）總能聚到合適的類中。對樣品和變量進(jìn)行聚類分析時(shí)，所構(gòu)造的統(tǒng)計(jì)量分別是什么？簡要說明為什么這樣構(gòu)造？答：對樣品進(jìn)行聚類分析時(shí)，用距離來測定樣品之間的相似程度。因?yàn)槲覀儼裯個(gè)樣本看作p維空間的n個(gè)點(diǎn)。點(diǎn)之間的距離即可代表樣品間的相似度。常用的距離為（一）閔可夫斯基距離：dj（q）=ElXi.-Xj』）1/qk=1q取不同值，分為（1）絕對距離（q=1）d（1）=蘭X-Xijikjkk=1（2）歐氏距離（q=2）d（2）=（嚴(yán)X-X2）i/2jk=13jk=13）切比雪夫距離d（a）=maxij1<k<p二）馬氏距離三）蘭氏距離（q=g）X—Xikjkd(L)=一蘭一ik返ijpX+Xk=1ikjkd2(M)=(X-X)'吝1(X-X)ijijij對變量的相似性，我們更多地要了解變量的變化趨勢或變化方向，因此用相關(guān)性進(jìn)行衡量。將變量看作p維空間的向量，一般用（一）夾角余弦Yxxcos0cos0ij（二）相關(guān)系數(shù)刀(x-X)(x-X)ikijkjY(X-X)2Y(X-X)2工k=1ik(X-X)2jkjk=15.4在進(jìn)行系統(tǒng)聚類時(shí)，不同類間距離計(jì)算方法有何區(qū)別？選擇距離公式應(yīng)遵循哪些原則？答：設(shè)dij表示樣品^與X之間距離，用D..表示類色與G之間的距離（1）.最短距離法D=-mindijX.eG,XeGijIIJJD==mind=min{D,D}krXeG,XeGij切kqik，jr（2）最長距離法D==maxdpqXeG,XeGjipjqD=maxd=max{D,D}krXeG,XeGijkpkq1kjr（3）中間距離法D2=—D2+—D2+BD2kr2kp2kqpq其中1.I」|；門重心法D2=(X-X)'(X-X)X=±(nX+nX)pqpqpqrnpprnnnnD2二亠D2+亠D2一pqD2krnkpnkqn2pq類平均法D2工工d2D2工工d2pqnnjpqX-哲krkpkqXeGXeG-kjr可變類平均法cnncD2可變類平均法cnncD2=(1-P)(-^D2+qD2)+BD2

krnkPnkqpqrr其中卩是可變的且卩<1可變法1—BD2=(D2+D2)+PD2kr2kpkqpq離差平方和法其中P是可變的且P<1s=家(x-X)(x-X)tittittt=1n+nn+nnD2=—kpD2+_kqD2一k—D2krn+nkpn+nkqn+npqrkrkrk通常選擇距離公式應(yīng)注意遵循以下的基本原則：要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理，則通常就可采用歐氏距離。要考慮研究對象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題，我們應(yīng)根據(jù)研究對象的特點(diǎn)不同做出具體分折。實(shí)際中，聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類，然后對聚類分析的結(jié)果進(jìn)行對比分析，以確定最合適的距離測度方法。5.5試述K均值法與系統(tǒng)聚類法的異同。答：相同：K—均值法和系統(tǒng)聚類法一樣，都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的。不同：系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果，而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定，離不開實(shí)踐經(jīng)驗(yàn)的積累；有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類，其結(jié)果作為K—均值法確定類數(shù)的參考。5.6試述K均值法與系統(tǒng)聚類有何區(qū)別？試述有序聚類法的基本思想。答：K均值法的基本思想是將每一個(gè)樣品分配給最近中心(均值)的類中。系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果，而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定，有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類，其結(jié)果作為K均值法確定類數(shù)的參考。有序聚類就是解決樣品的次序不能變動(dòng)時(shí)的聚類分析問題。如果用X,X，…,X表示⑴(2)(n)n個(gè)有序的樣品，則每一類必須是這樣的形式，即X,X，…,X，其中1<i<n,且(i)(i+1)(j)j<n，簡記為G二｛i,i+1,…,j｝。在同一類中的樣品是次序相鄰的。一般的步驟是(1)計(jì)算直徑｛D(i,j)｝。(2)計(jì)算最小分類損失函數(shù)｛L[p(l,k)]｝。⑶確定分類個(gè)數(shù)k。(4)最優(yōu)分類。5.7檢測某類產(chǎn)品的重量，抽了六個(gè)樣品，每個(gè)樣品只測了一個(gè)指標(biāo)，分別為1,2,3,6,9,11?試用最短距離法，重心法進(jìn)行聚類分析。(1)用最短距離法進(jìn)行聚類分析。采用絕對值距離，計(jì)算樣品間距離陣"4G2G4G6Gq0G.,210G.3210G坤5430乞87630G61098520由上表易知"?中最小元素是'-「I-，于是將聚為一類，記為;；計(jì)算距離陣"|G?G4匹"1中最小元素是''-=2于是將聚為一類，記為“計(jì)算樣本距離陣"’sG40G430Gg630"?:中最小元素是'廣八―于是將聚為一類，記為因此，%込G隔——G4石眾罠一時(shí)|気i2r(2)用重心法進(jìn)行聚類分析計(jì)算樣品間平方距離陣|4G4G5GtiG101041025169064493690G610081642540.2.22.易知"1中最小元素是■1于是將聚為一類，記為匚Y)2計(jì)算距離陣G7G4G'i%

TOC\o"1-5"\h\z耳160￡4990"召812540D注：計(jì)算方法=D注：計(jì)算方法='6--U1210]，其他以此類推?！汩T中最小元素是°驚=4于是將力，G召聚為一類，記為G&計(jì)算樣本距離陣"?°4G0Gr70416064160.2.22D⑺中最小元素是°訕?biāo)枚坝谑菍弓，6、％聚為一類，記為d因此，5.8下表是15個(gè)上市公司2001年的一些主要財(cái)務(wù)指標(biāo)，使用系統(tǒng)聚類法和K—均值法分別對這些公司進(jìn)行聚類，并對結(jié)果進(jìn)行比較分析。公司編號凈資產(chǎn)每股凈總資產(chǎn)資產(chǎn)負(fù)流動(dòng)負(fù)每股凈凈利潤總資產(chǎn)收益率利潤周轉(zhuǎn)率債率債比率資產(chǎn)增長率增長率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11

300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74解:令凈資產(chǎn)收益率為X1,每股凈利潤X2,總資產(chǎn)周轉(zhuǎn)率為X3,資產(chǎn)負(fù)債率為X4,流動(dòng)負(fù)債比率為X5,每股凈資產(chǎn)為X6,凈利潤增長率為X7,總資產(chǎn)增長率為X8,用spss對公司聚類分析的步驟如下：a）系統(tǒng)聚類法：1.在SPSS窗口中選擇Analyze—Classify^HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面，并將變量X1-X8移入Variables框中。在Cluster欄中選擇Cases單選按鈕，即對樣品進(jìn)行聚類（若選擇Variables,則對變量進(jìn)行聚類）。在Display欄中選擇Statistics和Plots復(fù)選框，這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。XI立曲Mxs-stJSECIviAH>ClEfEXI立曲Mxs-stJSECIviAH>ClEfE圖5.1系統(tǒng)分析法主界面點(diǎn)擊Statistics按鈕，設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)量。我們選擇Agglomerationschedule與ClusterMembership中的Rangeofsolution2-4，如圖5.2所示，點(diǎn)擊Continue按鈕，返回主界面。（其中，Agglomerationschedule表示在結(jié)果中給出聚類過程表，顯示系統(tǒng)聚類的詳細(xì)步驟；Proximitymatrix表示輸出各個(gè)體之間的距離矩陣；ClusterMembership表示在結(jié)果中輸出一個(gè)表，表中顯示每個(gè)個(gè)體被分配到的類別，Rangeofsolution2-4即將所有個(gè)體分為2至4類。）點(diǎn)擊Plots按鈕，設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)圖。選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕，如圖5.3,即只給出聚類樹形圖，而不給出冰柱圖。單擊Continue按鈕，返回主界面。

堀HierarchicalclusterAnalysis;sta.回童ikMierHiijn丸Fiedug□EfoxJrrivrtisUlxTOC\o"1-5"\h\z-ClusterhJenribi^rshiii(QtJoneQ.Snefa^iJlanriiirba-afcLislefa:|(?；RonQear.sajlionsUhmumnurnt^tor>?lusters:2電HigipnehicjJ匸111北前血詁盧益Pio-JifcHjI0QHK*fl!F-yi電HigipnehicjJ匸111北前血詁盧益Pio-JifcHjI0QHK*fl!F-yikxteQAll-=kji1vaQ気加I跆rAT<|4O'口山￡>打玄ix?Mrt4ik)hIContinue：CflHCtiIFtIp圖5.2Statistics子對話框I<crtirij&]|CmdIW□圖5.3Plots子對話框單擊Continue按鈕，返回主界面。圖單擊Continue按鈕，返回主界面。圖5.4Method子對話框4.點(diǎn)擊Method按鈕，設(shè)置系統(tǒng)聚類的方法選項(xiàng)。ClusterMethod下拉列表用于指定聚類的方法，這里選擇Between-groupinkage（組間平均數(shù)連接距離）；Measure欄用于選擇對距離和相似性的測度方法，選擇SquaredEuclideandistance（歐氏距離）;圖5.5Save子對話框點(diǎn)擊Save按鈕，指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。None表示不保存任何新變量；Singlesolution表示生成一個(gè)分類變量，在其后的矩形框中輸入要分成的類數(shù)；Rangeofsolutions表示生成多個(gè)分類變量。這里我們選擇Rangeofsolutions，并在后面的兩個(gè)矩形框中分別輸入2和4,即生成三個(gè)新的分類變量,分別表明將樣品分為2類、3類和4類時(shí)的聚類結(jié)果，如圖5.5。點(diǎn)擊Continue，返回主界面。點(diǎn)擊OK按鈕，運(yùn)行系統(tǒng)聚類過程。聚類結(jié)果分析：下面的群集成員表給出了把公司分為2類，3類，4類時(shí)各個(gè)樣本所屬類別的情況，另外，從右邊的樹形圖也可以直觀地看到，若將15個(gè)公司分為2類，則13獨(dú)自為一類，其余的為一類;若分為3類，則公司8分離出來，自成一類。以此類推。表5.1各樣品所屬類別表

刊14栓2曲黑EEBcaltdBist-onceCIllsterContiine11112111CAS2a5ID15￡0￡53111LakielNub—-4_.q————4————一——4_--一44111:&2119E11127111124B321ID911111D1117：41111131-1111513A3211U1115B1511113圖5.6聚類樹形圖b）K均值法的步驟如下：1.在SPSS窗口中選擇AnalyzefClassifyfK-MeansCluster,調(diào)出K均值聚類分析主界面，并將變量X1-X8移入Variables框中。在Method框中選擇Iterateclassify，即使用K-means算法不斷計(jì)算新的類中心，并替換舊的類中心（若選擇Classifyonly,則根據(jù)初始類中心進(jìn)行聚類，在聚類過程中不改變類中心）。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù)，這里我們輸入3,即將15個(gè)公司分為3類。（Centers按鈕，則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置，則系統(tǒng)會(huì)自動(dòng)設(shè)置初始類中心，這里我們不作設(shè)置。）圖5.7K均值聚類分析主界面2.點(diǎn)擊Iterate按鈕，對迭代參數(shù)進(jìn)行設(shè)置。MaximumIterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù)，輸入10，ConvergenceCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù)，輸入0,只要在迭代的過程中先滿足了其中的參數(shù)，則迭代過程就停止。單擊Continue，返回主界面。圖5.8圖5.8Iterate子對話框3.點(diǎn)擊Save按鈕，設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。我們將兩個(gè)復(fù)選框都選中，其中Clustermembership選項(xiàng)用于建立一個(gè)代表聚類結(jié)果的變量，默認(rèn)變量名為qcl_1；Distancefromclustercenter選項(xiàng)建立一個(gè)新變量，代表各觀測量與其所屬類中心的歐氏距離。單擊Continue按鈕返回。3.圖5.9Save子對話框4.點(diǎn)擊Options按鈕，指定要計(jì)算的統(tǒng)計(jì)量。選中Initialclustercenters和Clusterinformationforeachcase復(fù)選框。這樣，在輸出窗口中將給出聚類的初始類中心和每個(gè)公司的分類信息，包括分配到哪一類和該公司距所屬類中心的距離。單擊Continue返回。4.5.圖5.10Options子對話框點(diǎn)擊0K按鈕，運(yùn)行K均值聚類分析程序。5.聚類結(jié)果分析：以下三表給出了各公司所屬的類及其與所屬類中心的距離,聚類形成的類的中心的各變量值以及各類的公司數(shù)。由以上表格可得公司13與公司8各自成一類，其余的公司為一類。通過比較可知，兩種聚類方法得到的聚類結(jié)果完全一致。

聚類成員室…1398.153聚類成員室…1398.15323'12.9代33235.34643531609.9586393.39913205.5M02.OOC9395.9231J338.967113834.134123101.3521?1.OOC143346.882153433.1?8每個(gè)聚案中的案洌敎11.00021.000313.000有效15.000.000聚類123X195.7911.126.48竝-5.20-1.69.08X3.5012.39姻252.34132.1471.483(599.34100.0092.06妨-5.42-.661.90-9816.52-4454.39-103.94如-46.82-627511.915.9下表是某年我國16個(gè)地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù)，每個(gè)地區(qū)調(diào)查了反映每人平均生活消費(fèi)支出情況的六個(gè)經(jīng)濟(jì)指標(biāo)。試通過統(tǒng)計(jì)分析軟件用不同的方法進(jìn)行系統(tǒng)聚類分析，并比較何種方法與人們觀察到的實(shí)際情況較接近。地區(qū)食品衣著燃料住房交通和通訊娛樂教育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25內(nèi)蒙128.4127.638.9412.5823.992.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山東115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3解:令食品支出為X1,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如5.8題，不同的方法在第4個(gè)步驟的Method子對話框中選擇不同的Clustermethod。1.Between-groupinkage（組間平均數(shù)連接距離）4枠34枠3梅丄F級111l222I3321出3215221621?221a231g432ID221iii111-22113221U2211532I15321CASE0210152D25LabelNinu十十+十+一十上表給出了把全國16個(gè)地區(qū)分為2類、3類和4類時(shí)，各地區(qū)所屬的類別，另外從右邊的樹形圖也可以直觀地觀察到，若用組間平均數(shù)連接距離將這些地區(qū)分為3類，則9（上海）獨(dú)自為一類，1（北京）和11（浙江）為一類，剩余地區(qū)為一類。Within-grouplinkage（組內(nèi)平均連接距離）3薛2^-W113薛2^-W11112221332143215221622172218321g>1311D221li22112E11132211J221152211g321CASELabelNum5B151013IE611119-■-+■若用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類，則9（上海）獨(dú)自為一類，1（北京）獨(dú)自為一類，剩余地區(qū)為一類。Nearestneighbor（最短距離法）

卻1?3SI生2群生11卻1?3SI生2群生11122：21322142215221G22172Q1S22193321022111421122Q113221142211522116221CASELabelNum:!:■5:;1314121I61：.1_191020若用最短距離法將這些地區(qū)分為3類，則9（上海）獨(dú)自為一類，1（北京）獨(dú)自為一類,剩余地區(qū)為一類。Furthestneighbor（最遠(yuǎn)距離法）冊兌咸員土51戟3群集11土51戟3群集111122243￡225326223722283229a3110222111111222213222H2221532216922匚A5ELabelHuaS=15z121314127ii9HescaledinstanceCluacerCoutolne若用最遠(yuǎn)距離法將這些地區(qū)分為3類，則9（上海）獨(dú)自為一類，1（北京）和11（浙江）為一類，剩余地區(qū)為一類。Centroidcluster（重心法）

霸隼矗員4：-10（上海）獨(dú)自為一類，1（北京）和11（浙江）1119L十霸隼矗員4：-10（上海）獨(dú)自為一類，1（北京）和11（浙江）1119L十ENumCiSLabelEn?103164MedianclusterEn?103164若用中位數(shù)距離法將這些地區(qū)分為3類，則9（上海）獨(dú)自為一類，1（北京）和11（浙江）為一類，剩余地區(qū)為一類。7.Wardmethod（離差平方和）群梟威員二I+C1SELabel7.Wardmethod（離差平方和）群梟威員二I+C1SELabelJJiuti1015-+■2025-+若用離差平方和法將這些地區(qū)分為3類，則9（上海），1（北京）和11（浙江）為一類，2（天津）、6（遼寧）、7（吉林）、10（江蘇）、12（安徽）、13（福建）和14（江西）為一類,剩余地區(qū)為一類。5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計(jì)分析軟件進(jìn)行快速聚類運(yùn)算,并與系統(tǒng)聚類分析結(jié)果進(jìn)行比較。解：快速聚類運(yùn)算即K均值法聚類，具體步驟同5.8,聚類結(jié)果如下：室…汩嘗1室…汩嘗1146.7512122.9203322.4004316.8645313.8006115.2557126.265037.51392.00010114.59311117.93612319.50113125.91214325.20815319.20116316.403123166.77221…117.-602.7939.6425.4113.9612.5311.4030.15115.6519.4033.33508321.895.595B34.23/.UJJ11.0DO38.0DO有啟16.0DO.000聚類的結(jié)果為9（上海）獨(dú)自為一類，1（北京）、2（天津）、6（遼寧）、7（吉林）、10（江蘇）、11（浙江）、13（福建）和14（江西）為一類，剩余地區(qū)為一類。5.11下表是2003年我國省會(huì)城市和計(jì)劃單列市的主要經(jīng)濟(jì)指標(biāo)：人均GDPx（元）、1人均工業(yè)產(chǎn)值X（元）、客運(yùn)總量x（萬人）、貨運(yùn)總量x（萬噸）、地方財(cái)政預(yù)算內(nèi)收入XTOC\o"1-5"\h\z2345（億元）、固定資產(chǎn)投資總額X（億元）、在崗職工占總?cè)丝诘谋壤齒（%）、在崗職工人均67工資額X（元）、城鄉(xiāng)居民年底儲(chǔ)蓄余額X（億元、。試通過統(tǒng)計(jì)分析軟件進(jìn)行系統(tǒng)聚類分89析，并比較何種方法與人們觀察到的實(shí)際情況較接近。城市X1X2X3X4X5X6X7X8X9北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家莊15134131591184310008494169.5123061044太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈陽23268154466612146368155714.8149611423大連2914527615110012108111140714.7175601310長春18630210456999108924629412.513870831哈爾濱148257561645895187642317.7124511154

上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466寧波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876廈門5359093126444130557023838.619024397南昌142219205572844543121011.013913483濟(jì)南23437226345810143547642913.516027758青島2470535506146663055312054814.515335908鄭州16674140231070978476637312.7135381048武漢212781708311882166108062317.4137301286長沙15446887310609106316043410.016987705廣州48220554042975128859275108925.1288053727深圳19183834751910989679329187569.6310532199南寧8176339070165893361708.313171451?？?644214553132843304129916.514819284重慶71905076582903245016211876.5124401897成都17914928972793287989078811.9152741494貴陽11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211蘭州1445917136220955812120318.013489468西寧706656052788203787610.114629175銀川1178711013214621271213421.913497193烏魯木齊22508171372188127544118026.116509420南寧31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825資料來源：《中國統(tǒng)計(jì)年鑒2004》解:用spss對37個(gè)地區(qū)聚類分析的步驟如5.8題，不同的方法在第4個(gè)步驟的Method子對話框中選擇不同的Clustermethod。I.Between-groupinkage（組間平均數(shù)連接距離）從上面的樹形圖可以直觀地觀察到，若用組間平均數(shù)連接距離將這些地區(qū)分為3類，則24（深圳）獨(dú)自為一類，10（上海）和16（廈門）為一類，剩余地區(qū)為一類。

Within-grouplinkage（組內(nèi)平均連接距離）若用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為3類，則24（上海）獨(dú)自為一類，27（重慶）和28（成都）為一類，剩余地區(qū)為一類。Nearestneighbor（最短距離法）EE7E5LBEB4743D3.169D54*5330.-7P33LL63D7B6Ji33ziiii322323z33zJT-JT-3E1EE1E若用最短距離法將這些地區(qū)分為2類，則24（深圳）獨(dú)自為一類，剩余地區(qū)為一類。Furthestneighbor（最遠(yuǎn)距離法）

□719111231口i￡asI3.S18日1-5-1Is?；湘53230一11—一Z3—:M若用最遠(yuǎn)距離法將這些地區(qū)分為3類，則24（深圳）獨(dú)自為一類，1（北京）、2（天津）、7（大連）、10（上海））11（南京））12（杭州）、13（寧波））16（廈門）、19（青島）、23（廣州）、36（海寧）和37（?？冢橐活悾Ｓ嗟貐^(qū)為一類。Centroidcluster（重心法）若用重心法將這些地區(qū)分為3類，則24（深圳）獨(dú)自為一類，10（上海）和16（廈門）為一類，剩余地區(qū)為一類。Mediancluster（中位數(shù)距離）

若用中位數(shù)距離法將這些地區(qū)分為3類，則24（深圳）獨(dú)自為一類，1（北京）、2（天津）、7（大連））10（上海））11（南京））12（杭州））13（寧波））16（廈門））19（青島））23（廣州）、36（海寧）和37（?？冢橐活?，剩余地區(qū)為一類。7.Wardmethod（離差平方和）若用離差平方和法將這些地區(qū)分為3類，則24（深圳）獨(dú)自為一類，1（北京）、2（天津）、7（大連）、10（上海）、11（南京）、12（杭州）、13（寧波）、16（廈門）、19（青島）、23（廣州）、36（海寧）和37（?？冢橐活?，剩余地區(qū)為一類。經(jīng)過比較，各種方法得到的結(jié)果又相似點(diǎn)也有不同點(diǎn)。筆者認(rèn)為，其中最遠(yuǎn)距離法、中位數(shù)距離、離差平方和這三種方法所得到的結(jié)果與現(xiàn)實(shí)生活中人們的感覺比較相近。5.12下表是我國1991-2003年的固定資產(chǎn)投資價(jià)格指數(shù)，試對這段時(shí)期進(jìn)行分段，并據(jù)此對我國固定資產(chǎn)投資的價(jià)格變化情況進(jìn)行分析。年份1991199219931994199519961997指數(shù)109.5115.3126.6110.4105.9104.0101.7年份199819992000200120022003指數(shù)99.899.6101.1100.4100.2100.2第八早6.1試述主成分分析的基本思想。答:我們處理的問題多是多指標(biāo)變量問題，由于多個(gè)變量之間往往存在著一定程度的相關(guān)性,人們希望能通過線性組合的方式從這些指標(biāo)中盡可能快的提取信息。當(dāng)?shù)谝粋€(gè)組合不能提取更多信息時(shí)，再考慮第二個(gè)線性組合。繼續(xù)這個(gè)過程，直到提取的信息與原指標(biāo)差不多時(shí)為止。這就是主成分分析的基本思想。6.2主成分分析的作用體現(xiàn)在何處？答：一般說來，在主成分分析適用的場合，用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量，就得到一個(gè)更低維的隨機(jī)向量；主成分分析的作用就是在降低數(shù)據(jù)“維數(shù)”的同時(shí)又保留了原數(shù)據(jù)的大部分信息。6.3簡述主成分分析中累積貢獻(xiàn)率的具體含義。答:主成分分析把P個(gè)原始變量X,X，…,X的總方差tr(E分解成了“個(gè)相互獨(dú)立的變量TOC\o"1-5"\h\z12pY,丫，…,Y的方差之和另\。主成分分析的目的是減少變量的個(gè)數(shù)，所以一般不會(huì)使用所有12pP個(gè)主成分的，忽略一些帶有較小方差的主成分將不會(huì)給總方差帶來太大的影響。這里我們稱9亠乞九為第k個(gè)主成分Yk的貢獻(xiàn)率。第一主成分的貢獻(xiàn)率最大，這表明Y二TXkkkk=i綜合原始變量X,X，…,X的能力最強(qiáng)，而Y,Y，…,Y的綜合能力依次遞減。若只取12p23pm(<p)個(gè)主成分，則稱屮=Y入：刀入為主成分Y,…,Y的累計(jì)貢獻(xiàn)率，累計(jì)貢獻(xiàn)率kjk1mk=1k=lm，使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分表明I；,]Ym綜合Xi,b…,X的能力。通常取數(shù)(如85m，使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分6.4在主成分分析中“原變量方差之和等于新的變量的方差之和”是否正確？說明理由。答：這個(gè)說法是正確的。

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

朱建平：應(yīng)用多元統(tǒng)計(jì)分析課后答案-

文檔簡介

溫馨提示

最新文檔

評論

朱建平：應(yīng)用多元統(tǒng)計(jì)分析課后答案-

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔