何曉群版多元統(tǒng)計(jì)課后作業(yè)答案_第1頁(yè)
何曉群版多元統(tǒng)計(jì)課后作業(yè)答案_第2頁(yè)
何曉群版多元統(tǒng)計(jì)課后作業(yè)答案_第3頁(yè)
何曉群版多元統(tǒng)計(jì)課后作業(yè)答案_第4頁(yè)
何曉群版多元統(tǒng)計(jì)課后作業(yè)答案_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余11頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章多元正態(tài)分布1.在數(shù)據(jù)處理時(shí),為什么通常要進(jìn)行標(biāo)準(zhǔn)化處理? 數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。在某些比較和評(píng)價(jià)的指標(biāo)處理中經(jīng)常會(huì)用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無(wú)量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)。其中最典型的就是0-1標(biāo)準(zhǔn)化和Z標(biāo)準(zhǔn)化。(1)0-1標(biāo)準(zhǔn)化(0-1 normalization)也叫離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線(xiàn)性變換,使結(jié)果落到0,1區(qū)間,轉(zhuǎn)換函數(shù)如下:其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有一個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。(2)Z-score 標(biāo)準(zhǔn)化(zero-mean normalization)也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法,其轉(zhuǎn)化函數(shù)為:其中為所有樣本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。2、歐氏距離與馬氏距離的優(yōu)缺點(diǎn)是什么? 歐氏距離(Euclidean distance)也稱(chēng)歐幾里得度量、歐幾里得度量,是一個(gè)通常采用的距離定義,它是在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離。在二維和三維空間中的歐氏距離的就是兩點(diǎn)之間的距離。缺點(diǎn):就大部分統(tǒng)計(jì)問(wèn)題而言,歐氏距離是不能令人滿(mǎn)意的。(每個(gè)坐標(biāo)對(duì)歐氏距離的貢獻(xiàn)是同等的。當(dāng)坐標(biāo)表示測(cè)量值時(shí),它們往往帶有大小不等的隨機(jī)波動(dòng),在這種情況下,合理的方法是對(duì)坐標(biāo)加權(quán),使變化較大的坐標(biāo)比變化較小的坐標(biāo)有較小的權(quán)系數(shù),這就產(chǎn)生了各種距離。當(dāng)各個(gè)分量為不同性質(zhì)的量時(shí),“距離”的大小與指標(biāo)的單位有關(guān)。它將樣品的不同屬性(即各指標(biāo)或各變量)之間的差別等同看待,這一點(diǎn)有時(shí)不能滿(mǎn)足實(shí)際要求。沒(méi)有考慮到總體變異對(duì)距離遠(yuǎn)近的影響。 馬氏距離(Mahalanobis distance)是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯提出的,表示數(shù)據(jù)的協(xié)方差距離。為兩個(gè)服從同一分布并且其協(xié)方差矩陣為的隨機(jī)變量與的差異程度:如果協(xié)方差矩陣為單位矩陣,那么馬氏距離就簡(jiǎn)化為歐氏距離,如果協(xié)方差矩陣為對(duì)角陣,則其也可稱(chēng)為正規(guī)化的歐氏距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。對(duì)于一個(gè)均值為,協(xié)方差矩陣為的多變量向量,樣本與總體的馬氏距離為(dm)2=(x-)(-1)(x-)。在絕大多數(shù)情況下,馬氏距離是可以順利計(jì)算的,但是馬氏距離的計(jì)算是不穩(wěn)定的,不穩(wěn)定的來(lái)源是協(xié)方差矩陣,這也是馬氏距離與歐式距離的最大差異之處。優(yōu)點(diǎn):它不受量綱的影響,兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測(cè)量單位無(wú)關(guān)。(它考慮到各種特性之間的聯(lián)系(例如:一條關(guān)于身高的信息會(huì)帶來(lái)一條關(guān)于體重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的)并且是尺度無(wú)關(guān)的(scale-invariant),即獨(dú)立于測(cè)量尺度);由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)計(jì)算出的二點(diǎn)之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關(guān)性的干擾。缺點(diǎn):夸大了變化微小的變量的作用。受協(xié)方差矩陣不穩(wěn)定的影響,馬氏距離并不總是能順利計(jì)算出。3、當(dāng)變量X1和X2方向上的變差相等,且與互相獨(dú)立時(shí),采用歐氏距離與統(tǒng)計(jì)距離是否一致? 統(tǒng)計(jì)距離區(qū)別于歐式距離,此距離要依賴(lài)樣本的方差和協(xié)方差,能夠體現(xiàn)各變量在變差大小上的不同,以及優(yōu)勢(shì)存在的相關(guān)性,還要求距離與各變量所用的單位無(wú)關(guān)。如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣, 則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。第2章 均值向量和協(xié)方差陣的檢驗(yàn)3、多元均值檢驗(yàn),從題意知道,容量為9的樣本 ,總體協(xié)方差未知 假設(shè)H0: , H1: (n=9 p=5)檢驗(yàn)統(tǒng)計(jì)量/(n-1)服從P,n-1的分布統(tǒng)計(jì)量實(shí)際上是樣本均值與已知總體均值之間的馬氏距離再乘以n*(n-1),這個(gè)值越大,相等的可能性越小,備擇假設(shè)成立時(shí),有變大的趨勢(shì),所以拒絕域選擇值較大的右側(cè)部分,也可以轉(zhuǎn)變?yōu)镕統(tǒng)計(jì)量零假設(shè)的拒絕區(qū)域 (n-p)/(n-1)*p* 1/10* F5,4(5)0=( 6212.01 32.87 2972 9.515.78)樣本均值(4208.7835.121965.8912.2127.79)(樣本均值-0)=(-2003.23 2.25 -1006.11 2.71 12.01)協(xié)方差矩陣(降維因子分析抽取)Inter-Item Covariance Matrix人均GDP(元)三產(chǎn)比重(%)人均消費(fèi)(元)人口增長(zhǎng)(%)文盲半文盲(%)人均GDP(元)1020190.840582.460331693.531-599.784-6356.325三產(chǎn)比重(%)582.46019.480-105.4646.62543.697人均消費(fèi)(元)331693.531-105.464125364.321-213.634-3130.038人口增長(zhǎng)(%)-599.7846.625-213.6346.09925.410文盲半文盲(%)-6356.32543.697-3130.03825.410196.884協(xié)方差的逆矩陣1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893-0.000440370.207023949-0.000210374-0.0237044-0.06044981-6.0978E-05-0.0002103740.00022733-0.01050190.0030474740.002799208-0.023704352-0.0105018810.85288927-0.18139981-0.00062589-0.060449810.003047474-0.18139980.070148804計(jì)算:邊遠(yuǎn)及少數(shù)民族聚居區(qū)社會(huì)經(jīng)濟(jì)發(fā)展水平的指標(biāo)數(shù)據(jù).xls=9* (-2003.23 2.25 -1006.11 2.71 12.01)*s-1* (-2003.23 2.25 -1006.11 2.71 12.01)=9*50.11793817=451,06144353F統(tǒng)計(jì)量=45.26.2 拒絕零假設(shè),邊緣及少數(shù)民族聚居區(qū)的社會(huì)經(jīng)濟(jì)發(fā)展水平與全國(guó)平均水平有顯著差異。第3章 聚類(lèi)分析1. 聚類(lèi)分析的基本思想和功能是什么?研究的樣品或指標(biāo)之間存著程度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間的相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量作為劃分類(lèi)型的依據(jù),把一些相似程度較大的樣品聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣品又聚合為另外一類(lèi),直到把所有的樣品聚合完畢,形成一個(gè)有小到大的分類(lèi)系統(tǒng),最后再把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張分群圖,用它把所有樣品間的親疏關(guān)系表示出來(lái)。作用是把相似的研究對(duì)象歸類(lèi)。2. 試述系統(tǒng)聚類(lèi)法的原理和具體步驟。首先將n個(gè)樣品看成n類(lèi)(一類(lèi)包含一個(gè)樣品),然后將性質(zhì)最接近的兩類(lèi)合并成一個(gè)新類(lèi),得到n-1類(lèi),再?gòu)闹姓页鲎罱咏膬深?lèi)加以合并變成n-2類(lèi),如此下去,最后所有的樣品均在一類(lèi),將上述并類(lèi)過(guò)程畫(huà)成一張圖便可決定分多少類(lèi),每類(lèi)各有哪些樣品。3. 試述K-均值聚類(lèi)的方法原理K-均值法是一種非譜系聚類(lèi)法,把每個(gè)樣品聚集到其最近形心(均值)類(lèi)中,它是把樣品聚集成K個(gè)類(lèi)的集合,類(lèi)的個(gè)數(shù)k可以預(yù)先給定或者在聚類(lèi)過(guò)程中確定,該方法應(yīng)用于比系統(tǒng)聚類(lèi)法大得多的數(shù)據(jù)組。把樣品分為K個(gè)初始類(lèi),進(jìn)行修改,逐個(gè)分派樣品到期最近均值的類(lèi)中(通常采用標(biāo)準(zhǔn)化數(shù)據(jù)或非標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算歐氏距離)重新計(jì)算接受新樣品的類(lèi)和失去樣品的類(lèi)的形心。重復(fù)這一步直到各類(lèi)無(wú)元素進(jìn)出。第四章 判別分析1.應(yīng)用判別分析應(yīng)該具備什么樣的條件被解釋變量是屬性變量而解釋變量是度量變量,判別分析最基本的要求是,分組類(lèi)型在兩組以上,每組案例的規(guī)模必須至少在一個(gè)以上,解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。假設(shè)之一是:每一個(gè)判別變量(解釋變量)不能是其他判別變量的線(xiàn)性組合。這時(shí),為其他變量線(xiàn)性組合的判別變量不能提供新的信息,更重要的是在這種情況下無(wú)法估計(jì)判別函數(shù)。不僅如此,有時(shí)一個(gè)判別變量與另外的判別變量高度相關(guān),或與另外的判別變量的線(xiàn)性組合高度相關(guān),雖然能求解,但是參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差很大,以至于參數(shù)估計(jì)統(tǒng)計(jì)上不顯著,這就是常說(shuō)的,多重共線(xiàn)性問(wèn)題。假設(shè)之二:各組變量的協(xié)方差矩陣相等,判別分析最簡(jiǎn)單和最常用的的形式是采用現(xiàn)行判別函數(shù),他們是判別變量的簡(jiǎn)單線(xiàn)性組合,在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來(lái)計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。假設(shè)之三:各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布,在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率,黨委被該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。2.試述貝葉斯判別法的思路貝葉斯判別法的思路是先假定對(duì)研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來(lái)修正已有的認(rèn)識(shí),(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將貝葉斯判別方法用于判別分析得到貝葉斯判別。(1)最大后驗(yàn)概率準(zhǔn)則設(shè)有總體 (i=1,2,k),具有概率密度函數(shù)fi(X),并且知道根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為Pi。當(dāng)樣本發(fā)生時(shí),求屬于某類(lèi)的概率,由貝葉斯公式計(jì)算后驗(yàn)概率P()=Pi* fi(X)/ Pi* fi(X),i=1,2,k最大后驗(yàn)概率準(zhǔn)則采用的判別規(guī)則是:X(2)最小誤判代價(jià)準(zhǔn)則設(shè)有K個(gè)總體分別具有p維密度函數(shù),已知出現(xiàn)這k個(gè)總體的先驗(yàn)概率分布為用表示樣本的一個(gè)劃分,互不相交,且,如果這個(gè)劃分取得適當(dāng),正好對(duì)應(yīng)于k個(gè)總體,這時(shí)判別規(guī)則可以采用如下方法 用表示來(lái)自樣本而被誤判為的損失,這一誤判的概率為 由以上判別規(guī)則帶來(lái)的平均損失ECM 定義,目的是求,使得ECM最小3.試述費(fèi)歇判別法的思想將k組P維數(shù)據(jù)投影到某一方向,使得它們的投影組與組之間盡可能地分開(kāi)。K個(gè)總體分別取得k組P維觀察值令a 為中的任一向量,為x向以a為法線(xiàn)方向的投影,這時(shí),上述數(shù)據(jù)的投影為組間平方和 為第i組均值 為總體均值向量組內(nèi)平方和如果K組均值有顯著差異,則 應(yīng)該充分地大 ,或者應(yīng)充分大的極大值為,它是的最大特征根,為相應(yīng)的特征向量,當(dāng)時(shí),可使達(dá)到最大值,由于的大小可以衡量判別的效果,所以稱(chēng)為判別效率。得到以下定理:費(fèi)歇準(zhǔn)則下的線(xiàn)性判別函數(shù)的解a為方程的最大特征根所對(duì)應(yīng)的特征向量,且相應(yīng)的判別效率為。4.什么是逐步判別分析如果在某個(gè)判別問(wèn)題中,將起最重要的變量忽略了,相應(yīng)的判別函數(shù)的效果一定不好。而另一方面,如果判別變量的個(gè)數(shù)太多,計(jì)算量必然大,會(huì)影響估計(jì)的精度,特別當(dāng)引入了一些判別能力不強(qiáng)的變量時(shí),還會(huì)嚴(yán)重影響到判別的效果。變量的選擇關(guān)系到判別函數(shù)的效果,適當(dāng)篩選變量是一個(gè)很重要的問(wèn)題。凡是具有篩選變量能力的判別方法統(tǒng)稱(chēng)為逐步判別法。(1)在中選出一個(gè)自變量,它使維爾克斯統(tǒng)計(jì)量達(dá)到最小,假定挑選的變量次序按照自然的次序,第一步選中,第r步選中,考察是否落入接受域,如果不顯著則表明一個(gè)變量也不選中,不能用判別分析,如顯著則進(jìn)入下一步。(2)在未選中的變量中,計(jì)算它們與已選中變量配合的值,選擇使最小的作為第二個(gè)變量,依此,如選中r個(gè)變量,設(shè),計(jì)算,使其最小的為第個(gè)變量,檢驗(yàn)第個(gè)變量能否提供附加信息,如果能則進(jìn)入第四部,不能進(jìn)入第三步。(3)在已選入的r個(gè)變量中,要考慮較早選中的變量中重要性有沒(méi)有較大的變化,應(yīng)及時(shí)把不能提供附加信息的變量剔除出去,剔除的原則等同于引進(jìn)的原則。例如在已進(jìn)入的r個(gè)變量中要考察是否應(yīng)剔除,就是計(jì)算選擇達(dá)到極小(大)的,看是否顯著,如不顯著將該變量剔除,回到第三步,繼續(xù)對(duì)于下的變量進(jìn)行考察是否需要剔除,如果顯著則回到第二步。(4)這時(shí)既不能選進(jìn)新變量,又不能剔除已選進(jìn)的變量,將已選中的變量簡(jiǎn)歷判別函數(shù)。5.簡(jiǎn)要敘述判別分析的步驟及流程(1)研究問(wèn)題:選擇對(duì)象,評(píng)估一個(gè)多元問(wèn)題各組的差異,將觀測(cè)(個(gè)體)歸類(lèi),確定組與組之間的判別函數(shù)(2)設(shè)計(jì)要點(diǎn):選擇解釋變量,樣本的考慮,建立分析樣本的保留樣本(3)假定:解釋變量的整體性,線(xiàn)性關(guān)系,解釋變量間不存在多重共線(xiàn)性,協(xié)方差相等(4)估計(jì)判別函數(shù):聯(lián)立估計(jì)或者逐步估計(jì),判別函數(shù)的顯著性(5)使用分類(lèi)矩陣評(píng)估預(yù)測(cè)的精度:確定最優(yōu)臨界得分,確定準(zhǔn)則來(lái)評(píng)估判對(duì)比率,預(yù)測(cè)精確的統(tǒng)計(jì)顯著性(6)判別函數(shù)的解釋?zhuān)枰鄠€(gè)函數(shù),評(píng)價(jià)單個(gè)函數(shù)主要從判別權(quán)重、判別載荷、偏F值幾個(gè)方面,(評(píng)價(jià)兩個(gè)以上的判別函數(shù)也需要,并且還要評(píng)價(jià)合并的函數(shù),函數(shù)的旋轉(zhuǎn)、能力指數(shù),各組重心的圖示、判別載荷的圖示,)(7)判別結(jié)果的驗(yàn)證:分開(kāi)樣本或者交叉驗(yàn)證,刻畫(huà)組間的差異。6.為研究某地區(qū)人口死亡狀況,已按某種方法將15個(gè)一直樣品分為三類(lèi),指標(biāo)及原始數(shù)據(jù)見(jiàn)下表,試建立判別函數(shù),并判定另外四個(gè)帶判樣品屬于哪類(lèi)Analysis Case Processing SummaryUnweighted CasesNPercentValid1578.9ExcludedMissing or out-of-range group codes0.0At least one missing discriminating variable0.0Both missing or out-of-range group codes and at least one missing discriminating variable421.1Total421.1Total19100.0Group StatisticsyMeanStd. DeviationValid N (listwise)UnweightedWeighted1X138.74206.8843455.000X211.90006.7852855.000X31.5000.7593155.000X412.24606.9758555.000X5100.05807.4774055.000X667.46002.6968555.0002X139.53648.3720655.000X211.49608.4491155.000X32.93802.1253055.000X427.83006.1197155.000X5151.224017.6221955.000X666.05001.9072255.0003X138.500010.5680155.000X210.11809.8193055.000X3.6840.9079055.000X410.33209.6736055.000X593.946012.2527655.000X667.42003.0507455.000TotalX138.92618.104731515.000X211.17137.856361515.000X31.70731.618971515.000X416.802710.823061515.000X5115.076029.227931515.000X666.97672.497351515.000Tests of Equality of Group MeansWilks LambdaFdf1df2Sig.X1.997.019212.981X2.990.061212.941X3.6453.301212.072X4.4387.690212.007X5.17328.728212.000X6.926.478212.631對(duì)各組均值是否相等的檢驗(yàn),在0.01的顯著性水平上,X4、 X5在三組的均值有顯著差異反映協(xié)方差矩陣的秩和行列式的對(duì)數(shù)值, 后者對(duì)各種體協(xié)方差陣是否相等的統(tǒng)計(jì)檢驗(yàn),由F值及其顯著水平,我們?cè)?.05的顯著性水平下接受原假設(shè)(原假設(shè)假定各總體協(xié)方差陣相等)EigenvaluesFunctionEigenvalue% of VarianceCumulative %Canonical Correlation160.267a98.998.9.9922.678a1.1100.0.636a. First 2 canonical discriminant functions were used in the analysis.第一判別函數(shù)解釋了98.9%的方差,第二判別函數(shù)解釋了1.1%的方差Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1 through 2.01044.01412.0002.5964.9195.426第一判別函數(shù)在0.05的顯著性水平上是顯著的標(biāo)準(zhǔn)化的判別函數(shù)Standardized Canonical Discriminant Function CoefficientsFunction12X1-17.048-7.685X214.7109.793X3-1.301-.513X46.403-.566X51.344.657X64.3111.813Canonical Discriminant Function CoefficientsFunction12X1-1.951-.879X21.7421.160X3-.927-.366X4.827-.073X5.102.050X61.661.698(Constant)-78.860-29.413Unstandardized coefficients非標(biāo)準(zhǔn)化的判別函數(shù)Y1=-78.860+-1.951 X1+1.742 X2+-0.927 X3+0.827 X4+0.102 X5+1.661 X6根據(jù)這個(gè)判別函數(shù)計(jì)算每個(gè)觀測(cè)的判別Z得分后者是判別函數(shù)在各組的重心 各組的先驗(yàn)概率Functions at Group CentroidsyFunction121-2.6851.00229.523-.2543-6.838-.748Unstandardized canonical discriminant functions evaluated at group meansPrior Probabilities for GroupsyPriorCases Used in AnalysisUnweightedWeighted1.33355.0002.33355.0003.33355.000Total1.0001515.000 Classification Function Coefficientsy123X1-158.299-181.006-148.660X2166.206186.018156.942X3-97.779-108.631-93.291X459.02669.21755.718X511.52212.71011.009X6201.552220.946193.435(Constant)-5586.484-6553.476-5227.094Fishers linear discriminant functions 每組的費(fèi)歇線(xiàn)性判別函數(shù)Y=1這組F1= -5586.484+-158.299 X1+166.206 X2+-97.779 X3+59.026 X4+11.522 X5+201.552 X6Y=2這組F2=-6553.476+-181.006 X1+186.018 X2+-108.631 X3+69.217 X4+12.710+ X5220.946 X6Y=3這組F3=-5227.094 +-148.660X1+156.942 X2+-93.291 X3+55.718 X4+11.009 X5+193.435 X6將觀測(cè)分到較大的函數(shù)值中帶判樣品f1 f2 f3 分別如下3902.3613612.1173997.6615563.0035478.9575556.3037015.1927149.3516931.5745013.9214877.5445030.7341號(hào)待判 判為第三組2號(hào)待判 判為第一組3號(hào)待判 判為第二組4號(hào)待判 判為第三組Classification Resultsa,cyPredicted Group MembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedbCount150052140532035%1100.0.0.0100.0220.080.0.0100.0340.0.060.0100.0a. 100.0% of original grouped cases correctly classified.b. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.c. 80.0% of cross-validated grouped cases correctly classified.Predicted Group Membership 表示預(yù)設(shè)的所屬組關(guān)系Original 表示原始數(shù)據(jù)的所屬組關(guān)系Cross-validated 表示交叉驗(yàn)證的所屬組關(guān)系第5章 主成分分析1.主成分的基本思想是什么?在對(duì)某一事物進(jìn)行實(shí)證研究時(shí),為更全面、準(zhǔn)確地反映事物的特征及其發(fā)展規(guī)律,往往考慮與其有關(guān)的多個(gè)指標(biāo),在多元統(tǒng)計(jì)中也稱(chēng)為變量。一方避免遺漏重要信息而考慮盡可能多的指標(biāo),另一方面考慮指標(biāo)的增多,又難以避免信息重疊。希望涉及的變量少,而得到的信息量有較多。主成分的基本思想是研究如何通過(guò)原來(lái)變量的少數(shù)幾個(gè)線(xiàn)性組合來(lái)解釋原來(lái)變量絕大多數(shù)信息的一種多元統(tǒng)計(jì)方法。研究某一問(wèn)題涉及的眾多變量之間有一定的相關(guān)性,必然存在著起支配作用的共同因素。通過(guò)對(duì)原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線(xiàn)性組合形成幾個(gè)互相無(wú)關(guān)的綜合指標(biāo)(主成分)來(lái)代替原來(lái)的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線(xiàn)性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線(xiàn)性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線(xiàn)性組合中選取的F1應(yīng)該是方差最大的,故稱(chēng)F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線(xiàn)性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求 Cov(F1, F2)=0,則稱(chēng)F2為第二主成分,依此類(lèi)推可以構(gòu)造出第三、第四,第P個(gè)主成分。2.主成分在應(yīng)用中的主要作用是什么?作用:利用原始變量的線(xiàn)性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡(jiǎn)化問(wèn)題的作用,使得在研究復(fù)雜問(wèn)題時(shí)更容易抓住主要矛盾。通過(guò)主成分分析,可以從事物之間錯(cuò)綜復(fù)雜的關(guān)系中找出一些主要成分,從而能有效利用大量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行定量分析,解釋變量之間的內(nèi)在關(guān)系,得到對(duì)事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù),有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)論,弄清X(qián)變量間的某些關(guān)系,多維數(shù)據(jù)的一種圖形表示方法,用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇,獲得選擇最佳變量子集合的效果。 3.由協(xié)方差陣出發(fā)和由相關(guān)陣出發(fā)求主成分有什么不同?由協(xié)方差陣出發(fā)設(shè)隨即向量X=(X1,X2,X3,Xp) 的協(xié)方差矩陣為,l1l2lp為的特征值,1,2,p為矩陣A各特征值對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量,則第i個(gè)主成分為Yi=1i*X1+2i*X2+pi*Xp,i=1,2,p此時(shí)VAR(Yi)=li,(,),我們把X1,X2,X3,Xp的協(xié)方差矩陣的非零特征根l1l2lp0向量對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量1,2,p分別作為系數(shù)向量,Y1=1*X, Y2=2*X,, Yp=p*X分別稱(chēng)為隨即向量X的第一主成分,第二主成分第p主成分。Y的分量Y1,Y2,Yp依次是X的第一主成分、第二主成分第p主成分的充分必要條件是:(1)Y=P*X,即P為p階正交陣,(2)Y的分量之間互不相關(guān),即D(Y)=diag(l1,l2,lp),(3)Y的p個(gè)分量是按方差由大到小排列,即l1l2lp。由相關(guān)陣出發(fā)對(duì)原始變量X進(jìn)行標(biāo)準(zhǔn)化,Z=(1/2)-1*(X-) cov(Z)=R原始變量的相關(guān)矩陣實(shí)際上就是對(duì)原始變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣,因此,有相關(guān)矩陣求主成分的過(guò)程與主成分個(gè)數(shù)的確定準(zhǔn)則實(shí)際上是與由協(xié)方差矩陣出發(fā)求主成分的過(guò)程與主成分個(gè)數(shù)的確定準(zhǔn)則相一致的。i,i 分別表示相關(guān)陣R的特征根值與對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量,此時(shí),求得的主成分與原始變量的關(guān)系式為:Yi=i*Z=i*(1/2)-1*(X-)在實(shí)際研究中,有時(shí)單個(gè)指標(biāo)的方差對(duì)研究目的起關(guān)鍵作用,為了達(dá)到研究目的,此時(shí)用協(xié)方差矩陣進(jìn)行主成分分析恰到好處。有些數(shù)據(jù)涉及到指標(biāo)的不同度量尺度使指標(biāo)方差之間不具有可比性,對(duì)于這類(lèi)數(shù)據(jù)用協(xié)方差矩陣進(jìn)行主成分分析也有不妥。相關(guān)系數(shù)矩陣計(jì)算主成分其優(yōu)勢(shì)效應(yīng)僅體現(xiàn)在相關(guān)性大、相關(guān)指標(biāo)數(shù)多的一類(lèi)指標(biāo)上。避免單個(gè)指標(biāo)方差對(duì)主成分分析產(chǎn)生的負(fù)面影響,自然會(huì)想到把單個(gè)指標(biāo)的方差從協(xié)方差矩陣中剝離,而相關(guān)系數(shù)矩陣恰好能達(dá)到此目的。第六章因子分析1. 因子分析與主成分分析有什么本質(zhì)不同?() 因子分析把展示在我們面前的諸多變量看成由對(duì)每一個(gè)變量都有作用的一些公共因子和一些僅對(duì)某一個(gè)變量有作用的特殊因子線(xiàn)性組合而成,因此,我們的目的就是要從數(shù)據(jù)中探查能對(duì)變量起解釋作用的公共因子和特殊因子,以及公共因子和特殊因子的線(xiàn)性組合,主成分分析則簡(jiǎn)單一些,它只是從空間生成的角度尋找能解釋諸多變量絕大部分變異扥機(jī)組彼此不相關(guān)的新變量() 因子分析中,把變量表示成各因子的線(xiàn)性組合,而主成分分析中,把主成分表示成各變量的線(xiàn)性組合() 主成分分析中不需要有一些專(zhuān)門(mén)架設(shè),因子分析則需要一些假設(shè),因子分析的假設(shè)包括,各個(gè)因子之間不相關(guān),特殊因襲之間不相關(guān),公共因子和特殊因子之間不相關(guān)() 提取主因子的方法不僅有主成分法還有極大似然法等,基于這些不同算法得到的結(jié)果一般也不同,而主成分只能用主成分法提?。ǎ?主成分分析中,當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定,而因子分析中,因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。() 在因子分析中,因子個(gè)數(shù)需要分析者指定,結(jié)果隨指定的因子數(shù)不同而不同,主成分分析中,主成分的數(shù)量是一定的,一般有幾個(gè)變量就有幾個(gè)主成分。() 與主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢(shì),而如果想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量來(lái)進(jìn)行后續(xù)的分析,則可以使用主成分分析。2. 因子載荷的統(tǒng)計(jì)定義是什么?它在實(shí)際問(wèn)題分析中的作用是什么?因子載荷的統(tǒng)計(jì)定義,是原始變量與公共因子的協(xié)方差,與都是均值為0,方差為1的變量,因此同時(shí)也是與的相關(guān)系數(shù)。,則表示的是公共因子對(duì)于的每一分量所提供的方差的總和,稱(chēng)為公共因子對(duì)原始變量向量X的方差貢獻(xiàn),是衡量公共因子相對(duì)重要性的指標(biāo),計(jì)算出因子載荷矩陣A的所有,并按照大小排序,提出影響力大的公共因子。第8章 典型相關(guān)分析. 試述典型相關(guān)分析的統(tǒng)計(jì)思想及該方法在研究實(shí)際問(wèn)題中的作用典型相關(guān)分析研究?jī)山M變量之間整體的線(xiàn)性相關(guān)關(guān)系,它是將每一組變量作為一個(gè)整體來(lái)分析研究而不是分析每一組變量?jī)?nèi)部的各個(gè)變量,所研究的兩組變量可以是一組變量為自變量,一組變量為因變量的情況,兩組變量也可以處于同等地位,但典型相關(guān)分析要求兩組變量都至少是間隔尺度的。借助主成分分析的思想,對(duì)每一組變量分別尋找線(xiàn)性組合,使生成的新的綜合變量能代表原始變量大部分的信息,同時(shí)與由另一組變量生成的新的綜合變量的相關(guān)程度最大,這樣一組新的綜合變量稱(chēng)為第一對(duì)典型相關(guān)變量,同樣的方法找到第二對(duì),第三對(duì)使各隊(duì)典型相關(guān)變量之間互不相關(guān),典型相關(guān)變量之間的簡(jiǎn)單相關(guān)系數(shù)稱(chēng)為典型相關(guān)系數(shù)。. 典型相關(guān)分析中的冗余度有什么作用在進(jìn)行典型相關(guān)分析的時(shí)候,需要了解典型變量的解釋比例,從而定量測(cè)度典型變量所包含的原始信息量的大小,此時(shí)就需要典型變量的冗余分析。冗余度(Redundancy)分析結(jié)果,它列出各典型相關(guān)系數(shù)所能解釋原變量變異的比例,可以用來(lái)輔助判斷需要保留多少個(gè)典型相關(guān)系數(shù)。. 典型變量的解釋有什么具體方法,實(shí)際意義是什么主要使用以下三種方法(1)典型權(quán)重(標(biāo)準(zhǔn)化系數(shù)),(2)典型載荷(結(jié)構(gòu)系數(shù))(3)典型交叉載荷平均解釋量是某一個(gè)典型因素與各觀察變量之典型因素結(jié)構(gòu)系數(shù)的平方和,再除以觀察變量的個(gè)數(shù)。(結(jié)構(gòu)系數(shù)平方和/個(gè)數(shù))若X、Y變量的數(shù)目不同,則典型因素對(duì)各自觀察變量的累積解釋量也會(huì)不同。結(jié)構(gòu)系數(shù)大于等于0.3就可以認(rèn)為有意義;大于等于0.5就屬于高度相關(guān),可以依此來(lái)判定有意義的結(jié)構(gòu)。交叉結(jié)構(gòu)系數(shù)是指X變量與另一個(gè)典型因素之間的相關(guān)系數(shù),或各Y變量與另一側(cè)典型因素間的相關(guān)系數(shù)。附表 1. 邊遠(yuǎn)及少數(shù)民族聚居區(qū)社會(huì)經(jīng)濟(jì)發(fā)展水平的指標(biāo)數(shù)據(jù).xls青海436740.9204714.4842.92樣本均值4208.78 35.12 1965.89 12.21 27.79 全國(guó)平均水平6212.0132.8729729.515.78樣本均值-全國(guó)平均(A)-2003.23 2.25 -1006.11 2.71 12.01 Inter-Item Covariance Matrix人均GDP(元)三產(chǎn)比重(%)人均消費(fèi)(元)人口增長(zhǎng)(%)文盲半文盲(%)人均GDP(元)1020190.84582.46331693.531-599.784-6356.325三產(chǎn)比重(%)582.4619.48-105.4646.62543.697人均消費(fèi)(元)331693.531-105.464125364.321-213.634-3130.038人口增長(zhǎng)(%)-599.7846.625-213.6346.09925.41文盲半文盲(%)-6356.32543.697-3130.03825.41196.884逆矩陣(B)1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893-0.000440370.207023949-0.000210

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論