多元統(tǒng)計知識點總結(jié)(老師思考題)

上傳人：q*** IP屬地：湖北上傳時間：2023-02-04 格式：PPT 頁數(shù)：116 大?。?.43MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩111頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

十、聚類分析中系統(tǒng)聚類方法聚類分析的步驟是什么？為什么系統(tǒng)聚類中各種聚類分析方法都有遞推公式。最長距離、最短距離和類平均法的遞推公式是如何證明的？1、根據(jù)樣品的特征，規(guī)定樣品之間的距離，共有個。將所有列表，記為D（0）表，該表是一張對稱表。2、選擇D（0）表中最小的非零數(shù)，不妨假設(shè)，于是將和合并為一類，記為。(1)聚類分析中系統(tǒng)聚類方法:開始各樣品自成一類。3、利用遞推公式計算新類與其它類之間的距離。分別刪除D（0）表的第K，L行和第K，L列，并新增一行和一列添上的結(jié)果，產(chǎn)生D（1）表。4、在D（1）表再選擇最小的非零數(shù)，其對應(yīng)的兩類有構(gòu)成新類，再利用遞推公式計算新類與其它類之間的距離。分別刪除D（1）表的相應(yīng)的行和列，并新增一行和一列添上的新類和舊類之間的距離。結(jié)果，產(chǎn)生D（2）表。類推直至所有的樣本點歸為一類為止。最后所有的樣本被歸于一類。聚類分析的步驟是什么？

§3主要的步驟1、選擇變量（1）變量與聚類分析的目的密切相關(guān)（2）反映要分類變量的特征（3）在不同研究對象上的值有明顯的差異（4）變量之間不要高度相關(guān)2、計算相似性相似性是聚類分析中的基本概念，他反映了研究對象之間的親疏程度，聚類分析就是根據(jù)對象之間的相似性來分類的。有很多刻畫相似性的測度3、聚類選定了聚類的變量，計算出樣品或指標(biāo)之間的相似程度后，構(gòu)成了一個相似程度的矩陣。這時主要涉及兩個問題：（1）選擇聚類的方法（2）確定形成的類數(shù)4、聚類結(jié)果的解釋和證實對聚類結(jié)果進(jìn)行解釋是希望對各個類的特征進(jìn)行準(zhǔn)確的描述，給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進(jìn)行分析，通常的做法是計算各類在各聚類變量上的均值，對均值進(jìn)行比較，還可以解釋各類產(chǎn)別的原因。

為什么系統(tǒng)聚類中各種聚類分析方法都有遞推公式。因為系統(tǒng)聚類剛開始計算的距離都有一定的規(guī)律性，有著嚴(yán)格的定義，開分項，每一步都可以由上一步的計算所得到，如同可以從D（0）表中可以獲得很多知識，最長距離、最短距離和類平均法的遞推公式是如何證明的？

最短距離法的遞推公式推證

假設(shè)第K類和第L類合并成第M類，第M類與其它各舊類的距離按最短距離法為：

最長距離法的遞推公式

假設(shè)第K類和第L類合并成第M類，第J類與其它各舊類的距離按最長距離法為：類平均法定義類間的距離是兩類間樣品距離的平均數(shù)。對于我們前面討論的問題

3、類平均法定義兩類間的距離遞推公式類平均法的遞推公式推導(dǎo)假設(shè)第K類和第L類合并成第類，第J類與其它各舊類的距離按最短距離法為：K類和L類與J類的距離的加權(quán)平均數(shù)十一、在系統(tǒng)聚類分析中，分類的類數(shù)可以通過R^2和偽F統(tǒng)計量來確定，指出R^2和偽F統(tǒng)計量的構(gòu)造。注：總離差平方和的分解（準(zhǔn)備知識）3.一些統(tǒng)計量如果著些樣品被分成兩類可以證明：總離差平方和＝組內(nèi)離差平方和＋組間離差平方和令W為總離差平方和令PG為分為G類的組內(nèi)離差平方和，則PG＝W1+W2+┅+WG。R2比較大，說明分G個類時類內(nèi)的離差平方和比較小，也就是說分G類是合適的。但是，分類越多，每個類的類內(nèi)的離差平方和就越小,R2也就越大；所以我們只能取合適的G，使得R2足夠大，而G本生很小，隨著G的增加,R2的增幅不大。比如，假定分4類時，R2=0.8；下一次合并分三類時，下降了許多，R2=0.32，則分4類是合適的。1)統(tǒng)計量

3)偽F統(tǒng)計量的定義為

偽F統(tǒng)計量用于評價聚為G類的效果。如果聚類的效果好，類間的離差平方和相對于類內(nèi)的離差平方和大，所以應(yīng)該取偽F統(tǒng)計量較大而類數(shù)較小的聚類水平。

十二、有序聚類與系統(tǒng)聚類有何不同？k-均值聚類與系統(tǒng)聚類有何不同。有序聚類與系統(tǒng)聚類有何不同？系統(tǒng)聚類分析直觀，易懂，速度慢；

快速聚類快速，動態(tài)；

有序聚類*保序；

第二章聚類分析

§5有序樣本聚類法

一、功能范疇與數(shù)據(jù)類型有序樣本聚類法又稱為最優(yōu)分段法。該方法是由費歇在1958年提出的。它主要適用于樣本由一個變量描述的情況。所以多變量問題必須要找到一個刻畫距離的指標(biāo)。有序樣本聚類法常常被用于系統(tǒng)的評估問題，被用來對樣本點進(jìn)行分類劃級。

系統(tǒng)聚類開始n個樣品各自自成一類，然后逐步并類，直至所有的樣品被聚為一類為止。而有序聚類則相反，開始所有的樣品為一類，然后分為二類、三類等，直到分成n類。每次分類都要求產(chǎn)生的離差平方和的增量最小。k-均值聚類與系統(tǒng)聚類有何不同。（網(wǎng)上）K均值聚類法和系統(tǒng)聚類法有什么區(qū)別，這兩種聚類方法的適用條件都是什么？k均值聚類法快速高效，特別是大量數(shù)據(jù)時，準(zhǔn)確性高一些，但是需要你自己指定聚類的類別數(shù)量系統(tǒng)聚類法則是系統(tǒng)自己根據(jù)數(shù)據(jù)之間的距離來自動列出類別，所以通過系統(tǒng)聚類法得出一個樹狀圖，至于聚類的類別需要自己根據(jù)樹狀圖以及經(jīng)驗來確定（書75）K均值法和系統(tǒng)聚類法一樣，都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的，但是兩者的不同之處也是明顯的：系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果，而k均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定，離不開實踐經(jīng)驗的積累；有時也可以借助系統(tǒng)聚類法以一部分樣品為對象進(jìn)行聚類，其結(jié)果作為k均值法確定類數(shù)的參考。十四、判別分析與聚類分析在變量有什么不同？聚類分析的選擇變量要求（1）變量與聚類分析的目的密切相關(guān)（2）反映要分類變量的特征（3）在不同研究對象上的值有明顯的差異（4）變量之間不要高度相關(guān)變量聚類：找出彼此獨立且有代表性的自變量，而又不丟失大部分信息。不同：判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值，并且已知各個體的分類聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量，或者增加一些變量，結(jié)果會很不同。相比之下，聚類方法的選擇則不那么重要了。因此，聚類之前一定要目標(biāo)明確。

判別分析的變量要求：1.判別分析的基本條件：分組類型在兩組以上，解釋變量必須是可測的；2.每個解釋變量不能是其它解釋變量的線性組合（比如出現(xiàn)多重共線性情況時，判別權(quán)重會出現(xiàn)問題）；3.各解釋變量之間服從多元正態(tài)分布（不符合時，可使用Logistic回歸替代），且各組解釋變量的協(xié)方差矩陣相等（各組協(xié)方方差矩陣有顯著差異時，判別函數(shù)不相同）。4.判別分析是根據(jù)表明事物特點的變量值和它們所屬的類求出判別函數(shù)，根據(jù)判別函數(shù)對未知所屬類別的事物進(jìn)行分類的一種分析方法，與聚類分析不同，它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。要選擇好可能用于判別的預(yù)測變量。這是最重要的一步。當(dāng)然，在應(yīng)用中，選擇的余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預(yù)測變量中是否有些不適宜的；這可以用單變量方差分析（ANOVA）和相關(guān)分析來驗證。判別分析是為了正確地分類，但同時也要注意使用盡可能少的預(yù)測變量來達(dá)到這個目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果進(jìn)行解釋。判別分析中的因變量或判別準(zhǔn)則是定類變量，而自變量或預(yù)測變量基本上是定距變量。聚類分析并不是一種純粹的統(tǒng)計技術(shù)，其方法基本上與分布理論和顯著性檢驗無關(guān)。一般不從樣本推斷總體。而判別分析中，對于分布理論非常關(guān)注，它有一個基本假設(shè)；每一個類別都應(yīng)取自一個多元正態(tài)的樣本，而且所有正態(tài)總體的協(xié)方差矩陣或相關(guān)矩陣都假定是相同的。如不滿足正態(tài)總體假定的做正態(tài)變換；如果不滿足協(xié)方差矩陣相同的假定，則可能要采用非線性的判別函數(shù)十五、距離判別分析中，為何不用歐氏距離？而用馬氏距離。首先由于判別分析中，對于分布理論非常關(guān)注，它有一個基本假設(shè)；每一個類別都應(yīng)取自一個多元正態(tài)的樣本，而且所有正態(tài)總體的協(xié)方差矩陣或相關(guān)矩陣都假定是相同的。如不滿足正態(tài)總體假定的做正態(tài)變換。因此我們應(yīng)該選擇馬氏。二、常用距離的算法設(shè)和是第i和j個樣品的觀測值，則二者之間的距離為：明氏距離特別，歐氏距離(1)明氏距離測度

明考夫斯基距離主要有以下兩個缺點：①明氏距離的值與各指標(biāo)的量綱有關(guān)；②明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實際上，明考夫斯基距離是把各個變量都同等看待，將兩個樣品在各個變量上的離差簡單地進(jìn)行了綜合；(4)馬氏距離這是印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(P．C．Mahalanobis)所定義的一種距離，其計算公式為：分別表示第i個樣品和第j樣品的p指標(biāo)觀測值所組成的列向量，即樣本數(shù)據(jù)矩陣中第i個和第j個行向量的轉(zhuǎn)置，表示觀測變量之間的協(xié)方差短陣。在實踐應(yīng)用中，若總體協(xié)方差矩陣未知，則可用樣本協(xié)方差矩陣作為估計代替計算。第二節(jié)

距離判別（一）馬氏距離距離判別的最直觀的想法是計算樣品到第i類總體的平均數(shù)的距離，哪個距離最小就將它判歸哪個總體，所以，我們首先考慮的是是否能夠構(gòu)造一個恰當(dāng)?shù)木嚯x函數(shù)，通過樣本與某類別之間距離的大小，判別其所屬類別。設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個觀測值點，則稱

為X與Y之間的Mahalanobis距離。馬氏距離和歐式距離之間的差別馬氏距離歐氏距離馬氏距離有如下的特點：

2、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離1、馬氏距離不受計量單位的影響;

3、若變量之間是相互無關(guān)的，則協(xié)方差矩陣為對角矩陣2倍標(biāo)準(zhǔn)差1.5倍標(biāo)準(zhǔn)差判給哪個總體更合理？十六、給出三個或以上距離判別法的判別規(guī)則。為什么在距離判別分析中，為何不能計算出錯判概率？隨著計算機(jī)計算能力的增強(qiáng)和計算機(jī)的普及，距離判別法的判別函數(shù)也在逐步改進(jìn)，一種等價的距離判別為：設(shè)有個K總體，分別有均值向量μj(j=1,2,…,k)和協(xié)方差陣Σj=Σ，各總體出現(xiàn)的先驗概率相等。又設(shè)Y是一個待判樣品。則與的距離為（即判別函數(shù)）(三)多總體的距離判別法上式中的第一項Y’Σ-1Y與j無關(guān)，則舍去，得一個等價的函數(shù)將上式中提-2，得則距離判別法的判別函數(shù)為：判別規(guī)則為注：這與前面所提出的距離判別是等價的.（四）對判別效果做出檢驗

由上面的分析可以看出，馬氏距離判別法是合理的，但是這并不意謂著不會發(fā)生誤判。如圖

1.錯判問題閾值

了解兩個總體的情形：其判別函數(shù)為2.錯判概率的計算設(shè)1和2是兩個總體，假設(shè)其服從正態(tài)分布，記p(2/1)來于第一個總體，但是判給了第二個總體的概率；p(1/2)來于第二個總體，但是判給了第一個總體的概率。則

因為所以，當(dāng)x屬于第一個總體時又則則所以同理思考：越大誤判概率是越大還是越?。空`判概率最大是多少？這時的為幾？假設(shè)兩總體均值間的馬氏距離為16，錯判概率為多少？誤判概率一定可以計算出來嗎？

十七、給出貝葉斯判別法中后驗概率最大的準(zhǔn)則貝葉斯判別法。為何要給出總體的分布形式。什么條件下距離判別和貝葉斯判別方法等價？(當(dāng)總體會以相同的概率（先驗概率）出現(xiàn)時）(1)給出貝葉斯判別法中后驗概率最大的準(zhǔn)則貝葉斯判別法。設(shè)有總體，具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析，知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時，求他屬于某類的概率。由貝葉斯公式計算后驗概率，有：判別規(guī)則則判給。在正態(tài)的假定下，為正態(tài)分布的密度函數(shù)。(2)為何要給出總體的分布形式。距離判別簡單直觀，很實用，但是距離判別的方法把總體等同看待，沒有考慮到總體會以不同的概率（先驗概率）出現(xiàn)，也沒有考慮誤判之后所造成的損失的差異。一個好的判別方法，既要考慮到各個總體出現(xiàn)的先驗概率，又要考慮到錯判造成的損失，Bayes判別就具有這些優(yōu)點，其判別效果更加理想，應(yīng)用也更廣泛。十八、在逐步判別中，^統(tǒng)計量是如何構(gòu)造的。如果該統(tǒng)計量小，說明什么？小說明p個指標(biāo)至少有一個對G1，G2，┅，Gk有強(qiáng)的區(qū)別能力，拒絕原假設(shè)。設(shè)有n樣品，分別來自k個類G1，G2，┅，Gk其中nj個來自Gj，

（一）變量組間差異的顯著檢驗樣品分別為：即，p個指標(biāo)對G1，G2，┅，Gk均無區(qū)別能力；p個指標(biāo)至少有一個對G1，G2，┅，Gk有區(qū)別能力。當(dāng)比值很小，類內(nèi)叉積矩陣的行列式在總叉積矩陣的行列式所占比率小，則類間的離差平方和所占比重大。在原假設(shè)為真的條件下，服從維爾克斯分布。當(dāng)接受原假設(shè)；當(dāng)p個指標(biāo)至少有一個對G1，G2，┅，Gk有強(qiáng)的區(qū)別能力，拒絕原假設(shè)。

五、如果我們有p個變量，如果基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析，那么所有主成分方差為p，這是為什么？

因為相關(guān)系數(shù)矩陣就是隨機(jī)變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣，通過隨機(jī)變量的標(biāo)準(zhǔn)化，相關(guān)系數(shù)矩陣剝離了單個指標(biāo)的方差，僅保留指標(biāo)間的相關(guān)性。用相關(guān)系數(shù)矩陣計算主成分，其優(yōu)勢效應(yīng)體現(xiàn)在相關(guān)性大、相關(guān)指標(biāo)多的一類指標(biāo)上。§4主成分的性質(zhì)一、均值二、方差為所有特征根之和說明主成分分析把P個隨機(jī)變量的總方差分解成為P個不相關(guān)的隨機(jī)變量的方差之和。

協(xié)方差矩陣的對角線上的元素之和等于特征根之和。而因為相關(guān)系數(shù)矩陣的對角線上的元素只和為p六、在主成分分析中，主成分與原始變量之間的相關(guān)系數(shù)的計算公式是什么？四、變量與主成分之間的相關(guān)系數(shù)

可見，和的相關(guān)的密切程度取決于對應(yīng)線性組合系數(shù)的大小。F1F2…Fpx1…x2…┇┇┇┇xp…七、基于相關(guān)系數(shù)矩陣的特征根和特征向量如下計算8個變量與第一個主成分之間的相關(guān)性。0.842658992=0.354838*sqrt(5.6395370)/sqrt(1)0.63029747=0.265414*sqrt(5.6395370)/sqrt(1)0.8615764180.8816456080.6722050540.899928970.956807110.913985239四、在因子分析中載荷矩陣有什么統(tǒng)計意義？我們在進(jìn)行因子分析時載荷矩陣A，要滿足一些什么條件呢？§2因子分析的數(shù)學(xué)模型

（一）數(shù)學(xué)模型1、型因子分析數(shù)學(xué)模型設(shè)個變量，如果表示為稱為公共因子，是不可觀測的變量，他們的系數(shù)稱為因子載荷。是特殊因子，是不能被前m個公共因子包含的部分。并且滿足：，即不相關(guān)；即互不相關(guān)，方差為1。即互不相關(guān)，方差不一定相等，。2、型因子分析數(shù)學(xué)模型設(shè)個樣品，如果表示為稱為公共因子，是不可觀測的變量，他們的系數(shù)稱為因子載荷。是特殊因子，是不能被前m個公共因子包含的部分。并且滿足：即不相關(guān)；即互不相關(guān)，方差為1。即互不相關(guān)，方差不一定相等，。（二）因子分析中的幾個統(tǒng)計特征1、因子載荷的統(tǒng)計意義因子載荷是第i個變量與第j個公共因子的相關(guān)系數(shù)

模型為

在上式的左右兩邊乘以

,再求數(shù)學(xué)期望

根據(jù)公共因子的模型性質(zhì)，有（載荷矩陣中第i行，第j列的元素）反映了第i個變量與第j個公共因子的相關(guān)重要性。絕對值越大，相關(guān)的密切程度越高。八、如果進(jìn)行因子分析時利用主成分法，那么因子分析的載荷矩陣與主成分分析的載荷矩陣有什么關(guān)系。設(shè)隨機(jī)向量的均值為，協(xié)方差為,為的特征根，為對應(yīng)的標(biāo)準(zhǔn)化特征向量。（一）主成分法

上式給出的表達(dá)式是精確的，然而，它實際上是毫無價值的，因為我們的目的是尋求用少數(shù)幾個公共因子解釋，故略去后面的p-m項的貢獻(xiàn)。

如果先假定模型中的特殊因子是不重要的，因而從的分解中忽略了特殊因子的方差。如果認(rèn)為從第m+1到p個特征根是非常小的，則九、從應(yīng)用的角度討論因子分析旋轉(zhuǎn)的目的。

§4因子旋轉(zhuǎn)（正交變換）建立了因子分析數(shù)學(xué)目的不僅僅要找出公共因子以及對變量進(jìn)行分組，更重要的要知道每個公共因子的意義，以便進(jìn)行進(jìn)一步的分析，如果每個公共因子的含義不清，則不便于進(jìn)行實際背景的解釋。由于因子載荷陣是不惟一的，所以應(yīng)該對因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡化，使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉(zhuǎn)法。四次方最大法、方差最大法和等量最大法。（一）為什么要旋轉(zhuǎn)因子因素旋轉(zhuǎn)的目的是想通過改變坐標(biāo)軸的位置，重新分配各個因素所解釋的變異數(shù)的比例，使因素結(jié)構(gòu)更為簡單，更易于解釋。因素旋轉(zhuǎn)不會改變模型對數(shù)據(jù)的擬合程度，也不會改變每個變量的共通性，但卻會改變因素的變異數(shù)貢獻(xiàn)。所謂「簡單的因素結(jié)構(gòu)」是指每個變量在盡可能少的因素上有比較高的負(fù)荷。以因素為軸，因素負(fù)荷為坐標(biāo)而做圖，則每個變量是該空間中的一個點，該圖稱為因素負(fù)荷圖。如圖1和圖2所示。圖1

因素載荷圖圖2

坐標(biāo)軸旋轉(zhuǎn)載荷圖直角坐標(biāo)系由兩個因子張成。

十三、利用因子分析進(jìn)行聚類分析的步驟？

應(yīng)用背景：變量過多，理清其相關(guān)的頭緒。第一步：對P個變量做因子分析，留下兩個因子，做四次方最大旋轉(zhuǎn)，然后根據(jù)其載荷的大小，將變量分到與其載荷最大的因子一組，則一分為二。第二步：選中一個類進(jìn)行再次的分割，分別對兩個類里的變量做因子分析，留兩個公共因子，做四次方最大旋轉(zhuǎn)觀察那個類有最大的第二個公共因子可解釋的方差，哪個最大，則此類被選中進(jìn)行二次分類；第三步：重復(fù)第二步的工作直到不能分為止。補充：變量聚類分析一、簡介在實際工作中，變量聚類的應(yīng)用也十分重要。在系統(tǒng)分析或評估過程中，為了避免某些重要因素的遺漏，人們往往在一開始選取指標(biāo)時，盡可能多地考慮所有的相關(guān)因素。而這樣做的結(jié)果，則是變量過多，變量相關(guān)度高，給系統(tǒng)分析與建模帶來很大的不便。因此，人們常常希望能研究變量間的相似關(guān)系，按照變量的相關(guān)關(guān)系把他們聚合為若干類，從而觀察和解釋影響系統(tǒng)的主要原因。SAS/VARCLUS過程試圖把一組變量分為不重疊的一些類，所以VARCLUS過程可以用來壓縮變量，用信息損失很少的類分量來代替含有很多變量的變量集。例如，一種教育情況的檢查可能包括有50項指標(biāo)，VARCLUS分析將這些項分為幾類，比如5個類，每類做部分檢查，檢查類分量的得分。二、變量聚類的步驟VARCLUS過程開始把所有變量看為一個類,然后重復(fù)下面的步驟:1.

首先挑選一個將被分裂的類變量聚類分析的想法是，VARCLUS過程首先找出該大類的第一和第二公共因子，這兩個公共因子經(jīng)過正交坐標(biāo)變換，即因子分析中常用的Quartimax（四次方最大方法）旋轉(zhuǎn)，讓原始變量僅僅在一個公共因子上有高載荷。變量被指定歸入一個與其相關(guān)系數(shù)的平方較高的公共因子。如此原有的大類被分裂為二。2.變量重新歸類兩個（或兩個以上的）之中的一個類被選中，照第一步的方法再分裂為二。這個被選中的類通常擁有最大的第二特征根，或者是擁有最小的可被類向量解釋的變異數(shù)百分比。3.第一步和第二步不停的交互進(jìn)行，直至類內(nèi)變量之間的第二特征根或可被類向量解釋的變異數(shù)百分比達(dá)到預(yù)設(shè)定的標(biāo)準(zhǔn)為止。二十一、利用主成分得分進(jìn)行綜合評價的步驟。

計算所選原始變量的相關(guān)系數(shù)矩陣

相關(guān)系數(shù)矩陣描述了原始變量之間的相關(guān)關(guān)系。可以幫助判斷原始變量之間是否存在相關(guān)關(guān)系，這對因子分析是非常重要的，因為如果所選變量之間無關(guān)系，做因子分析是不恰當(dāng)?shù)?。并且相關(guān)系數(shù)矩陣是估計因子結(jié)構(gòu)的基礎(chǔ)。選擇分析的變量用定性分析和定量分析的方法選擇變量，因子分析的前提條件是觀測變量間有較強(qiáng)的相關(guān)性，因為如果變量之間無相關(guān)性或相關(guān)性較小的話，他們不會有共享因子,所以原始變量間應(yīng)該有較強(qiáng)的相關(guān)性。一、因子分析通常包括以下五個步驟提取公共因子

這一步要確定因子求解的方法和因子的個數(shù)。需要根據(jù)研究者的設(shè)計方案或有關(guān)的經(jīng)驗或知識事先確定。因子個數(shù)的確定可以根據(jù)因子方差的大小。只取方差大于1(或特征值大于1)的那些因子，因為方差小于1的因子其貢獻(xiàn)可能很??；按照因子的累計方差貢獻(xiàn)率來確定，一般認(rèn)為要達(dá)到60％才能符合要求；

因子旋轉(zhuǎn)

通過坐標(biāo)變換使每個原始變量在盡可能少的因子之間有密切的關(guān)系，這樣因子解的實際意義更容易解釋,并為每個潛在因子賦予有實際意義的名字。

計算因子得分求出各樣本的因子得分，有了因子得分值，則可以在許多分析中使用這些因子，例如以因子的得分做聚類分析的變量，做回歸分析中的回歸因子。

二十二、證明因子模型中總體協(xié)方差矩陣的分解公式。§2因子分析的數(shù)學(xué)模型

（一）數(shù)學(xué)模型1、型因子分析數(shù)學(xué)模型設(shè)個變量，如果表示為稱為公共因子，是不可觀測的變量，他們的系數(shù)稱為因子載荷。是特殊因子，是不能被前m個公共因子包含的部分。并且滿足：，即不相關(guān)；即互不相關(guān)，方差為1。即互不相關(guān)，方差不一定相等，。（三）因子分析模型的性質(zhì)1、原始變量X的協(xié)方差矩陣的分解D的主對角線上的元素值越小，則公共因子共享的成分越多。三、為什么在進(jìn)行綜合評價時需要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題，對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果，須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì)，使所有指標(biāo)對測評方案的作用力同趨化，再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。因為統(tǒng)計分析更多的是針對較復(fù)雜的社會經(jīng)濟(jì)現(xiàn)象,需要用比較廣泛的統(tǒng)計指標(biāo),即利用由眾多指標(biāo)構(gòu)成的統(tǒng)計指標(biāo)體系進(jìn)行描述與分析。而利用多指標(biāo)進(jìn)行統(tǒng)計分析,往往需要借助于各種各樣的統(tǒng)計綜合合成方法,如多指標(biāo)的綜合評價、聚類分析、主成分分析、關(guān)聯(lián)分析,等等。為此,需要指標(biāo)之間具有綜合性。然而,各指標(biāo)由于性質(zhì)不同、計量單位不同,往往缺乏綜合性。此外,當(dāng)各指標(biāo)間的水平相差很大時,如果直接用原始指標(biāo)值進(jìn)行分析,就會突出數(shù)值較高的指標(biāo)在綜合分析中的作用,相對削弱數(shù)值水平較低指標(biāo)的作用,從而使各指標(biāo)以不等權(quán)參加運算分析。為避免這一點,解決各指標(biāo)數(shù)值可綜合性的問題,必要時需要對各指標(biāo)數(shù)值進(jìn)行無量綱化處理。由于不同變量常常具有不同的單位和不同的變異程度。不同的單位常使系數(shù)的實踐解釋發(fā)生困難。不同變量自身具有相差較大的變異時，會使在計算出的關(guān)系系數(shù)中，不同變量所占的比重大不相同。為了消除量綱影響和變量自身變異大小和數(shù)值大小的影響，故將數(shù)據(jù)標(biāo)準(zhǔn)化。

二、假設(shè)有一個p維正態(tài)總體

。那么數(shù)據(jù)變換

和有什么不同？他們都是馬氏距離的開方，而第一種變換假設(shè)p維變量無關(guān)，且他們的方差都相同，而變換二則考慮到更一般的情況也就是p維向量無關(guān)，但是p維向量的方差是不同的。一、假設(shè)是正態(tài)分布的似然函數(shù)，x是nxp樣本觀測矩陣。那么有最大值，這句話對嗎？為什么？（書p21）

十九、在我國的城鎮(zhèn)居民消費支出中有食品、衣著、居住、家庭設(shè)備用品及服務(wù)、醫(yī)療保健1.這兩年的第一和第二公共因子有何不同。請闡述。2.給兩個公共因子命名3.計算共同度，和公共因子的方差解釋。4.用EXCEL計算殘差矩陣，討論因子分析結(jié)果；1.這兩年的第一和第二公共因子有何不同。請闡述。

2009年各個因素所解釋的變異數(shù)的比例更加明顯，使因素結(jié)構(gòu)更為簡單，更易于解釋。2.給兩個公共因子命名

第一個因子：為城鎮(zhèn)居民的一般性支出因子（基本消費因子）第二個因子：城鎮(zhèn)居民額外保健審美消費因子（附加消費因子）3.計算共同度，和公共因子的方差解釋。共同度：0.904021=0.95*0.95+0.39*0.0390.776450.7024090.80930.8197540.9425160.9379450.822226可見每個X的共同度都非常大，則因子分析的效果好，從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好。2、變量共同度的統(tǒng)計意義定義：變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統(tǒng)計意義：兩邊求方差

所有的公共因子和特殊因子對變量的貢獻(xiàn)為1。如果非常靠近1，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多元統(tǒng)計知識點總結(jié)(老師思考題)

文檔簡介

溫馨提示

最新文檔

評論

多元統(tǒng)計知識點總結(jié)(老師思考題)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔