多元統(tǒng)計整理_第1頁
多元統(tǒng)計整理_第2頁
多元統(tǒng)計整理_第3頁
多元統(tǒng)計整理_第4頁
多元統(tǒng)計整理_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1、歐式距離:它是在m維空間中兩個點之間的真實距離,同樣2個點a和b,無論空間坐標系如何定義,距離都相同。缺點:一是沒有考慮到總體的變異程度對距離遠近的影響, 顯然一個變異程度大的總體可能與更多樣品近些,即使他們的歐式距離不一定最近;另 夕卜,歐式距離受變量的量綱影響,這對多元數據的處理是不利的。2、馬氏距離:是數據的協(xié)方差距離,計算是與總體樣本有關的,同樣的兩個樣本a和b,放 入兩個不同的總體中,最后計算得出的兩個樣本間的馬氏距離一般是不相同的,除非這 兩個總體的協(xié)方差矩陣相同。優(yōu)點:它不受量綱的影響,兩點之間的馬氏距離與原始數 據的測量單位無關;由標準化數據和中心化數據(即原始數據與均值之

2、差)計算出的二 點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾。缺點:它的缺 點是夸大了變化微小的變量的作用。3、聚類分析:聚類分析是將樣本個體或指標變量按其具有的特性進行分類的一種統(tǒng)計分析 方法。我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏關系)。于 是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng) 計量,以這些統(tǒng)計量為劃分類型的依據?;舅枷耄喊岩恍┫嗨瞥潭容^大的樣品(或指 標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類, 關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所

3、有的樣品(或指標)聚合完畢,這就是分類的基本思想。由此得知,聚類分析的任務有 兩個,第一就是尋找合理的度量事物相似性的統(tǒng)計量;第二是尋找合理的分類方法。優(yōu) 點:聚類分析模型的優(yōu)點就是直觀,結論形式簡明。缺點:在樣本量較大時,要獲得聚 類結論有一定困難。由于相似系數是根據被試的反映來建立反映被試間內在聯(lián)系的指 標,而實踐中有時盡管從被試反映所得出的數據中發(fā)現(xiàn)他們之間有緊密的關系,但事物 之間卻無任何內在聯(lián)系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是 不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。4、系統(tǒng)聚類法:適用于小樣本的樣本聚類或指標聚類?;舅枷耄菏窍劝裬個指標看成一

4、類;然后用主成分分析法將它分解成若干類,分類的原則是使得每一類的類內指標總變 異盡可能多地被該類的類成分所解釋;如果每一類的類內指標總變異被類成分所解釋的 比例滿足事先給出的要求,則聚類停止;否則,對比例小的類再繼續(xù)進行分解,直到所 有類的類內指標總變異被類成分所解釋的比例都滿足事先給出的要求為止。具體步驟: 確定每一類的類內指標總變異被類成分所解釋的最低比例P;把所有指標看成一類, 計算類內指標總變異被類成分所解釋的比例,如果所解釋的比例大于或等于P,則聚類 停止;否則進行;將這個類分解成兩個類,分類原則是使得每一類內的指標總變異 盡可能地被該類的類成分所解釋且類間相關系數達到最小,計算每一

5、類的類內指標總變 異被類成分所解釋的比例,如果所解釋的比例大于或等于P,則聚類停止;否則進行; 最解釋比例最小的一類在繼續(xù)進行分解;重復以上步驟,直到所有類的類內指標總 變異被類成分所解釋的比例都大于或等于P為止。5、逐步聚類法:適用于大樣本的樣本聚類。對于小樣本的樣本聚類,如果采用逐步聚類法, 聚類結果將與樣本的順序有關?;舅枷耄合冗x擇若干個初始凝聚點,這些凝聚點可以 是所有樣本中的任意幾個樣本,也可以是隨意確定的幾個新樣本觀察值。然后把每一個 樣本按距離大小歸入到與該樣本最近的凝聚點所代表的初始類中,再以這些初始類的“重心”(類內各樣本觀察值的平均值)作為新的凝聚點重新將樣本歸類。重復以

6、上步 驟,直到分成的類再沒有什么變化為止。步驟:確定初始凝聚點;計算樣本與每一 個初始凝聚點的距離,并將每一個樣本歸入到與該樣本最近的凝聚點所代表的初始類 中;計算上述初始類的新凝聚點,等于類內各樣本觀察值的平均值;計算樣本與上 述新凝聚點的距離,并將每一個樣本歸入到與該樣本最近的新凝聚點所代表的類中;重復上述步驟,直到新分成的類再沒有什么變化為止。6、K-均值聚類原理:首先隨機從數據集中選取K個點作為廚師聚類中心,然后計算各個樣 本到聚類中心的距離,把樣本歸離它最近的聚類中心所在的類。計算新形成的每一個聚 類的數據對象的平均值來得到新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化, 說明樣本

7、調整結束,聚類準則函數已經收斂。本算法的一個特點是在每次迭代中要考察 每個樣本的分類是否正確。若不正確,就要調整,在全部樣本調整完后,再修改聚類中 心,進入下一次迭代。如果在一次迭代算法中,所有的樣本被正確分類,則不會有調整, 聚類中心也不會有任何變化,這標志著已經收斂,因此算法結束。步驟:從n個數據對 象任意選擇k個對象作為初始聚類中心;根據每個聚類對象的均值,計算每個對象與這 些中心對象的距離,并根據最小距離重新對相應對象進行劃分;重新計算每個(有變化) 聚類的均值(中心對象);循環(huán)2到3直到每個聚類不再發(fā)生變化為止。7、模糊聚類:是利用模糊模式識別中的基本理論,其基本思想是要把需要識別的

8、事物與模 板進行模糊比較,從而得到所屬的類別。模糊模式識別的方法是利用模糊數學中的基本 概念,原理,方法解決分類識別問題。8、判別分析:是利用已知類別的樣本培訓模型,為未知樣本判類的一種統(tǒng)計方法。特點是 根據已掌握的、歷史上每個類別的若干樣本的數據信息,總結出客觀事物分類的規(guī)律性, 建立判別公式和判別準則。然后,當遇到新的樣本點時,只要根據總結出來的判別公式 和判別準則,就能判別該樣本點所屬的類別。應用條件:分組類型在兩組以上;每組案 例的規(guī)模必須至少在一個以上。解釋變量必須是可測量的,才能計算其平均值和方差, 使其能合理的應用于統(tǒng)計函數。假設條件:每個判別變量(解釋變量)不能是其他判別 變量

9、的線性組合。;各組變量的協(xié)方差矩陣相等,這樣可以用很簡單的公式來計算判別 函數和進行顯著性檢驗;各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他 變量的固定值有正態(tài)分布,這樣可精確計算顯著性檢驗值和分組歸屬的概率。9、貝葉斯判別法思想:假定對研究對象已有一定的認識,常用先驗概率分布來描述這種認 識,然后我們取得一個樣本,用樣本來修正已有的認識(先驗概率分布),得到后驗概 率分布,各種統(tǒng)計推斷都通過后驗概率分布來進行。10、費歇判別法基本思想是投影(或降維):用p維向量的少數幾個線性組合(稱為判別式或典型變量)。(一般r明顯小于p)來代替原始的p個變量x1,x2,xp,以達到降維的目的,并

10、根據這r個判別式y(tǒng)1,y2,yr對樣品的歸屬作出判別。成功的降維 將使判別更為方便和有效,且可對前兩個或前三個判別式作圖,從直觀的幾何圖形上區(qū) 別各組。11、逐步判別分析:判別分析中指標較多時,一些不重要變量的引入,產生干擾而影響判 別效果,甚至一些變量的引入,可能引起計算上的空難,因此,變量的選擇是判別分 析中重要的問題,逐步判別分析就是解決合理選擇變量進行判別分析的一種方法。12、主成分分析:是一種通過降維技術把多個變量化為少數幾個主成分(即綜合變量)的 統(tǒng)計分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變 量的某種線性組合。在力求數據信息丟失最少的原則下,對高維的

11、變量空間降維,即研 究指標體系的少數幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地 保留原來指標變異方面的信息。作用:可以從事物間錯綜復雜的關系中找出一些主要成 分,從而能有效利用大量統(tǒng)計數據進行定量分析,揭示變量之間的內在聯(lián)系,得到對事 物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。優(yōu)點:首先它利用降 維技術用少數幾個綜合變量來代替原始多個變量,這些綜合變量集中了原始變量的大部 分信息。其次它通過計算綜合主成分函數得分,對客觀經濟現(xiàn)象進行科學評價。再次它 在應用上側重于信息貢獻影響力綜合評價。缺點:當主成分的因子負荷的符號有正有負時,綜合評價函數意義就不明確。命名清

12、晰性低。13、因子分析:是主成分分析的推廣。他也是利用降維的思想,由研究原始變量相關矩陣 內部的依賴關系出發(fā),把一些錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變 量統(tǒng)計方法,相比主成分分析,因子分析更傾向于描述原始變量之間的相關關系,因此 其出發(fā)點是原始變量的相關矩陣。基本思想:根據相關性大小把原始變量分組,使得同 組內的變量之間相關性較高,而不同組的變量間的相關性則較低。每組變量代表一個基 本結構,并用一個不可觀測的綜合變量表示,這個基本結構就稱為公共因子。對于所研 究的某一具體問題,原始變量可分解為兩部分之和的形式,一部分是少數幾個不可測的 所謂公共因子的線性函數,另一部分是與公共因

13、子無關的特殊因子。優(yōu)點:第一它不是 對原有變量的取舍,而是根據原始變量的信息進行重新組合,找出影響變量的共同因子, 化簡數據;第二,它通過旋轉使得因子變量更具有可解釋性,命名清晰性高。缺點:在 計算因子得分時,采用的是最小二乘法,此法有時可能會失效。14、對應分析:對應分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結構以點的 形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時作到 同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。 另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載 荷圖上對樣品進行直觀的分類,而且能

14、夠指示分類的主要參數(主因子)以及分類的依 據,是一種直觀、簡單、方便的多元統(tǒng)計方法。對應分析法整個處理過程由兩部分組成: 表格和關聯(lián)圖。對應分析法中的表格是一個二維的表格,由行和列組成。每一行代表事 物的一個屬性,依次排開。列則代表不同的事物本身,它由樣本集合構成,排列順序并 沒有特別的要求。在關聯(lián)圖上,各個樣本都濃縮為一個點集合,而樣本的屬性變量在圖 上同樣也是以點集合的形式顯示出來。15、典型相關分析:利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的 多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分 別在兩組變量中提取有代表性的兩個綜合變量U1和V

15、1(分別為兩個變量組中各變量 的線性組合),利用這兩個綜合變量之間的相關關系來反映兩組指標之間的整體相關性。16、主成分分析,聚類分析,因子分析的基本思想以及他們各自的優(yōu)缺點。概念:主成分分析就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變量 的方差-協(xié)方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要盡可能多地 保留原始變量的信息,且彼此不相關。因子分析是研究如何以最少的信息丟失,將眾多 原始變量濃縮成少數幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多 元統(tǒng)計分析方法。聚類分析是依據實驗數據本身所具有的定性或定量的特征來對大量的 數據進行分組歸類以了解數據集的內在

16、結構,并且對每一個數據集進行描述的過程。其 主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不 相似。共同:主成分分析法和因子分析法都是用少數的幾個變量(因子)來綜合反映原 始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息 的85 %以上,所以即使用少數的幾個新變量,可信度也很高,也可以有效地解釋問題。 并且新的變量彼此間互不相關,消除了多重共線性。這兩種分析法得出的新變量,并不 是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性 組合,如原始變量為x1,x2,.,x3,經過坐標變換,將原有的p個相關變量 xi作線

17、性變換,每個主成分都是由原有p個變量線性組合得到。在諸多主成分Zi中, Z1在方差中占的比重最大,說明它綜合原有變量的能力最強,越往后主成分在方差中 的比重也小,綜合原信息的能力越弱。因子分析是要利用少數幾個公共因子去解釋較多 個要觀測變量中存在的復雜關系,它不是對原始變量的重新組合,而是對原始變量進行 分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數幾個 因子;特殊因子是每個原始變量獨自具有的因子。對新產生的主成分變量及因子變量計 算其得分,就可以將主成分得分或因子得分代替原始變量進行進一步的分析,因為主成 分變量及因子變量比原始變量少了許多,所以起到了降維的作用,為

18、我們處理數據降低 了難度。聚類分析的基本思想是:采用多變量的統(tǒng)計值,定量地確定相互之間的親疏關 系,考慮對象多因素的聯(lián)系和主導作用,按它們親疏差異程度,歸入不同的分類中一元, 使分類更具客觀實際并能反映事物的內在必然聯(lián)系。也就是說,聚類分析是把研究對象 視作多維空間中的許多點,并合理地分成若干類,因此它是一種根據變量域之間的相似 性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內在組合關系3 。 聚類分析是通過一個大的對稱矩陣來探索相關關系的一種數學分析方法,是多元統(tǒng)計分 析方法,分析的結果為群集。對向量聚類后,我們對數據的處理難度也自然降低,所以 從某種意義上說,聚類分析也起到了降維的作用。不同點:主成分分析是研究如何通過 少數幾個主成分來解釋多變量的方差一協(xié)方差結構的分析方法,也就是求出少數幾個主 成分(變量),使它們盡可能多地保留原始變量的信息,且彼此不相關。它是一種數學 變換方法,即把給定的一組變量通過線性變換,轉換為一組不相關的變量(兩兩相關系 數為0,或樣本向量彼此相互垂直的隨機變量),在這種變換中,保持變量的總方差(方 差之和)不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。 依次類推。若共有p個變量,實際

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論