版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聚類(lèi)分析聚類(lèi)分析判別分析判別分析主成分分析主成分分析因子分析因子分析關(guān)于回歸與相關(guān)關(guān)于距離關(guān)于距離v距離公理距離公理(令dij 表示樣品Xi與Xj的距離);0成立和對(duì)一切的jidij;等號(hào)成立當(dāng)且僅當(dāng)ji ;成立和對(duì)一切的jiddjiij.成立和對(duì)于一切的jidddkjikijv1 明考夫斯基距離(明氏距離) q=1:絕對(duì)距離; q=2:歐式距離; q=:切比雪夫距離。 歐氏距離是常用的距離,其不足在于一是它沒(méi)有考慮到總體的變異對(duì)“距離”遠(yuǎn)近的影響,顯然一個(gè)變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對(duì)多元數(shù)據(jù)的處理是不利的。為了克服這方
2、面的不足,可用“馬氏距離”的概念。2馬氏(馬哈拉諾比斯)距離(廣義歐氏距離) 設(shè)Xi與Xj是來(lái)自均值向量為 ,協(xié)方差為 =(0)的總體G中的p維樣品,則兩個(gè)樣品間的馬氏距離為 馬氏距離與明氏距離的主要不同就是它考慮了觀測(cè)變量之間的相關(guān)性。 如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。 馬氏距離還考慮了觀測(cè)變量之間的變異性,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。3蘭氏距離 它僅適用于一切Xij0的情況,這個(gè)距離也可以克服各個(gè)指標(biāo)之間量綱的影響。這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏
3、感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性。 聚類(lèi)分析聚類(lèi)分析 一一 什么是聚類(lèi)分析什么是聚類(lèi)分析 二二 相似性的量度相似性的量度 三三 聚類(lèi)分析的步驟聚類(lèi)分析的步驟 五五 K均值聚類(lèi)分析均值聚類(lèi)分析 六六 有序樣品的聚類(lèi)分析法有序樣品的聚類(lèi)分析法 四四 系統(tǒng)聚類(lèi)分析法系統(tǒng)聚類(lèi)分析法 例例 對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類(lèi)。應(yīng)聘者12345678910X28181121262016142422Y292322232923222
4、32927Z28181622262222242424一、一、 什么是聚類(lèi)分析什么是聚類(lèi)分析 聚類(lèi)分析根據(jù)一批樣品的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些指標(biāo)(變量)的相似程度相似程度,將相似的樣品或指標(biāo)歸類(lèi)的統(tǒng)計(jì)方法。一、一、 什么是聚類(lèi)分析什么是聚類(lèi)分析Q型聚類(lèi):對(duì)樣品進(jìn)行分類(lèi)R型聚類(lèi):對(duì)變量進(jìn)行分類(lèi)v例如:對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類(lèi);據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,對(duì)不同商品、不同用戶(hù)進(jìn)行分類(lèi)。v又如:當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類(lèi),從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。 二、
5、二、 相似性的量度相似性的量度v變量之間的聚類(lèi)即R型聚類(lèi)分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度。而樣品之間的聚類(lèi)即Q型聚類(lèi)分析,則常用距離來(lái)測(cè)度樣品之間的親疏程度。 1 樣品相似性的度量樣品相似性的度量距離距離 2 變量相似性的度量變量相似性的度量夾角余弦、相關(guān)系數(shù)夾角余弦、相關(guān)系數(shù)v每個(gè)樣品有p個(gè)指標(biāo)(變量)從不同方面描述其性質(zhì),形成一個(gè)p維的向量。如果把n個(gè)樣品看成p維空間中的n個(gè)點(diǎn),則兩個(gè)樣品間相似程度就可用p維空間中的兩點(diǎn)距離公式來(lái)度量。v1) 明氏距離vq=1:絕對(duì)距離; q=2:歐式距離; q=:切比雪夫距離v2)馬氏距離(廣義歐氏距離)v3)蘭氏距離 1 樣品相似性的度量樣品
6、相似性的度量距離距離 距離選擇的原則(1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類(lèi)分析方法。如在進(jìn)行聚類(lèi)分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,則通常就可采用歐氏距離。(3)要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。實(shí)際中,聚類(lèi)分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類(lèi),然后對(duì)聚類(lèi)分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。v 多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個(gè)有向線段表示。變量間的相似性,可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察,從而
7、得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1)夾角余弦:兩變量Xi與Xj看作n維空間的兩個(gè)指標(biāo)向量, 顯然, cos ij 1。2)相關(guān)系數(shù) 2 變量相似性的度量變量相似性的度量夾角余弦?jiàn)A角余弦nknkkjkinkkjkiijijxxxxc11221cosniiiixxx,21xnjjjjxxx,21xnknkjkjikinkjkjikiijxxxxxxxx11221)()()(v無(wú)論是夾角余弦還是相關(guān)系數(shù),它們的絕對(duì)值都小于1,作為變量近似性的度量工具,把它們統(tǒng)記為cij。v當(dāng) cij = 1時(shí),說(shuō)明變量Xi與Xj完全相似;當(dāng) cij 近似于1時(shí),說(shuō)明變量Xi與Xj非常密切;v當(dāng) cij
8、 = 0時(shí),說(shuō)明變量Xi與Xj完全不一樣;當(dāng) cij 近似于0時(shí),說(shuō)明變量Xi與Xj差別很大。據(jù)此,我們把比較相似的變量聚為一類(lèi),把不太相似的變量歸到不同的類(lèi)內(nèi)。 v在實(shí)際中,為了計(jì)算方便,把變量間相似性的度量公式作一個(gè)變換: dij = 1 cij 或者 dij2 = 1 cij2 以表示變量間的距離遠(yuǎn)近,小則與先聚成一類(lèi),這比較符合人們的思維習(xí)慣。 2 變量相似性的度量變量相似性的度量 相關(guān)系數(shù)、夾角余弦相關(guān)系數(shù)、夾角余弦1、選擇變量選擇變量 (1)反映分類(lèi)的目的,反映要分類(lèi)變量的特征 (2)在不同研究對(duì)象上的值有明顯的差異 (3)變量之間不能高度相關(guān)2、計(jì)算相似性:計(jì)算相似性:3、聚類(lèi)聚
9、類(lèi) (1)選擇聚類(lèi)的方法:系統(tǒng)聚類(lèi)、K均值聚類(lèi)、動(dòng)態(tài)聚類(lèi) (2)確定形成的類(lèi)數(shù)4、聚類(lèi)結(jié)果的解釋和證實(shí)聚類(lèi)結(jié)果的解釋和證實(shí) 對(duì)聚類(lèi)結(jié)果進(jìn)行解釋?zhuān)簩?duì)各個(gè)類(lèi)的特征進(jìn)行準(zhǔn)確的描述,給每類(lèi)起一個(gè)合適的名稱(chēng)。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類(lèi)在各聚類(lèi)變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類(lèi)產(chǎn)別的原因。三三 聚類(lèi)分析的步驟聚類(lèi)分析的步驟 v如果變量聚類(lèi)分析用于降維,聚類(lèi)之后,各類(lèi)中仍有較多的指標(biāo)。也就是說(shuō)聚類(lèi)分析并沒(méi)有達(dá)到降維的目的。這就需要在每類(lèi)中選出一個(gè)代表指標(biāo)。v具體做法是:假設(shè)某類(lèi)中有 個(gè)指標(biāo),首先分別計(jì)算類(lèi)內(nèi)指標(biāo)之間的相關(guān)指數(shù) ,然后計(jì)算某個(gè)指標(biāo)與類(lèi)內(nèi)其他指標(biāo)之間相
10、關(guān)指數(shù)的平均數(shù),即 取 最大的 ,作為該類(lèi)的代表。), 2 , 1,(2kijiijk122kRjiijj2jRjx注意:四、 系統(tǒng)(層次)聚類(lèi)分析法 1 系統(tǒng)聚類(lèi)的基本步驟系統(tǒng)聚類(lèi)的基本步驟 2 類(lèi)間距離與系統(tǒng)聚類(lèi)類(lèi)間距離與系統(tǒng)聚類(lèi)系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法(層次聚類(lèi)法)SPSS實(shí)現(xiàn):AnalyzeClassify Hierarchical Cluster 3 系統(tǒng)聚類(lèi)法的優(yōu)缺點(diǎn)系統(tǒng)聚類(lèi)法的優(yōu)缺點(diǎn) v系統(tǒng)聚類(lèi)的基本思想是:距離相近的樣品(或變量)先聚成類(lèi),距離相遠(yuǎn)的后聚成類(lèi),過(guò)程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類(lèi)中。v系統(tǒng)聚類(lèi)過(guò)程是: 第一步:將每個(gè)樣品(或變量)獨(dú)自聚成一類(lèi),共有n
11、類(lèi); 第二步:根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個(gè)樣品(或變量)聚合為一類(lèi),其它的樣品(或變量)仍各自聚為一類(lèi),共聚成n 1類(lèi); 第三步:將“距離”最近的兩個(gè)類(lèi)進(jìn)一步聚成一類(lèi),共聚成n 2類(lèi);,以上步驟一直進(jìn)行下去,最后將所有的樣品(或變量)全聚成一類(lèi)。為了直觀地反映以上的系統(tǒng)聚類(lèi)過(guò)程,可以把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖。所以有時(shí)系統(tǒng)聚類(lèi)也稱(chēng)為譜系分析。 1 系統(tǒng)聚類(lèi)的基本步驟系統(tǒng)聚類(lèi)的基本步驟 v類(lèi)間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類(lèi)法。v常用的類(lèi)間距離定義有7種,與之相應(yīng)的系統(tǒng)聚類(lèi)法也有7種:v最短距離法(Nearest Neighbor)v最長(zhǎng)距離法(Furthest
12、Neighbor)v中間距離法(Median Clustering)v重心法(Centroid Clustering): 均值點(diǎn)的距離均值點(diǎn)的距離v組間平均連接法(組間平均連接法(Between-group Linkage)v組內(nèi)平均連接法(組內(nèi)平均連接法(Within-group Linkage)v離差平方和法(Ward”s Method) 2 類(lèi)間距離與系統(tǒng)聚類(lèi)類(lèi)間距離與系統(tǒng)聚類(lèi)v優(yōu)點(diǎn):變量可以為連續(xù)或分類(lèi)變量;類(lèi)間距離測(cè)量方法多種可選,適合不同需要.v缺點(diǎn)缺點(diǎn):系統(tǒng)聚類(lèi)法需要計(jì)算出不同樣品或變量的距離,還要在聚類(lèi)的每一步都要計(jì)算“類(lèi)間距離”,相應(yīng)的計(jì)算量自然比較大;特別是當(dāng)樣本的容量很樣
13、本的容量很大大時(shí),需要占據(jù)非常大的計(jì)算機(jī)內(nèi)存空間內(nèi)存空間,這給應(yīng)用帶來(lái)一定的困難。 3 系統(tǒng)聚類(lèi)法的優(yōu)缺點(diǎn)系統(tǒng)聚類(lèi)法的優(yōu)缺點(diǎn) 1 K均值聚類(lèi)的基本步驟均值聚類(lèi)的基本步驟 2 K均值聚類(lèi)法的適應(yīng)范圍均值聚類(lèi)法的適應(yīng)范圍 五、 K均值聚類(lèi)分析 K均值聚類(lèi)法均值聚類(lèi)法SPSS實(shí)現(xiàn):實(shí)現(xiàn): AnalyzeClassify K_Means ClusterK均值法是一種快速聚類(lèi)法,該方法對(duì)計(jì)算機(jī)的性能要求不高。由麥奎因(MacQueen,1967)提出。v基本思想是將每一個(gè)樣品分配給最近中心(均值)的類(lèi)中,具體的算法至少包括以下三個(gè)步驟:1將所有的樣品分成K個(gè)初始類(lèi);2通過(guò)歐氏距離將某個(gè)樣品劃入離中心最近
14、的類(lèi)中,并對(duì)獲得樣品與失去樣品的類(lèi),重新計(jì)算中心坐標(biāo)(mean);3重復(fù)步驟2,直到所有的樣品都不能再分配時(shí)為止(一定的收斂標(biāo)準(zhǔn)或迭代次數(shù))。 1 K均值聚類(lèi)的基本步驟均值聚類(lèi)的基本步驟 2 K均值聚類(lèi)法的適應(yīng)范圍均值聚類(lèi)法的適應(yīng)范圍 K均值法和系統(tǒng)聚類(lèi)法比較:均值法和系統(tǒng)聚類(lèi)法比較: 相同二者都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類(lèi)的 不同系統(tǒng)聚類(lèi)對(duì)不同的類(lèi)數(shù)產(chǎn)生一系列的聚類(lèi)果, 而K均值法只能產(chǎn)生指定K類(lèi)聚類(lèi)結(jié)果; 對(duì)變量的要求不同。使用使用K均值聚類(lèi)時(shí)注意:均值聚類(lèi)時(shí)注意: 1. 要求事先知道將樣品分為多少類(lèi).類(lèi)數(shù)的確定,類(lèi)數(shù)的確定,離不開(kāi)實(shí)踐經(jīng)驗(yàn)的積累;有時(shí)也可以借助系統(tǒng)聚類(lèi)法以一部分樣一部
15、分樣品為對(duì)象品為對(duì)象進(jìn)行聚類(lèi),其結(jié)果作為K均值法確定類(lèi)數(shù)的參考。 2.只能對(duì)樣品進(jìn)行聚類(lèi),不能對(duì)變量進(jìn)行聚類(lèi)。 3.所使用的變量必須是連續(xù)型變量六、 有序樣品的聚類(lèi)分析法 1 有序樣品可能的分類(lèi)數(shù)目有序樣品可能的分類(lèi)數(shù)目 2 費(fèi)希爾最優(yōu)求解法費(fèi)希爾最優(yōu)求解法v系統(tǒng)聚類(lèi)和K均值聚類(lèi)中,樣品的地位是彼此獨(dú)立的,沒(méi)有考慮樣品的次序。但在實(shí)際中,有時(shí)樣品的次序是不能變動(dòng)的,例如對(duì)動(dòng)植物按生長(zhǎng)的年齡段進(jìn)行分類(lèi),年齡的順序是不能改變的,否則就沒(méi)有實(shí)際意義了;又如在地質(zhì)勘探中,需要通過(guò)巖心了解地層結(jié)構(gòu),此時(shí)按深度順序取樣,樣品的次序也不能打亂。vn個(gè)有序樣品分成k類(lèi),則一切可能的分法有 種。v實(shí)際上,n個(gè)有
16、序樣品共有(n 1)個(gè)間隔,分成k類(lèi)相當(dāng)于在這(n 1)個(gè)間隔中插入k 1根“棍子”。由于不考慮棍子的插入順序,是一個(gè)組合問(wèn)題,共有 種插法。v這就是n個(gè)有序樣品分成k類(lèi)的一切可能分法。因此,對(duì)于有限的n和k,有序樣品的所有可能分類(lèi)結(jié)果是有限的,可以在某種損失函數(shù)意義下,求得最優(yōu)解。所以有序樣品聚類(lèi)分析又稱(chēng)為最優(yōu)分割,該算法是費(fèi)希爾(Fisher)最先提出來(lái)的,故也稱(chēng)之為費(fèi)希爾最優(yōu)求解法。11knC11knC 1 有序樣品可能的分類(lèi)數(shù)目有序樣品可能的分類(lèi)數(shù)目 1)定義類(lèi)的直徑)定義類(lèi)的直徑 設(shè)某類(lèi)G包含j-i+1個(gè)樣品:)( ,ij )j(1)(i(i)x,x,x 該類(lèi)的均值向量為:jitij
17、(t)GxX11 設(shè)有序樣品x(1),x(2),x(n)。他們可以是從小到達(dá)排列,也可以是按時(shí)間的先后排列。 用D(i,j)表示這一類(lèi)的直徑,常用的直徑有歐氏距離:jitjiD)X(x)XxG(t)G(t)(),(當(dāng)是單變量的時(shí),也可以定義直徑為:是中位數(shù)GjitG(t)XXxjiD|),( 2 費(fèi)希爾最優(yōu)求解法費(fèi)希爾最優(yōu)求解法離差平方和 用b(n,k)表示將n個(gè)有序的樣品分為k類(lèi)的某種分法:1112,1,1Gj jj2223,1,1Gjjj,1,kkkGjjn 定義分類(lèi)法的損失函數(shù)為:各類(lèi)的直徑之和,即ktttiiDknbL11) 1,(),( 當(dāng)n和k固定時(shí), Lb(n,k)越小,表示各類(lèi)
18、的離差平方和越小,分類(lèi)是合理的。因此要尋找一種分法b(n,k),使分類(lèi)損失函數(shù)Lb(n,k)達(dá)到最小。記該分法為Pn,k。 2) 定義分類(lèi)法的損失函數(shù)定義分類(lèi)法的損失函數(shù) 2 費(fèi)希爾最優(yōu)求解法費(fèi)希爾最優(yōu)求解法 2 費(fèi)希爾最優(yōu)求解法費(fèi)希爾最優(yōu)求解法3)Lb(n,k)的遞推公式的遞推公式v若要尋找將n個(gè)樣品分為k類(lèi)的最優(yōu)分割,則對(duì)于任意的j(k j n),先將前面j 1個(gè)樣品最優(yōu)分割為k 1類(lèi),得到p(j 1,k 1),否則從j到n這最后一類(lèi)就不可能構(gòu)成k類(lèi)的最優(yōu)分割。再考慮使Lb(n,k)最小的j,得到p(n,k)。v因此我們得到費(fèi)希爾最優(yōu)求解法的遞推公式為 含義:如果要找到n個(gè)樣品分為k個(gè)類(lèi)的
19、最優(yōu)分割,應(yīng)建立在將j-1(j2,3,n)個(gè)樣品分為k-1類(lèi)的最優(yōu)分割的基礎(chǔ)上。 判別分析判別分析 一、判別分析概述一、判別分析概述 二、距離判別法二、距離判別法 三、貝葉斯判別法三、貝葉斯判別法 四、費(fèi)歇爾判別法四、費(fèi)歇爾判別法 判別分析判別分析 一、判別分析概述 1 判別分析的問(wèn)題與實(shí)質(zhì)判別分析的問(wèn)題與實(shí)質(zhì) 2 判別分析的種類(lèi)判別分析的種類(lèi) 3 幾種幾種判別方法的基本思想判別方法的基本思想 4 判別分析的應(yīng)用判別分析的應(yīng)用 v判別分析判別分析根據(jù)歷史上劃分類(lèi)別的有關(guān)資料和某種最優(yōu)準(zhǔn)根據(jù)歷史上劃分類(lèi)別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個(gè)新的樣本歸屬哪一類(lèi)。則,確定一種判別方法
20、,判定一個(gè)新的樣本歸屬哪一類(lèi)。v把這類(lèi)問(wèn)題用數(shù)學(xué)語(yǔ)言來(lái)表達(dá),可以敘述如下:設(shè)有n個(gè)樣本,對(duì)每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量)的數(shù)據(jù),已知每個(gè)樣本屬于k個(gè)類(lèi)別(或總體)G1,G2, ,Gk中的某一類(lèi),且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x), ,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類(lèi)別的樣本點(diǎn)盡可能地區(qū)別開(kāi)來(lái),并對(duì)測(cè)得同樣p項(xiàng)指標(biāo)(變量)數(shù)據(jù)的一個(gè)新樣本,能判定這個(gè)樣本歸屬于哪一類(lèi)。 1 判別分析的問(wèn)題與實(shí)質(zhì)判別分析的問(wèn)題與實(shí)質(zhì) v按判別的總體數(shù)來(lái)區(qū)分: 兩個(gè)總體判別分析 多總體判別分析v按區(qū)分不同總體所用的數(shù)學(xué)模型來(lái)分: 線性判別 非線性
21、判別v按判別準(zhǔn)則的不同分: 距離判別法 Fisher判別法 Bayes判別法 逐步判別法 2 判別分析的種類(lèi)判別分析的種類(lèi) 1。距離判別法 由于已知原始數(shù)據(jù)所屬類(lèi)別,這樣可以計(jì)算各類(lèi)的重心。在對(duì)待判樣本進(jìn)行分類(lèi)時(shí),只需計(jì)算該樣本與各類(lèi)重心之間的距離,與哪類(lèi)重心距離最近,就認(rèn)為該樣本來(lái)自哪類(lèi)。距離常用馬氏距離。2。 Fisher判別法抽取批P個(gè)指標(biāo)作為判別變量,構(gòu)造一個(gè)判別函數(shù)式:ppXcXcY11使每類(lèi)間的區(qū)別盡量大,而使每類(lèi)內(nèi)部的離差盡量小,即確定系數(shù)向量使類(lèi)間方差與類(lèi)內(nèi)方差比值最大。3。Bayes判別法:比較樣品屬于各類(lèi)的后驗(yàn)概率的大小來(lái)對(duì)樣本的歸屬做出判斷。 3 幾種幾種判別方法的基本思
22、想判別方法的基本思想 v判別分析與聚類(lèi)分析的區(qū)別判別分析與聚類(lèi)分析的區(qū)別:通過(guò)聚類(lèi)分析建立組,判別分析則是研究組,以便將組屬性未知的元素歸入已知組中.v應(yīng)用建議應(yīng)用建議(關(guān)于收集數(shù)據(jù)和建立判別函數(shù)): (1)樣品不能包含同時(shí)屬于幾個(gè)組的元素; (2)樣品容量必須至少是判別變量個(gè)數(shù)的兩倍; (3)判別變量個(gè)數(shù)必須大于組的個(gè)數(shù).v判別分析SPSS實(shí)現(xiàn): AlalyzeClussifyDiscriminant 4 判別分析的應(yīng)用判別分析的應(yīng)用 主成分分析主成分分析 一、主成分分析問(wèn)題一、主成分分析問(wèn)題 二、主成分分析基本思想二、主成分分析基本思想三、主成分分析的三、主成分分析的數(shù)學(xué)模型數(shù)學(xué)模型四、四
23、、主成分分析的應(yīng)用主成分分析的應(yīng)用 一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等。 在進(jìn)行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3。 一一 主成分分析問(wèn)題主成分分析問(wèn)題 F1F1F2F2F3F3I II It tF1F11 1 F2F20 01 1 F3F30 00 01
24、 1 I I0.9950.995-0.041-0.0410.0570.057l l I I-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1 更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入I、總收入變化率I以及時(shí)間 t 因素做相關(guān)分析,得到下表:v當(dāng)一個(gè)指標(biāo)對(duì)不同個(gè)體的取值大同小異,那么該指當(dāng)一個(gè)指標(biāo)對(duì)不同個(gè)體的取值大同小異,那么該指標(biāo)不能用來(lái)區(qū)分不同的個(gè)體標(biāo)不能用來(lái)區(qū)分不同
25、的個(gè)體。v在評(píng)價(jià)或分類(lèi)時(shí)在評(píng)價(jià)或分類(lèi)時(shí), ,一項(xiàng)指標(biāo)在個(gè)體間的變異越大越好。一項(xiàng)指標(biāo)在個(gè)體間的變異越大越好。變量的變異性越大,提供的信息就更加充分,信息變量的變異性越大,提供的信息就更加充分,信息量就越大量就越大。v主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。把變異大作為好的標(biāo)準(zhǔn)尋求綜合差或方差表示它。把變異大作為好的標(biāo)準(zhǔn)尋求綜合指標(biāo)。指標(biāo)。主成分分析主成分分析SPSS實(shí)現(xiàn):實(shí)現(xiàn): AnalyzeData ReductionFactor Analysisv 主成分分析也稱(chēng)主分量分析主成分分析也稱(chēng)主分量分析,是由Hotelling于19
26、33年首先提出的。v通過(guò)研究原始變量的相關(guān)矩陣或協(xié)方差矩陣相關(guān)矩陣或協(xié)方差矩陣的內(nèi)部結(jié)構(gòu)關(guān)系,以線性組合的方式,從存在相關(guān)性的指標(biāo)系中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過(guò)程,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過(guò)主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。 二、主成分分析基本思想二、主成分分析基本思想 假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變
27、為討論p個(gè)指標(biāo)的線性組合的問(wèn)題,而這些新的指標(biāo)Y1,Y2,Yk(kp),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。v 三、三、數(shù)學(xué)模型數(shù)學(xué)模型v 1利用主成分分析降低所研究的數(shù)據(jù)空間的維數(shù) 用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即 m1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。四、四、主成分分析的應(yīng)用主成分分析的應(yīng)用v 2.利用主成分分析
28、進(jìn)行綜合評(píng)價(jià) 3主成分回歸主成分回歸 由主成分分析法構(gòu)造回歸模型,即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。 利用主成分的互不相關(guān)性來(lái)建立應(yīng)變量與主成分的回歸,在理論上可以達(dá)到消除多重共線性。 (1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。 (2) 選擇幾個(gè)主成分。主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義。 應(yīng)用中的問(wèn)題是:應(yīng)用中的問(wèn)題是: 因子分析因子分析 一、
29、因子分析問(wèn)題一、因子分析問(wèn)題 二、因子分析二、因子分析的的數(shù)學(xué)模型數(shù)學(xué)模型三、模型中重要指標(biāo)意義三、模型中重要指標(biāo)意義四、四、因子分析的步驟因子分析的步驟v因子分析因子分析(factor analysis) 也是一種降維、簡(jiǎn)化數(shù)據(jù)的技術(shù)。v它通過(guò)研究眾多變量之間的內(nèi)部依賴(lài)關(guān)系,探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個(gè)“抽象”的假想變量來(lái)表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)假想變量能夠反映原來(lái)眾多變量的主要信息。原始的變量是可觀測(cè)的顯在變量,而假想變量是不可觀測(cè)的潛在變量,稱(chēng)為因子。將每個(gè)原變量用這些提取的公共因子的線性組合表示. v根據(jù)各因子對(duì)原變量的影響大小,亦可將原變量劃分為等同于因子數(shù)目的類(lèi)別,故
30、因子分析亦可達(dá)到降低變量維數(shù)的目的因子分析亦可達(dá)到降低變量維數(shù)的目的,又可以對(duì)變量進(jìn)行分類(lèi)又可以對(duì)變量進(jìn)行分類(lèi). 一、因子分析問(wèn)題一、因子分析問(wèn)題 v例如,在商業(yè)企業(yè)的形象評(píng)價(jià)中,消費(fèi)者可以通過(guò)一系列指標(biāo)構(gòu)成的一個(gè)評(píng)價(jià)指標(biāo)體系,評(píng)價(jià)百貨商場(chǎng)的各個(gè)方面的優(yōu)劣。但消費(fèi)者真正關(guān)心的只是三個(gè)方面:商店的環(huán)境商店的環(huán)境、商店的服務(wù)商店的服務(wù)和商品的價(jià)格。v這三個(gè)方面除了價(jià)格外,商店的環(huán)境和服務(wù)質(zhì)量,都是客觀存在的、抽象的影響因素,都不便于直接測(cè)量,只能通過(guò)其它具體指標(biāo)進(jìn)行間接反映。v因子分析就是一種通過(guò)顯在變量測(cè)評(píng)潛在變量,通過(guò)具體指標(biāo)測(cè)評(píng)抽象因子的統(tǒng)計(jì)分析方法。v 二、因子分析的二、因子分析的數(shù)學(xué)模型
31、數(shù)學(xué)模型注:注: 因子分析與回歸分析不同,因子分析中的因因子分析與回歸分析不同,因子分析中的因子是一個(gè)比較抽象的概念,而回歸因子有非常明子是一個(gè)比較抽象的概念,而回歸因子有非常明確的實(shí)際意義;確的實(shí)際意義; 主成分分析分析與因子分析也有不同,主成主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型。子模型。 主成分分析主成分分析: :原始變量的線性組合表示新的原始變量的線性組合表示新的綜合變量,即主成分;綜合變量,即主成分; 因子分析:潛在的假想變量和隨機(jī)影響變因子分析:潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版勞務(wù)加工承包合同范本
- 2024年藝術(shù)品買(mǎi)賣(mài)合同賠償條例
- 2025年度新型城鎮(zhèn)化租賃住房建設(shè)合同4篇
- 2025年度智能家居項(xiàng)目瓷磚材料供應(yīng)合同4篇
- 2025年度體育場(chǎng)館搭棚施工及維護(hù)管理合同4篇
- 2024版鎳氫電池產(chǎn)品銷(xiāo)售合同
- 2025年度學(xué)校食堂及餐飲服務(wù)承包合同范本4篇
- 2025年度新能源汽車(chē)購(gòu)置合同示范文本4篇
- 2025年度特色農(nóng)家樂(lè)經(jīng)營(yíng)權(quán)轉(zhuǎn)讓合同范本3篇
- 2025年度智能窗簾控制系統(tǒng)研發(fā)與市場(chǎng)推廣合同4篇
- 特種設(shè)備行業(yè)團(tuán)隊(duì)建設(shè)工作方案
- 眼內(nèi)炎患者護(hù)理查房課件
- 肯德基經(jīng)營(yíng)策略分析報(bào)告總結(jié)
- 買(mǎi)賣(mài)合同簽訂和履行風(fēng)險(xiǎn)控制
- 中央空調(diào)現(xiàn)場(chǎng)施工技術(shù)總結(jié)(附圖)
- 水質(zhì)-濁度的測(cè)定原始記錄
- 數(shù)字美的智慧工業(yè)白皮書(shū)-2023.09
- -安規(guī)知識(shí)培訓(xùn)
- 2021-2022學(xué)年四川省成都市武侯區(qū)部編版四年級(jí)上冊(cè)期末考試語(yǔ)文試卷(解析版)
- 污水處理廠設(shè)備安裝施工方案
- 噪聲監(jiān)測(cè)記錄表
評(píng)論
0/150
提交評(píng)論