




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
關(guān)于聚類分析與判別分析第1頁,共22頁,2023年,2月20日,星期五概述聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個體或樣品(individuals,objectsorsubjects)的特征將它們分類,使同一類別內(nèi)的個體具有盡可能高的同質(zhì)性(homogeneity),而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。第2頁,共22頁,2023年,2月20日,星期五基本思想指標(biāo):描述研究對象(樣本或變量,常用的是樣本)之間的聯(lián)系的緊密程度?!熬嚯x”和“相似系數(shù)”,假定研究對象均用所謂的“點(diǎn)”來表示。一般的規(guī)則是將“距離”較小的點(diǎn)或“相似系數(shù)”較大的點(diǎn)歸為同一類,將“距離”較大的點(diǎn)或“相似系數(shù)”較小的點(diǎn)歸為不同的類!嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關(guān)統(tǒng)計(jì)量的分布,也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法,而對假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。第3頁,共22頁,2023年,2月20日,星期五分類:Q型聚類—對樣本進(jìn)行分類處理;R型聚類—對變量進(jìn)行分類處理。方法:系統(tǒng)聚類法K-均值聚類法有序樣品聚類法第4頁,共22頁,2023年,2月20日,星期五個體之間距離的度量方法針對連續(xù)變量的距離測量:歐式距離;歐式距離平方;切比雪夫距離;布洛克距離;明可夫斯基距離;自定義距離;夾角余弦;皮爾遜相關(guān)系數(shù)第5頁,共22頁,2023年,2月20日,星期五針對計(jì)數(shù)變量的距離測度:卡方距離;Phi方距離;針對二值變量的距離測度:二值歐式距離;二值歐式距離平方;不對稱指數(shù);不相似性測度;方差一般聚類個數(shù)在4-6類,不宜太多,或太少;第6頁,共22頁,2023年,2月20日,星期五聚類分析應(yīng)注意的問題所選擇的變量應(yīng)符合聚類的要求;各變量的變量值不應(yīng)有數(shù)量級上的差異;各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系。第7頁,共22頁,2023年,2月20日,星期五系統(tǒng)聚類/層次聚類凝聚式聚類和分解式聚類。基本思想:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個樣品(或變量)總能聚到合適的類中。步驟:第一步:每個樣品獨(dú)自聚成類,共n個類;第二步:把距離較近的兩個樣品聚合為一類,形成n-1類;第三步:將n-1個類中“距離”最近的兩個類進(jìn)一步聚成一類,形成n-2類;直至所有樣品全聚成一類。第8頁,共22頁,2023年,2月20日,星期五個體與小類,小類與小類“親疏程度”度量方法組間平均連接距離:個體與小類中每個個體距離的平均值;組內(nèi)平均連接距離:個體與小類中每個個體距離以及小類內(nèi)各個體間距離的平均值;最近鄰距離:個體與小類中每個個體距離的最小值;最遠(yuǎn)鄰距離:個體與小類中每個個體距離的最大值;重心距離:該個體與小類的重心點(diǎn)的距離;中位數(shù)距離;離差平方和法:使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。第9頁,共22頁,2023年,2月20日,星期五案例9.3系統(tǒng)聚類分析案例9.3.sav的資料是我國2005年各地城鎮(zhèn)居民平均每人全年家庭收入來源統(tǒng)計(jì)表。試對全國各地區(qū)的收入來源結(jié)構(gòu)進(jìn)行分類。第10頁,共22頁,2023年,2月20日,星期五二階段聚類分析二階段聚類分析是一種新型的分層聚類方法,主要用于一般的數(shù)據(jù)挖掘和多元統(tǒng)計(jì)的交叉領(lǐng)域—模式分類,其算法適用于任何尺度的變量。第11頁,共22頁,2023年,2月20日,星期五案例9.2二階段聚類分析案例9.1.sav的資料是美國22個公共團(tuán)體的數(shù)據(jù)。試以“是否使用核能源”為分類變量對這些團(tuán)體進(jìn)行聚類分析,其中“1”表示使用核能源,“0”表示沒有使用核能源,觀測這兩類企業(yè)所屬類別的情況。第12頁,共22頁,2023年,2月20日,星期五K-均值聚類是一種快速聚類法。適合處理大樣本數(shù)據(jù)?;舅枷胧牵簩⒚總€樣品分配給最近中心(均值)的類中,具體步驟:指定聚類數(shù)目K確定K個初始類中心(用戶指定或系統(tǒng)指定);根據(jù)距離最近原則進(jìn)行分類(歐式距離);重新確定K個類中心;判斷是否已滿足終止聚類分析的條件:迭代次數(shù)或類中心偏移程度(0.02)。第13頁,共22頁,2023年,2月20日,星期五案例9.2K中心聚類分析案例9.2.sav的資料是我國2006年各地區(qū)能源消耗的情況。根據(jù)不同省市的能源消耗情況,進(jìn)行分類,以了解我國不同地區(qū)的能源消耗情況。第14頁,共22頁,2023年,2月20日,星期五判別分析概述根據(jù)已有的劃分類別的有關(guān)歷史資料,確定一種判定方法,判定一個新的樣本歸屬哪一類。設(shè)定有k個樣本,對每個樣本測得p項(xiàng)指標(biāo)的數(shù)據(jù),已知每個樣本屬于k個類別中的每一類。利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來,并對測得同樣p項(xiàng)指標(biāo)數(shù)據(jù)的一個新樣本,能判定這個樣本屬于哪一類。第15頁,共22頁,2023年,2月20日,星期五距離判別法兩個總體G1和G2,均值向量:;協(xié)差陣:數(shù)據(jù)點(diǎn)X到總體Gi的馬氏距離定義為:設(shè)判別函數(shù):若W(X)>0,則;若W(X)<0,則;若W(X)=0,則待判斷。各總體協(xié)方差陣相等,判別函數(shù)為線性判別函數(shù);各總體協(xié)方差陣不相等,判別函數(shù)為二次判別函數(shù);第16頁,共22頁,2023年,2月20日,星期五Fisher判別分析借助方差分析思想構(gòu)造一個線性判別函數(shù):系數(shù)確定的原則是使得各總體之間區(qū)別最大,而使得每個總體內(nèi)部的離差最小。判別規(guī)則:待判樣品的典型判別函數(shù)值u'x與第G類中心的典型判別函數(shù)值u'μ(i)的絕對離差最小,則可以將該樣品判入第G類。第17頁,共22頁,2023年,2月20日,星期五Bayes判別分析基本思想:首先計(jì)算待判樣品屬于各個總體的條件概率,,然后比較這k個概率值的大小,將待判樣本歸為條件概率最大的總體。在觀測到一個樣品x的情況下,利用Bayes公式,可以計(jì)算它來自第g個總體的后驗(yàn)概率:。當(dāng)時,則可將x判入第h類。先驗(yàn)概率取法有兩種:一是用樣品頻率代替;二是令各總體先驗(yàn)概率相等。第18頁,共22頁,2023年,2月20日,星期五案例9.4判別分析案例9.4.sav的資料為三種不同種類豇豆豆莢的質(zhì)量、寬度和長度的統(tǒng)計(jì)表,每種類型都為20個樣本,共60個樣本。試根據(jù)不同種類豇豆豆莢的特征,建立鑒別不同種類豇豆判別方程。第19頁,共22頁,2023年,2月20日,星期五Fisher判別函數(shù)y1=-11.528+0.21質(zhì)量-1.95寬度+0.186長度y2=-15.935+0.112質(zhì)量+2.246寬度+0.092長度 典型判別式函數(shù)系數(shù) 函數(shù) 1 2質(zhì)量 .210 .112寬度 .950 2.246長度 .186 .092(常量) -11.528 -15.935非標(biāo)準(zhǔn)化系數(shù)第20頁,共22頁,2023年,2月20日,星期五三個類別的Bayes判別函數(shù)類別1=-90.708+2.557質(zhì)量+18.166寬度+1.922長度類別2=-212.439+3.589質(zhì)量+32.357寬度+2.78長度類別3=-404.182+6.8519質(zhì)量-10.855寬度+5.697長度 分類函數(shù)系數(shù) 類型 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市建筑材料寄存與環(huán)保檢測服務(wù)協(xié)議范本2025
- 2025年北京市外貿(mào)企業(yè)員工勞動合同參考范本
- 物聯(lián)網(wǎng)在智慧農(nóng)業(yè)中的前景展望
- 科普手術(shù)操作流程
- 電子產(chǎn)品物流司機(jī)用工合同
- 2025年度辦公室租賃及企業(yè)財(cái)務(wù)咨詢服務(wù)協(xié)議
- 二零二五年度互聯(lián)網(wǎng)企業(yè)員工勞動合同范本
- 腎衰竭護(hù)理查房
- 校園衛(wèi)生咱維護(hù)勞動教育
- 林地使用權(quán)轉(zhuǎn)讓合同模板
- 湖南省炎德英才名校聯(lián)考聯(lián)合體2024-2025學(xué)年高二下學(xué)期3月月考-數(shù)學(xué)+答案
- (3月省質(zhì)檢)福建省2025屆高三畢業(yè)班適應(yīng)性練習(xí)卷英語試卷(含答案)
- 專業(yè)網(wǎng)格員測試題及答案
- 2025年上半年貴州黔東南州各縣(市)事業(yè)單位招聘工作人員1691人筆試易考易錯模擬試題(共500題)試卷后附參考答案
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗(yàn)人員理論考試題庫及答案
- 2023年廣東省中學(xué)生生物學(xué)聯(lián)賽試題解析(word)及答案(掃描版)
- 浙美版六年級下冊美術(shù)全冊教案
- 《云南省食品安全地方標(biāo)準(zhǔn) 天麻》編制說明
- 基于語音信號去噪處理的FIR低通濾波器設(shè)計(jì)要點(diǎn)
- G414(五) 預(yù)應(yīng)力鋼筋混凝土工字形屋面梁
- 木箱制作作業(yè)指導(dǎo)書
評論
0/150
提交評論