




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、如有幫助,歡迎支持。第一節(jié)相關關系1. 三類基本關系現(xiàn)象或概念關系因果關系相關關系虛無關系一因一果一因多果多因一果1-1因果關系是現(xiàn)象或概念之間最嚴格的一種關系:因素變量與結果變量之間存在必然聯(lián)系;時間上先后相承;因果之間存在固定的、確定性的定量關系。比如物理現(xiàn)象 。1-2虛無關系現(xiàn)象或概念之間并無實際性關聯(lián)。1-3相關關系是普遍存在的、最常見的一類關系。所謂相關關系,是指現(xiàn)象或概念之間確實存在1如有幫助,歡迎支持。聯(lián)系,但其關聯(lián)是不嚴格固定的或數(shù)量關系是不完全確定的一種關系。相關關系可從多個角度進行細分:相關關系按照相關因素多少單相關復相關按表現(xiàn)形態(tài)按相關程度線性相關零相關曲線相關低度相關拋
2、物線相關顯著相關指數(shù)曲線相關高度相關其它完全相關2如有幫助,歡迎支持。2. 變量間線性相關關系的描述2-1散點圖: 可大體上判斷變量間是否相關、正相關、負相關以及相關程度。2-2相關系數(shù): 是對兩個隨機配對的變量之間的線性相關關系的量度,用以測度兩個隨機變量之間的線性相關程度。A. Pearson 相關系數(shù):可度量標量 之間的線性相關程度 。Rxyxixyi yxi22xyi y顯然,1Rxy1, Pearson 相關系數(shù)為正表示正相關,為負表示負相關,其絕對值越大,變量間線性關系越強。BSpearman and Kendall秩相關系數(shù),又稱等級相關系數(shù):可度量包括序變量 的變量之間的相關關
3、系。其表達式是Rsp16di2n n21其中: di 表示數(shù)據(jù)等級差,相關系數(shù)所表示含義如Pearson 相關系數(shù)。 比如,有一3如有幫助,歡迎支持。家公司招聘打字員,采用口試與實際操作兩種考核方式。現(xiàn)有 6 個申請人的口試與實際操作的評分記錄如下:序號123456口試成績B-A-BACB操作成績283847562932要求測定這些申請人實際操作成績與口試成績之間是否存在關系及關系的密切程度。先將口試成績、操作成績變換為等級,然后計算等級相關系數(shù),如下表所示:序號口試成績等級成績操作成績等級成績等級之差差之平方1B-5286 112A-2383 113B3472114A1561005C6295
4、114如有幫助,歡迎支持。6B432400計算得到 R0.8857 ,說明兩者存在較強的相關性。sp2-3 偏相關系數(shù): 在控制其它變量的影響下考慮兩個變量之間的相關性,較為真實地反映了兩個變量之間的相關關系。設有 n 個變量 X1 , X2 , Xn ,由 Pearson 相關系數(shù)所構成的相關系數(shù)對稱陣為1R12R1nR211R2 nRRn1Rn21則變量 X i 與 X j 之間的偏相關系數(shù)為AijrijAiiAjj其中 Aij 表示矩陣 R中元素 Rij 的代數(shù)余子式。2-3相關系數(shù)的檢驗。一般取零假設H 0 為:相關系數(shù)為0;檢驗統(tǒng)計量為t 統(tǒng)計量。A. Spearman and Ke
5、ndall 秩相關系數(shù)的顯著性檢驗:取統(tǒng)計量5如有幫助,歡迎支持。Rspn2tt n21 Rsp2在給定顯著水平下,若t 值絕對值較大則拒絕原假設,或認為變量之間存在相關性。B. 偏相關系數(shù)的顯著性檢驗:取統(tǒng)計量rij nk 2t n k 2tr 21ij其中 k 表示剔除了的變量數(shù),或被控制的變量個數(shù)。6如有幫助,歡迎支持。第二節(jié)主成分分析1. 方法的提出1-1多元分析處理的是多變量或多指標問題,由于變量較多,增加了分析問題的復雜性。在大部分實際問題中, 變量之間是有一定的相關性的, 人們希望能 用較少的變量來代替原來較多的變量,而這些較少的變量盡可能地反映原來變量的信息。1-2降維的主要方
6、法:主成分分析、相應分析、典型相關分析、因子分析等。2.總體的主成分2-1基本思想:設 X X1, X2,T, X p為一個 p 維隨機向量,有二階矩存在,記期望E X,而協(xié)方差矩陣 covX??紤]它的線性變換:Y1a11a12a1 pX1a1 XY2a21a22a2 pX2a2 XYpap1ap2appX pap X7如有幫助,歡迎支持。顯然: var Yi aiT ai , cov Yi ,Yj aiT aj , i , j 1,2, , p 。若希望用 Y1 來代替原來的 p 維隨機變量,則要求 Y1 盡可能地反映原 p 個變量的信息。 表征信息最好的方法是借用方差 。若 var Y 越
7、大,則表示其所含信息越多。當然,在前方線性變換下,var Y11有可能無界,為此令aT a 1,i 1,2, , pi i從而可在此約束下搜尋a1 ,使得 var Y1達到最大,滿足條件的Y 稱為 第一主成分 。如1果一個主成分不足以代表原p 個向量,則考慮采用 Y2 ,為了最有效地代表原變量信息,Y1 已有信息不需要出現(xiàn)在Y2 中,這要求cov Y1 ,Y20結合變化矩陣行向量模限制條件,可求得a2 ,使得 var Y2 達到最大,從而得到第二主成分 。依此類推。2-2基本方法:令12p0 為的特征根,設t1 , t2 , t p 為相應的特征向量,顯然,可設特征向量組為一個標準正交向量組,
8、不過不是唯一的。有以下定理:定理:設 X 為 p 維隨機向量,且協(xié)方差矩陣cov X存在,則 X 的第 i 個主成分為8如有幫助,歡迎支持。YtT X ,i1,2, pii其中, ti 為對應i 的單位特征向量,此時var Yii,i 1,2, p2-3 主成分個數(shù)的選擇:用主成分的目的是減少變量的個數(shù),故一般絕不用p 個主成分,究竟需要選擇多少個主成分,這是一個比較實際的問題。為此給出如下定義:m定義:稱k為主成分的貢獻率, 而i 1m為主成分 Y,Y , Y的累計貢獻率。pkp12mi1ii1i通常取 m,使得累計貢獻率達到一定標準以上。雖然累計貢獻率表達了m個主成分提取了原隨機向量的多少
9、信息,但它沒有表達某個變量被提取了多少信息,為此還需要另一個概念:定義:m個主成分 Y1 , Y2 , Ym 對于原變量 Xi 的貢獻率 vi 是 Xi 與 Y1 , Y2 ,Ym 全相關系數(shù)的平方,即mk tik2k 1viii9如有幫助,歡迎支持。3. 示例:設 XX1, X 2, X3 T 的協(xié)方差陣是120250002求得15.83,22.00,30.17對應的特征向量分別為0.38300.924t10.924 , t20, t30.3830.00010.000如果只取一個主成分,貢獻率可達5.8372.875%5.832.000.17似乎已經(jīng)很理想,如進一步計算每個變量的貢獻率,得i
10、Y1 , X iviY2 , Xivi10.9250.8550.0000.85510如有幫助,歡迎支持。2-0.9980.9960.0000.99630.0000.0001.0001.000其中主成分與原變量之間的相關系數(shù)稱做因子負荷量 ,可如下計算:covX i ,Yjcov eiTX ,tTj XeTtjeT tjj t jiXi,Yjij ivar Yjvar X iiijiijiijii這表明, Y1 對第三個變量X3 的貢獻率為零,沒有包含X3 的信息,需要追加主成分。參考文獻:方開泰,實用多元統(tǒng)計分析,華東師范大學出版社,1989 年第一版。11如有幫助,歡迎支持。第三節(jié)因子分析1
11、. 因子分析的數(shù)理統(tǒng)計背景1-1 因子分析是一種主要用于數(shù)據(jù)化簡和降維的多元統(tǒng)計分析方法。具體而言,將相關性較強的幾個變量歸于同一類,每一類賦予新的名稱,成為一個因子,反映事物的一個方面,或者說一個維度。這樣,少數(shù)的幾個因子就能夠代表數(shù)據(jù)的基本結構,反映事物的本質特征。進一步地,還可以根據(jù)原始觀測值推出因子值,以因子代替原有變量進行統(tǒng)計分析。1-2 設有容量為 n 的一個樣本,每個元素觀測p 個變量。先對數(shù)據(jù)進行預處理,消除量綱差異、數(shù)量級影響, 使得每個變量 均值為 0,方差為 1。記變化后的變量為x1 , x2 , , xp ,對應的公共因子變量為F1, F2 , Fm 。 滿足如下條件的
12、模型稱為因子模型:A Xx , x, xT0 ,協(xié)方差矩陣定義p是可觀測的隨機向量, 且向量均值 E X12為相關系數(shù)矩陣 covXR。B. FF,F , FT0 ,協(xié)方為因子向量, 一般不能直接觀測到, 其均值為 E F12m12如有幫助,歡迎支持。差矩陣為單位矩陣,或者說,其分量相互獨立。TC1 , 2 ,p與 F 相互獨立,且E0 ,其協(xié)方差矩陣為對角陣,或者說其各個分量相互獨立。因子模型的一般形式:XAF其中 F 是公共因子向量 ,是特殊因子向量,而矩陣a11a12a1ma21a22a2mAap1ap2apm稱為 因子載荷矩陣 ,元素 aij 的絕對值大小表征xi 與 Fj 之間的依存
13、程度高低。2. 因子分析過程2-1問題定義。 因子分析適用場合: 對于一個包含 多變量大樣本 問題,為探求具有 內在相關性的變量之間的基本結構, 可采用因子分析法。 具體而言, 樣本容量必須是變量數(shù)13如有幫助,歡迎支持。目的四至五倍以上。2-2計算并檢驗協(xié)方差矩陣。要求變量間具有一定相關性,為此可采用 巴特利特球體檢驗或者 KMO測度 。2-3選擇因子分析的方法。主成分分析法或者公因子分析法。2-4確定因子數(shù)目。在因子碎石圖 中,一般選取曲線下降迅猛的幾個做為公共因子。2-5因子旋轉。 正交旋轉或斜交旋轉。2-6因子解釋。考察因子具體含義,命名。2-7因子得分。將公因子表示為各觀測變量的線性
14、組合。2-8模型的適合度。利用殘差矩陣 進行。14如有幫助,歡迎支持。第四節(jié)聚類分析1. 聚類分析概述1-1概念: 聚類分析是一種根據(jù)事物本身特性研究個體分類 的方法,是多元分析與當代分類學結合的產物,又稱 群分析、點群分析或簇類分析 。1-2基本思想: 聚類分析認為研究的樣本或指標之間存在著程度不同的相似度或親疏關系,根據(jù)樣本的多個觀測指標,將之視為多維空間中一個點,則可按照它們空間關系的親疏程度進行分類。1-3方法: 以距離、匹配系數(shù)或相似系數(shù)來表征空間關系,先將關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到將所有的樣本或指標都聚合完畢,將不同的類型一一劃分出來,
15、形成一個由小到大的分類系統(tǒng),并畫成譜系圖 。1-4不同數(shù)據(jù)類型,聚類處理方法有所不同。15如有幫助,歡迎支持。變量間隔變量有序變量名義變量A. 間隔變量: 變量用連續(xù)的量來表示,如長度、重量。如果存在絕對零點,又稱比例尺度。B. 有序尺度: 變量用有序的等級來表示,如評價酒。分好、中、次三等。C. 名義尺度: 變量用一些類來表示,這些類之間沒有等級關系也沒有數(shù)量關系,比如,性別、職業(yè)等。2. 聚類分析類型2-1按照分類對象劃分:Q型聚類分析和R 型聚類分析。前者是根據(jù)被觀測的樣本 的各種特征進行分類,后者是根據(jù)特征相似的變量 進行分類。2-2按照聚類方法分類:系統(tǒng)聚類、動態(tài)聚類法(或稱快速聚類
16、法、K均值聚類法)等。前者先將每個樣本或指標視為一類,然后將最相似的類加以合并,再計算新類與其他16如有幫助,歡迎支持。類之間的相似程度,并繼續(xù)合并, 直到所有樣本或指標歸為同一類。后者是先選取一批聚類中心 ,然后讓樣本向中心聚集,形成初始分類, 再按照距離原則修改不合理分類,直至合理。調優(yōu)法(動態(tài)聚類法) :首先對 n 個對象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對分類進行調整,直到分類合理為止。最優(yōu)分割法(有序樣本聚類法) :開始將所有樣本看成一類,然后根據(jù)某種最優(yōu)準則將它們分割為二類、三類,一直分割到所需為止。3. 聚類分析基本步驟3-1數(shù)據(jù)標準化:消除 量綱的影響。3-2計算對
17、象之間的距離:計算對象之間的兩兩距離rij ,得到對象之間的相似關系矩陣R rij 。常用的聚類統(tǒng)計量:A. 匹配系數(shù) 。當分類指標為類別標度變量,通常采用匹配系數(shù)做為聚類統(tǒng)計量。假17如有幫助,歡迎支持。設指標有 p 個,第 i 個樣品與第j 個樣品的匹配系數(shù)是pSijZkk 1其中Zk1,xikxjk0,xikxjk例 1對購買家具的顧客作聚類分析,取分類指標為 x1 :喜歡的式樣,老式記為 1,新式記為 2;x2:喜歡的圖案,素式記為1,格子式記為2,花式記為3;x3:喜歡的顏色,藍色為1,黃色為 2,紅色為3,綠色為 4。設有 4為顧客的觀測值為x1x2x31131212218如有幫助
18、,歡迎支持。32334223不難求得S113,S121001,S130101,S140000S223,S230000,S240101S333,S341012S443顯然,匹配系數(shù)越大表明兩者越相似,從而得到如下聚類圖:1234有時還可以考慮對指標賦權,再計算匹配系數(shù)。B 距離。凡 滿足如下性質 的函數(shù) d X ,Y : dXY 皆可定義為距離:A-1 dXY 0 ;19A-2dXY0XY ;A-3dXYdYX ;A-4dXYdXZdZY特別地,當A-4 加強為A-4 dXYmax dXZ , dZY則稱相應的距離為 極端距離 ( Ultradistance 絕對值距離:pdijxikk 1平方和距離:如有幫助,歡迎支持。)。常用的距離函數(shù)有xjkp2dijxikxjkk1閔可夫斯基距離:1dijqpqwkxik x jkk 120如有幫助,歡迎支持。切比雪夫距離:dijmax xikxjkkC 相關系數(shù):如前,略。3-3選擇類與類之間的距離定義A. 類的定義:由一個以上對象所組成的集合。B.類與類之間的距離:可由類的代表點之間的距離表示。類與類之間的距離有多種計算方法 :一是最短距離;一是平均距離;指定點與點之間的距離。3-4聚類A. 把每個點做為一類,稱為第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息技術貸款居間合同
- 有色金屬貸款居間合同
- 2024泰來縣職業(yè)技術教育中心學校工作人員招聘考試及答案
- 2024湖南省衡陽市第五技工學校工作人員招聘考試及答案
- 離婚雙方財產分割合同書
- 舞蹈教師合作合同及條款
- 化工制圖與識圖試題庫與參考答案
- 采購合同范文大全
- 電路理論考試題(附答案)
- 酒店餐飲部后廚承包合同
- 《中國潰瘍性結腸炎診治指南(2023年)》解讀
- 宮頸病變規(guī)范化治療流程
- 高二綜評研究性課題研究成果
- 貸款審批通知書
- 國家電網(wǎng)智能化規(guī)劃總報告
- 2024年江蘇連云港市交通控股集團有限公司招聘筆試參考題庫含答案解析
- 鋼筋優(yōu)化技術創(chuàng)效手冊(2022年)
- 基于微信小程序的音樂播放的設計與實現(xiàn)
- 宣傳冊設計教學課件
- 授權查檔的授權委托書
- 數(shù)據(jù)運營全流程手冊
評論
0/150
提交評論