版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Join
LearnR數(shù)據(jù)分析:商業(yè)數(shù)據(jù)分析全景之六(2)連續(xù)變量關(guān)系探索與變量壓縮博士Join
Learn6.2.1多元統(tǒng)計(jì)基礎(chǔ)與變量約減的思路Join
Learn兩正態(tài)分布變量之間的關(guān)系Join
Learn目標(biāo)使用散點(diǎn)圖來查看兩個(gè)連續(xù)變量間的關(guān)系。使用相關(guān)性統(tǒng)計(jì)來量化兩個(gè)連續(xù)變量的相關(guān)性。描述一下錯(cuò)誤使用相關(guān)系數(shù)的可能情形。使用相關(guān)(Correlations)任務(wù)獲得
相關(guān)系數(shù)。Join
Learn三個(gè)連續(xù)變量-量、和Web登陸Join
Learn變量之間的依賴關(guān)系有兩種不同的類型:函數(shù)關(guān)系,即當(dāng)一個(gè)或多個(gè)變量的數(shù)值確定以后,另一個(gè)變量的數(shù)值按照某種關(guān)系也隨之被確定,這種依賴關(guān)系
可以通過下章中所介紹的回歸分析來研究;相關(guān)關(guān)系,即變量之間不存在確定的函數(shù)關(guān)系,只是存在某種非確定性的聯(lián)系,這種依賴關(guān)系
用相關(guān)分析來研究。簡單相關(guān)分析Join
Learn相關(guān)關(guān)系是一種不完全確定的隨機(jī)關(guān)系,當(dāng)一個(gè)或幾個(gè)變量的數(shù)值被確定后,與之相應(yīng)的另一個(gè)變量的值雖然不能確定,但是仍按照某種依賴關(guān)系在一定的范圍內(nèi)變化。簡單相關(guān)分析是研究兩個(gè)變量之間相關(guān)關(guān)系的方法。按照變量性質(zhì)的不同,所采用的相關(guān)分析方法也不同。對(duì)于連續(xù)變量,通常使用Pearson相關(guān)系數(shù)來描述變量間的相關(guān)關(guān)系;對(duì)于有序變量,則常使用Spearman秩相關(guān)系數(shù)。PearsonSpearmanJoin
Learn兩個(gè)變量之間的相關(guān)關(guān)系也可以通過散點(diǎn)圖來進(jìn)行直觀的描述:Join
Learn數(shù)據(jù)探索,相關(guān)性和散點(diǎn)圖使用散點(diǎn)圖和相關(guān)系數(shù)矩陣,對(duì)表“
”的連續(xù)變量之間的關(guān)系進(jìn)行描述。Join
Learn6.2.2主成分分析Join
Learn主成分分析的思路主成分分析的目的是構(gòu)造輸入變量的少數(shù)線形組合,盡量能解釋數(shù)據(jù)的變異性。這些線形組合被稱為主成分,它們形成的降維數(shù)據(jù)可用于進(jìn)一步的分析。第一個(gè)主成分由圖中比較長的直線代表,在這個(gè)方向上能夠最多的解釋數(shù)據(jù)的變異性,即方差最大;第二個(gè)主成分由圖中比較短的直線代表,與第一個(gè)主成分正交,能夠最多的解釋數(shù)據(jù)中剩余的變異性;一般而言,每個(gè)主成分都需要與之前的主成分正交,并且能夠最11
多的解釋數(shù)據(jù)中剩余的變異性。Join
Learn三維變量之間的關(guān)系三
上的相關(guān)連續(xù)變量呈橢球狀分布。的分布才可以做主成分分析。如果呈球形分布,這說明變量間沒有相關(guān)關(guān)系,沒有必要做主成分分析,也不能做變量的壓縮。12Join
Learn提取第一個(gè)主成分首先找到這個(gè)空間橢球的最長軸,即數(shù)據(jù)變異最大的軸第一特征根=1.9413Join
Learn提取第二個(gè)主成分在所有與第一特征根垂直的方向上,找到第二個(gè)最長的軸第一特征根=1.9414第一特征根=1.02Join
Learn公式化表述1-主成分建模用
表示隨機(jī)向量,它的方差-協(xié)方差矩陣為要求每個(gè)則Z的方差為:就是需要尋找的主成分,主成分兩兩之間是正交的。有多少個(gè)變量就會(huì)有多少個(gè)正交的主成分;主成分的變異(方差)之和等于原始變量的所有變異;前若干個(gè)主成分的變異(方差)解釋了絕大多數(shù)的變異(方差);如果原始變量不相關(guān),即沒有協(xié)方差,則不需要做主成分。Join
Learn公式化表述2-特征值與特征向量則第i主成分為:主成分的方差-協(xié)方差為:Join
Learn公式化表述3-主成分的個(gè)數(shù)選取令1,
2
,…,
p表示原始變量的方差序列,它們之和等于主成分之和。它們之間的區(qū)別在于主成分是從大到小排序的。每個(gè)主成分解釋的變異為:原始變量單位不一致情況下,原始變量需要進(jìn)行學(xué)生標(biāo)準(zhǔn)化,則所有原始變量的方差為1。主成分個(gè)數(shù)的選取原則:單個(gè)主成分解釋的變異不因該小于1,比如選取3個(gè)主成分,第3主成分解釋的變異相當(dāng)于一個(gè)原始變量的變異;選取主成分累積的解釋變異達(dá)到80%-90%。Join
Learn基于相關(guān)系數(shù)矩陣的主成分分析18Join
Learn主成分的解釋19Join
Learn主成分分析的三種運(yùn)用場景1、做一個(gè)綜合打分:這種情況在日常中經(jīng)常遇到,比如高考成績的加總、員工績效的總和。這類情況要求只出一個(gè)綜合打分,因此主成分分析比較適合。相對(duì)于講單項(xiàng)成績簡單加總的方法,主成分分析會(huì)賦予區(qū)分度高的單項(xiàng)成績以更高的權(quán)重,分值更合理。不過當(dāng)主成分分析不支持取一個(gè)主成分時(shí),就不能使用該方法了。2、對(duì)數(shù)據(jù)進(jìn)行描述:描述產(chǎn)品情況,比如著名的波士頓矩陣,子公司業(yè)務(wù)發(fā)展?fàn)顩r,區(qū)域投資潛力等等,需要將多變量壓縮到少數(shù)幾個(gè)主成分進(jìn)行描述,如果壓縮到兩個(gè)主成分是最理想的。這類分析一般做到主成分是不充分的,做到因子分析更好。3、為聚類或回歸等分析提供變量壓縮:消除數(shù)據(jù)分析中的共線性問題,消除共線性常用的有三種方法,分別是:1)同類變量中保留一個(gè)最有代表性的;2)保留主成分或因子;3)從業(yè)務(wù)理解上進(jìn)行變量修改。這主成分是三種方法的基礎(chǔ)。20Join
Learn演示一:做一個(gè)綜合打分使用”
Loan_aply”
數(shù)據(jù)對(duì)客戶信用進(jìn)行
打分。某金融服務(wù)公司為了了解客戶的信用程度,評(píng)價(jià)客戶的信用等級(jí),采用信用常用的5C方法,說明客戶違約的可能性。品格:指客戶的名譽(yù);能力:指客戶的償還能力;資本:指客戶的財(cái)務(wù)
和財(cái)務(wù)狀況;擔(dān)保:指對(duì)申請(qǐng)
項(xiàng)擔(dān)保的覆蓋程度;環(huán)境:指外部經(jīng)濟(jì)、政策環(huán)境對(duì)客戶的影響。每個(gè)單項(xiàng)都是由
打分給出的。21Join
Learn步驟一:變量之間相關(guān)系數(shù),多數(shù)變量之間有顯著的強(qiáng)線性相關(guān),這表明做主成分分析是有意義的。可以看出,能力與資本、附帶擔(dān)保品有著較強(qiáng)的相關(guān)性,表明客戶的償還能力與其財(cái)務(wù)實(shí)力、財(cái)務(wù)狀況和抵押資產(chǎn)有著重要的關(guān)系。Join
Learn結(jié)果分析1:總方差:原始變量總的變異;特征值:每個(gè)主成分解釋變異的數(shù)量;比例:每個(gè)特征根解釋的變異占原始數(shù)據(jù)總變異的比例;累積:累積到當(dāng)前的主成分,總共解釋總變異的比例??梢钥闯龅谝粋€(gè)主成分解釋了84.6%的變異,根據(jù)選擇主成分個(gè)數(shù)的第二個(gè)原則,超過了80%,這表明使用第一個(gè)主成分作為每家企業(yè)的信用打分是適宜的。23Join
Learn結(jié)果分析2:特征向量提供了由原始變量到每個(gè)主成分的轉(zhuǎn)換系數(shù)(權(quán)重)。第一個(gè)主成分的計(jì)算公式為:P1=0.469*品格+0.485*能力+0.473*資本+0.462*擔(dān)保品+0.329*環(huán)境條件利用特征向量的取值也可以對(duì)主成分進(jìn)行解釋,對(duì)第一主成分而言,各變量所占大致相等,且均為正數(shù),說明第一主成分是對(duì)所有指標(biāo)的一個(gè)綜合測度,作為綜合的信用等級(jí)指標(biāo),可以用于排序。24Join
Learn在正確評(píng)估了客戶的信用等級(jí)后,就能正確制定出對(duì)其信用期限、收款政策等,用于加強(qiáng)應(yīng)收裝款的管理工作。25結(jié)果分析3:獲取打分結(jié)果:Join
Learn使用”cities_10”記錄了十個(gè)沿海省份的經(jīng)濟(jì)指標(biāo),如何對(duì)這些省份的經(jīng)濟(jì)發(fā)展情況進(jìn)行表述?。演示二:做樣本特征描述26Join
Learn主成分結(jié)果:第一個(gè)主成分在表達(dá)經(jīng)濟(jì)總量的指標(biāo)上的權(quán)重相當(dāng),而第二個(gè)主成分只在人均GDP上權(quán)重很高,因此可以為每個(gè)變量取一個(gè)名字27Join
Learn注:如果一個(gè)數(shù)據(jù)的變量可以被壓縮為兩個(gè)主成分,則通過展現(xiàn)在二維圖形上已經(jīng)可以完成樣本聚類的工作。如果因子多于兩個(gè),則需要使用聚類算法進(jìn)行樣本分類。28作結(jié)果展現(xiàn)Join
Learn演示三:為聚類或回歸等分析提供變量壓縮計(jì)劃使用”CREDITCARD_EXP”數(shù)據(jù)通過線形回歸構(gòu)造客戶價(jià)值模型,但是發(fā)現(xiàn)解釋變量之間具有強(qiáng)相關(guān)性。使用這樣的數(shù)據(jù)進(jìn)行構(gòu)造的模型穩(wěn)健型差,需要事先進(jìn)行處理。這里考慮使用主成分分析的方法。29Join
Learn結(jié)果分析:有6個(gè)原始變量,由于進(jìn)行了學(xué)生標(biāo)準(zhǔn)化,每個(gè)變量的方差都是1,因此總的方差為6。第一個(gè)主成分的特征值為2.8,可以理解這個(gè)主成分解釋掉了2.8個(gè)原始變量。由于本分析的目的是為了構(gòu)造
類模型,選擇主成分的尺度可以寬一些,取3到4個(gè)主成分都可以。30Join
Learn“PROFILE_BANK”記錄了銀行客戶產(chǎn)品使用頻數(shù)的信息,希望使用這個(gè)數(shù)據(jù)作銀行客戶的客戶
,首先如何對(duì)這些信息進(jìn)行約減?“CITIES_10”記錄了十個(gè)沿海省份的經(jīng)濟(jì)指標(biāo),希望用于做聚類分析。請(qǐng)回答:1、是否可以嘗試著給每個(gè)主成分取一個(gè)名字,用以表達(dá)這個(gè)主成分所測量的維度?2、主成分分析是否可以做到變量分類、維度分析的目的?什么情況下可以完成,什么情況下不能完成。思考題:Join
Learn對(duì)于第一個(gè)例子,第一主成分是對(duì)所有指標(biāo)的一個(gè)綜合測度,作為綜合的信用等級(jí)指標(biāo)。第二個(gè)主成分有正有負(fù),是一個(gè)調(diào)和指標(biāo)。不能說第一、二個(gè)主成分分別解釋哪個(gè)變量,因此不能做到變量分類,也不能為每個(gè)主成分起名字。第二個(gè)就有所不同,第一個(gè)主成分在表達(dá)經(jīng)濟(jì)總量的指標(biāo)上的權(quán)重相當(dāng),而第二個(gè)主成分只在人均GDP上權(quán)重很高,因此可以為每個(gè)變量取一個(gè)名字32練習(xí)解答:PROFILE_BANKCITIES_10Join
Learn說明:僅提取變量的主要信息,無法完成維度分析的功能。像
“CITIES_10”這樣變量本身就具有很好的分類表現(xiàn)的數(shù)據(jù)是很少見的。完成變量聚類的主要方法下面介紹的因子分析。的情況或表現(xiàn)進(jìn)行打分;2、一種簡單省段,降低變量之間的關(guān)系,作為
類模型主要用途:1、對(duì)力的綜合信息的輸入變量??偨Y(jié):Join
Learn6.2.3因子分析Join
Learn因子分析的思路繼續(xù)主成分分析的思路,就象之前例子中呈現(xiàn)的那樣,一般得到的主成分中,第一個(gè)主成分是綜合指標(biāo),第二個(gè)主成分是調(diào)和指標(biāo)。下圖是以每個(gè)變量在這兩個(gè)主成分上的權(quán)重作的散點(diǎn)圖。如果可以將主成分的坐標(biāo)軸進(jìn)行旋轉(zhuǎn),使得一些變量的權(quán)重的絕對(duì)值在一個(gè)主成分上達(dá)到最大,而在其他主成分上絕對(duì)值最小,這樣就達(dá)到了變量分類的目的。變量旋轉(zhuǎn)分為正交和非正交兩種,一般使用前者。35Join
Learn公式化表述1-正交因子模型36Join
Learn公式化表述2-估計(jì)方法37Join
Learn公式化表述2-主成分法38Join
Learn公式化表述3-最大方差旋轉(zhuǎn)(varimax
rotation)39Join
Learn演示一:使用”cities_10”記錄了十個(gè)沿海省份的經(jīng)濟(jì)指標(biāo),希望用于做聚類分析。40Join
Learn步驟一:變量之間相關(guān)系數(shù);作主成份分析,知道保留因子的數(shù)量(略)。步驟二:進(jìn)行“因子分析”,將參與分析的連續(xù)變量放入對(duì)應(yīng)的角色中。*選擇估計(jì)方法。一般使用主成分方法。*選擇合適的因子數(shù)量,這需要前期的主成分分析的經(jīng)驗(yàn)。因子個(gè)數(shù)的確定標(biāo)準(zhǔn)較寬,比如特征根大于0.7就可以考慮保留。Join
Learn結(jié)果分析1:因子旋轉(zhuǎn)之前因子旋轉(zhuǎn)之后42因子旋轉(zhuǎn)使得原始變量在兩個(gè)因子上的權(quán)重更加兩極分化。從右圖可以看出,變量被很好的分為兩類,也可以嘗試著為每個(gè)因子其名字:因子一:經(jīng)濟(jì)總量水平因子二:人均水平Join
Learn結(jié)果分析2:對(duì)樣本進(jìn)行打分。得到樣本的因子得分。43Join
Learn結(jié)果分析3:作結(jié)果展現(xiàn)為了在散點(diǎn)圖上加上數(shù)據(jù)
:注:如果一個(gè)數(shù)據(jù)的變量可以被壓縮為兩個(gè)因子,則通過展現(xiàn)在二維圖形上已經(jīng)可以完成樣本聚類的工作。如果因子多于兩個(gè),則需要使用聚類算法進(jìn)行樣本分類。44Join
Learn1、上市公司按行業(yè)統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度出樣產(chǎn)品環(huán)保技術(shù)研發(fā)與應(yīng)用協(xié)議3篇
- 2024年食品級(jí)原材料安全運(yùn)輸與購銷保障協(xié)議3篇
- 2024廣州二手房購房合同
- FBM模式2024年度汽車租賃合同
- 2024年賽事組織與執(zhí)行合同
- 2024年簡化版鋼管交易協(xié)議范例一
- 2025年生態(tài)環(huán)保型建筑施工安全生產(chǎn)責(zé)任書3篇
- 2024年財(cái)產(chǎn)抵押貸款合同
- 2024年飲料分銷合作伙伴協(xié)議3篇
- 2024智能交通系統(tǒng)技術(shù)開發(fā)與實(shí)施合同
- 施工現(xiàn)場臨時(shí)建筑驗(yàn)收表
- 皓月集團(tuán)市場營銷策略研究
- 二次砌筑配管(JDG)技術(shù)交底
- 施工升降機(jī)定期檢驗(yàn)原始記錄
- AI技術(shù)打造智能客服機(jī)器人
- 文化差異與跨文化交際課件(完整版)
- 國貨彩瞳美妝化消費(fèi)趨勢(shì)洞察報(bào)告
- 云南省就業(yè)創(chuàng)業(yè)失業(yè)登記申請(qǐng)表
- 油氣儲(chǔ)存企業(yè)安全風(fēng)險(xiǎn)評(píng)估指南(試行)
- UL_標(biāo)準(zhǔn)(1026)家用電器中文版本
- 快速了解陌生行業(yè)的方法論及示例PPT課件
評(píng)論
0/150
提交評(píng)論