版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Clementine數(shù)據(jù)的基本分析數(shù)據(jù)的基本分析變量的探索性分析---評估數(shù)據(jù)的質(zhì)量計算基本描述統(tǒng)計量---掌握數(shù)據(jù)分布特征的數(shù)字變量分布的探索兩變量的相關(guān)性分析列聯(lián)分析---揭示品質(zhì)型變量之間的內(nèi)在聯(lián)系均值檢驗---把握數(shù)據(jù)之間的相互影響程度變量的重要性分析分析工具:圖形分析數(shù)值分析數(shù)據(jù)的基本分析案例數(shù)據(jù);虛擬的電信客戶數(shù)據(jù)該數(shù)據(jù)包括:居住地、年齡、婚姻狀況、家庭月收入(百元)、受教育水平、性別、家庭人口、基本服務(wù)累計開通月數(shù)、是否申請無線轉(zhuǎn)移服務(wù)、上月基本費用、上月限制性免費服務(wù)項目的費用、無線服務(wù)費用、是否電子支付、客戶類型、是否流失15個變量。分析任務(wù):分析保持和流失客戶的一般特征(本章)建立模型做客戶流失的預(yù)測(后續(xù))數(shù)據(jù)質(zhì)量的探索數(shù)據(jù)離群點和極端值的診斷和處理問題數(shù)據(jù)缺失值的替補問題數(shù)據(jù)中離群點和極端值的診斷和處理數(shù)據(jù)中完整變量和完整樣本(不包括缺失、空白、離群點、極端值等)比例的計算示例流失客戶在各個變量的不同取值都有分布開通月數(shù)比較少的客戶其流失比例相對較大
收入變量呈顯著的右偏不對稱分布
收入和家庭人數(shù)兩個變量上分別存在15和6個無效樣本數(shù)據(jù)質(zhì)量主要出現(xiàn)在:異常點和極端值上數(shù)據(jù)質(zhì)量的探索---數(shù)據(jù)離群點和極端值問題離群點和極端值的修正處理Coerce:用離群點或極端值最近的正常數(shù)據(jù)替代它們。例如,如果異常點定義為3個標準差以外,則可用3個標準差上的最大值或最小值替代。
Discard:剔除異常點或和極端值。Nullfiy:用系統(tǒng)缺失值$null$替代異常點或極端值。
Coerceoutliers/discardextremes:按照第一種方法修正異常點,剔除極端值。Coerceoutliers/nullifyextremes:按照第一種方法修正異常點,用系統(tǒng)缺失值$null$替代極端值。數(shù)據(jù)質(zhì)量的探索---數(shù)據(jù)離群點和極端值問題替補對象
BlankValues:對空白進行替補
NullValues:對系統(tǒng)缺失值$null$進行替補
Blank&NullValue:對空白和系統(tǒng)缺失值進行替補Condition:對滿足指定條件的變量值進行替補替補方法
Fixed:用一個具體的值替補,均值、中間值、常數(shù)
Random:用正態(tài)分布或均勻分布中的一個隨機數(shù)替補
Expression:用一個指定的算術(shù)表達式結(jié)果替補。Algorithm:用分類回歸樹的預(yù)測值替補數(shù)據(jù)質(zhì)量的探索---缺失值替補保留高質(zhì)量的變量Generate->FilterNode保留有效樣本Generate->SelectNode數(shù)據(jù)質(zhì)量管理的其他功能基本描述分析目標:對數(shù)值型變量計算基本描述統(tǒng)計量分析數(shù)值型變量之間的相關(guān)程度示例:計算基本服務(wù)累計開通月數(shù)、上月基本費用、上月限制性免費服務(wù)項目的費用、無線服務(wù)費用的基本描述統(tǒng)計量計算上述變量與年齡、家庭月收入(百元)、家庭人口之間的簡單相關(guān)系數(shù)選擇相關(guān)性較高的變量基本描述分析示例:利用DataAudit查看定距數(shù)據(jù)之間的相關(guān)性(基本費用和年齡)繪制散點圖:示例:基本費用和年齡之間的相關(guān)性圖形和數(shù)據(jù)的交互、圖形的編輯分布特征探索變量進行怎樣的轉(zhuǎn)換處理后更接近正態(tài)分布示例:電信客戶數(shù)據(jù)中,分析各種費用應(yīng)做怎樣的轉(zhuǎn)換處理才接近正態(tài)分布定類變量相關(guān)性的研究---圖形分析示例:分析套餐類型的分布特征,以及流失客戶在套餐類型上的分布繪制柱形圖柱形圖參數(shù)的設(shè)置:ProportionalscaleNormalizebycolor柱形條數(shù)據(jù)訪問樣本的balance處理:boost/reduce定類變量相關(guān)性的研究---圖形分析示例:分析套餐類型的分布特征,以及流失客戶在套餐類型上的分布繪制網(wǎng)狀圖:直觀展示兩個或多個分類變量相關(guān)性特征的圖形Web圖:反映兩兩變量之間的關(guān)系示例:套餐類型和是否流失Web圖的顯示控制Directedweb圖:反映一個變量與多個變量之間的關(guān)系示例:流失因素的探討(婚姻狀況、電子支付、套餐類型)定類變量相關(guān)性的研究---列聯(lián)分析示例:分析套餐類型的分布特征,以及流失客戶在套餐類型上的分布數(shù)值分析:列聯(lián)分析分析的變量類型?分析的數(shù)據(jù)對象?原假設(shè)?采用的檢驗統(tǒng)計量?什么是期望頻數(shù)?如何利用檢驗統(tǒng)計量的觀測值和概率p值進行決策?采用的檢驗統(tǒng)計量通常有怎樣的約束?定類變量相關(guān)性的研究---列聯(lián)分析列聯(lián)分析,品質(zhì)數(shù)據(jù)的相關(guān)性進行分析年齡與工資收入交叉列聯(lián)表 低中高 青 4000 0 中 0500 0 老 00 600 低中高 青 00 500 中 0600 0老 4000 0
H0:行列變量之間相互獨立構(gòu)造卡方統(tǒng)計量統(tǒng)計量服從(r-1)*(c-1)個自由度的卡方分布count:觀察(實際)頻數(shù)expectedcount:期望頻數(shù)(期望頻數(shù)反映的是H0成立情況下的數(shù)據(jù)分布特征)Residual:剩余(觀察頻數(shù)-期望頻數(shù))定類變量相關(guān)性的研究---列聯(lián)分析定類變量相關(guān)性的研究---列聯(lián)分析利用Matrix,計算流失/保留客戶選擇不同服務(wù)套餐類型時的基本費用的平均值基本分析---兩總體均值的比較示例:分析保持客戶與流失客戶的基本費用描述性分析:圖形觀察直方圖參數(shù)控制:等距分組或手動分組、balance處理示例:分析保持客戶與流失客戶的各種費用的總體均值比較兩總體均值檢驗多總體均值檢驗:方差分析分析的變量類型?分析的變量稱謂?分析的前提要求?原假設(shè)?采用的檢驗統(tǒng)計量?基本分析---兩總體均值的比較示例:分析客戶基本費用的均值與免費部分的均值是否存在顯著差異配對樣本的均值檢驗分析的變量類型?分析的前提要求?原假設(shè)?采用的檢驗統(tǒng)計量?基本分析---兩總體均值的比較變量重要性的分析從兩個方面聯(lián)合考察:從變量本身考察從變量與輸出變量相關(guān)角度考察從變量本身考察變量中缺失值所占的比例定類變量中分類值所占的最大比例
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國鹽漬胡蘿卜絲數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國樹脂紐扣數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國嬰幼衣物專用洗液數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國可拆卸水平螺翼水表數(shù)據(jù)監(jiān)測研究報告
- 2025年中國銅制小火車市場調(diào)查研究報告
- 五相感應(yīng)電動機容錯控制研究
- 2025年度智能家居廚具安裝服務(wù)合同范本2篇
- 2025年度門衛(wèi)崗位勞動合同及技能培訓(xùn)協(xié)議4篇
- 二零二五年度瓷磚專賣店智能家居系統(tǒng)解決方案合同4篇
- 二零二五年度廚房裝修工程竣工驗收與保修合同范本4篇
- 物業(yè)民法典知識培訓(xùn)課件
- 2023年初中畢業(yè)生信息技術(shù)中考知識點詳解
- 2024-2025學(xué)年八年級數(shù)學(xué)人教版上冊寒假作業(yè)(綜合復(fù)習(xí)能力提升篇)(含答案)
- 《萬方數(shù)據(jù)資源介紹》課件
- 醫(yī)生定期考核簡易程序述職報告范文(10篇)
- 第一章-地震工程學(xué)概論
- 《中國糖尿病防治指南(2024版)》更新要點解讀
- 初級創(chuàng)傷救治課件
- 交通運輸類專業(yè)生涯發(fā)展展示
- 2024年山東省公務(wù)員錄用考試《行測》試題及答案解析
- 神經(jīng)重癥氣管切開患者氣道功能康復(fù)與管理專家共識(2024)解讀
評論
0/150
提交評論