數(shù)據(jù)挖掘(第一部分)SPSS_clementine11培訓(xùn)1cindy_第1頁
數(shù)據(jù)挖掘(第一部分)SPSS_clementine11培訓(xùn)1cindy_第2頁
數(shù)據(jù)挖掘(第一部分)SPSS_clementine11培訓(xùn)1cindy_第3頁
數(shù)據(jù)挖掘(第一部分)SPSS_clementine11培訓(xùn)1cindy_第4頁
數(shù)據(jù)挖掘(第一部分)SPSS_clementine11培訓(xùn)1cindy_第5頁
已閱讀5頁,還剩127頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 Clementine基礎(chǔ)培訓(xùn)HA第一部分介紹Clementine數(shù)據(jù)挖掘軟件的基木操作和壞境,學(xué)習(xí)如何使用 Clementine讀取、處理數(shù)據(jù)培訓(xùn)內(nèi)容第一章數(shù)據(jù)挖掘簡介第二章Clementine簡介第三章讀取數(shù)據(jù)文件第四章數(shù)據(jù)質(zhì)量第五章數(shù)據(jù)處理第六章尋找數(shù)據(jù)之間的關(guān)系第一章數(shù)據(jù)挖掘簡介第一章數(shù)據(jù)挖掘簡介內(nèi)容介紹數(shù)據(jù)挖掘概念介紹CRISP-DM (跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)概述課程計劃-目的介紹數(shù)據(jù)挖掘過程,理解數(shù)據(jù)挖掘中的術(shù)語和關(guān)鍵概 念,以及如何使用CRISP-DM過程模型管理一個數(shù) 據(jù)挖掘項目 2006 SPSS Inc.什么是數(shù)據(jù)挖掘?利用各種技術(shù)發(fā)現(xiàn)數(shù)據(jù)的隱含關(guān)系(知識)使用歷史數(shù)據(jù)預(yù)

2、測、分類,并且預(yù)測未來常用技術(shù):人工智能、機(jī)器學(xué)習(xí)、決策樹 一個交互、反復(fù)的過程 2006 SPSS Inc. Clementine中對數(shù)據(jù)挖掘的支持王動支持:計算機(jī)使用各種算法在數(shù)據(jù)中識別規(guī)則和關(guān)系被動支持:使用者處理并且瀏覽數(shù)據(jù)來尋找可疑的關(guān)系 2006 SPSS Inc. W數(shù)據(jù)數(shù)據(jù)是可以得到的嗎?數(shù)據(jù)包含所需要了解的屬性嗎?數(shù)據(jù)是否有噪聲?數(shù)據(jù)量足夠嗎?可以獲得關(guān)于數(shù)據(jù)的專家知識嗎? 2006 SPSS Inc.數(shù)據(jù)挖掘的策略(計劃性)主要想解決什么樣的問題?可以得到什么樣的數(shù)據(jù)來源,并且與當(dāng)前問題 相關(guān)的是哪部分?jǐn)?shù)據(jù)?在挖掘數(shù)據(jù)前,需要做什么樣的數(shù)據(jù)預(yù)整理和 數(shù)據(jù)清洗?將會使用什么樣

3、的數(shù)據(jù)挖掘技巧?將會如何評估數(shù)據(jù)挖掘的分析結(jié)果? 2006 SPSS Inc. CRISP-DM過程模型跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程(CRISP-DM)定位是面向行業(yè)、工具導(dǎo) 向、面向應(yīng)用適用于大型工業(yè)和商業(yè)實 踐的一般標(biāo)準(zhǔn)六個階段:商業(yè)理解數(shù)據(jù)理解-數(shù)據(jù)準(zhǔn)備建模模型評估-結(jié)果發(fā)布 2006 SPSS Inc.課程計劃-數(shù)據(jù)挖掘及數(shù)據(jù)挖掘軟件-數(shù)據(jù)理解:從數(shù)據(jù)源抽取數(shù)據(jù)用表格圖形技術(shù)透視數(shù)據(jù)處理缺失值.數(shù)據(jù)準(zhǔn)備:針對記錄的數(shù)據(jù)準(zhǔn)備,如選擇記錄、對記錄排序針對字段的數(shù)據(jù)準(zhǔn)備,如生成新的字段針對文件的數(shù)據(jù)準(zhǔn)備,如合并文件10 2006 SPSS Inc.課程計劃建模技術(shù):監(jiān)督學(xué)習(xí)技術(shù),神經(jīng)網(wǎng)絡(luò)、歸納規(guī)則

4、(決策樹)、線性回歸、Logistic回歸非監(jiān)督學(xué)習(xí)技術(shù), Kohonen網(wǎng)絡(luò)、兩步聚類、K-means聚類關(guān)聯(lián)規(guī)則、時序探測-模型評估-如何應(yīng)用CRISP-DM流程研究數(shù)據(jù)挖掘問題 2006 SPSS Inc.第二章Clementine簡介 Clementine 簡介內(nèi)容熟悉Clementine中的工具和面板介紹可視化編程的思想目的初步了解Clementine的功能-數(shù)據(jù)課程的數(shù)據(jù)文件存放在目錄C培訓(xùn)基礎(chǔ)培訓(xùn)1沖 2006 SPSS Inc. Clementine用戶界面文件 編規(guī) 插入 tfiEig 工目 超節(jié)點(diǎn)迪窗口回 幫助口因読1菜單欄工具數(shù)據(jù)流區(qū)域選項板區(qū)|淹1 ClcBxxtiii

5、c 10. 1 生Q涼 輸出數(shù)據(jù)流, 輸出和模型 管理器CRISP-DM曰莎未保存的工程)&高或蝕解 3數(shù)據(jù)遅解 Q數(shù)據(jù)準(zhǔn)備 Q逢5HS型 3複型評估 &結(jié)呆部筈項冃窗口C牧心| 記錄選頂孑段世項(5因形(G)邇狽)數(shù)T5模 feBO)I() ()J閽參4亙h 金HE農(nóng)血文物樣兀總tfe范儀辺雀*瑋創(chuàng)包咅旳沖匕冽W Kohflnon COO平文會離寵咸1Tn服務(wù)曙亦地服務(wù)辭j/-41 MB/49MB節(jié)點(diǎn) 2006 SPSS Inc.可視化編程節(jié)點(diǎn)一個圖標(biāo)代表在Clementine中進(jìn)行的一個操作工作流一系列連接在一起的節(jié)點(diǎn)-選項板包含一系列不同功能的圖標(biāo) 2006 SPSS Inc.選項板源節(jié)

6、點(diǎn)用來將數(shù)據(jù)讀入Clementine中記錄選項節(jié)點(diǎn)在記錄上進(jìn)行操作 一條記錄是一種“情形”或一 “行”數(shù)據(jù)字段選項節(jié)點(diǎn)在字段上進(jìn)行操作 一個字段是一個變量圖形節(jié)點(diǎn)建模算(去生成的模型在建喩文前和之后用來可視化數(shù)據(jù)建模節(jié)點(diǎn)代表有效建模算法注意:建模算法產(chǎn)生生成的模型 2006 SPSS Inc.在下面部分舉例:-增加一個節(jié)點(diǎn)移動一個節(jié)點(diǎn)編輯一個節(jié)點(diǎn)重新命名一個節(jié)點(diǎn)復(fù)制一個節(jié)點(diǎn)刪除一個節(jié)點(diǎn)注釋一個節(jié)點(diǎn)保存一個節(jié)點(diǎn)重新載入一個節(jié)點(diǎn)連接節(jié)點(diǎn)刪除節(jié)點(diǎn)連接獲得幫助17增加一個節(jié)點(diǎn)在選項板上雙擊節(jié)點(diǎn),自 動放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域 注意:它會自動地連接到中心”節(jié)點(diǎn)-將節(jié)點(diǎn)從選項板拖放到數(shù) 據(jù)流區(qū)域中在選項板上點(diǎn)

7、擊一個節(jié)點(diǎn) ,然后在數(shù)據(jù)流區(qū)域中點(diǎn) 擊一下數(shù)據(jù)庫1數(shù)據(jù)庫1L.J未選選擇擇當(dāng)節(jié)點(diǎn)在選項板中被選中 后,會變成淡藍(lán)色編輯一個節(jié)點(diǎn)數(shù)據(jù) Clementine客戶端和服務(wù)器端Clementine可以運(yùn)行在客戶端和服務(wù)器端兩種模 式下默認(rèn)的模式是客戶端在菜單“工具”中選擇“服務(wù)器登錄”注意Clementine客戶端和服務(wù)器端版本必須匹配工具超節(jié)點(diǎn) 窗口幫助凹服務(wù)器登錄數(shù)據(jù)庫助預(yù)測企業(yè)存儲庫(U)密碼編瑪系統(tǒng)選項用戶選項輔助應(yīng)用程序也許可商導(dǎo)(I)獨(dú)立腳本創(chuàng)設(shè)置會話參數(shù)遲)收藏夾CEMI(C).預(yù)測框架向?qū)у蠵redictive Marketing 1.1 向?qū)ьA(yù)測應(yīng)用程序向?qū)?wèi)Cleo向?qū)i務(wù)器登錄網(wǎng)

8、絡(luò)垃服務(wù)器電):端口 9): 用尸名儀):密碼遲): 域(Q):默認(rèn)數(shù)據(jù)路徑:設(shè)為默認(rèn)服務(wù)器|確幻職消執(zhí)行兇執(zhí)行選擇停止執(zhí)行Ctrl-ECtrl-. 2006 SPSS Inc.幫助菜單幫助主題-CRISP-DM 幫助教程-軟件使用輔助選項幫助鍵盤代替鼠標(biāo)操作這是什么幫助幫助主題申ISF-DM幫助(C)教程輔助選項幫助這是什么迥)關(guān)于迅)練習(xí):熟悉Clementine的環(huán)境熟悉Clementine的環(huán)境:菜單幫助練習(xí)在數(shù)據(jù)流區(qū)域加入節(jié)點(diǎn):選擇變項文件節(jié)點(diǎn)從輸出選項板中,選擇表節(jié)點(diǎn)連接兩個節(jié)點(diǎn) 編輯變項文件節(jié)點(diǎn) 斷開節(jié)點(diǎn)之間的連接 刪除節(jié)點(diǎn)第三章讀取數(shù)據(jù)文件課程簡介內(nèi)容 Clementine中可

9、以讀取的數(shù)據(jù)格式讀取文本數(shù)據(jù)文件讀取SPSS數(shù)據(jù)文件 使用ODBC讀取數(shù)據(jù)庫 查看數(shù)據(jù) Clementine中的數(shù)據(jù)類型和字段方向保存Clementine數(shù)據(jù)流目的介紹數(shù)據(jù)讀入Clementine的一些方法 2006 SPSS Inc. Clementine中讀取數(shù)據(jù)格式文本文件SPSS數(shù)據(jù)文件ODBC兼容的數(shù)據(jù)庫SAS數(shù)據(jù)文件用戶輸入文件 2006 SPSS Inc.文本文件-自由字段文本文件是包含分隔符(逗號、制表 符、空格或一些其它字符)的數(shù)據(jù)文件,可以 使用變項文件節(jié)點(diǎn)讀取數(shù)據(jù)如果數(shù)據(jù)是列界定的(字段未被分隔,但是始 于相同的位置并有固定長度),應(yīng)該使用固定 文本文件導(dǎo)入固定文件節(jié)點(diǎn)-

10、讀取文件 SmallSampleComma.txtSmallSampleFixed.txt 2006 SPSS Inc.讀取自由字段文本文件添加變量文件節(jié)點(diǎn)到數(shù) 據(jù)流區(qū)域編輯節(jié)點(diǎn)指向文件SmallSampleComma.txt通過選擇“類型”條目檢 查結(jié)果 2006 SPSS Inc.讀取固定字段文本文件移動一個固定文件節(jié)點(diǎn) 到數(shù)據(jù)流區(qū)域編輯這個節(jié)點(diǎn)指向文件SmallSampleFixed.txt構(gòu)造4個新字段,列出 變量名和字段長度-交互式手動輸入 2006 SPSS Inc.33 2006 SPSS Inc. 2006 SPSS Inc.添加SPSS文件節(jié)點(diǎn)到 數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn),指向文件

11、SmallSample.savSPSS數(shù)據(jù)文件有特殊 的“標(biāo)簽”:變量標(biāo)簽描述字段數(shù)值標(biāo)簽附上解釋數(shù)值的 編碼 2006 SPSS Inc. 2006 SPSS Inc. 2006 SPSS Inc.數(shù)據(jù)庫節(jié)點(diǎn)使用數(shù)據(jù)庫節(jié)點(diǎn)前必須配 置ODBC驅(qū)動去指定數(shù) 據(jù)庫的位置“控制面板-管理工具”選擇ODBC選擇“添加.” 2006 SPSS Inc.tlODBC數(shù)據(jù)源管理蠱用戶DSH I系統(tǒng)DSN I文件DSN I呃動程序丨跟蹤I連接池關(guān)于用戶數(shù)據(jù)源也);磊稱 驅(qū):dBASE Flies j% demoExcel Tiles health health demo holidayMS Access D

12、atabaseMicrosoft Microsoft Microsoft Microsoft Microsoft Microsoft MicrosoftiBase Driver (*. db) Access Driver (*. mdb)Excel Driver (*.xls)Access Driver Access Driver Access Driver Access Driver(*. mdb)*. mdb)(*. mdb)勳迦| 刪除 配置C)IODBC用戶數(shù)據(jù)源存僭了如何與指定數(shù)據(jù)提供程序連接的信息用戶數(shù)據(jù)源只對當(dāng)前用尸可見,而衛(wèi)只能用于當(dāng)前機(jī)器上確定取消應(yīng)用幫助 2006 SPSS

13、 Inc.添加ODBC數(shù)據(jù)源選揮您為苴安菊數(shù)據(jù)瀝的38動磴序點(diǎn))。名舫DriverF/icrozoft E:ccl (. xls)DriverWicrozoEt Fdodo% (*. db )Driver pya o Mier&5ft Visual FcProF/icrozEi NicrozoEt NicrozoEl NicrozoEt FHcrozoEt f/ierozoEtAccazs-Tribcr (紇 ndb J dEfisa Drtvr 詠.dbE) dBfiso VFP Dr Ivor%. db) dEfiKa-rraalar 詠 dbf) FxaL Driver (j*. zLr

14、) Exefil-rrftabr 俅 zls) 6 V、W6# Q /*S:二-步g|_気成| 職消| 2006 SPSS Inc.-選擇合適的ODBC驅(qū)動, 該驅(qū)動應(yīng)該匹配數(shù)據(jù)庫的 名稱和版本-數(shù)據(jù)源Holidays數(shù)據(jù)庫文件custandhol.mdb 2006 SPSS Inc.使用數(shù)據(jù)庫節(jié)點(diǎn) 2006 SPSS Inc. 2006 SPSS Inc. 2006 SPSS Inc. 2006 SPSS Inc.添加并編輯數(shù)據(jù)庫節(jié)點(diǎn):選擇數(shù)據(jù)庫節(jié)點(diǎn)連接數(shù)據(jù)源選擇添加新的數(shù)據(jù)庫連接”在數(shù)據(jù)源列表中選擇需要連接的數(shù)據(jù)源,點(diǎn)擊連接選擇需要讀取的表格 2006 SPSS Inc.定義字段類型-類型

15、節(jié)點(diǎn)指定字段的一系列重要屬性指定字段類型、方向和缺失值-Clementine可以自動設(shè)置變量類型,用戶也可 以弓血希畔旨定類型為建立模型,指定字段的方向指定缺失值以及如何處理缺失值-變量值檢查保證字段值滿足一定的設(shè)置38 2006 SPSS Inc.定義字段類型字段類型幫助您理解正在使用的數(shù)據(jù),是一些 數(shù)據(jù)準(zhǔn)備和所有建模程序所必需的.字段類型:連續(xù)型-用于描述數(shù)值,女00-100或者0.75-1.25內(nèi)的連續(xù)值一 個連續(xù)值可以是整數(shù)、實數(shù)或日期川寸間離散型-用于當(dāng)一個具體值的精確數(shù)量未知時描述字符串,一旦 數(shù)據(jù)被讀取,其類型就會是標(biāo)記、集合或者無類型集合型-用于描述帶有多個具體值的數(shù)據(jù)(黃、綠

16、、藍(lán))標(biāo)記型-用于只取兩個具體值的數(shù)據(jù)(真、假)無類型-用于不符合上述任一種類型的數(shù)據(jù)或者含有太多元素的 集合類型數(shù)據(jù)字段實例化在讀取值前數(shù)據(jù)稱為未實例化,字段設(shè)置為連 續(xù)或離散型通過讀取值后數(shù)據(jù)完全實例化,字段的取值和 類型都是可知的-通過類型節(jié)點(diǎn)或數(shù)據(jù)源節(jié)點(diǎn)上的類型條目可以 指定數(shù)據(jù)類型 2006 SPSS Inc.40字段實例化何時在源節(jié)點(diǎn)實例化數(shù)據(jù)集不太大 不打算以后在流中增加字段何時在類型節(jié)點(diǎn)實例化數(shù)據(jù)集較大,而且流在類型節(jié)點(diǎn)前就過濾了子集數(shù)據(jù)在流中被過濾數(shù)據(jù)在流中被合并或追加在處理過程中導(dǎo)岀新的數(shù)據(jù)字段 2006 SPSS Inc.字段類型用變項文件節(jié)點(diǎn)讀取SmallSampleC

17、omma.txt字段實例化將ID字段的類型修改為無 類型(DC ViJIEKliaUI 1113m ploCo mma M、5T aJ;辭Ttt供理tU敏失乜立力阿ID AGE INCOME GENDER MARITAL NUMKIDe NUMCARDS HO7VPAID MORTGAGE 3TORECAR LOATIG RISKtttttttfcttfcfc二三三三“ a打匕rrra:jbojrs用的1沒文伴 數(shù)毎 Mi 尖旳 注僑W二.;砂訛也用2T72 ?;畫北箱cH識 匸田紹訓(xùn) 1 vsmQi IS3 rno le C orn ma M字圧 。ID O A3E INCOME GENDE

18、R /WITAL NUMklDS NUMCAPO 6 HCWP/MD MORTGAOE 8T0REC/V? LOANS RICK 5RfB J HK禎H h5 降所37fi |IAJ位0 004.1.18.5010 45.59.r.mdtfcepz/id.(0.4(0.6)ek/rno .旳(0.5)(0.3)bad lofifi,.無無無無無無無無無無無無毅煞験處 、2査當(dāng)子賤:BEXT便HI的子孜設(shè)fif;丈件 敢堆 也浦 芬也 注曲確定亍J字段方向梅l |宓麗QID AOE 0 INCOME 囚 GENDER 固 MARITAL ! NUM KIDS QNUMCARDS g HOWPAJ

19、D 囚 MORTGAGE O STORECAR OL0/W8 iAl RISK18.5015045.59dlysepid,.51vzBGkmo.yfn(0.5110.31bad loss.尤蕪無無元元元元元無無無入入入入入入入入入入出0、3迄若當(dāng)前字&查看社用的字観設(shè)言文件數(shù)據(jù)過逸類更KSfO)取消Q)念用阿II盂賈(礙輸入:輸入或者預(yù)測字段輸出:輸出或者被預(yù)測字段 李段兩者:既是輸入又是輸出, 只在關(guān)聯(lián)規(guī)則中用到無:建模過程中不使用該字 段分區(qū):將數(shù)據(jù)拆分為訓(xùn)練、 測試(驗證)諭分字段方向設(shè)置只有在建模時 才範(fàn)屣用43練習(xí):用Clementine讀取數(shù)據(jù)文件數(shù)據(jù)文件:逗號分隔文本文件char

20、ity, csv SPSS 數(shù)據(jù)文件 charity.sav具體步驟:打開 Clementine在數(shù)據(jù)流區(qū)域添加變項節(jié)點(diǎn)編輯該節(jié)點(diǎn)連接表節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域添加SPSS文件節(jié)點(diǎn)編輯該節(jié)點(diǎn)(兩種方法)連接表節(jié)點(diǎn)保存其中一個流為ExerChapter 3.str第四章數(shù)據(jù)質(zhì)量課程計劃內(nèi)容缺失數(shù)據(jù)定義介紹質(zhì)量節(jié)點(diǎn) 使用數(shù)據(jù)審核節(jié)點(diǎn)檢查所有字段的分布目的熟悉Clementine中的一些用來發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完 整性和數(shù)據(jù)整體分布的方法 2006 SPSS Inc.缺失數(shù)據(jù)類型系統(tǒng)缺失值,也被稱作nulls,這些值在數(shù)據(jù)庫 中被留為空格,而且在類型節(jié)點(diǎn)上它們并不被 明確設(shè)置為“缺失”系統(tǒng)缺失值在Clemen

21、tine 中顯示為$null$用戶自定義缺失值,也被稱作空白blanks,這 些值在類型節(jié)點(diǎn)上被明確地定義為缺失確定為 空白的數(shù)據(jù)值被標(biāo)記為特殊對待,而且在大多 數(shù)計算中被剔除47 SmallSampleMissing.txt國 SaallSaapleli ssing 一 記爭本-! x| 文件g)編輯 格式 查看辺 幫助)ID,AGE,SEX,REGION,INCOME,MARRIED,CHILDREN,CARID12701,23,MALE,INNER_CITV,18766,VES,1,VESID12702,30,RURAL,9915,NO,2,N0ID12703,45,RURAL,2188

22、1,NO,0,YESID12704,50,MALE,TOWN,VES,2,N0ID12705,41,FEMALE,INNER_CITV,VES,0,NOID12706,20,MALE,INNER_cTTV,16688,NO,1,NOID12707,46,FEMALE,RURAL,39068,VES,O,VESID12708,50,FEMALE,INNER_CITV,27740,VES,1,VES ID12709,42,MALE,INNER_cTTV,33584,NO,3,VESID12710,57,FEMALE,TOWN,19621,VES,99,VES嗣表(3個宇段JO余記錄#4Z-Ini

23、xf白文件迥編輯迥IDAGESEXREGIONINCOMEMARRIEDCHILDREN CAR1ID1270123MALEINNER_CITY18766 YES1 YES2ID1270230RURAL991 5 NO2 NO3ID1270345RURAL21881 NOOYES4ID1270450MALETOWN$null$ YES2 NO5ID1270541FEMALEINNER_CITY$null$ YESONO6ID1270620MALEINNER_CITY1 6688 NO1 NO7ID1270746 FEMALERURAL39068 YESOYES8ID1270850 FEMALE

24、INNER_CI1Y27740 YES1 YES9ID1270942 MALEINNEFLCI1Y33584 NO3 YES10ID1271057FEMALETOWN1 9621YES99 YES表注解 2006 SPSS Inc.評估數(shù)據(jù)質(zhì)量使用變項文件節(jié)點(diǎn)讀取數(shù) 據(jù)文件SmallSampleMissing.txt用類型條目實例化數(shù)據(jù)質(zhì)量節(jié)點(diǎn)連接變項文件節(jié) 點(diǎn)并輸出質(zhì)量報告取消選擇空白(White space)取消選擇字符型空值(Empty string) 2006 SPSS Inc.X看作無瑣佰卜.insn 耒定義)定義缺卻叵空白回宇符型空佰i+tt:&含安加友的12錄計地匚分鮮含無敢值的

25、記錄計數(shù)Isa 箱岀 aw時)執(zhí)行 刪gffl昭IB) 2006 SPSS Inc.定義缺失值后評估數(shù)據(jù)質(zhì)量 2006 SPSS Inc. 2006 SPSS Inc.類型條目選中Children字段“缺失”選項定義空白-缺失值99質(zhì)量節(jié)點(diǎn)中選擇 White space Emptystring 和 Blank value-分解含無效值的記錄計數(shù)再次輸岀質(zhì)量報告 2006 SPSS Inc.自動定義缺失值在類型條目對話框中:右擊菜單中選中“全選”再右擊選中設(shè)置“缺失”選擇“開”xJiI刪D 塢訓(xùn) tliiill1SmallSampleMissing.bt讀取值渚除值渚除所有值RCA ssosos

26、局集合ID12701.1.*參連續(xù)20.57*畐集合 r1|廠*込集合INNER_CL.*19915.390.*為掠志YESfNO*i0.3l*為抹志YESfNO*AGESEX REGION INCOME MARRIED CHILDREN孚啟尖星值越矢直檢fu CL CL CL CL CL E E ns ns ns ns ns ns ns ns入入入入入入入入 輸輸輸輸輸輸輸輸 、3查君當(dāng)前字段。查看辛便用的字段設(shè)置 邂細(xì)|血|類型|族 重置確定Q)取消(C) ski個必英型:Q,棗臺T殍作類型s字捋出?.此宦伯伯3 FGtLGMALEXI贈宛擴(kuò)碗9E_ |“|定&全白懣佰手覆怖比 M髦町3凹

27、魁伯衆(zhòng)空伯乜左白 說均:Viscose t關(guān)型|夕連後亦偵箋si: 壬超個c iJZQiftffi 0 H:? 眈H檢SEE:壬_ 1“定興殳白H ai2fi I 2B2&I s說岡數(shù)據(jù)審核打開數(shù)據(jù)流:數(shù)據(jù)審核str使用制表節(jié)點(diǎn)輸出表格:-共有4117條記錄使用數(shù)據(jù)審核節(jié)點(diǎn)連接類型 節(jié)點(diǎn)檢查數(shù)據(jù)整體的分布-抽樣條目選擇抽樣當(dāng)記錄數(shù)多于5000 ,這樣可以檢查所有的記錄執(zhí)行數(shù)據(jù)審核節(jié)點(diǎn)輸出檢查結(jié)果Risk.bft類型輸出檢查結(jié)果點(diǎn)擊小圖看完整的分布圖或直方圖TiCOiT的頁方陽lKCCB002XCCfl0a250W.CCCGCCC0 owjrccc Q5CGXCOO.OXeCCOO.OZi5:C

28、CflOOOOO;:COINCOME刪外駅riff53練習(xí):檢查數(shù)據(jù)的完整性打開數(shù)據(jù)流 ExerChapter 3.str在源節(jié)點(diǎn)設(shè)置數(shù)據(jù)類型并實例化注意字段中blank的定義連接到一個質(zhì)量節(jié)點(diǎn),并執(zhí)行該流查看質(zhì)量報告連接到一個數(shù)據(jù)審核節(jié)點(diǎn),執(zhí)行該流 特別注意字段pre( post-)campaign expenditure (visits)選擇字段(集合或標(biāo)記),觀察其分布圖選擇連續(xù)型字段,觀察其直方圖保存流 2006 SPSS Inc.第五章數(shù)據(jù)處理介紹課程計劃內(nèi)容介紹選擇節(jié)點(diǎn)處理記錄介紹兒個字段處理節(jié)點(diǎn):過濾、字段重排、導(dǎo)出和重 新分類介紹如何自動生成字段和記錄處理節(jié)點(diǎn)-目的學(xué)會使用Cl

29、ementine中一些可用的數(shù)據(jù)處理技術(shù),并 使用這些技術(shù)清洗和精煉數(shù)據(jù)數(shù)據(jù)處理技術(shù) CLEM ( Clementine Language for ExpressionManipulation )是一種功能強(qiáng)大的語言,用來分 析操彳乍Clementine中使用的數(shù)據(jù)用在導(dǎo)出、選擇、過濾、平衡和報告等節(jié)點(diǎn)這些函數(shù)可以導(dǎo)出新的值、根據(jù)條件選擇記錄、比較 和評估數(shù)據(jù)、插入數(shù)據(jù)注意:為了將錯誤減少到最小,當(dāng)使用CLEM 時經(jīng)常需要為字段名加上單引號 2006 SPSS Inc.盡量不要手動輸入CLEM表達(dá)式在此處輸入表達(dá)式或從下而列表中選揮。叼俁存之前檢查表達(dá)式表達(dá)式構(gòu)建器-導(dǎo)出:公式牛一般函數(shù)函數(shù)返

30、回isJnteger(ITEM) iseal(ITEM) is_number(ITEM)布爾值 布爾值 布爾值is_string(ITEM)布爾值is.datG(ITEM)布爾道isJime(ITEM)布爾值isjime stamp (ITEM)布爾值 is_datetime(ITEM) 布爾值tonteger(ITEM)整數(shù)計詣1字段. 字段存儲類型OResponse.Pre-campa.Pre-campa.字符串整數(shù) 整數(shù):iPre-campa.字符串Pro campa.字符串Post-camp.整數(shù)Post-camp.Post-camp.整數(shù) 字符串金 Post-camp.字符串isJn

31、tegerflTEM)若呵目”類型為整數(shù),則返冋值為真。否則返回值為假, 2006 SPSS Inc.選擇節(jié)點(diǎn)打開數(shù)據(jù)流:選擇節(jié)點(diǎn).str使用選擇節(jié)點(diǎn)連接類型節(jié) 點(diǎn)選擇符合條件INCOME 標(biāo)去Tm: f 導(dǎo)出為襲合碳式:Z草個 鄉(xiāng)個導(dǎo)出字段INCGROUPSTORECflOS = 0Ttien:INCOME; STOREC6PDSElse:INCOME宇及克出6炙合應(yīng)用EHO設(shè)去理敗c 2006 SPSS Inc.重新分類節(jié)點(diǎn)使用重新分類節(jié)點(diǎn)連接最 后一個導(dǎo)出節(jié)點(diǎn)選擇單一模式重分類Risk字段為新字段 RISKCAT bad loss, bad profit 新值 bad good risk

32、 新值 good使用制表節(jié)點(diǎn)輸出表格通過表格比較兩個字段 2006 SPSS Inc.Risktxt姿型過澆 SUMDEBT CHILDREN INCOROUP INCCARD8 RISKCATRisktxt姿型過澆 SUMDEBT CHILDREN INCOROUP INCCARD8 RISKCAT模式:q單個o多個重新分類為:。)新字段現(xiàn)有字段重新分類字段:9 RISK新字段名:RISKCATA獲取復(fù)制選潔除新值鄉(xiāng)自動.原貽值新值|bad lossbadbad profitbadgood riskgood重新分類值:用于未指定的值:,原始值默認(rèn)值設(shè)造注解確定(0)取消(C)undef應(yīng)用色

33、)重置遲)CLEM建議大小寫敏感性在字符值和所有變量(字段)名上加引號當(dāng)涉及數(shù)值時使用小數(shù)點(diǎn)(0.0)標(biāo)準(zhǔn)CLEM函數(shù)全部是小寫字母任何以開頭的CLEM函數(shù)都是大寫字母使用表達(dá)式構(gòu)造器!65 2006 SPSS Inc.自動生成節(jié)點(diǎn)人部分輸岀都包含“住成 ”菜單項,可以自動生成 一個節(jié)點(diǎn) 2006 SPSS Inc. 2006 SPSS Inc. 2006 SPSS Inc.自動生成導(dǎo)出節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接最后 一個導(dǎo)出節(jié)點(diǎn)直方圖節(jié)點(diǎn)中選擇字段INCOME生成直方圖在生成的直方圖上數(shù)值20000、 30000、 40000處點(diǎn)擊自動生成導(dǎo)出節(jié)點(diǎn)導(dǎo)出集合 2006 SPSS Inc.自動選擇沒

34、有缺失值的字段和記錄數(shù)據(jù)流:數(shù)據(jù)質(zhì)量str生成質(zhì)量報告:-輸出窗口點(diǎn)擊“完成” 標(biāo)題排序表格選中字段INCOME, SEX 和 CHILDREN自動生成過濾節(jié)點(diǎn)過濾有 缺失值的字段自動生成選擇節(jié)點(diǎn)選擇沒 有缺失值的記錄練習(xí):數(shù)據(jù)的處理打開數(shù)據(jù)流 ExerChapter 3.str對Total Spend字段畫直方圖在直方圖上畫三條線,把總消費(fèi)數(shù)據(jù)分割成四段用生成菜單自動生成導(dǎo)出節(jié)點(diǎn)使用導(dǎo)岀節(jié)點(diǎn)導(dǎo)岀新字段Banded Total Spend使用重新分類節(jié)點(diǎn)派生新的字段Title_ Gender值分別為Male或Female用選擇節(jié)點(diǎn),選擇年齡大于50歲的男性記錄檢驗節(jié)點(diǎn)設(shè)置是否正確,并刪除選擇節(jié)

35、點(diǎn)保存流69第六章尋找數(shù)據(jù)之間的關(guān)系課程計劃內(nèi)容介紹網(wǎng)絡(luò)圖節(jié)點(diǎn)和矩陣節(jié)點(diǎn)研究符號字段之間關(guān)系 使用相關(guān)系數(shù)來研究數(shù)值字段之間關(guān)系-目的探索一些在Clementine中研究字段之間關(guān)系的途徑在數(shù)據(jù)中尋找關(guān)系-數(shù)據(jù)審核節(jié)點(diǎn)使用目標(biāo)字段層疊矩陣節(jié)點(diǎn)生成符號數(shù)據(jù)交叉列聯(lián)表-網(wǎng)絡(luò)圖節(jié)點(diǎn)可視化表現(xiàn)符號數(shù)據(jù)之間的關(guān)系-統(tǒng)計量節(jié)點(diǎn)計算數(shù)值字段之間的相關(guān)系數(shù)-散點(diǎn)圖節(jié)點(diǎn)和直方圖節(jié)點(diǎn)可視化表現(xiàn)數(shù)值數(shù)據(jù)(交疊符號字段) 2006 SPSS Inc.矩陣節(jié)點(diǎn):關(guān)聯(lián)兩個符號字段打開數(shù)據(jù)流:Riskdef.str使用矩陣節(jié)點(diǎn)連接類型節(jié) 點(diǎn)生成列聯(lián)表 RISK是否隨GENDER改 變-行 RISK,歹ij GENDER R

36、ISK 是否隨 HOWPAID 改變-改變列為HOWPAID選擇行百分比注意在輸出矩陣的顯示條目, 用戶可以直接選擇用何種 匯總方式生成列聯(lián)表列:& RISK.疋 GENDERis RISE X GEBDIR 的矩陣 *1口1 xl目文f半(E 編輻生成毛畫酉冋乂囪RISKrmbad loss457449bad profit12191188good risk401403GENDER單元格包括:字段的交叉列表(包括缺失值)卡方=0.142 df= 2槪率=0.931師晌C)應(yīng)用蜩矩陣 外觀注解園 RISK X HOTPAI1)的矩陣tag I na | wa | aw |盡文件 編輯行和列:不條乍序 o升序-! ! x|區(qū)I交蠱字盤:I I突出顯不頂部、突出顯不底部交叉列表單元梏內(nèi)容:期望值殘差設(shè)置外觀RISKmonthlyweeklybad loss計數(shù)359547行餉39.62560.375bad profit計數(shù)10901317行45.28554.715good risk計數(shù)577227行餉71.76628.234HOWPAID單元格包JS:宇段的交叉列表C包描皎失值 卡方=211.809, df= 2,槪率=0矩陣外觀 注解,al* I CD -/J PU輸出注解確定(o 匚執(zhí)行取消(C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論