數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述_第1頁(yè)
數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述_第2頁(yè)
數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述_第3頁(yè)
數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述_第4頁(yè)
數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘項(xiàng)目實(shí)施概述

2023/12/19本章包括:數(shù)據(jù)挖掘項(xiàng)目實(shí)施步驟123數(shù)據(jù)挖掘項(xiàng)目周期單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容單擊此處添加段落文字內(nèi)容建立項(xiàng)目和報(bào)告處理缺失值導(dǎo)入和導(dǎo)出PMML模型3452023/12/19

23.1數(shù)據(jù)挖掘項(xiàng)目實(shí)施步驟

23.1.1一般實(shí)施步驟

一般而言,數(shù)據(jù)挖掘項(xiàng)目要經(jīng)歷的過(guò)程包括:?jiǎn)栴}理解和提出、

數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)整理

、建立模型、評(píng)價(jià)和解釋等一系列任務(wù),其流程如圖23-1所示。2023/12/19企業(yè)解決方案23.1.2.1SEMMA模式2023/12/19

23.1.2.2SPSS-5A模型

2023/12/19標(biāo)準(zhǔn)過(guò)程模型

商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估模型發(fā)布2023/12/1923.2數(shù)據(jù)挖掘項(xiàng)目周期2023/12/1923.3建立項(xiàng)目和報(bào)告項(xiàng)目概述表面上,Clementine項(xiàng)目只是一種組織輸出的簡(jiǎn)單方式,但實(shí)際上它能做更多的工作,主要包括以下工作:(1)注釋項(xiàng)目文件中的每個(gè)對(duì)象。(2)使用CRISP-DM方法指導(dǎo)數(shù)據(jù)挖掘工作。項(xiàng)目還包含CRISP-DM幫助系統(tǒng),該系統(tǒng)針對(duì)使用CRISP-DM進(jìn)行的數(shù)據(jù)挖掘提供詳細(xì)信息以及現(xiàn)實(shí)示例。(3)將非Clementine項(xiàng)目添加到Clementine項(xiàng)目,如用于展現(xiàn)數(shù)據(jù)挖掘目標(biāo)的PowerPoint幻燈片或與計(jì)劃使用的算法相關(guān)的文檔等。(4)根據(jù)注解生成全面更新報(bào)告和簡(jiǎn)單更新報(bào)告。為了便于在局域網(wǎng)上發(fā)布,可以用HTML的形式生成這些報(bào)告。2023/12/19視圖2023/12/19類(lèi)視圖2023/12/19建立項(xiàng)目

新建項(xiàng)目在Clementine窗口中新建項(xiàng)目非常簡(jiǎn)單??梢詮臉?gòu)建新項(xiàng)目開(kāi)始(如果沒(méi)有項(xiàng)目打開(kāi)),也可以關(guān)閉現(xiàn)有項(xiàng)目并重新開(kāi)始。從流工作區(qū)菜單中,選擇“文件”→“工程”→“新建工程...”命令。2023/12/19添加到項(xiàng)目

創(chuàng)建或打開(kāi)項(xiàng)目后,便可以使用多種方法來(lái)添加對(duì)象,如數(shù)據(jù)流、節(jié)點(diǎn)和報(bào)告等。(1)用管理器添加對(duì)象使用Clementine窗口右上角的管理器,可以添加流或輸出。從其中一個(gè)管理器選項(xiàng)卡中選擇一個(gè)對(duì)象(如表或流)。右鍵單擊,然后選擇“添加到工程”命令。如果以前保存過(guò)該對(duì)象,則會(huì)自動(dòng)將它添加到適當(dāng)?shù)膶?duì)象文件夾(在類(lèi)視圖中)或默認(rèn)的階段文件夾(在CRISP-DM視圖中)?;蛘撸梢詫?duì)象從管理器拖放到項(xiàng)目工作區(qū)中。將項(xiàng)目添加到項(xiàng)目工程中,如圖23-7從項(xiàng)目管理器中加入項(xiàng)目項(xiàng)到工程中所示。2023/12/19(2)從工作區(qū)添加節(jié)點(diǎn)可以使用“保存”對(duì)話框從流工作區(qū)添加單個(gè)節(jié)點(diǎn)。在工作區(qū)中選擇一個(gè)節(jié)點(diǎn)。單擊右鍵,然后選擇“保存節(jié)點(diǎn)”命令;或者,從菜單中選擇“編輯”→“節(jié)點(diǎn)”→“保存節(jié)點(diǎn)...”命令。在“保存”對(duì)話框中,選中“將文件添加到工程”命令。為節(jié)點(diǎn)創(chuàng)建名稱(chēng),然后單擊“保存”命令。從流工作區(qū)中加入節(jié)點(diǎn)的主要操作對(duì)話框如圖23-8從流工作區(qū)中加入節(jié)點(diǎn)所示,這樣會(huì)保存文件并將其添加到項(xiàng)目中,同時(shí)節(jié)點(diǎn)會(huì)被添加到類(lèi)視圖中的Nodes文件夾以及CRISP-DM視圖中的默認(rèn)階段文件夾。2023/12/19(3)添加外部文件將外部文件添加到項(xiàng)目的一般步驟如下:Step1.將文件從桌面上直接拖到項(xiàng)目中;或右鍵單擊CRISP-DM視圖或類(lèi)視圖中的目標(biāo)文件夾。Step2.從菜單中,選擇“添加到文件夾”命令。Step3.在對(duì)話框中選擇一個(gè)文件,然后單擊“打開(kāi)”命令。這將會(huì)在Clementine項(xiàng)目?jī)?nèi)添加對(duì)所選對(duì)象的引用。2023/12/19設(shè)置項(xiàng)目屬性

可以使用項(xiàng)目屬性對(duì)話框來(lái)自定義項(xiàng)目的內(nèi)容和文檔。要訪問(wèn)項(xiàng)目屬性,一般執(zhí)行以下操作:

Step1.右鍵單擊項(xiàng)目工具中的根文件夾,然后選擇“工程屬性”命令;或者右鍵單擊項(xiàng)目工具中的非根文件夾,然后選擇“工程”→“工程屬性”命令。工程選項(xiàng)卡對(duì)話框如圖23-9工程選項(xiàng)卡對(duì)話框所示。

Step2.單擊“工程”選項(xiàng)卡以指定項(xiàng)目的相關(guān)信息。

2023/12/19

在工程選項(xiàng)卡中包含下列信息,如圖23-9工程選項(xiàng)卡對(duì)話框所示。創(chuàng)建時(shí)間:顯示項(xiàng)目的創(chuàng)建時(shí)間(此項(xiàng)內(nèi)容不可編輯)。摘要:可以輸入將在項(xiàng)目報(bào)告中顯示的數(shù)據(jù)挖掘項(xiàng)目的摘要。內(nèi)容:列出項(xiàng)目文件引用的組成文件的類(lèi)型和數(shù)量(此項(xiàng)內(nèi)容不可編輯)。將未保存的對(duì)象保另存為單選項(xiàng):指定是應(yīng)將未保存的對(duì)象保存到本地文件系統(tǒng)還是存儲(chǔ)在PredictiveEnterpriseRepository中。載入項(xiàng)目時(shí)更新對(duì)象引用復(fù)選框:選中此選項(xiàng)可更新項(xiàng)目對(duì)其組成文件的引用。2023/12/19注解項(xiàng)目

項(xiàng)目工具提供了多種方式來(lái)注解數(shù)據(jù)挖掘工作。項(xiàng)目級(jí)注解常用于跟蹤宏觀目標(biāo)和決策,而文件夾或節(jié)點(diǎn)注解提供其他詳細(xì)信息?!白⒔狻边x項(xiàng)卡提供了足夠空間記錄項(xiàng)目級(jí)詳細(xì)信息,比如具有不可恢復(fù)丟失數(shù)據(jù)的數(shù)據(jù)排除、數(shù)據(jù)探索過(guò)程中形成的可能假設(shè)等。2023/12/19對(duì)象屬性可以查看對(duì)象屬性并選擇是否在項(xiàng)目報(bào)告中納入單個(gè)對(duì)象。要訪問(wèn)對(duì)象屬性,需要執(zhí)行以下操作:Step1.右鍵單擊項(xiàng)目窗口中的對(duì)象。Step2.從菜單中,選擇“對(duì)象屬性”命令。對(duì)象屬性的設(shè)置,如圖23-12對(duì)象屬性對(duì)話框所示。

2023/12/19

關(guān)閉項(xiàng)目

關(guān)閉項(xiàng)目文件的操作步驟一般如下:Step1.從“文件”菜單中,選擇關(guān)閉項(xiàng)目。Step2.如果系統(tǒng)詢問(wèn)是關(guān)閉所有與項(xiàng)目關(guān)聯(lián)的文件還是讓其保持打開(kāi),請(qǐng)單擊“保持打開(kāi)”命令,將關(guān)閉工程文件(.cpj)本身而讓所有關(guān)聯(lián)文件(如流、節(jié)點(diǎn)或圖形等)保持打開(kāi)。

2023/12/19

建立報(bào)告

項(xiàng)目最有用的一項(xiàng)功能是能夠根據(jù)項(xiàng)目項(xiàng)和注解生成報(bào)告??梢灾苯由扇舾煞N文件類(lèi)型的報(bào)告,也可以直接輸出到屏幕窗口以便立即查看。從輸出窗口中,可以打印、保存或查看Web瀏覽器中的報(bào)告。還可以將保存的報(bào)告分發(fā)給組織中的其他人。2023/12/19設(shè)置報(bào)告選項(xiàng)

2023/12/19

生成報(bào)告

2023/12/19保存和輸出報(bào)告在屏幕上生成的報(bào)告顯示在新輸出窗口中,此報(bào)告中包括的所有圖形都會(huì)顯示為內(nèi)嵌圖像。保存報(bào)告的一般步驟如下:Step1.從“文件”菜單中,選擇“保存”命令。Step2.指定文件名。導(dǎo)出報(bào)告的一般步驟如下:Step1.從“文件”菜單中,選擇導(dǎo)出以及要導(dǎo)出為的文件類(lèi)型。Step2.指定文件名。可以將報(bào)告導(dǎo)出為如下類(lèi)型的文件:HTML文本MicrosoftWordMicrosoftExcelMicrosoftPowerPoint2023/12/19

23.4處理缺失值

指定缺失值用戶可以用類(lèi)型節(jié)點(diǎn)或者來(lái)源節(jié)點(diǎn)的類(lèi)型選項(xiàng)卡來(lái)指定某個(gè)特定的值為缺失值,也可以決定是否把系統(tǒng)的缺失值或空白看作空格。在“缺失”欄上,從下拉菜單中選擇“指定…”來(lái)打開(kāi)一個(gè)對(duì)話框,然后確定缺失值選項(xiàng)。如圖23-16確定連續(xù)變量的缺失值所示。2023/12/19圖23-16確定連續(xù)變量的缺失值2023/12/19

處理缺失值

用戶應(yīng)根據(jù)所從事的專(zhuān)業(yè)領(lǐng)域知識(shí)來(lái)確定如何處理缺失值。為了減少訓(xùn)練時(shí)間以及提高精度,可能需要除去數(shù)據(jù)集中的空值。此外,空值的出現(xiàn)還可能會(huì)帶來(lái)新的業(yè)務(wù)機(jī)會(huì)或其他靈感。在Clementine中有許多技巧來(lái)處理缺失值,可以根據(jù)數(shù)據(jù)的以下特征來(lái)選擇最佳方法:數(shù)據(jù)集的大小包含空值的字段數(shù)缺失信息量一旦分析了上述因素,就可以選擇下述兩種方法來(lái)處理:忽略帶有缺失值的字段或記錄可以使用各種方法歸因、替換或強(qiáng)制賦值缺失值2023/12/19

處理帶缺失值的記錄

如果大部分缺失值都集中在少量記錄中,只需排除這些記錄即可。例如,銀行通常會(huì)保存詳細(xì)而完整的貸款客戶的記錄。但是,如果銀行在審批內(nèi)部職員的貸款時(shí)管制不嚴(yán),則所收集的員工貸款數(shù)據(jù)可能會(huì)存在空白字段。此種情況下,有兩種方法可以處理缺失值:可以使用選擇節(jié)點(diǎn)刪除員工記錄。如果數(shù)據(jù)集很大,使用者可以在一個(gè)選擇節(jié)點(diǎn)上,使用@BLANK和@NULL函數(shù)來(lái)剔除帶有空格的所有記錄。

2023/12/19處理帶缺失值的字段如大部分缺失值都集中在少量字段中,可通過(guò)字段而不是記錄查找這些缺失值。確定要采用的方法時(shí),還應(yīng)考慮帶有缺失值的字段類(lèi)型。數(shù)值字段對(duì)于數(shù)值字段類(lèi)型(如范圍),應(yīng)在構(gòu)建模型前清除所有非數(shù)字值,因?yàn)槿绻麛?shù)值字段中包含空值,很多模型將無(wú)效。分類(lèi)字段對(duì)于分類(lèi)字段(如集合和標(biāo)志),雖然不必更改缺失值,但更改后可以提高模型的精度。2023/12/19要篩選或刪除帶有大量缺失值的字段,可以采用以下幾種方法:使用數(shù)據(jù)審核節(jié)點(diǎn)根據(jù)質(zhì)量過(guò)濾字段??梢允褂锰卣鬟x擇節(jié)點(diǎn)來(lái)篩選缺失值超過(guò)指定百分比的字段,并根據(jù)相對(duì)于特定目標(biāo)的重要性來(lái)對(duì)字段進(jìn)行排序。除刪除字段以外,還可以使用類(lèi)型節(jié)點(diǎn)將字段方向設(shè)置為無(wú)。此操作可將字段保留在數(shù)據(jù)集中,但不會(huì)對(duì)其進(jìn)行建模操作。2023/12/19

歸因或填充缺失值

在僅有少量缺失值的情況下,可以用插入值來(lái)替換空值。下列方法可用于輸入缺失值:替換為固定值(可以選用字段平均值、范圍中間值或者指定的常數(shù))。替換為基于正態(tài)分布或均勻分布產(chǎn)生的隨機(jī)值。用于指定定制表達(dá)式。例如,可以使用設(shè)置全局量節(jié)點(diǎn)創(chuàng)建的全局變量進(jìn)行替換?;贑&RT算法替換為模型預(yù)測(cè)的值。對(duì)于使用此方法輸入的每個(gè)字段,都會(huì)有一個(gè)單獨(dú)的C&RT模型,還有一個(gè)填充節(jié)點(diǎn)會(huì)使用該模型預(yù)測(cè)的值替換空白值和Null值。然后使用過(guò)濾節(jié)點(diǎn)刪除該模型生成的預(yù)測(cè)字段。如果還要為特定字段強(qiáng)制賦值,則可以使用類(lèi)型節(jié)點(diǎn)來(lái)確保字段類(lèi)型僅包含合法值,然后將需要替換空值字段的檢查列設(shè)置為強(qiáng)制。2023/12/19

用CLEM函數(shù)處理缺失值

表達(dá)式操作語(yǔ)言CLEM全名為ClementineLanguageforExpressionManipulation,是在Clementine中執(zhí)行函數(shù)運(yùn)算時(shí)的專(zhuān)用語(yǔ)法,用于分析和操縱在Clementine流中流動(dòng)的數(shù)據(jù),是一個(gè)功能強(qiáng)大的語(yǔ)言。2023/12/19有多個(gè)CLEM函數(shù)可用于處理缺失值。選擇節(jié)點(diǎn)和填充節(jié)點(diǎn)中經(jīng)常會(huì)用以下函數(shù)來(lái)刪除或填充缺失值:count_nulls(LIST)@BLANK(FIELD)@NULL(FIELD)undef@函數(shù)可以與@FIELD函數(shù)一起使用,來(lái)識(shí)別一個(gè)或多個(gè)字段中是否存在空值或非Null值。當(dāng)出現(xiàn)空值或非Null值時(shí),一般會(huì)對(duì)此類(lèi)字段進(jìn)行標(biāo)記,也可以用替換值填充或者在各種其他操作中使用此類(lèi)字段。如下所示,可以計(jì)算字段列表中的非Null值的數(shù)量:count_nulls([‘cardtenure’‘card2tenure’‘card3tenure'])如果要使用接受輸入類(lèi)型的字段列表的函數(shù),則可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函數(shù),如下所示:count_nulls(@FIELDS_MATCHING(‘card*'))在選擇字段中用填充節(jié)點(diǎn)把缺失值替換成0,如圖23-18用填充節(jié)點(diǎn)將選定字段中的非Null值替換為0所示。

2023/12/19

23.5導(dǎo)入和導(dǎo)出PMML模型

PMML(predictivemodelmarkuplanguage,稱(chēng)為預(yù)測(cè)模型標(biāo)記語(yǔ)言)是一個(gè)XML基礎(chǔ)的標(biāo)準(zhǔn),以XML文件類(lèi)型定義DTD形式,用于描述數(shù)據(jù)挖掘和統(tǒng)計(jì)模型,包括模型的輸入、用于為數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù)的變換、以及定義模型自身的參數(shù)。Clementine可導(dǎo)入和導(dǎo)出PMML模型,使其能夠與其他支持此格式的應(yīng)用程序(例如,SPSS、SPSSCategorize)共享模型。2023/12/19支持PMML的模型類(lèi)型23.5.1.1PMML3.1導(dǎo)入Clementine可以導(dǎo)入并評(píng)分由SPSS所有產(chǎn)品生成的PMML3.1模型,包括從Clementine導(dǎo)出的模型和由SPSS15.0生成的模型或變換PMML模型。實(shí)質(zhì)上,這包括了SPSSSmartscore組件可以評(píng)分的所有PMML模型,但以下幾種情況例外:(1)無(wú)法導(dǎo)入Apriori、CARMA及異常檢測(cè)模型。(2)將PMML模型導(dǎo)入到Clementine后,雖然可以對(duì)其進(jìn)行評(píng)分,但不能進(jìn)行瀏覽。(3)不能導(dǎo)入無(wú)法評(píng)分的模型。(4)以PMML格式導(dǎo)出的IBMIntelligentMiner模型,無(wú)法重新導(dǎo)入到Clementine中。2023/12/19

導(dǎo)入PMML的較早版本

對(duì)于從Clementine較早版本(11.0之前版本)中導(dǎo)出的遺存模型,只有某些模型類(lèi)型(而不是所有類(lèi)型)支持PMML導(dǎo)入,模型支持PMML導(dǎo)入關(guān)系如表23-1所示:模型類(lèi)型PMML導(dǎo)入(2.1或3.0)神經(jīng)網(wǎng)絡(luò)不可用C&R樹(shù)是CHAID樹(shù)是QUEST樹(shù)是C5.0樹(shù)不可用規(guī)則集不可用Kohonen網(wǎng)絡(luò)不可用K-Means不可用兩步是線性回歸是Logistic回歸是因子/主成分分析不可用序列不可用CARMA不可用Apriori不可用文本提取不可用特征選擇不可用異常檢測(cè)不可用非精練(GRI,CEMI)不可用2023/12/1923.5.1.3Clementine模型PMML導(dǎo)出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征選擇等少數(shù)幾個(gè)模型以外,都可以用PMML編碼的XML文件的方式輸出。對(duì)于PMML模型輸出,應(yīng)該選擇一個(gè)XML文件名。Clementine中的模型是否支持PMML輸出類(lèi)型,模型支持PMML輸出關(guān)系如表23-2所示.模型類(lèi)型支持PMML輸出類(lèi)型神經(jīng)網(wǎng)絡(luò)是建立C5.0是Kohonen是線性回歸是GRI否Apriori是K-Means是邏輯回歸是兩步是分類(lèi)和回歸(C&R)樹(shù)是序列探測(cè)是QUEST

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論