第六講:數(shù)據(jù)分析技術(shù)(四)課件_第1頁
第六講:數(shù)據(jù)分析技術(shù)(四)課件_第2頁
第六講:數(shù)據(jù)分析技術(shù)(四)課件_第3頁
第六講:數(shù)據(jù)分析技術(shù)(四)課件_第4頁
第六講:數(shù)據(jù)分析技術(shù)(四)課件_第5頁
已閱讀5頁,還剩157頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)律,以預(yù)測目標(biāo)顧客、風(fēng)險控制、欺詐模式識別等工作為主要目的。做好數(shù)據(jù)挖掘工作需要準(zhǔn)備好三件事:(1)定義好問題……誰是目標(biāo)消費(fèi)者?(2)高質(zhì)量的歷史數(shù)據(jù)……幾年的客戶購買記錄(3)一個強(qiáng)大的建模工具……數(shù)據(jù)挖掘軟件第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)第六講:1數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)律,以預(yù)測目標(biāo)顧客、風(fēng)險控制、欺詐模式識別等工作為主要目的。做好數(shù)據(jù)挖掘工作需要準(zhǔn)備好三件事:(1)定義好問題……誰是目標(biāo)消費(fèi)者?(2)高質(zhì)量的歷史數(shù)據(jù)……幾年的客戶購買記錄(3)一個強(qiáng)大的建模工具……數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)2數(shù)據(jù)挖掘工作流程抽樣定義問題數(shù)據(jù)探測數(shù)據(jù)清冼定義數(shù)據(jù)屬性建模模型評估預(yù)測或計算得分分析報告數(shù)據(jù)挖掘工作流程抽樣定義問題數(shù)據(jù)探測數(shù)據(jù)清冼定義數(shù)據(jù)屬性建模3問題背景假如你為一個郵購公司工作。公司為了配合銷售活動,希望每月發(fā)送家具和家用器品產(chǎn)品目錄給潛在消費(fèi)者,內(nèi)容包括廚房用具、碗碟和餐具產(chǎn)品的目錄。假如向全部消費(fèi)者寄送費(fèi)用太貴,必須選擇購買該類產(chǎn)品概率較大消費(fèi)者郵寄。現(xiàn)在如何確定一份待郵寄名冊?我們將通過建立消費(fèi)傾向模型,使用數(shù)據(jù)挖掘工具來確定郵寄名單和分析活動效益情況。假如你有一個珍貴的顧客購買記錄數(shù)據(jù)。這個數(shù)據(jù)包括能顯示顧客過去兩年是否購買過廚房用具、碗碟和餐具等信息。數(shù)據(jù)文件名為CUSTDET1,它包括了如下49個變量和標(biāo)簽:PurchaseDollarsSpentYearlyIncomeHomeValueOrderFrequencyRecencyMarriedNamePrefixAgeSex TelemarketInd.RentsApartmentOccupied<1YearDomesticProductApparelPurchaseLeisureProductLuxuryItemsKitchenProductDishesPurchaseFlatwarePurchase TotalDining(kitch+dish+flat)Promo:1-7MonthsPromo:8-13Months$ValueperMailingCountryCodeTotalReturnsMensApparelHomeFurnitureLampsPurchaseLinensPurchase BlanketsPurchaseTowelsPurchaseOutdoorProductCoatsPurchaseLadiesCoatsLadiesApparelHis/HerApparelJewelryPurchaseDate1stOrderTelemarketOrder AccountNumberStateCodeRaceHeatingTypeNumberofCarsNumberofKidsTravelTimeEducationLevelJobCategory問題背景假如你為一個郵購公司工作。公司為了配合銷售活動,4分析問題目標(biāo):(1)在沒有購買記錄的客戶名冊中找出待郵寄名單;(2)以投資回報率或最大利潤為決策目標(biāo),決定郵寄名單。解決問題的條件:(1)目標(biāo)變量是什么?有足夠的數(shù)據(jù)資料嗎?(2)有與目標(biāo)關(guān)聯(lián)的數(shù)據(jù)資料嗎?關(guān)聯(lián)性如何?(3)資料的完整性、可靠性和冗余情況?(4)研究路線設(shè)想?(5)有什么期待?因?yàn)閷δ夸浿挟a(chǎn)品有需求的客戶是購買了kitch、dish和flat叁類產(chǎn)品的客戶,在我們的數(shù)據(jù)記錄中kitch、dish、flat和Dining變量反映了客戶購買信息。但Dining變量表示kitch、dish、flat購買量和,我們分析目標(biāo)是分析客戶有沒有購買kitch、dish、flat商品的意向,因此,我們的目標(biāo)變量是“當(dāng)Dining變量>0,值為1,表示購買;否則為0,表示不購買”。同時kitch、dish、flat和Dining變量不能作為預(yù)測目標(biāo)變量自變量,因?yàn)樗鼈兪枪簿€性的。分析問題目標(biāo):解決問題的條件:因?yàn)閷δ夸浿挟a(chǎn)品有需求的客5我們的數(shù)據(jù)是由更大的客戶數(shù)據(jù)庫中用重抽樣法抽取的,為了有足夠的樣本做建模分析,使Dining變量響應(yīng)值(即為1的值)在樣本中的比例近54%,這與現(xiàn)實(shí)中客戶比例不合。因此,在建模中我們需要調(diào)整樣本的權(quán)重,現(xiàn)實(shí)中響應(yīng)比例是12%。抽樣數(shù)據(jù)觀察記錄為1996個,作為統(tǒng)計推斷和建模分析精度足夠,數(shù)據(jù)沒有缺損值,完整性好。沒有太多的齊異數(shù)據(jù),基本可認(rèn)為數(shù)據(jù)可靠。通過數(shù)據(jù)的探索分析,可以發(fā)現(xiàn)有變量同目標(biāo)變量存在相關(guān)性,因此,可以考慮通過建立目標(biāo)變量與其它變量的回歸模型、決策樹模型和神精網(wǎng)絡(luò)模型來預(yù)測目標(biāo)變量。相關(guān)系數(shù)BLANKETSDININGBLANKETS1DINING0.3494261我們的數(shù)據(jù)是由更大的客戶數(shù)據(jù)庫中用重抽樣法抽取的,為了有6創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目調(diào)用SAS數(shù)據(jù)挖掘功能創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目在DiningList中選擇Untitled,并輸入Propensity名。創(chuàng)建數(shù)據(jù)挖掘流程創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目調(diào)用SAS數(shù)據(jù)挖掘功能創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目在7項(xiàng)目管理窗工具窗工作窗節(jié)點(diǎn)欄報告窗按扭項(xiàng)目管理窗工具窗工作窗節(jié)點(diǎn)欄報告窗按扭8流程圖輸入數(shù)據(jù)探測數(shù)據(jù)數(shù)據(jù)變換設(shè)置數(shù)據(jù)屬性分割數(shù)據(jù)集缺損值處理預(yù)測數(shù)據(jù)集模型代碼及運(yùn)行觀察預(yù)測結(jié)果決策樹模型分析報告回歸模型模型評估流程圖輸入數(shù)據(jù)探測數(shù)據(jù)數(shù)據(jù)變換設(shè)置數(shù)據(jù)屬性分割數(shù)據(jù)集缺損值處9數(shù)據(jù)挖掘的第一步就是確定樣本數(shù)據(jù),數(shù)據(jù)的角色,變量的模型中角色和數(shù)據(jù)類型。一般來說,用戶數(shù)據(jù)倉庫中的數(shù)據(jù)可能是海量的,如果全部用來建模分析,則運(yùn)算十分耗時。只要我們才取好的抽樣方式,抽取幾百樣本就足夠保證統(tǒng)計推斷精度,因此,第一步要抽取樣本。另外,為建模需要,我們要確定數(shù)據(jù)角色,即訓(xùn)練集用來擬合模型;效驗(yàn)集用來檢驗(yàn)?zāi)P驼`差,以便減少過度擬合情況,增加模型的穩(wěn)建性;測試集用來得到模型參數(shù)的一致有效估計無偏估計;得分集作為待預(yù)測的數(shù)集,應(yīng)該沒有響應(yīng)變量的值。我們要事先確定數(shù)據(jù)角色。變量的模型角色分為目標(biāo)變量、輸入變量、時間變量和標(biāo)識變量,在建模之前必須分配每一個變量的模型角色,但模型角色是與數(shù)據(jù)類型有關(guān)聯(lián),例如,目標(biāo)變量可以是二值變量和區(qū)間變量,其它變量不行。對回歸模型來說,二值變量只能用LOGISTIC模型,它是預(yù)測響應(yīng)發(fā)生的概率。數(shù)據(jù)挖掘的第一步就是確定樣本數(shù)據(jù),數(shù)據(jù)的角色,變量的模型10定義源數(shù)據(jù)InputDataSource節(jié)點(diǎn)屬于Sample類數(shù)據(jù)挖掘過程。用它來確定你的源數(shù)據(jù)和指定輸入變量的屬性。關(guān)閉節(jié)點(diǎn)后,數(shù)據(jù)集的名字成為節(jié)點(diǎn)的名字。選擇數(shù)據(jù)庫和數(shù)據(jù)集確定抽樣數(shù),默認(rèn)為2000個樣本定義數(shù)據(jù)角色,全程不變。數(shù)據(jù)分為五個角色:RAW:原始數(shù)據(jù);Training:訓(xùn)練數(shù)集;Validation:校驗(yàn)數(shù)集;Test:測試數(shù)集;Score:得分?jǐn)?shù)據(jù)集。等間隔變量(連續(xù)變量)欄分類變量欄定義源數(shù)據(jù)InputDataSource節(jié)點(diǎn)屬于Samp11二值變量Dining=Kitch+dish+flat輸入變量,為模型中的自變量連續(xù)變量,能計算距離,比例。ID角色,記錄標(biāo)識順序變量不參加建模分析目標(biāo)角色,預(yù)測對象,全流程唯一名義變量注:可以改變模型角色、變量測度。二值變量Dining=Kitch+dish+flat輸入變量12描述統(tǒng)計量它可用來數(shù)據(jù)初步清先。例如,數(shù)據(jù)含有不合理的值嗎?分布特性如何?描述統(tǒng)計量13利用Insight節(jié)點(diǎn)能交互式的探測數(shù)據(jù)。用它能分析單變量和多變量分布,能畫散點(diǎn)圖和箱形圖,能對結(jié)果瀏覽和研究變量相關(guān)性等工作。還能通過方差分析、回歸分析和線性模型來解釋模型。數(shù)據(jù)探測隨機(jī)抽樣的“隨機(jī)種子數(shù)”利用Insight節(jié)點(diǎn)能交互式的探測數(shù)據(jù)。用它能分析單變14Dining變量值從0至28,是三種產(chǎn)品購買量和,我們是要預(yù)測具有購買欲望的潛在消費(fèi)者,因此,只要購買過的消費(fèi)者都是目標(biāo)消費(fèi)者。在此,需要把它Dining變量轉(zhuǎn)換成二值變量,即1表示購買,0表示不購買。Dining變量值從0至28,是三種產(chǎn)品購買量和,我們是15統(tǒng)計圖分析統(tǒng)計圖分析16TransformVariables節(jié)點(diǎn)能通過舊變量產(chǎn)生新變量。軟件提供的變換方法:簡單變換:取對數(shù)、開方、求倒數(shù)、平方、指數(shù)化和標(biāo)準(zhǔn)化;分割變換:分割、分位數(shù)、最優(yōu)分割;最優(yōu)冪變換:最大正態(tài)化、最大相關(guān)化、目標(biāo)水平均等化;你可以在Customizewindow中建立自己的變換公式。變量轉(zhuǎn)換我們產(chǎn)生一個新變量DINBEIN:當(dāng)Dining>0,則DINBEIN=1;當(dāng)Dining=0,則DINBEIN=0;TransformVariables節(jié)點(diǎn)能通過舊變量產(chǎn)17TransformVariablesToolboxTransformVariables–使用軟件提供的變換公式創(chuàng)建一個新變量CreateVariable–使用CreateVariableswindow創(chuàng)建自定義變換DeleteVariables–刪除變換后的新變量,但不能刪除原變量。TransformVariablesToolboxTra18原數(shù)據(jù)變量窗口數(shù)值鍵板運(yùn)算符面板自定義變換公式函數(shù)窗原數(shù)據(jù)變量窗口數(shù)值鍵板運(yùn)算符面板自定義變換公式函數(shù)窗19Training–用來擬合模型的數(shù)據(jù)集.Validation–用來評估模型和模型調(diào)整的數(shù)據(jù)集。Test–用來獲得最終模型誤差的無偏估計。Score–得分?jǐn)?shù)據(jù)集,可以包括目標(biāo)變量,也可以不包括。Training–用來擬合模型的數(shù)據(jù)集.20分割分位數(shù)(Quantile)用來劃分頻數(shù)相同的組。分割(Bucket)為等間隔區(qū)間,每組間的樣本數(shù)不一定等。OptimalBinningforRelationshiptoTarget:把變量分成n組,使分組后變量與目標(biāo)變量相關(guān)系數(shù)最大。適合在二值變量與輸入變量之間存在非線性關(guān)系的情況。MaximizenormalityPowerTransformation:變換后變量最接近正態(tài)分布。MaximizeCorrelationwithTargetPowerTransformation:變換后變量與目標(biāo)變量線性相關(guān)系數(shù)最大,適合區(qū)間目標(biāo)變量。EqualizeSpreadwithTargetLevelsPowerTransformation:變換后變量與目標(biāo)變量具有方差穩(wěn)定性。選擇x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作為變換式分割分位數(shù)(Quantile)用來劃分頻數(shù)相同的組。Max21在建模前,我們除了要定義變量模型角色、數(shù)據(jù)類型外,還必需定義決策成本、收益信息,即決策函數(shù)。在商業(yè)智能中,分析模式都是商業(yè)決策模型。例如,消費(fèi)響應(yīng)預(yù)測、信用等級評估和商品關(guān)聯(lián)描述等模型。在本問題中,我們要定義DINBEIN為目標(biāo)變量,是二值變量;放棄與它共線性的四個變量。依據(jù)郵送成本收益和原總體響應(yīng)比例情況,定義決策矩陣和先驗(yàn)概率。數(shù)據(jù)集屬性節(jié)點(diǎn)能完成上述任務(wù)。在建模前,我們除了要定義變量模型角色、數(shù)據(jù)類型外,還必需22設(shè)置數(shù)據(jù)集屬性它能修改數(shù)據(jù)屬性。例如,數(shù)據(jù)集名、描述、角色。也能修改樣本信息,例如,變量角色、測度水平。在變量表中可以定義目標(biāo)變量框架。預(yù)測模型需要定義唯一的目標(biāo)變量和多個輸入變量,模型評價需要定義目標(biāo)變量的決策矩陣和樣本權(quán)重,預(yù)測需要定義DI變量。設(shè)置數(shù)據(jù)集屬性它能修改數(shù)據(jù)屬性。例如,數(shù)據(jù)集名、描述、角23變量表決定變量是輸出還是不輸出修改變量角色修改變量測度本次數(shù)據(jù)挖掘工作:(1)把Dining、Kitch、dish、flat四個變量角色改為Rejected,DINBEIN變量角色改為Target。(2)把DINBEIN變量測度改為binary。變量表決定變量是輸出還是不輸出修改變量角色修改變量測度本次數(shù)24定義目標(biāo)變量框架成本收益假設(shè):(1)制作、印刷和郵寄一份產(chǎn)品目錄成本10元;(2)若正確預(yù)測,即郵寄一份,顧客將來購物,每顧客平均花費(fèi)90元,即贏得利潤80元;若預(yù)測不正確,即郵寄一份,但顧客未來購物,此時虧本10元。編輯目標(biāo)框架定義目標(biāo)變量框架成本收益假設(shè):編輯目標(biāo)框架25評估信息,即定義決策目標(biāo)函數(shù)先驗(yàn)概率定義注:由于目標(biāo)變量值較少,僅在總體中占12%,但為了有足夠訓(xùn)練目標(biāo)值,在數(shù)據(jù)庫中對樣本進(jìn)行了重抽樣,產(chǎn)生了足夠多的目標(biāo)值,占樣本中的54%左右,為此建模需要加權(quán)處理。評估信息,即定義決策目標(biāo)函數(shù)先驗(yàn)概率定義注:由于目標(biāo)變量值較26數(shù)據(jù)分割DataPartition節(jié)點(diǎn)將輸入數(shù)據(jù)分割為下列互斥數(shù)據(jù):Training–用來擬合模型的數(shù)據(jù)集.Validation–用來評估模型和模型調(diào)整的數(shù)據(jù)集。Test–用來獲得最終模型誤差的無偏估計。為了擬合模型需要定義一個訓(xùn)練數(shù)據(jù)集;為了保證模型的穩(wěn)健性,需要定義效驗(yàn)數(shù)據(jù)集評估模型,決策穩(wěn)建模型;為得到模型參數(shù)的一致最小無偏估計,需要定義測試數(shù)據(jù)集。它們均來自樣本的隨機(jī)抽樣的互斥數(shù)據(jù)集。數(shù)據(jù)分割DataPartition節(jié)點(diǎn)將輸入數(shù)據(jù)分割為下列27前面過程輸入的數(shù)據(jù)只有觀察數(shù)據(jù)的角色、測度等信息,不能改變。前面過程輸入的數(shù)據(jù)只有觀察數(shù)據(jù)的角色、測度等信息,不能改變。28簡單隨機(jī)抽樣分層抽樣自定義數(shù)集將總體分成若干個層,指定每層樣本數(shù),在每層中進(jìn)行簡單隨機(jī)抽樣,得到的總樣本,這種抽樣方式稱為分層抽樣。自定義數(shù)集就是指定具有標(biāo)志的分割數(shù)據(jù)集變量作為分割變量,依據(jù)此變量將輸入數(shù)據(jù)分為訓(xùn)練集、效驗(yàn)集、或測試集。簡單隨機(jī)抽樣分層抽樣自定義數(shù)集將總體分成若干個層,指定每29觀察結(jié)果觀察結(jié)果30缺失值處理Replacement節(jié)點(diǎn)用來處理缺失值。缺失值是不能用來回歸建模和神精網(wǎng)絡(luò)建模。若用放棄所有的缺失值的樣本來估計,可能會得有偏估計模型。使用適當(dāng)?shù)娜笔е堤幚矸椒ㄓ欣玫礁鼫?zhǔn)確的預(yù)測。本例中DINBEIN沒有缺失數(shù)據(jù),可以省掉此過程。缺失值處理Replacement節(jié)點(diǎn)用來處理缺失值。缺31現(xiàn)實(shí)調(diào)查、觀察和記錄難免產(chǎn)生缺失數(shù)據(jù),可是缺失數(shù)據(jù)經(jīng)常會影響模型的精度。例如,不回答者可能就是不贊成者,若你把他們?nèi)懦?,你的模型結(jié)論可能出現(xiàn)嚴(yán)重偏差。因此,在建前應(yīng)該仔細(xì)研究缺失數(shù)據(jù)的情況和原因,采取全適的方法處理,盡量減少缺失數(shù)據(jù)可能對模型影響的程度。Replacement節(jié)點(diǎn)專門處理缺失數(shù)據(jù)的功能模塊,但處理缺失數(shù)據(jù)的方法很多,要選擇合適的方法,不僅需要專業(yè)統(tǒng)計知識,更需要熟習(xí)數(shù)據(jù)采集情況,要了解產(chǎn)生缺失數(shù)據(jù)的原因。在本例中沒有缺失數(shù)據(jù),因此,可以不要此過程?;貧w模型建模之前需要處理缺失數(shù)據(jù),決策樹模型不需要,自動把缺失數(shù)據(jù)歸于一類。現(xiàn)實(shí)調(diào)查、觀察和記錄難免產(chǎn)生缺失數(shù)據(jù),可是缺失數(shù)據(jù)經(jīng)常會32選擇具備一定角色的數(shù)據(jù)集隨機(jī)抽樣補(bǔ)缺選擇具備一定角色的數(shù)據(jù)集隨機(jī)抽樣補(bǔ)缺33使用Defaults欄指定方法:在處理缺失值之前指定缺失值代替方法。用得分集代替不清楚類變量的值。對每一個變量創(chuàng)建帶有標(biāo)志的處理變量來處理觀察值。類變量統(tǒng)計處理方法:最大頻率法基于分布法樹支處理法樹支首規(guī)則處理法常數(shù)法無處理對區(qū)間變量處理缺失值統(tǒng)計方法:Mean……均值法Median……中位數(shù)法Midrange……極值的中間值法Distributionbased……基于分布法Treeimputation……樹支處理法Treeimputationwithsurrogates……樹支首規(guī)則處理法Mid-minimumspacing……中間平均值估計法Tukey‘sbiweight……Tukey加權(quán)法Huber‘s……Huber加權(quán)法Andrew‘sWave……Andrew波動法Defaultconstant……常數(shù)法None……不處理使用Defaults欄指定方法:類變量統(tǒng)計處理方法:對區(qū)間變34樹模型一個完整的樹是指通過一系列簡單規(guī)則分割數(shù)據(jù)。每一個規(guī)則就是根據(jù)某變量值將樣本分給一個數(shù)據(jù)塊,在數(shù)據(jù)塊內(nèi)一個規(guī)則接一個規(guī)則應(yīng)用,將數(shù)據(jù)塊分為更細(xì)的數(shù)據(jù)塊。層次稱為樹,每塊數(shù)據(jù)稱為節(jié)。原始數(shù)據(jù)稱為根,具有多個后續(xù)節(jié)的節(jié)稱為支,最終節(jié)稱為葉。每一個葉為對全部樣本的一個決策結(jié)果,它依賴上下文,這種預(yù)測模型稱為決策樹模型。樹模型一個完整的樹是指通過一系列簡單規(guī)則分割數(shù)據(jù)。每一個35F檢驗(yàn),使葉間方差與葉內(nèi)方差比足夠大。減小節(jié)點(diǎn)平均值的均方誤減少熵值,提高節(jié)的純度減小Gini值,提高節(jié)的純度。分支標(biāo)準(zhǔn)設(shè)置顯著性水平,不宜太高F檢驗(yàn),使葉間方差與葉內(nèi)方差比足夠大。減小節(jié)點(diǎn)平均值的均方誤36節(jié)中保證的最少觀察數(shù)在每節(jié)中替補(bǔ)值個數(shù)節(jié)中保證的最少觀察數(shù)在每節(jié)中替補(bǔ)值個數(shù)37樹節(jié)點(diǎn)支持下列模型評價標(biāo)準(zhǔn):區(qū)間目標(biāo)變量:Profitorloss–平均利潤最大,或平均損失最小。ASE–最小平均誤差。Average,profit,orlossinthetop10,25,or50%--對n%頂部樣本最大平均利潤,或最小平均損失。順序目標(biāo)變量:Proportionmisclassified–最小錯判率。Ordinal-proportioncorrect,profit,orloss–最好的秩序正判率。Proportionofevent,profit,orlossintop10,25,or50%--在數(shù)據(jù)n%的頂部最大利潤或最小損失。TotalLeafImpurity(GiniIndex)–最大葉內(nèi)純度(最小Gini指數(shù))。二值或名義目標(biāo)變量:Proportionmisclassified–誤判比例最小。ProfitorLoss–最大平均利潤或最小平均損失。Proportionofevent,profit,orlossintop10,25,or50%--對n%頂部樣本最大平均利潤,或最小平均損失。TotalLeafImpurity(GiniIndex)--最大葉內(nèi)純度(最小Gini指數(shù))。樹節(jié)點(diǎn)支持下列模型評價標(biāo)準(zhǔn):38分支法則:最好的評估值最多葉最少有n葉的最大支足夠樣本分裂全部樣本分裂給定P值,即顯著性水平給出樹的最多層次給出有效變量數(shù),避免過多的自變量分支法則:足夠樣本分裂全部樣本分裂給定P值,即顯著性水平給出39本例設(shè)置本例設(shè)置40運(yùn)行結(jié)果運(yùn)行結(jié)果41第六講:數(shù)據(jù)分析技術(shù)(四)課件42第六講:數(shù)據(jù)分析技術(shù)(四)課件43例如,得分前10%的樣本中有19%左右的響應(yīng),高于12%;在得分前20%中有20%左右的響應(yīng)。例如,得分前10%的樣本中有捕獲了全部響應(yīng)的16%左右;在得分前20%中捕獲了全部響應(yīng)的32%左右。例如,得分前10%的樣本中有19%左右的響應(yīng),高于12%;在44若提取得分前10%樣本,則比不使用模型捕獲率提高1.58倍。若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得每個樣本的平均利潤7.5元左右。若提取得分前10%樣本,則比不使用模型捕獲率提高1.58倍。45若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得投資回報率0.75。若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得投資回報率46回歸模型Regression節(jié)點(diǎn)能建立線性模型和logistic模型。線性回歸模型是用一個或幾個輸入變量的線性函數(shù)預(yù)測連續(xù)型的目標(biāo)變量的值;Logistic回歸模型是用一個或幾個輸入變量函數(shù)預(yù)測分類目標(biāo)變量有利事件發(fā)生的概率?;貧w模型Regression節(jié)點(diǎn)能建立線性模型和logi47回歸模型的類型:(1)線性模型(2)Logistic模型Logistic回歸函數(shù):(1)Logit:(2)CLOGLOG:(3)PROBIT:回歸模型的類型:Logistic回歸函數(shù):48回歸方法:(1)Backward–后退法(2)Forward–前進(jìn)法(3)Stepwise–逐步回歸法交互作用回歸方法:交互作用49第六講:數(shù)據(jù)分析技術(shù)(四)課件50第六講:數(shù)據(jù)分析技術(shù)(四)課件51模型評估Assessment節(jié)點(diǎn)提供了決策樹模型、神精網(wǎng)絡(luò)模型、回歸模型、組合模型和自定義模型的比較和預(yù)測的平臺。模型和預(yù)測工具的共同標(biāo)準(zhǔn)是比較從模型結(jié)果中得到的期望利潤或損失。它能比較多個模型節(jié)點(diǎn)產(chǎn)生的模型。模型評估Assessment節(jié)點(diǎn)提供了決策樹模型、神精52不同的模型是由不同變量組成,所以對響應(yīng)是用不同數(shù)據(jù)信息預(yù)測,因此,對同一對象預(yù)測值不相同。這樣我們應(yīng)用模型預(yù)測時就要選擇模型,也就要對模型進(jìn)行評價。評價模型好壞的唯一標(biāo)準(zhǔn)是決策目標(biāo)函數(shù)平均誤差最?。ㄓ袝r是利潤、有時是誤判率)??墒遣煌哪P?,對不同數(shù)據(jù)集的預(yù)測效果是不一樣的,就同一模型給定不同閥值,也使誤判不一樣,因此,對閥值的選擇就有優(yōu)化決策。不同的模型是由不同變量組成,所以對響應(yīng)是用不同數(shù)據(jù)信息預(yù)53第六講:數(shù)據(jù)分析技術(shù)(四)課件54第六講:數(shù)據(jù)分析技術(shù)(四)課件55第六講:數(shù)據(jù)分析技術(shù)(四)課件56特性曲線敏感性:正判數(shù)除于響應(yīng)數(shù)特異性:誤判數(shù)除于非響應(yīng)數(shù)Reg模型好Tree模型好特性曲線敏感性:特異性:Reg模型好Tree模型好57報告Reporter節(jié)點(diǎn)把數(shù)據(jù)挖掘流程產(chǎn)生的結(jié)果集成為HTML格式報告,以便網(wǎng)頁瀏覽。報告內(nèi)容包括報告描述、流程圖和每個節(jié)點(diǎn)的子報告。一般報告放在數(shù)據(jù)挖掘流程最后。報告Reporter節(jié)點(diǎn)把數(shù)據(jù)挖掘流程產(chǎn)生的結(jié)果集成為58第六講:數(shù)據(jù)分析技術(shù)(四)課件59結(jié)果瀏覽結(jié)果瀏覽60第六講:數(shù)據(jù)分析技術(shù)(四)課件61第六講:數(shù)據(jù)分析技術(shù)(四)課件62得分或預(yù)測Score節(jié)點(diǎn)管理、編輯、輸出、執(zhí)行由訓(xùn)練模型產(chǎn)生的得分代碼。對一個沒有目標(biāo)值的數(shù)據(jù)集進(jìn)行預(yù)測,它是數(shù)據(jù)挖掘工作的最終結(jié)果。訓(xùn)練和測試模型后,對目標(biāo)用Logistic回歸,選擇10%得分高的客戶郵寄產(chǎn)品目錄?,F(xiàn)在需要對客戶數(shù)據(jù)預(yù)測目標(biāo)值,使用Score節(jié)點(diǎn)完成工作。得分或預(yù)測Score節(jié)點(diǎn)管理、編輯、輸出、執(zhí)行由訓(xùn)練模63我們只有提取的前面模型運(yùn)算程序代碼,將來才能離開SASEnterpriseMiner環(huán)境運(yùn)行。Score節(jié)點(diǎn)就是用來提取代碼的,以便用在BASESAS環(huán)境下運(yùn)行。為了產(chǎn)生郵寄名冊,我們需要應(yīng)用前面模型來預(yù)測更廣泛的客戶數(shù)據(jù)庫,即運(yùn)用提取的代碼在BASESAS上運(yùn)行,得到目標(biāo)變量的響應(yīng)預(yù)測值,依據(jù)判斷閥值,選擇得分值高于閥值的客戶,從而產(chǎn)生了郵寄名冊。在本例中,我們以原數(shù)據(jù)集作為預(yù)測數(shù)據(jù)集。我們只有提取的前面模型運(yùn)算程序代碼,將來才能離開SAS64選擇前斷節(jié)點(diǎn)輸入的數(shù)據(jù)選擇前斷節(jié)點(diǎn)輸入的數(shù)據(jù)65操作設(shè)置:Inactive–輸出最近數(shù)據(jù)集產(chǎn)生的模型計算代碼。Applytrainingdatascorecodetoscoredataset–從訓(xùn)練數(shù)據(jù)集到得分?jǐn)?shù)據(jù)集應(yīng)用模型計算代碼。Accumulatedatasetsbytype–復(fù)制和輸出前續(xù)節(jié)點(diǎn)輸入的數(shù)據(jù)集。Mergedatasetsbytype–合并前續(xù)節(jié)點(diǎn)輸入的數(shù)據(jù)集。操作設(shè)置:66Currentimports–列出前續(xù)節(jié)點(diǎn)輸入當(dāng)前得分代碼。Accumulatedruns–列出最近運(yùn)行路徑(訓(xùn)練操作)前續(xù)節(jié)點(diǎn)輸出的得分代碼。Saved–列出已保存或合并的代碼項(xiàng)。All–列出由節(jié)點(diǎn)管理的代碼項(xiàng)。Currentimports–列出前續(xù)節(jié)點(diǎn)輸入當(dāng)前得分67把代碼文件輸出保存為:REGRESSION。在BASESAS中顯示并編輯。把代碼文件輸出保存為:REGRESSION。68編輯代碼/*--------------------------------------------------------------*//*ENTERPRISEMINER:BEGINSCORECODE*//*--------------------------------------------------------------*/%macroDMNORLEN;32%mendDMNORLEN;

%macroDMNORMCP(in,out);&out=substr(left(&in),1,min(%dmnorlen,length(left(&in))));&out=upcase(&out);%mendDMNORMCP;

%macroDMNORMIP(in);&in=left(&in);&in=substr(&in,1,min(%dmnorlen,length(&in)));&in=upcase(&in);%mendDMNORMIP;

DATA&_PREDICT;SET&_SCORE;運(yùn)行代碼創(chuàng)造&_PREDICT數(shù)據(jù)集,它放置預(yù)測值。它由得分?jǐn)?shù)據(jù)集&_SCORE描述。在&_PREDICT和&_SCORE插入:%let_PREDICT=x;%let_SCORE=sampsio.custdet1;注:用啞元值初始化_PREDICT。不存在X數(shù)據(jù)集;_PREDICT數(shù)據(jù)集由后來的得分代碼創(chuàng)建。編輯代碼/*------------------------69%macroDMNORMIP(in);&in=left(&in);&in=substr(&in,1,min(%dmnorlen,length(&in)));

&in=upcase(&in);%mendDMNORMIP;%let_PREDICT=x;%let_SCORE=sampsio.custdet1;DATA&_PREDICT;SET&_SCORE;*;*CODE_CLEAN*;為了高分列在前列要進(jìn)行觀察值排序和觀察得分情況,在代碼結(jié)束前要增加下列代碼:procsortdata=&_PREDICT;bydescendingP_DINEBIN1;run;procprintdata=&_PREDICT;vardinebinP_DINEBIN1P_DINEBIN0;run;%macroDMNORMIP(in);為了高分列在前列要70第六講:數(shù)據(jù)分析技術(shù)(四)課件71第六講:數(shù)據(jù)分析技術(shù)(四)課件72預(yù)測預(yù)測73對預(yù)測集應(yīng)用訓(xùn)練集得到的得分代碼預(yù)測。對預(yù)測集應(yīng)用訓(xùn)練集得到的得分代碼預(yù)測。74瀏覽預(yù)測結(jié)果瀏覽預(yù)測結(jié)果75例如,我們要取得分前10%的客戶郵寄,則依據(jù)預(yù)測數(shù)據(jù)集選出名單。例如,我們要取得分前10%的客戶郵寄,則依據(jù)預(yù)測數(shù)據(jù)集選出名76信用評分模型寅示使用數(shù)據(jù)挖掘方法對客戶信用進(jìn)行評分,主要研究當(dāng)個人申請服務(wù)和購物貸款時如何對其信用可靠性進(jìn)行評估。各種貸方(銀行、投資公司、信用卡公司)每天都會收到成千上萬的申請,因此需要有一個自動決策系統(tǒng)幫助決定接受或拒絕申請。我們以德國銀行數(shù)據(jù)為基礎(chǔ),構(gòu)建一個客戶信用評分模型。數(shù)據(jù)中含有1000個申請者觀察數(shù)據(jù),21個變量,其中一個表示信用可靠性的二值變量(good_bad),其它意義如下:社會人口變量marital性別與婚姻狀況Age年齡Resident在現(xiàn)在住所居住年數(shù)個人和金融變量Checking是否有銀行帳戶savings是否有銀行存折History返款歷史Property已前財富數(shù)量Coapp是否申請其它資金job職業(yè)類型Employed工作年限Foreign是否是外國職員具體貸款變量Amount數(shù)量Purpose貸款用途Duration貸款期Installp分期付款Other是否有其它共同債務(wù)人債權(quán)人財產(chǎn)Housing是否有房Depends是否擁有動產(chǎn)Existcr是否擁有不動產(chǎn)問題背景信用評分模型寅示使用數(shù)據(jù)挖掘方法對客戶信用進(jìn)行評分,主要77以目標(biāo)值分層抽取樣本,從比例上是不合實(shí)際的,雖然不影響建模,但解釋時要加以注意。數(shù)據(jù)探索分析預(yù)備工作:將Duration變?yōu)槎底兞浚创笥?8月對應(yīng)1,小于或等對應(yīng)0;將Checking拆分為兩個變量,即good_Checking表示“余額大于200馬克”,bad_Checking表示“負(fù)余額”;將marital分為兩個變量,即sex和marital.以目標(biāo)值分層抽取樣本,從比例上是不合實(shí)際的,雖然不影響建模,78流程圖流程圖79參考書籍<<統(tǒng)計分析與SAS軟件>>編著:黃平梁滿發(fā)華南理工大學(xué)出版社<<數(shù)據(jù)挖掘?qū)嵺`>>著:OliviaParrRud譯者:朱揚(yáng)勇等機(jī)械工業(yè)出版社<<實(shí)用數(shù)據(jù)挖掘>>著:PaoloGiudici譯者:袁方等電子工業(yè)出版社參考書籍<<統(tǒng)計分析與SAS軟件>><<數(shù)據(jù)挖掘?qū)嵺`>>80謝謝觀賞!2020/11/581謝謝觀賞!2020/11/581第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)律,以預(yù)測目標(biāo)顧客、風(fēng)險控制、欺詐模式識別等工作為主要目的。做好數(shù)據(jù)挖掘工作需要準(zhǔn)備好三件事:(1)定義好問題……誰是目標(biāo)消費(fèi)者?(2)高質(zhì)量的歷史數(shù)據(jù)……幾年的客戶購買記錄(3)一個強(qiáng)大的建模工具……數(shù)據(jù)挖掘軟件第六講:數(shù)據(jù)分析技術(shù)(四)第六講:數(shù)據(jù)分析技術(shù)(四)第六講:82數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)律,以預(yù)測目標(biāo)顧客、風(fēng)險控制、欺詐模式識別等工作為主要目的。做好數(shù)據(jù)挖掘工作需要準(zhǔn)備好三件事:(1)定義好問題……誰是目標(biāo)消費(fèi)者?(2)高質(zhì)量的歷史數(shù)據(jù)……幾年的客戶購買記錄(3)一個強(qiáng)大的建模工具……數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘工作意圖數(shù)學(xué)挖掘工作意圖是揭示海量數(shù)據(jù)中的隱蔽規(guī)83數(shù)據(jù)挖掘工作流程抽樣定義問題數(shù)據(jù)探測數(shù)據(jù)清冼定義數(shù)據(jù)屬性建模模型評估預(yù)測或計算得分分析報告數(shù)據(jù)挖掘工作流程抽樣定義問題數(shù)據(jù)探測數(shù)據(jù)清冼定義數(shù)據(jù)屬性建模84問題背景假如你為一個郵購公司工作。公司為了配合銷售活動,希望每月發(fā)送家具和家用器品產(chǎn)品目錄給潛在消費(fèi)者,內(nèi)容包括廚房用具、碗碟和餐具產(chǎn)品的目錄。假如向全部消費(fèi)者寄送費(fèi)用太貴,必須選擇購買該類產(chǎn)品概率較大消費(fèi)者郵寄?,F(xiàn)在如何確定一份待郵寄名冊?我們將通過建立消費(fèi)傾向模型,使用數(shù)據(jù)挖掘工具來確定郵寄名單和分析活動效益情況。假如你有一個珍貴的顧客購買記錄數(shù)據(jù)。這個數(shù)據(jù)包括能顯示顧客過去兩年是否購買過廚房用具、碗碟和餐具等信息。數(shù)據(jù)文件名為CUSTDET1,它包括了如下49個變量和標(biāo)簽:PurchaseDollarsSpentYearlyIncomeHomeValueOrderFrequencyRecencyMarriedNamePrefixAgeSex TelemarketInd.RentsApartmentOccupied<1YearDomesticProductApparelPurchaseLeisureProductLuxuryItemsKitchenProductDishesPurchaseFlatwarePurchase TotalDining(kitch+dish+flat)Promo:1-7MonthsPromo:8-13Months$ValueperMailingCountryCodeTotalReturnsMensApparelHomeFurnitureLampsPurchaseLinensPurchase BlanketsPurchaseTowelsPurchaseOutdoorProductCoatsPurchaseLadiesCoatsLadiesApparelHis/HerApparelJewelryPurchaseDate1stOrderTelemarketOrder AccountNumberStateCodeRaceHeatingTypeNumberofCarsNumberofKidsTravelTimeEducationLevelJobCategory問題背景假如你為一個郵購公司工作。公司為了配合銷售活動,85分析問題目標(biāo):(1)在沒有購買記錄的客戶名冊中找出待郵寄名單;(2)以投資回報率或最大利潤為決策目標(biāo),決定郵寄名單。解決問題的條件:(1)目標(biāo)變量是什么?有足夠的數(shù)據(jù)資料嗎?(2)有與目標(biāo)關(guān)聯(lián)的數(shù)據(jù)資料嗎?關(guān)聯(lián)性如何?(3)資料的完整性、可靠性和冗余情況?(4)研究路線設(shè)想?(5)有什么期待?因?yàn)閷δ夸浿挟a(chǎn)品有需求的客戶是購買了kitch、dish和flat叁類產(chǎn)品的客戶,在我們的數(shù)據(jù)記錄中kitch、dish、flat和Dining變量反映了客戶購買信息。但Dining變量表示kitch、dish、flat購買量和,我們分析目標(biāo)是分析客戶有沒有購買kitch、dish、flat商品的意向,因此,我們的目標(biāo)變量是“當(dāng)Dining變量>0,值為1,表示購買;否則為0,表示不購買”。同時kitch、dish、flat和Dining變量不能作為預(yù)測目標(biāo)變量自變量,因?yàn)樗鼈兪枪簿€性的。分析問題目標(biāo):解決問題的條件:因?yàn)閷δ夸浿挟a(chǎn)品有需求的客86我們的數(shù)據(jù)是由更大的客戶數(shù)據(jù)庫中用重抽樣法抽取的,為了有足夠的樣本做建模分析,使Dining變量響應(yīng)值(即為1的值)在樣本中的比例近54%,這與現(xiàn)實(shí)中客戶比例不合。因此,在建模中我們需要調(diào)整樣本的權(quán)重,現(xiàn)實(shí)中響應(yīng)比例是12%。抽樣數(shù)據(jù)觀察記錄為1996個,作為統(tǒng)計推斷和建模分析精度足夠,數(shù)據(jù)沒有缺損值,完整性好。沒有太多的齊異數(shù)據(jù),基本可認(rèn)為數(shù)據(jù)可靠。通過數(shù)據(jù)的探索分析,可以發(fā)現(xiàn)有變量同目標(biāo)變量存在相關(guān)性,因此,可以考慮通過建立目標(biāo)變量與其它變量的回歸模型、決策樹模型和神精網(wǎng)絡(luò)模型來預(yù)測目標(biāo)變量。相關(guān)系數(shù)BLANKETSDININGBLANKETS1DINING0.3494261我們的數(shù)據(jù)是由更大的客戶數(shù)據(jù)庫中用重抽樣法抽取的,為了有87創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目調(diào)用SAS數(shù)據(jù)挖掘功能創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目在DiningList中選擇Untitled,并輸入Propensity名。創(chuàng)建數(shù)據(jù)挖掘流程創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目調(diào)用SAS數(shù)據(jù)挖掘功能創(chuàng)建數(shù)據(jù)挖掘項(xiàng)目在88項(xiàng)目管理窗工具窗工作窗節(jié)點(diǎn)欄報告窗按扭項(xiàng)目管理窗工具窗工作窗節(jié)點(diǎn)欄報告窗按扭89流程圖輸入數(shù)據(jù)探測數(shù)據(jù)數(shù)據(jù)變換設(shè)置數(shù)據(jù)屬性分割數(shù)據(jù)集缺損值處理預(yù)測數(shù)據(jù)集模型代碼及運(yùn)行觀察預(yù)測結(jié)果決策樹模型分析報告回歸模型模型評估流程圖輸入數(shù)據(jù)探測數(shù)據(jù)數(shù)據(jù)變換設(shè)置數(shù)據(jù)屬性分割數(shù)據(jù)集缺損值處90數(shù)據(jù)挖掘的第一步就是確定樣本數(shù)據(jù),數(shù)據(jù)的角色,變量的模型中角色和數(shù)據(jù)類型。一般來說,用戶數(shù)據(jù)倉庫中的數(shù)據(jù)可能是海量的,如果全部用來建模分析,則運(yùn)算十分耗時。只要我們才取好的抽樣方式,抽取幾百樣本就足夠保證統(tǒng)計推斷精度,因此,第一步要抽取樣本。另外,為建模需要,我們要確定數(shù)據(jù)角色,即訓(xùn)練集用來擬合模型;效驗(yàn)集用來檢驗(yàn)?zāi)P驼`差,以便減少過度擬合情況,增加模型的穩(wěn)建性;測試集用來得到模型參數(shù)的一致有效估計無偏估計;得分集作為待預(yù)測的數(shù)集,應(yīng)該沒有響應(yīng)變量的值。我們要事先確定數(shù)據(jù)角色。變量的模型角色分為目標(biāo)變量、輸入變量、時間變量和標(biāo)識變量,在建模之前必須分配每一個變量的模型角色,但模型角色是與數(shù)據(jù)類型有關(guān)聯(lián),例如,目標(biāo)變量可以是二值變量和區(qū)間變量,其它變量不行。對回歸模型來說,二值變量只能用LOGISTIC模型,它是預(yù)測響應(yīng)發(fā)生的概率。數(shù)據(jù)挖掘的第一步就是確定樣本數(shù)據(jù),數(shù)據(jù)的角色,變量的模型91定義源數(shù)據(jù)InputDataSource節(jié)點(diǎn)屬于Sample類數(shù)據(jù)挖掘過程。用它來確定你的源數(shù)據(jù)和指定輸入變量的屬性。關(guān)閉節(jié)點(diǎn)后,數(shù)據(jù)集的名字成為節(jié)點(diǎn)的名字。選擇數(shù)據(jù)庫和數(shù)據(jù)集確定抽樣數(shù),默認(rèn)為2000個樣本定義數(shù)據(jù)角色,全程不變。數(shù)據(jù)分為五個角色:RAW:原始數(shù)據(jù);Training:訓(xùn)練數(shù)集;Validation:校驗(yàn)數(shù)集;Test:測試數(shù)集;Score:得分?jǐn)?shù)據(jù)集。等間隔變量(連續(xù)變量)欄分類變量欄定義源數(shù)據(jù)InputDataSource節(jié)點(diǎn)屬于Samp92二值變量Dining=Kitch+dish+flat輸入變量,為模型中的自變量連續(xù)變量,能計算距離,比例。ID角色,記錄標(biāo)識順序變量不參加建模分析目標(biāo)角色,預(yù)測對象,全流程唯一名義變量注:可以改變模型角色、變量測度。二值變量Dining=Kitch+dish+flat輸入變量93描述統(tǒng)計量它可用來數(shù)據(jù)初步清先。例如,數(shù)據(jù)含有不合理的值嗎?分布特性如何?描述統(tǒng)計量94利用Insight節(jié)點(diǎn)能交互式的探測數(shù)據(jù)。用它能分析單變量和多變量分布,能畫散點(diǎn)圖和箱形圖,能對結(jié)果瀏覽和研究變量相關(guān)性等工作。還能通過方差分析、回歸分析和線性模型來解釋模型。數(shù)據(jù)探測隨機(jī)抽樣的“隨機(jī)種子數(shù)”利用Insight節(jié)點(diǎn)能交互式的探測數(shù)據(jù)。用它能分析單變95Dining變量值從0至28,是三種產(chǎn)品購買量和,我們是要預(yù)測具有購買欲望的潛在消費(fèi)者,因此,只要購買過的消費(fèi)者都是目標(biāo)消費(fèi)者。在此,需要把它Dining變量轉(zhuǎn)換成二值變量,即1表示購買,0表示不購買。Dining變量值從0至28,是三種產(chǎn)品購買量和,我們是96統(tǒng)計圖分析統(tǒng)計圖分析97TransformVariables節(jié)點(diǎn)能通過舊變量產(chǎn)生新變量。軟件提供的變換方法:簡單變換:取對數(shù)、開方、求倒數(shù)、平方、指數(shù)化和標(biāo)準(zhǔn)化;分割變換:分割、分位數(shù)、最優(yōu)分割;最優(yōu)冪變換:最大正態(tài)化、最大相關(guān)化、目標(biāo)水平均等化;你可以在Customizewindow中建立自己的變換公式。變量轉(zhuǎn)換我們產(chǎn)生一個新變量DINBEIN:當(dāng)Dining>0,則DINBEIN=1;當(dāng)Dining=0,則DINBEIN=0;TransformVariables節(jié)點(diǎn)能通過舊變量產(chǎn)98TransformVariablesToolboxTransformVariables–使用軟件提供的變換公式創(chuàng)建一個新變量CreateVariable–使用CreateVariableswindow創(chuàng)建自定義變換DeleteVariables–刪除變換后的新變量,但不能刪除原變量。TransformVariablesToolboxTra99原數(shù)據(jù)變量窗口數(shù)值鍵板運(yùn)算符面板自定義變換公式函數(shù)窗原數(shù)據(jù)變量窗口數(shù)值鍵板運(yùn)算符面板自定義變換公式函數(shù)窗100Training–用來擬合模型的數(shù)據(jù)集.Validation–用來評估模型和模型調(diào)整的數(shù)據(jù)集。Test–用來獲得最終模型誤差的無偏估計。Score–得分?jǐn)?shù)據(jù)集,可以包括目標(biāo)變量,也可以不包括。Training–用來擬合模型的數(shù)據(jù)集.101分割分位數(shù)(Quantile)用來劃分頻數(shù)相同的組。分割(Bucket)為等間隔區(qū)間,每組間的樣本數(shù)不一定等。OptimalBinningforRelationshiptoTarget:把變量分成n組,使分組后變量與目標(biāo)變量相關(guān)系數(shù)最大。適合在二值變量與輸入變量之間存在非線性關(guān)系的情況。MaximizenormalityPowerTransformation:變換后變量最接近正態(tài)分布。MaximizeCorrelationwithTargetPowerTransformation:變換后變量與目標(biāo)變量線性相關(guān)系數(shù)最大,適合區(qū)間目標(biāo)變量。EqualizeSpreadwithTargetLevelsPowerTransformation:變換后變量與目標(biāo)變量具有方差穩(wěn)定性。選擇x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作為變換式分割分位數(shù)(Quantile)用來劃分頻數(shù)相同的組。Max102在建模前,我們除了要定義變量模型角色、數(shù)據(jù)類型外,還必需定義決策成本、收益信息,即決策函數(shù)。在商業(yè)智能中,分析模式都是商業(yè)決策模型。例如,消費(fèi)響應(yīng)預(yù)測、信用等級評估和商品關(guān)聯(lián)描述等模型。在本問題中,我們要定義DINBEIN為目標(biāo)變量,是二值變量;放棄與它共線性的四個變量。依據(jù)郵送成本收益和原總體響應(yīng)比例情況,定義決策矩陣和先驗(yàn)概率。數(shù)據(jù)集屬性節(jié)點(diǎn)能完成上述任務(wù)。在建模前,我們除了要定義變量模型角色、數(shù)據(jù)類型外,還必需103設(shè)置數(shù)據(jù)集屬性它能修改數(shù)據(jù)屬性。例如,數(shù)據(jù)集名、描述、角色。也能修改樣本信息,例如,變量角色、測度水平。在變量表中可以定義目標(biāo)變量框架。預(yù)測模型需要定義唯一的目標(biāo)變量和多個輸入變量,模型評價需要定義目標(biāo)變量的決策矩陣和樣本權(quán)重,預(yù)測需要定義DI變量。設(shè)置數(shù)據(jù)集屬性它能修改數(shù)據(jù)屬性。例如,數(shù)據(jù)集名、描述、角104變量表決定變量是輸出還是不輸出修改變量角色修改變量測度本次數(shù)據(jù)挖掘工作:(1)把Dining、Kitch、dish、flat四個變量角色改為Rejected,DINBEIN變量角色改為Target。(2)把DINBEIN變量測度改為binary。變量表決定變量是輸出還是不輸出修改變量角色修改變量測度本次數(shù)105定義目標(biāo)變量框架成本收益假設(shè):(1)制作、印刷和郵寄一份產(chǎn)品目錄成本10元;(2)若正確預(yù)測,即郵寄一份,顧客將來購物,每顧客平均花費(fèi)90元,即贏得利潤80元;若預(yù)測不正確,即郵寄一份,但顧客未來購物,此時虧本10元。編輯目標(biāo)框架定義目標(biāo)變量框架成本收益假設(shè):編輯目標(biāo)框架106評估信息,即定義決策目標(biāo)函數(shù)先驗(yàn)概率定義注:由于目標(biāo)變量值較少,僅在總體中占12%,但為了有足夠訓(xùn)練目標(biāo)值,在數(shù)據(jù)庫中對樣本進(jìn)行了重抽樣,產(chǎn)生了足夠多的目標(biāo)值,占樣本中的54%左右,為此建模需要加權(quán)處理。評估信息,即定義決策目標(biāo)函數(shù)先驗(yàn)概率定義注:由于目標(biāo)變量值較107數(shù)據(jù)分割DataPartition節(jié)點(diǎn)將輸入數(shù)據(jù)分割為下列互斥數(shù)據(jù):Training–用來擬合模型的數(shù)據(jù)集.Validation–用來評估模型和模型調(diào)整的數(shù)據(jù)集。Test–用來獲得最終模型誤差的無偏估計。為了擬合模型需要定義一個訓(xùn)練數(shù)據(jù)集;為了保證模型的穩(wěn)健性,需要定義效驗(yàn)數(shù)據(jù)集評估模型,決策穩(wěn)建模型;為得到模型參數(shù)的一致最小無偏估計,需要定義測試數(shù)據(jù)集。它們均來自樣本的隨機(jī)抽樣的互斥數(shù)據(jù)集。數(shù)據(jù)分割DataPartition節(jié)點(diǎn)將輸入數(shù)據(jù)分割為下列108前面過程輸入的數(shù)據(jù)只有觀察數(shù)據(jù)的角色、測度等信息,不能改變。前面過程輸入的數(shù)據(jù)只有觀察數(shù)據(jù)的角色、測度等信息,不能改變。109簡單隨機(jī)抽樣分層抽樣自定義數(shù)集將總體分成若干個層,指定每層樣本數(shù),在每層中進(jìn)行簡單隨機(jī)抽樣,得到的總樣本,這種抽樣方式稱為分層抽樣。自定義數(shù)集就是指定具有標(biāo)志的分割數(shù)據(jù)集變量作為分割變量,依據(jù)此變量將輸入數(shù)據(jù)分為訓(xùn)練集、效驗(yàn)集、或測試集。簡單隨機(jī)抽樣分層抽樣自定義數(shù)集將總體分成若干個層,指定每110觀察結(jié)果觀察結(jié)果111缺失值處理Replacement節(jié)點(diǎn)用來處理缺失值。缺失值是不能用來回歸建模和神精網(wǎng)絡(luò)建模。若用放棄所有的缺失值的樣本來估計,可能會得有偏估計模型。使用適當(dāng)?shù)娜笔е堤幚矸椒ㄓ欣玫礁鼫?zhǔn)確的預(yù)測。本例中DINBEIN沒有缺失數(shù)據(jù),可以省掉此過程。缺失值處理Replacement節(jié)點(diǎn)用來處理缺失值。缺112現(xiàn)實(shí)調(diào)查、觀察和記錄難免產(chǎn)生缺失數(shù)據(jù),可是缺失數(shù)據(jù)經(jīng)常會影響模型的精度。例如,不回答者可能就是不贊成者,若你把他們?nèi)懦?,你的模型結(jié)論可能出現(xiàn)嚴(yán)重偏差。因此,在建前應(yīng)該仔細(xì)研究缺失數(shù)據(jù)的情況和原因,采取全適的方法處理,盡量減少缺失數(shù)據(jù)可能對模型影響的程度。Replacement節(jié)點(diǎn)專門處理缺失數(shù)據(jù)的功能模塊,但處理缺失數(shù)據(jù)的方法很多,要選擇合適的方法,不僅需要專業(yè)統(tǒng)計知識,更需要熟習(xí)數(shù)據(jù)采集情況,要了解產(chǎn)生缺失數(shù)據(jù)的原因。在本例中沒有缺失數(shù)據(jù),因此,可以不要此過程。回歸模型建模之前需要處理缺失數(shù)據(jù),決策樹模型不需要,自動把缺失數(shù)據(jù)歸于一類?,F(xiàn)實(shí)調(diào)查、觀察和記錄難免產(chǎn)生缺失數(shù)據(jù),可是缺失數(shù)據(jù)經(jīng)常會113選擇具備一定角色的數(shù)據(jù)集隨機(jī)抽樣補(bǔ)缺選擇具備一定角色的數(shù)據(jù)集隨機(jī)抽樣補(bǔ)缺114使用Defaults欄指定方法:在處理缺失值之前指定缺失值代替方法。用得分集代替不清楚類變量的值。對每一個變量創(chuàng)建帶有標(biāo)志的處理變量來處理觀察值。類變量統(tǒng)計處理方法:最大頻率法基于分布法樹支處理法樹支首規(guī)則處理法常數(shù)法無處理對區(qū)間變量處理缺失值統(tǒng)計方法:Mean……均值法Median……中位數(shù)法Midrange……極值的中間值法Distributionbased……基于分布法Treeimputation……樹支處理法Treeimputationwithsurrogates……樹支首規(guī)則處理法Mid-minimumspacing……中間平均值估計法Tukey‘sbiweight……Tukey加權(quán)法Huber‘s……Huber加權(quán)法Andrew‘sWave……Andrew波動法Defaultconstant……常數(shù)法None……不處理使用Defaults欄指定方法:類變量統(tǒng)計處理方法:對區(qū)間變115樹模型一個完整的樹是指通過一系列簡單規(guī)則分割數(shù)據(jù)。每一個規(guī)則就是根據(jù)某變量值將樣本分給一個數(shù)據(jù)塊,在數(shù)據(jù)塊內(nèi)一個規(guī)則接一個規(guī)則應(yīng)用,將數(shù)據(jù)塊分為更細(xì)的數(shù)據(jù)塊。層次稱為樹,每塊數(shù)據(jù)稱為節(jié)。原始數(shù)據(jù)稱為根,具有多個后續(xù)節(jié)的節(jié)稱為支,最終節(jié)稱為葉。每一個葉為對全部樣本的一個決策結(jié)果,它依賴上下文,這種預(yù)測模型稱為決策樹模型。樹模型一個完整的樹是指通過一系列簡單規(guī)則分割數(shù)據(jù)。每一個116F檢驗(yàn),使葉間方差與葉內(nèi)方差比足夠大。減小節(jié)點(diǎn)平均值的均方誤減少熵值,提高節(jié)的純度減小Gini值,提高節(jié)的純度。分支標(biāo)準(zhǔn)設(shè)置顯著性水平,不宜太高F檢驗(yàn),使葉間方差與葉內(nèi)方差比足夠大。減小節(jié)點(diǎn)平均值的均方誤117節(jié)中保證的最少觀察數(shù)在每節(jié)中替補(bǔ)值個數(shù)節(jié)中保證的最少觀察數(shù)在每節(jié)中替補(bǔ)值個數(shù)118樹節(jié)點(diǎn)支持下列模型評價標(biāo)準(zhǔn):區(qū)間目標(biāo)變量:Profitorloss–平均利潤最大,或平均損失最小。ASE–最小平均誤差。Average,profit,orlossinthetop10,25,or50%--對n%頂部樣本最大平均利潤,或最小平均損失。順序目標(biāo)變量:Proportionmisclassified–最小錯判率。Ordinal-proportioncorrect,profit,orloss–最好的秩序正判率。Proportionofevent,profit,orlossintop10,25,or50%--在數(shù)據(jù)n%的頂部最大利潤或最小損失。TotalLeafImpurity(GiniIndex)–最大葉內(nèi)純度(最小Gini指數(shù))。二值或名義目標(biāo)變量:Proportionmisclassified–誤判比例最小。ProfitorLoss–最大平均利潤或最小平均損失。Proportionofevent,profit,orlossintop10,25,or50%--對n%頂部樣本最大平均利潤,或最小平均損失。TotalLeafImpurity(GiniIndex)--最大葉內(nèi)純度(最小Gini指數(shù))。樹節(jié)點(diǎn)支持下列模型評價標(biāo)準(zhǔn):119分支法則:最好的評估值最多葉最少有n葉的最大支足夠樣本分裂全部樣本分裂給定P值,即顯著性水平給出樹的最多層次給出有效變量數(shù),避免過多的自變量分支法則:足夠樣本分裂全部樣本分裂給定P值,即顯著性水平給出120本例設(shè)置本例設(shè)置121運(yùn)行結(jié)果運(yùn)行結(jié)果122第六講:數(shù)據(jù)分析技術(shù)(四)課件123第六講:數(shù)據(jù)分析技術(shù)(四)課件124例如,得分前10%的樣本中有19%左右的響應(yīng),高于12%;在得分前20%中有20%左右的響應(yīng)。例如,得分前10%的樣本中有捕獲了全部響應(yīng)的16%左右;在得分前20%中捕獲了全部響應(yīng)的32%左右。例如,得分前10%的樣本中有19%左右的響應(yīng),高于12%;在125若提取得分前10%樣本,則比不使用模型捕獲率提高1.58倍。若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得每個樣本的平均利潤7.5元左右。若提取得分前10%樣本,則比不使用模型捕獲率提高1.58倍。126若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得投資回報率0.75。若對得分前20%的消費(fèi)者郵寄產(chǎn)品冊,這項(xiàng)活動則獲得投資回報率127回歸模型Regression節(jié)點(diǎn)能建立線性模型和logistic模型。線性回歸模型是用一個或幾個輸入變量的線性函數(shù)預(yù)測連續(xù)型的目標(biāo)變量的值;Logistic回歸模型是用一個或幾個輸入變量函數(shù)預(yù)測分類目標(biāo)變量有利事件發(fā)生的概率?;貧w模型Regression節(jié)點(diǎn)能建立線性模型和logi128回歸模型的類型:(1)線性模型(2)Logistic模型Logistic回歸函數(shù):(1)Logit:(2)CLOGLOG:(3)PROBIT:回歸模型的類型:Logistic回歸函數(shù):129回歸方法:(1)Backward–后退法(2)Forward–前進(jìn)法(3)Stepwise–逐步回歸法交互作用回歸方法:交互作用130第六講:數(shù)據(jù)分析技術(shù)(四)課件131第六講:數(shù)據(jù)分析技術(shù)(四)課件132模型評估Assessment節(jié)點(diǎn)提供了決策樹模型、神精網(wǎng)絡(luò)模型、回歸模型、組合模型和自定義模型的比較和預(yù)測的平臺。模型和預(yù)測工具的共同標(biāo)準(zhǔn)是比較從模型結(jié)果中得到的期望利潤或損失。它能比較多個模型節(jié)點(diǎn)產(chǎn)生的模型。模型評估Assessment節(jié)點(diǎn)提供了決策樹模型、神精133不同的模型是由不同變量組成,所以對響應(yīng)是用不同數(shù)據(jù)信息預(yù)測,因此,對同一對象預(yù)測值不相同。這樣我們應(yīng)用模型預(yù)測時就要選擇模型,也就要對模型進(jìn)行評價。評價模型好壞的唯一標(biāo)準(zhǔn)是決策目標(biāo)函數(shù)平均誤差最?。ㄓ袝r是利潤、有時是誤判率)。可是不同的模型,對不同數(shù)據(jù)集的預(yù)測效果是不一樣的,就同一模型給定不同閥值,也使誤判不一樣,因此,對閥值的選擇就有優(yōu)化決策。不同的模型是由不同變量組成,所以對響應(yīng)是用不同數(shù)據(jù)信息預(yù)134第六講:數(shù)據(jù)分析技術(shù)(四)課件135第六講:數(shù)據(jù)分析技術(shù)(四)課件136第六講:數(shù)據(jù)分析技術(shù)(四)課件137特性曲線敏感性:正判數(shù)除于響應(yīng)數(shù)特異性:誤判數(shù)除于非響應(yīng)數(shù)Reg模型好Tree模型好特性曲線敏感性:特異性:Reg模型好Tree模型好138報告Reporter節(jié)點(diǎn)把數(shù)據(jù)挖掘流程產(chǎn)生的結(jié)果集成為HTML格式報告,以便網(wǎng)頁瀏覽。報告內(nèi)容包括報告描述、流程圖和每個節(jié)點(diǎn)的子報告。一般報告放在數(shù)據(jù)挖掘流程最后。報告Reporter節(jié)點(diǎn)把數(shù)據(jù)挖掘流程產(chǎn)生的結(jié)果集成為139第六講:數(shù)據(jù)分析技術(shù)(四)課件140結(jié)果瀏覽結(jié)果瀏覽141第六講:數(shù)據(jù)分析技術(shù)(四)課件142第六講:數(shù)據(jù)分析技術(shù)(四)課件143得分或預(yù)測Score節(jié)點(diǎn)管理、編輯、輸出、執(zhí)行由訓(xùn)練模型產(chǎn)生的得分代碼。對一個沒有目標(biāo)值的數(shù)據(jù)集進(jìn)行預(yù)測,它是數(shù)據(jù)挖掘工作的最終結(jié)果。訓(xùn)練和測試模型后,對目標(biāo)用Logistic回歸,選擇10%得分高的客戶郵寄產(chǎn)品目錄?,F(xiàn)在需要對客戶數(shù)據(jù)預(yù)測目標(biāo)值,使用Score節(jié)點(diǎn)完成工作。得分或預(yù)測Score節(jié)點(diǎn)管理、編輯、輸出、執(zhí)行由訓(xùn)練模144我們只有提取的前面模型運(yùn)算程序代碼,將來才能離開SASEnterpriseMiner環(huán)境運(yùn)行。Score節(jié)點(diǎn)就是用來提取代碼的,以便用在BASESAS環(huán)境下運(yùn)行。為了產(chǎn)生郵寄名冊,我們需要應(yīng)用前面模型來預(yù)測更廣泛的客戶數(shù)據(jù)庫,即運(yùn)用提取的代碼在BASESAS上運(yùn)行,得到目標(biāo)變量的響應(yīng)預(yù)測值,依據(jù)判斷閥值,選擇得分值高于閥值的客戶,從而產(chǎn)生了郵寄名冊。在本例中,我們以原數(shù)據(jù)集作為預(yù)測數(shù)據(jù)集。我們只有提取的前面模型運(yùn)算程序代碼,將來才能離開SAS145選擇前斷節(jié)點(diǎn)輸入的數(shù)據(jù)選擇前斷節(jié)點(diǎn)輸入的數(shù)據(jù)146操作設(shè)置:Inactive–輸出最近數(shù)據(jù)集產(chǎn)生的模型計算代碼。Applytrainingdatascorecodetoscoredataset–從訓(xùn)練數(shù)據(jù)集到得分?jǐn)?shù)據(jù)集應(yīng)用模型計算代碼。Accumulatedatasetsbytype–復(fù)制和輸出前續(xù)節(jié)點(diǎn)輸入的數(shù)據(jù)集。Mergedatasetsbytype–合并前續(xù)節(jié)點(diǎn)輸入的數(shù)據(jù)集。操作設(shè)置:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論