




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
應用Modeler進行客戶數據挖掘分析應用Modeler進行客戶數據挖掘分析Modeler界面四個工作區(qū)域:數據流區(qū)、節(jié)點區(qū)(選項板)、管理器區(qū)、工程管理區(qū)建模:通過連接節(jié)點構成數據流建立模型節(jié)點類型數據源節(jié)點:將數據引入SPSSModeler記錄處理節(jié)點:對數據記錄執(zhí)行操作,如選擇、合并和追加等字段選項節(jié)點:對數據字段執(zhí)行操作,如過濾、導出新字段等圖形節(jié)點:在建模前后以圖表形式顯示數據建模節(jié)點:使用SPSSModeler中提供的建模算法輸出節(jié)點:生成可在SPSSModeler中查看的數據、圖表和模型等多種輸出結果導出節(jié)點:生成可在外部應用程序中查看的多種輸出2Modeler界面四個工作區(qū)域:數據流區(qū)、節(jié)點區(qū)(選項板)、Modeler數據分析步驟讀取數據數據整理字段和記錄:數據初處理數據理解建模模型評估結果發(fā)布3Modeler數據分析步驟讀取數據3構建數據流的基本操作節(jié)點增加節(jié)點刪除節(jié)點的編輯節(jié)點連接:以形成數據流4構建數據流的基本操作節(jié)點增加4一、數據源可變文件:從自由格式文本文件(其記錄包含的字段數不變,但包含的字符數可改變)中讀資料;固定文件:從固定字段文本文件中讀入資料(其字段沒有被分隔,但開始位置相同且長度固定);數據庫:使用ODBC來源節(jié)點從其它各種數據庫中導入資料Excel用戶輸入:字段名、字段類型、值,生成所有組合或按順序的數據序列5一、數據源可變文件:從自由格式文本文件(其記錄包含的字段數不數據類型數據存儲類型:字符串型、整數型、實數型、日期型、時間型等;數據類型:連續(xù)型、離散型、標志型、集合型、有序集合、無類型;標志:用于只取兩個具體值的數據(Yes/No,0/1)集合:用于描述帶有多個具體值的數據(地區(qū));有序集合:用于描述帶有多個具體值且有順序的數據(教育程度)6數據類型數據存儲類型:字符串型、整數型、實數型、日期型、時間二、記錄選項選擇:根據具體條件從資料流程中選擇或排除某一記錄子集;抽樣:限制通過流的記錄數或排除一定比例的記錄;匯總:把一系列輸入記錄變換成匯總性輸出記錄;排序:根據一個或多個字段值對記錄進行升序或降序排列7二、記錄選項選擇:根據具體條件從資料流程中選擇或排除某一記錄三、字段選項類型:指定字段的一系列重要屬性;過濾:(1)從通過的記錄中過濾或剔除字段;(2)重命名字段;(3)把字段從一個來源節(jié)點映射到另一個填充:替換字段值以及改變存儲類型8三、字段選項類型:指定字段的一系列重要屬性;8Modeler模型的類型(1)決策樹模型用于分類,基于一組決策規(guī)則來預測或分類未來的觀測值。C&RT(分類和回歸樹)節(jié)點生成可用于預測和分類未來觀測值的決策樹CHAID使用卡方統(tǒng)計量來生成決策樹,以確定最佳的分割。CHAID與C&RT節(jié)點不一樣,它可以生成非二元樹,這意味著有些分割將有多于兩個的分支。C5.0節(jié)點構建決策樹或規(guī)則集。目標字段必須為分類字段。9Modeler模型的類型(1)決策樹模型用于分類,基于一組決Modeler模型的類型(2)神經網絡模型神經網絡節(jié)點使用的模型是對人類大腦處理信息的方式簡化了的模型。只需要最少的統(tǒng)計或數學知識就可以對其進行訓練或應用。10Modeler模型的類型(2)神經網絡模型神經網絡節(jié)點使用的Modeler模型的類型(3)聚類模型K-Means節(jié)點將數據集聚類到不同分組(或聚類)TwoStep節(jié)點使用兩步聚類方法。第一步完成簡單數據處理,以便將原始輸入數據壓縮為可管理的子聚類集合。第二步使用層級聚類方法將子聚類一步一步合并為更大的聚類。Kohonen節(jié)點會生成一種神經網絡,此神經網絡可用于將數據集聚類到各個差異組。11Modeler模型的類型(3)聚類模型K-Means節(jié)點將Modeler模型的類型(4)關聯(lián)模型將一組條件與一個特定結論(例如決定購買某樣東西)相關聯(lián)廣義規(guī)則歸納法(GRI)節(jié)點將發(fā)現(xiàn)數據關聯(lián)規(guī)則。例如,購買了剔須刀的客戶在購買剔須膏之后,還可能會購買剔須霜。Apriori(先驗)節(jié)點從數據抽取一組規(guī)則,即抽取信息內容最多的規(guī)則。序列節(jié)點可發(fā)現(xiàn)連續(xù)數據或與時間有關的數據中的關聯(lián)規(guī)則。例如,一個購買了剃刀和須后水的顧客可能在下次購物時購買剃須膏。12Modeler模型的類型(4)關聯(lián)模型將一組條件與一個特定結四、圖形使用圖形節(jié)點對數據進行探索性分析散點圖分布圖直方圖集合網絡圖……13四、圖形使用圖形節(jié)點對數據進行探索性分析13建模分析(1):CHAID決策樹背景:某電話公司的數據倉庫包含有關該公司的5000名客戶對特定促銷活動響應的信息。數據中包括客戶年齡、職業(yè)、收入和電話使用統(tǒng)計量。其中有三個“目標”字段,顯示客戶是否響應這三種促銷。公司希望利用此數據幫助預測未來中最有可能對類似的促銷活動作出響應的客戶。數據源:customer_dbase.sav14建模分析(1):CHAID決策樹背景:某電話公司的數據倉庫包使用CHAID決策樹開發(fā)模型,用以預測最有可能響應某一次促銷活動(Response_01)的客戶。方法:不使用特征選擇。數據集中的所有預測變量字段用作CHAID樹的輸入。使用特征選擇模型。使用特征選擇節(jié)點選擇最佳的10個預測變量,然后將其輸入到CHAID樹中。15使用CHAID決策樹開發(fā)模型,用以預測最有可能響應某一次添加類型節(jié)點并將response_01的方向設置為輸出;將客戶ID(custid)和其他響應字段(response_02和response_03)的方向設置為無;將所有其他字段的方向設置為輸入;添加特征選擇建模節(jié)點;執(zhí)行流以生成特征選擇模型。16添加類型節(jié)點并將response_01的方向設置為輸出;數據流生成的特征選擇模型顯示了所找到的對預測非常有用的字段,選擇前10個預測變量17數據流生成的特征選擇模型顯示了所找到的對預測非常有用的字段,CHAID分析結果18CHAID分析結果18結果解釋查看器-生成樹第二個樹比第一個樹包含的樹節(jié)點要少,但其是否能夠有效分出對于促銷活動相應的客戶?有效性比較-收益選擇目標類別為1(即響應營銷活動的),將樹的終端節(jié)點分組為四分位數。要比較兩個模型的有效性,可查看每個表中四分位數的提升(即指數值的變化)。同時考慮終端葉子節(jié)點的數量19結果解釋查看器-生成樹19建模分析(2):C&RT決策樹分類和回歸樹節(jié)點(C&RT)是一種基于樹的分類和預測方法,此方法使用遞歸分區(qū)將訓練記錄分割為多個具有相似的輸出字段值的段。背景:將C&RT決策樹模型應用于有線電視銷售的客戶分析,其中的目標字段為是否有意預訂有線電視交互服務。預測變量字段包括年齡、性別、教育、收入類別、每天看電視的時間和子女數(按有序集合編碼,值5表示5個或更多)。數據源:NewsChan.sav20建模分析(2):C&RT決策樹分類和回歸樹節(jié)點(C&RT類型節(jié)點設置NEWSCHAN設置為標志,方向設置為輸出;其他所有字段用作預測變量(輸入)。模型參數設置交互會話選擇專家模式,修剪樹和使用標準誤規(guī)則,最小雜質改變值設置為0.003(增加此值可傾向于生成較簡單的樹)。停止標準:最小絕對臨界值為25和10。21類型節(jié)點設置21執(zhí)行節(jié)點。此時將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。生成樹和修剪(五層和五個終端節(jié)點)根據當前樹生成模型可使用此流生成模型,將生成的NEWSCHAN1模型連接到類型節(jié)點。并將其連接表節(jié)點并執(zhí)行流。22執(zhí)行節(jié)點。此時將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。22數據流23數據流23結果解釋單擊交互樹窗口底部的收益選項卡,選擇1為目標類別以查看響應“是”的收益。收益:節(jié)點中具有目標類別的數量/占總體的百分比響應:節(jié)點中具有目標類別的百分比指數值:大于100%的節(jié)點表示,通過從這些節(jié)點中選擇記錄而不是從整個樣本中隨機選擇記錄,能夠有更多的機會找到愿意接受預訂的用戶。選中目標節(jié)點,生成“選擇節(jié)點”從總體數據中生成滿足目標類別的樣本生成模型——導出到表(預測值、置信度)24結果解釋單擊交互樹窗口底部的收益選項卡,選擇1為目標類別建模分析(3):關聯(lián)分析與客戶描述關聯(lián)規(guī)則分析的兩種方法:可視化技術(例如Web圖節(jié)點)關聯(lián)規(guī)則模型背景:超市客戶數據,包括客戶基本信息和購買商品信息,通過關聯(lián)分析尋找客戶購買產品之間的關系并且按人口統(tǒng)計信息(年齡、收入等)刻畫其目標客戶群體的特征數據源:BASKETS1n文本數據25建模分析(3):關聯(lián)分析與客戶描述關聯(lián)規(guī)則分析的兩種方法:2數據流構建類型節(jié)點設置讀取值設置類型:將用戶卡號cardid的類型設置為無類型,統(tǒng)計數據的方向均設置為無(在模型中不使用),產品類別設置為標志類型,并將方向設置為雙向(同時作為模型的輸入和輸出變量)。加入表節(jié)點:進行數據瀏覽三大類型數據:購物籃信息(卡號、購買價格、支付方式),持卡人信息(性別、住房、收入、年齡),商品類型信息(蔬菜水果類、鮮肉類、奶制品、罐頭蔬菜類等等)26數據流構建類型節(jié)點設置26模型建立加入web圖節(jié)點加入關聯(lián)分析Apriori\CARMA\GRI模型(一般規(guī)則歸納法)Apriori模型可以接受兩種數據排列方式,GRI和CARMA只接受一種排列方式;只接受名義字段,且字段在方向設定時必須為雙向。設置模型參數支持度S=P(A∪B)置信度C=P(B|A)Lift=P(AUB)/P(A)P(B)27模型建立加入web圖節(jié)點272828結果解釋GRI關聯(lián)分析結果:多種商品之間存在關聯(lián);Web圖29結果解釋GRI關聯(lián)分析結果:多種商品之間存在關聯(lián);29設置web圖選擇全部產品類型字段,僅顯示真值標志(同時為T的購買記錄)拉動鏈接數顯示滑塊,當顯示鏈接高于100時,可獲得三個強鏈接Web輸出控件的對話框中可指定弱連接和強連接(單擊工具欄上的黃色雙箭頭按鈕,展開顯示)在web圖設置選項中可預設30設置web圖選擇全部產品類型字段,僅顯示真值標志(同時為T的結果解釋三類關聯(lián)商品突出顯示:魚和果蔬;酒和糖果;啤酒、冷凍肉和罐裝蔬菜決策建議:商品陳列:在擺放貨架時,應該把罐裝蔬菜、冷凍肉品和啤酒放在相鄰的位置,把酒和糖果放在一起;客戶細分:三種關聯(lián)產品類別意味著三種不同購買習慣的客戶31結果解釋三類關聯(lián)商品突出顯示:31客戶細分和描述根據客戶購買的產品類型標識了三個客戶群,但是還要知道這些客戶是誰,即識別他們的人口統(tǒng)計學特征,需要為每個群中的每名客戶添加標志使用規(guī)則歸納(C5.0模型,除了生成決策樹外還可以生成規(guī)則)來基于規(guī)則描繪這些標志的特征,可以實現(xiàn)這一點。32客戶細分和描述根據客戶購買的產品類型標識了三個客戶群,但是還構建數據流使用創(chuàng)建的Web圖,可以自動生成每個群的標志。使用鼠標右鍵,單擊fruitveg和fish之間的鏈接,并選擇為鏈接生成導出節(jié)點。加入新類型節(jié)點,并進行參數設置:輸入、輸出變量。加入C5.0模型節(jié)點,設置為輸出規(guī)則集33構建數據流使用創(chuàng)建的Web圖,可以自動生成每個群的標志。數據流34數據流34結果解釋規(guī)則1用于
Tifincome<=16900andsex=MthenT購買“非健康食品”的客戶特征為收入小于16900且性別為Male決策建議:在零售領域,可能會使用這種客戶組確定特殊優(yōu)惠目標,以提高促銷響應率。35結果解釋規(guī)則1用于T35建模分析(4):Logistic回歸分析Logistic回歸可根據輸入字段的值對記錄進行分類。這種統(tǒng)計方法類似于線性回歸,但是它使用的是分類目標字段而非數值目標字段。背景:假設某個電信服務提供商非常關心流失到競爭對手那里的客戶數。如果可以使用服務使用數據預測有可能轉移到其他提供商的客戶,則可通過定制服務使用數據來盡可能多地保留這些客戶。因為目標含有兩個截然不同的類別,因此將使用二項模型。如果目標中含有多個類別,則會轉而創(chuàng)建多項模型。數據源:telco.sav36建模分析(4):Logistic回歸分析Logistic回類型節(jié)點設置添加類型節(jié)點以定義字段,確保所有類型都已正確設置。例如,值為0和1的大多數字段都可看作是標志字段。流失字段(churn)的類型設置為標志,并將其方向設置為輸出。所有其他字段的方向應設置為輸入。37類型節(jié)點設置添加類型節(jié)點以定義字段,確保所有類型都已正確設置數據流構建將特征選擇節(jié)點添加到SPSS文件節(jié)點并運行,從生成的模型節(jié)點中創(chuàng)建過濾節(jié)點,使用過濾節(jié)點選擇被認為很重要的數據來用作預測變量。將Logistic節(jié)點添加到超節(jié)點。在Logistic節(jié)點上,單擊“模型”選項卡并選擇二項過程。在二項過程區(qū)域,選擇前進法(逐步向模型中增加預測變量)。38數據流構建將特征選擇節(jié)點添加到SPSS文件節(jié)點并運行,從數據流39數據流39結果解釋獲得客戶流失的五個關鍵性影響變量分類表:識別流失客戶的準確率42.4%,識別非流失客戶的準確率92.3%,總體準確率79.2%方程中的變量:回歸系數、顯著性輸出表節(jié)點:每個客戶的流失與否的概率40結果解釋獲得客戶流失的五個關鍵性影響變量40建模分析(4):Logistic回歸分析背景:假設該電信服務提供商已按照服務使用模式對其客戶群進行了劃分(custcat字段),將這些客戶分類到四個組中。使用人口統(tǒng)計數據預測客戶的所屬類別。數據源:telco.sav類型節(jié)點設置:客戶類別字段(custcat)的方向設置為輸出。所有其他字段的方向都應設置為輸入。過濾節(jié)點設置:使用過濾節(jié)點以選取相關字段(地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。其他字段可以排除在此分析之外。41建模分析(4):Logistic回歸分析背景:假設該電信服務數據流構建添加Logistic節(jié)點,參數設置:選擇多項式Logistic,單擊模型選項卡并選擇逐步法。在“專家”選項卡上,選中專家模式,選中輸出,然后在“高級輸出”對話框中選中分類表。42數據流構建添加Logistic節(jié)點,參數設置:選擇多項式Lo數據流43數據流43結果解釋回歸方程顯示在人口統(tǒng)計指標中,模型識別出可用于預測客戶分組的主要指標包括:地址、教育程度、行業(yè)、居住地。分類表顯示了此模型的結果,其總體分類正確率為39.9%。特別是,此模型在識別類別4客戶時表現(xiàn)優(yōu)異(56.8%),而在識別類別2客戶時表現(xiàn)很差(4.6%)。44結果解釋回歸方程顯示44建模分析(5):神經網絡神經網絡節(jié)點用于創(chuàng)建并訓練神經網絡,通過學習過程(檢查單個記錄、為每個記錄生成預測、發(fā)現(xiàn)錯誤預測便對模型權值進行調整),神經網絡可不斷提高預測效果。神經網絡的三層:輸入層、隱藏層、輸出層隱藏層與神經單元越多,神經網絡越利于分析復雜關系45建模分析(5):神經網絡神經網絡節(jié)點用于創(chuàng)建并訓練神經網絡,構建數據流預測零售產品類型和促銷活動對銷售的影響數據源節(jié)點:GOODS1n和GOODS2n字段選項節(jié)點:導出節(jié)點:增加Increase字段類型節(jié)點加入散點圖節(jié)點:探索Increase與Promotion之間的變化關系。加入神經網絡模型,并通過表節(jié)點輸出結果46構建數據流預測零售產品類型和促銷活動對銷售的影響46數據流47數據流47結果解釋-散點圖促銷投入與銷量增長之間的潛在線性關系48結果解釋-散點圖促銷投入與銷量增長之間的潛在線性關系48結果解釋-神經網絡 估計的準確性:91.892
輸入層:7個神經元 隱藏層1:3個神經元 輸出層:1個神經元 輸入的相對重要性
Class0.4626 Promotion0.282694 Cost0.0247975 Before0.013556949結果解釋-神經網絡 估計的準確性:91.89249模型應用可以將該神經網絡模型用于預測促銷投入對于銷售增長的拉動效果。導入數據GOOD2n,進行預測,將預測結果輸出為表,生成的$N-Increase為預測值50模型應用可以將該神經網絡模型用于預測促銷投入對于銷售增長的拉建模分析(6):聚類分析Modeler中聚類分析模型包括Kohonen、Kmeans、TwoStep。Kohonen由一個輸入單元層和一個處理單元組成的神經網絡生成聚類映像。K-Means通過定義一組起始聚類中心進行分類,然后根據記錄的輸入閾值把每個記錄分到與其最相似的聚類。TwoStep是一種分兩步進行的聚類方法,第一步單獨通過數據,第二步使用層次聚類方法。51建模分析(6):聚類分析Modeler中聚類分析模型包括Ko聚類分析數據背景:對目標人群的健康情況進行分析,主要測量數據包括膽固醇、Na、Ka元素的含量,從而分為不同類別數據源:DRUG1n52聚類分析數據背景:對目標人群的健康情況進行分析,主要測量數據類型節(jié)點:由于事先不知道數據的分類情況,聚類模型中參與分類的所有的字段方向均設置為輸入,Drug方向設置為無。加入聚類模型Kmeans節(jié)點:設置聚類數生成距離字段:某記錄與該類中心的距離顯示相似度:類與類間的距離執(zhí)行,生成模型結果節(jié)點加入圖形節(jié)點:分布圖53類型節(jié)點:由于事先不知道數據的分類情況,聚類模型中參與分類的數據流54數據流54結果解釋55結果解釋55決策列表通過目標變量(yes或no)標識了子組或段,例如,尋找那些最不可能流失的客戶或最有可能對某個商業(yè)活動作出積極響應的客戶。段、規(guī)則和條件:模型由段列表組成,每個段由選擇匹配記錄的規(guī)則進行定義,給定的規(guī)則可以有多個條件要求:目標變量為標志類型或集合的分類目標字段,至少一個預測變量(輸入)字段。當目標字段類型為集合時,必須手動選擇一個值作為匹配或響應;所有其他值集中在一起作為不匹配。56決策列表通過目標變量(yes或no)標識了子組或段,例如案例以某金融公司為例,該公司希望通過為每個客戶提供最適合的報價以在未來的商業(yè)競爭中取得更大收益。數據文件pm_customer_train1.sav,客戶類型campaign字段表征客戶所屬類型(普通客戶、銀卡客戶、金卡客戶、白金卡客戶)。數據探索性分析:通過圖形查看客戶類型的分布情況(分布圖節(jié)點)57案例以某金融公司為例,該公司希望通過為每個客戶提供最適合的報類型節(jié)點:response輸出,customer_id、campaign、response_date、purchase、purchase_date、product_id、Rowid和X_random設為無選擇節(jié)點:從原始數據中選擇campaign=2的客戶類型進行分析建模節(jié)點:目標值設為1,最大段數設為3結果:獲得響應率較高的三段客戶群體58類型節(jié)點:response輸出,customer_id、c序列模式序列模式:事務在發(fā)生過程中的先后順序上的規(guī)律(通常為面向時間的數據)某人在商店購買了面包和牛奶,幾天之后返回了該商店購買了一些奶酪,可表示為兩個項目集合:面包和牛奶——奶酪。序列是一系列可能會以可預測順序發(fā)生的項目集合。指定ID字段最小規(guī)則支持度/最小規(guī)則置信度最大序列大?。盒蛄兄胁煌椖考系淖畲罅?9序列模式序列模式:事務在發(fā)生過程中的先后順序上的規(guī)律(通常為6060異常檢測異常檢測(離群點分析):金融領域的信用卡欺詐交易、洗錢活動;股市操控等異常節(jié)點:基于距離和聚類的挖掘方法61異常檢測異常檢測(離群點分析):金融領域的信用卡欺詐交易、洗例:GrantfraudN.db,申請農業(yè)補貼的數據表,從中篩選最異常的數據樣本結果:兩個對等組(聚類),異常記錄數,收益,計數,平均指數輸出到表節(jié)點:通過異常指數值,顯示異常記錄標志、從中獲取異常記錄。62例:GrantfraudN.db,申請農業(yè)補貼的數據表,從中6363二元分類器模型使用多種不同方法創(chuàng)建并比較二元(是/否)結果模型,對比各種模型(C5.0、C&RT、QUEST,CHAID,Logistic回歸和決策列表)的結果。要求:輸出變量為標志型,至少一個輸入變量。例如銀行審核客戶信用64二元分類器模型使用多種不同方法創(chuàng)建并比較二元(是/否)結果模時間序列時間序列預測類型節(jié)點:設置預測變量為輸出字段:添加“時間區(qū)間”節(jié)點散點圖:數據變化趨勢的探索性分析時間序列模型65時間序列時間序列預測65主成分/因子分析用于數據降維要求:因子/主成分分析模型中只能使用數值字段。66主成分/因子分析用于數據降維66應用Modeler進行客戶數據挖掘分析應用Modeler進行客戶數據挖掘分析Modeler界面四個工作區(qū)域:數據流區(qū)、節(jié)點區(qū)(選項板)、管理器區(qū)、工程管理區(qū)建模:通過連接節(jié)點構成數據流建立模型節(jié)點類型數據源節(jié)點:將數據引入SPSSModeler記錄處理節(jié)點:對數據記錄執(zhí)行操作,如選擇、合并和追加等字段選項節(jié)點:對數據字段執(zhí)行操作,如過濾、導出新字段等圖形節(jié)點:在建模前后以圖表形式顯示數據建模節(jié)點:使用SPSSModeler中提供的建模算法輸出節(jié)點:生成可在SPSSModeler中查看的數據、圖表和模型等多種輸出結果導出節(jié)點:生成可在外部應用程序中查看的多種輸出68Modeler界面四個工作區(qū)域:數據流區(qū)、節(jié)點區(qū)(選項板)、Modeler數據分析步驟讀取數據數據整理字段和記錄:數據初處理數據理解建模模型評估結果發(fā)布69Modeler數據分析步驟讀取數據3構建數據流的基本操作節(jié)點增加節(jié)點刪除節(jié)點的編輯節(jié)點連接:以形成數據流70構建數據流的基本操作節(jié)點增加4一、數據源可變文件:從自由格式文本文件(其記錄包含的字段數不變,但包含的字符數可改變)中讀資料;固定文件:從固定字段文本文件中讀入資料(其字段沒有被分隔,但開始位置相同且長度固定);數據庫:使用ODBC來源節(jié)點從其它各種數據庫中導入資料Excel用戶輸入:字段名、字段類型、值,生成所有組合或按順序的數據序列71一、數據源可變文件:從自由格式文本文件(其記錄包含的字段數不數據類型數據存儲類型:字符串型、整數型、實數型、日期型、時間型等;數據類型:連續(xù)型、離散型、標志型、集合型、有序集合、無類型;標志:用于只取兩個具體值的數據(Yes/No,0/1)集合:用于描述帶有多個具體值的數據(地區(qū));有序集合:用于描述帶有多個具體值且有順序的數據(教育程度)72數據類型數據存儲類型:字符串型、整數型、實數型、日期型、時間二、記錄選項選擇:根據具體條件從資料流程中選擇或排除某一記錄子集;抽樣:限制通過流的記錄數或排除一定比例的記錄;匯總:把一系列輸入記錄變換成匯總性輸出記錄;排序:根據一個或多個字段值對記錄進行升序或降序排列73二、記錄選項選擇:根據具體條件從資料流程中選擇或排除某一記錄三、字段選項類型:指定字段的一系列重要屬性;過濾:(1)從通過的記錄中過濾或剔除字段;(2)重命名字段;(3)把字段從一個來源節(jié)點映射到另一個填充:替換字段值以及改變存儲類型74三、字段選項類型:指定字段的一系列重要屬性;8Modeler模型的類型(1)決策樹模型用于分類,基于一組決策規(guī)則來預測或分類未來的觀測值。C&RT(分類和回歸樹)節(jié)點生成可用于預測和分類未來觀測值的決策樹CHAID使用卡方統(tǒng)計量來生成決策樹,以確定最佳的分割。CHAID與C&RT節(jié)點不一樣,它可以生成非二元樹,這意味著有些分割將有多于兩個的分支。C5.0節(jié)點構建決策樹或規(guī)則集。目標字段必須為分類字段。75Modeler模型的類型(1)決策樹模型用于分類,基于一組決Modeler模型的類型(2)神經網絡模型神經網絡節(jié)點使用的模型是對人類大腦處理信息的方式簡化了的模型。只需要最少的統(tǒng)計或數學知識就可以對其進行訓練或應用。76Modeler模型的類型(2)神經網絡模型神經網絡節(jié)點使用的Modeler模型的類型(3)聚類模型K-Means節(jié)點將數據集聚類到不同分組(或聚類)TwoStep節(jié)點使用兩步聚類方法。第一步完成簡單數據處理,以便將原始輸入數據壓縮為可管理的子聚類集合。第二步使用層級聚類方法將子聚類一步一步合并為更大的聚類。Kohonen節(jié)點會生成一種神經網絡,此神經網絡可用于將數據集聚類到各個差異組。77Modeler模型的類型(3)聚類模型K-Means節(jié)點將Modeler模型的類型(4)關聯(lián)模型將一組條件與一個特定結論(例如決定購買某樣東西)相關聯(lián)廣義規(guī)則歸納法(GRI)節(jié)點將發(fā)現(xiàn)數據關聯(lián)規(guī)則。例如,購買了剔須刀的客戶在購買剔須膏之后,還可能會購買剔須霜。Apriori(先驗)節(jié)點從數據抽取一組規(guī)則,即抽取信息內容最多的規(guī)則。序列節(jié)點可發(fā)現(xiàn)連續(xù)數據或與時間有關的數據中的關聯(lián)規(guī)則。例如,一個購買了剃刀和須后水的顧客可能在下次購物時購買剃須膏。78Modeler模型的類型(4)關聯(lián)模型將一組條件與一個特定結四、圖形使用圖形節(jié)點對數據進行探索性分析散點圖分布圖直方圖集合網絡圖……79四、圖形使用圖形節(jié)點對數據進行探索性分析13建模分析(1):CHAID決策樹背景:某電話公司的數據倉庫包含有關該公司的5000名客戶對特定促銷活動響應的信息。數據中包括客戶年齡、職業(yè)、收入和電話使用統(tǒng)計量。其中有三個“目標”字段,顯示客戶是否響應這三種促銷。公司希望利用此數據幫助預測未來中最有可能對類似的促銷活動作出響應的客戶。數據源:customer_dbase.sav80建模分析(1):CHAID決策樹背景:某電話公司的數據倉庫包使用CHAID決策樹開發(fā)模型,用以預測最有可能響應某一次促銷活動(Response_01)的客戶。方法:不使用特征選擇。數據集中的所有預測變量字段用作CHAID樹的輸入。使用特征選擇模型。使用特征選擇節(jié)點選擇最佳的10個預測變量,然后將其輸入到CHAID樹中。81使用CHAID決策樹開發(fā)模型,用以預測最有可能響應某一次添加類型節(jié)點并將response_01的方向設置為輸出;將客戶ID(custid)和其他響應字段(response_02和response_03)的方向設置為無;將所有其他字段的方向設置為輸入;添加特征選擇建模節(jié)點;執(zhí)行流以生成特征選擇模型。82添加類型節(jié)點并將response_01的方向設置為輸出;數據流生成的特征選擇模型顯示了所找到的對預測非常有用的字段,選擇前10個預測變量83數據流生成的特征選擇模型顯示了所找到的對預測非常有用的字段,CHAID分析結果84CHAID分析結果18結果解釋查看器-生成樹第二個樹比第一個樹包含的樹節(jié)點要少,但其是否能夠有效分出對于促銷活動相應的客戶?有效性比較-收益選擇目標類別為1(即響應營銷活動的),將樹的終端節(jié)點分組為四分位數。要比較兩個模型的有效性,可查看每個表中四分位數的提升(即指數值的變化)。同時考慮終端葉子節(jié)點的數量85結果解釋查看器-生成樹19建模分析(2):C&RT決策樹分類和回歸樹節(jié)點(C&RT)是一種基于樹的分類和預測方法,此方法使用遞歸分區(qū)將訓練記錄分割為多個具有相似的輸出字段值的段。背景:將C&RT決策樹模型應用于有線電視銷售的客戶分析,其中的目標字段為是否有意預訂有線電視交互服務。預測變量字段包括年齡、性別、教育、收入類別、每天看電視的時間和子女數(按有序集合編碼,值5表示5個或更多)。數據源:NewsChan.sav86建模分析(2):C&RT決策樹分類和回歸樹節(jié)點(C&RT類型節(jié)點設置NEWSCHAN設置為標志,方向設置為輸出;其他所有字段用作預測變量(輸入)。模型參數設置交互會話選擇專家模式,修剪樹和使用標準誤規(guī)則,最小雜質改變值設置為0.003(增加此值可傾向于生成較簡單的樹)。停止標準:最小絕對臨界值為25和10。87類型節(jié)點設置21執(zhí)行節(jié)點。此時將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。生成樹和修剪(五層和五個終端節(jié)點)根據當前樹生成模型可使用此流生成模型,將生成的NEWSCHAN1模型連接到類型節(jié)點。并將其連接表節(jié)點并執(zhí)行流。88執(zhí)行節(jié)點。此時將出現(xiàn)交互樹窗口,在其中可以生成并編輯樹。22數據流89數據流23結果解釋單擊交互樹窗口底部的收益選項卡,選擇1為目標類別以查看響應“是”的收益。收益:節(jié)點中具有目標類別的數量/占總體的百分比響應:節(jié)點中具有目標類別的百分比指數值:大于100%的節(jié)點表示,通過從這些節(jié)點中選擇記錄而不是從整個樣本中隨機選擇記錄,能夠有更多的機會找到愿意接受預訂的用戶。選中目標節(jié)點,生成“選擇節(jié)點”從總體數據中生成滿足目標類別的樣本生成模型——導出到表(預測值、置信度)90結果解釋單擊交互樹窗口底部的收益選項卡,選擇1為目標類別建模分析(3):關聯(lián)分析與客戶描述關聯(lián)規(guī)則分析的兩種方法:可視化技術(例如Web圖節(jié)點)關聯(lián)規(guī)則模型背景:超市客戶數據,包括客戶基本信息和購買商品信息,通過關聯(lián)分析尋找客戶購買產品之間的關系并且按人口統(tǒng)計信息(年齡、收入等)刻畫其目標客戶群體的特征數據源:BASKETS1n文本數據91建模分析(3):關聯(lián)分析與客戶描述關聯(lián)規(guī)則分析的兩種方法:2數據流構建類型節(jié)點設置讀取值設置類型:將用戶卡號cardid的類型設置為無類型,統(tǒng)計數據的方向均設置為無(在模型中不使用),產品類別設置為標志類型,并將方向設置為雙向(同時作為模型的輸入和輸出變量)。加入表節(jié)點:進行數據瀏覽三大類型數據:購物籃信息(卡號、購買價格、支付方式),持卡人信息(性別、住房、收入、年齡),商品類型信息(蔬菜水果類、鮮肉類、奶制品、罐頭蔬菜類等等)92數據流構建類型節(jié)點設置26模型建立加入web圖節(jié)點加入關聯(lián)分析Apriori\CARMA\GRI模型(一般規(guī)則歸納法)Apriori模型可以接受兩種數據排列方式,GRI和CARMA只接受一種排列方式;只接受名義字段,且字段在方向設定時必須為雙向。設置模型參數支持度S=P(A∪B)置信度C=P(B|A)Lift=P(AUB)/P(A)P(B)93模型建立加入web圖節(jié)點279428結果解釋GRI關聯(lián)分析結果:多種商品之間存在關聯(lián);Web圖95結果解釋GRI關聯(lián)分析結果:多種商品之間存在關聯(lián);29設置web圖選擇全部產品類型字段,僅顯示真值標志(同時為T的購買記錄)拉動鏈接數顯示滑塊,當顯示鏈接高于100時,可獲得三個強鏈接Web輸出控件的對話框中可指定弱連接和強連接(單擊工具欄上的黃色雙箭頭按鈕,展開顯示)在web圖設置選項中可預設96設置web圖選擇全部產品類型字段,僅顯示真值標志(同時為T的結果解釋三類關聯(lián)商品突出顯示:魚和果蔬;酒和糖果;啤酒、冷凍肉和罐裝蔬菜決策建議:商品陳列:在擺放貨架時,應該把罐裝蔬菜、冷凍肉品和啤酒放在相鄰的位置,把酒和糖果放在一起;客戶細分:三種關聯(lián)產品類別意味著三種不同購買習慣的客戶97結果解釋三類關聯(lián)商品突出顯示:31客戶細分和描述根據客戶購買的產品類型標識了三個客戶群,但是還要知道這些客戶是誰,即識別他們的人口統(tǒng)計學特征,需要為每個群中的每名客戶添加標志使用規(guī)則歸納(C5.0模型,除了生成決策樹外還可以生成規(guī)則)來基于規(guī)則描繪這些標志的特征,可以實現(xiàn)這一點。98客戶細分和描述根據客戶購買的產品類型標識了三個客戶群,但是還構建數據流使用創(chuàng)建的Web圖,可以自動生成每個群的標志。使用鼠標右鍵,單擊fruitveg和fish之間的鏈接,并選擇為鏈接生成導出節(jié)點。加入新類型節(jié)點,并進行參數設置:輸入、輸出變量。加入C5.0模型節(jié)點,設置為輸出規(guī)則集99構建數據流使用創(chuàng)建的Web圖,可以自動生成每個群的標志。數據流100數據流34結果解釋規(guī)則1用于
Tifincome<=16900andsex=MthenT購買“非健康食品”的客戶特征為收入小于16900且性別為Male決策建議:在零售領域,可能會使用這種客戶組確定特殊優(yōu)惠目標,以提高促銷響應率。101結果解釋規(guī)則1用于T35建模分析(4):Logistic回歸分析Logistic回歸可根據輸入字段的值對記錄進行分類。這種統(tǒng)計方法類似于線性回歸,但是它使用的是分類目標字段而非數值目標字段。背景:假設某個電信服務提供商非常關心流失到競爭對手那里的客戶數。如果可以使用服務使用數據預測有可能轉移到其他提供商的客戶,則可通過定制服務使用數據來盡可能多地保留這些客戶。因為目標含有兩個截然不同的類別,因此將使用二項模型。如果目標中含有多個類別,則會轉而創(chuàng)建多項模型。數據源:telco.sav102建模分析(4):Logistic回歸分析Logistic回類型節(jié)點設置添加類型節(jié)點以定義字段,確保所有類型都已正確設置。例如,值為0和1的大多數字段都可看作是標志字段。流失字段(churn)的類型設置為標志,并將其方向設置為輸出。所有其他字段的方向應設置為輸入。103類型節(jié)點設置添加類型節(jié)點以定義字段,確保所有類型都已正確設置數據流構建將特征選擇節(jié)點添加到SPSS文件節(jié)點并運行,從生成的模型節(jié)點中創(chuàng)建過濾節(jié)點,使用過濾節(jié)點選擇被認為很重要的數據來用作預測變量。將Logistic節(jié)點添加到超節(jié)點。在Logistic節(jié)點上,單擊“模型”選項卡并選擇二項過程。在二項過程區(qū)域,選擇前進法(逐步向模型中增加預測變量)。104數據流構建將特征選擇節(jié)點添加到SPSS文件節(jié)點并運行,從數據流105數據流39結果解釋獲得客戶流失的五個關鍵性影響變量分類表:識別流失客戶的準確率42.4%,識別非流失客戶的準確率92.3%,總體準確率79.2%方程中的變量:回歸系數、顯著性輸出表節(jié)點:每個客戶的流失與否的概率106結果解釋獲得客戶流失的五個關鍵性影響變量40建模分析(4):Logistic回歸分析背景:假設該電信服務提供商已按照服務使用模式對其客戶群進行了劃分(custcat字段),將這些客戶分類到四個組中。使用人口統(tǒng)計數據預測客戶的所屬類別。數據源:telco.sav類型節(jié)點設置:客戶類別字段(custcat)的方向設置為輸出。所有其他字段的方向都應設置為輸入。過濾節(jié)點設置:使用過濾節(jié)點以選取相關字段(地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別)。其他字段可以排除在此分析之外。107建模分析(4):Logistic回歸分析背景:假設該電信服務數據流構建添加Logistic節(jié)點,參數設置:選擇多項式Logistic,單擊模型選項卡并選擇逐步法。在“專家”選項卡上,選中專家模式,選中輸出,然后在“高級輸出”對話框中選中分類表。108數據流構建添加Logistic節(jié)點,參數設置:選擇多項式Lo數據流109數據流43結果解釋回歸方程顯示在人口統(tǒng)計指標中,模型識別出可用于預測客戶分組的主要指標包括:地址、教育程度、行業(yè)、居住地。分類表顯示了此模型的結果,其總體分類正確率為39.9%。特別是,此模型在識別類別4客戶時表現(xiàn)優(yōu)異(56.8%),而在識別類別2客戶時表現(xiàn)很差(4.6%)。110結果解釋回歸方程顯示44建模分析(5):神經網絡神經網絡節(jié)點用于創(chuàng)建并訓練神經網絡,通過學習過程(檢查單個記錄、為每個記錄生成預測、發(fā)現(xiàn)錯誤預測便對模型權值進行調整),神經網絡可不斷提高預測效果。神經網絡的三層:輸入層、隱藏層、輸出層隱藏層與神經單元越多,神經網絡越利于分析復雜關系111建模分析(5):神經網絡神經網絡節(jié)點用于創(chuàng)建并訓練神經網絡,構建數據流預測零售產品類型和促銷活動對銷售的影響數據源節(jié)點:GOODS1n和GOODS2n字段選項節(jié)點:導出節(jié)點:增加Increase字段類型節(jié)點加入散點圖節(jié)點:探索Increase與Promotion之間的變化關系。加入神經網絡模型,并通過表節(jié)點輸出結果112構建數據流預測零售產品類型和促銷活動對銷售的影響46數據流113數據流47結果解釋-散點圖促銷投入與銷量增長之間的潛在線性關系114結果解釋-散點圖促銷投入與銷量增長之間的潛在線性關系48結果解釋-神經網絡 估計的準確性:91.892
輸入層:7個神經元 隱藏層1:3個神經元 輸出層:1個神經元 輸入的相對重要性
Class0.4626 Promotion0.282694 Cost0.0247975 Before0.0135569115結果解釋-神經網絡 估計的準確性:91.89249模型應用可以將該神經網絡模型用于預測促銷投入對于銷售增長的拉動效果。導入數據GOOD2n,進行預測,將預測結果輸出為表,生成的$N-Increase為預測值116模型應用可以將該神經網絡模型用于預測促銷投入對于銷售增長的拉建模分析(6):聚類分析Modeler中聚類分析模型包括Kohonen、Kmeans、TwoStep。Kohonen由一個輸入單元層和一個處理單元組成的神經網絡生成聚類映像。K-Means通過定義一組起始聚類中心進行分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度解除雙方影視制作合作合同
- 2025年度科幻電影總導演專業(yè)聘用合同
- 二零二五年度電子商務平臺軟件使用及推廣許可協(xié)議
- 2025年度生態(tài)果園產權及種植技術引進合同
- 2025年度紡織品普通采購合同書
- 二零二五年度醫(yī)療健康行業(yè)業(yè)務員委托合同
- 二零二五年度手農機售后服務與技術支持合同
- 2025年度環(huán)保項目投資欠款付款協(xié)商協(xié)議書
- 二零二五年度民間借貸合同-跨境電商供應鏈融資
- 二零二五年度員工股權激勵與股權鎖定期協(xié)議
- 托物言志寫詩 知行合一做人
- 化工分離過程1緒論第1講ppt課件精選
- 陶板幕墻施工方法
- 設備管理培訓教材
- 財務報表分析財務報表分析課件
- T∕CCCMHPIE 1.2-2016 植物提取物 檳榔多糖多酚
- 局域網規(guī)劃設計_畢業(yè)論文
- 脛骨平臺骨折(課堂PPT)
- 冷室壓鑄機電腦操作控制部分操作說明
- 中考復習復分解反應類型方程式書寫訓練題(無答案)
- 病理學課程標準
評論
0/150
提交評論