SQL-Server中的數(shù)據(jù)挖掘工具_(dá)第1頁
SQL-Server中的數(shù)據(jù)挖掘工具_(dá)第2頁
SQL-Server中的數(shù)據(jù)挖掘工具_(dá)第3頁
SQL-Server中的數(shù)據(jù)挖掘工具_(dá)第4頁
SQL-Server中的數(shù)據(jù)挖掘工具_(dá)第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 SQL Server中的數(shù)據(jù)挖掘工具一、實(shí)驗(yàn)?zāi)康?. 了解SQL Server 提供的數(shù)據(jù)挖掘模型;2. 掌握用決策樹和聚集算法創(chuàng)建OLAP挖掘模型;3. 掌握用決策樹和聚集算法創(chuàng)建關(guān)系挖掘模型;二、實(shí)驗(yàn)工具SQL Server 2000 Analysis Manager三、實(shí)驗(yàn)內(nèi)容(一) 用決策樹創(chuàng)建OLAP挖掘模型“客戶模式”使用 Microsoft 決策樹創(chuàng)建 OLAP 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型是一種包含運(yùn)行特定數(shù)據(jù)挖掘任務(wù)所需的全部設(shè)置的模型。   為什么?數(shù)據(jù)挖掘?qū)Σ檎液兔枋鎏囟ǘ嗑S數(shù)據(jù)集中的隱藏模式非常有用。因?yàn)槎嗑S數(shù)據(jù)集中的數(shù)據(jù)增長很快,所以手動(dòng)查找信息可能非常困難。

2、數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找及交互式分析。管理員可以在 Analysis Services 中設(shè)置將要訓(xùn)練數(shù)據(jù)的數(shù)據(jù)挖掘模型。然后,用戶可以使用 ISV 客戶端工具對(duì)受訓(xùn)數(shù)據(jù)運(yùn)行高級(jí)分析。 方案:市場(chǎng)部想提高客戶滿意度和客戶保有率。于是實(shí)行了兩個(gè)創(chuàng)造性的方法以達(dá)到這些目標(biāo)。對(duì)會(huì)員卡方案重新進(jìn)行定義,以便更好地為客戶提供服務(wù)并且使所提供的服務(wù)能夠更加密切地滿足客戶的期望。創(chuàng)辦每周贈(zèng)券雜志,將雜志送給客戶群,以鼓勵(lì)他們?cè)L問 FoodMart 商店。 為了重新定義會(huì)員卡方案,市場(chǎng)部想分析當(dāng)前銷售事務(wù)并找出客戶人口統(tǒng)計(jì)信息(婚姻狀況、年收入、在家子女?dāng)?shù)等等)和所申請(qǐng)卡之間的模式。然后根據(jù)這些信息

3、和申請(qǐng)會(huì)員卡的客戶的特征重新定義會(huì)員卡。本節(jié)將創(chuàng)建一個(gè)數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用“Microsoft 決策樹”算法在客戶群中找出會(huì)員卡選擇模式。請(qǐng)將要挖掘的維度(事例維度)設(shè)置為客戶,再將 Member_Card 成員的屬性設(shè)置為數(shù)據(jù)挖掘算法識(shí)別模式時(shí)要使用的信息。然后選擇人口統(tǒng)計(jì)特征列表,算法將從中確定模式:婚姻狀況、年收入、在家子女?dāng)?shù)和教育程度。下一步需要訓(xùn)練模型,以便能夠?yàn)g覽樹視圖并從中讀取模式。市場(chǎng)部將根據(jù)這些模式設(shè)計(jì)新的會(huì)員卡,使其適應(yīng)申請(qǐng)各類會(huì)員卡的客戶類型。如何創(chuàng)建揭示客戶模式的數(shù)據(jù)挖掘模型1. 在 Analysis Manager 樹視圖中,展開“多維數(shù)據(jù)集”文件夾,右

4、擊“Sales”多維數(shù)據(jù)集,然后選擇“新建挖掘模型”命令。 2. 打開挖掘模型向?qū)?。在“選擇數(shù)據(jù)挖掘技術(shù)”步驟中的“技術(shù)”框中選擇“Microsoft 決策樹”。單擊“下一步”按鈕。 3. 在“選擇事例”步驟中,在“維度”框中選擇“Customer”。在“級(jí)別”框中,確保選擇了“Lname”。單擊“下一步”按鈕。 4. 在“選擇被預(yù)測(cè)實(shí)體”步驟中,選擇“事例級(jí)別的成員屬性”。然后在“成員屬性”框中選擇“Member Card”。 5. 單擊“下一步”按鈕。 6. 在“選擇訓(xùn)練數(shù)據(jù)”步驟中,滾動(dòng)到“Customer”維度,清除“Country”、“State Province”和“City”框(

5、因?yàn)椴恍枰诰奂?jí)別上而只需要在單獨(dú)的客戶級(jí)別上確定客戶模式)。單擊“下一步”按鈕。 7. 在“創(chuàng)建維度和虛擬多維數(shù)據(jù)集(可選)”步驟中,在“維度名稱”框中輸入“Customer Patterns”。然后在“虛擬多維數(shù)據(jù)集名稱”框中輸入“Trained Cube”。單擊“下一步”按鈕。 8. 在最后的步驟中,在“模型名稱”字段中鍵入“Customer patterns discovery”。確保選擇了“保存并開始處理”。單擊“完成”按鈕。 注意:處理數(shù)據(jù)挖掘模型可能會(huì)花費(fèi)一些時(shí)間。 9. 出現(xiàn)一個(gè)窗口,顯示模型正在處理之中。處理完成之后,出現(xiàn)一則消息,說明“已成功完成處理”,然后單擊“關(guān)閉”按

6、鈕。  如何讀取客戶決策樹1. 現(xiàn)在已在 OLAP 挖掘模型編輯器中??梢允褂镁庉嬈骶庉嬆P蛯傩曰蛘邽g覽其結(jié)果。最大化 OLAP 挖掘模型編輯器。 2. 決策樹顯示于右窗格中。其中包括四個(gè)窗格。中間的“內(nèi)容詳情”窗格 (1) 顯示焦點(diǎn)所在的決策樹的部分。“內(nèi)容選擇區(qū)”窗格 (2) 顯示樹的完整視圖。該窗格使您可以將焦點(diǎn)設(shè)置到樹的其它部分。其它的兩個(gè)窗格分別是“特性”窗格 (3)(特性信息可以用“合計(jì)”選項(xiàng)卡以數(shù)值方式查看或者用“直方圖”選項(xiàng)卡以圖形方式查看)和與焦點(diǎn)所在節(jié)點(diǎn)相關(guān)聯(lián)的“節(jié)點(diǎn)路徑”區(qū)域 (4)。 3. 在“內(nèi)容詳情”窗格的決策樹區(qū)域中,顏色代表“事例”的密度(在本事例中為

7、:客戶的密度)。顏色越深則節(jié)點(diǎn)中包含的事例就越多。 單擊“全部”節(jié)點(diǎn)。該節(jié)點(diǎn)為黑色,因?yàn)樗?(7632) 事例的 100%。7632 代表 1998 年活動(dòng)的客戶數(shù)目(即 Sales 多維數(shù)據(jù)集中有事務(wù)記錄的客戶)。這個(gè)數(shù)字也說明在 1998 年并非所有的客戶都是活動(dòng)的,因?yàn)槲覀儚摹癈ustomer”維度的“Lname”級(jí)別中所包含的 9991 個(gè)客戶中只得到 7632 個(gè)事例。 4. 特性窗格顯示“全部”節(jié)點(diǎn)中,所有事例的 55.83%(或者說 4263 個(gè)示例)可能選擇銅卡 (Bronze);11.50% 可能選擇金卡 (Golden);23.32% 可能選擇普通卡 (Normal);

8、9.34% 可能選擇銀卡 (Silver)。如果沒有顯示百分比,則可以調(diào)整“特性”窗格中“合計(jì)”面板的“可能性”列的大小。 5. 如果選擇了樹的不同節(jié)點(diǎn),此百分比將會(huì)更改。讓我們調(diào)查一下哪些客戶可能選擇金卡。若要執(zhí)行此操作,則需要重新畫出樹以便勾畫出金卡的高密度區(qū)。在右下角的“樹顏色基于”字段中選擇“Golden”。該樹顯示另一種顏色模式。可以看出“Customer.Lname.Yearly Income = $150K+”節(jié)點(diǎn)的密度高于其它任何節(jié)點(diǎn)。   6. 樹的第一個(gè)級(jí)別由“yearly income”屬性決定。樹的組織由算法決定,其基礎(chǔ)是該屬性在輸出中的重要性。這意味著“ye

9、arly income”屬性是最重要的因素,它將決定客戶可能選擇的會(huì)員卡的類型。選擇“Customer.Lname.Yearly Income = $150K+”節(jié)點(diǎn)。該特性窗格顯示收入較多的客戶中,45.09% 的客戶可能會(huì)選擇金卡。這個(gè)百分比要比“全部”節(jié)點(diǎn)中的 (11.50%) 高得多。當(dāng)繼續(xù)在樹中做進(jìn)一步調(diào)查時(shí),讓我們調(diào)查一下這些百分比是如何演化的。 7. 雙擊“Customer.Lname.Yearly Income =  $150K+”節(jié)點(diǎn)。 該樹現(xiàn)在只顯示“Customer.Lname.Yearly Income =  $150K+”節(jié)點(diǎn)下的子樹。 選擇“Cu

10、stomer.Lname.Marital Status =  M”節(jié)點(diǎn)。在“節(jié)點(diǎn)路徑”窗格中,可以看到包含于該節(jié)點(diǎn)的客戶的完整的特征定義:收入高于 150000 美元且已婚的客戶。該“特性”窗格現(xiàn)在顯示:與上一級(jí)別 (45.09%) 相比,較高百分比 (81.05%) 的客戶可能會(huì)選擇金卡。 8. 我們?cè)俜祷氐巾攲?,進(jìn)行一種與此不同的調(diào)查,即調(diào)查可能選擇普通卡的客戶。若要返回頂層節(jié)點(diǎn),可以單擊從“Customer.Lname.Yearly Income =  $150K+”節(jié)點(diǎn)左面伸出來的線(方法 1)或者使用“內(nèi)容選擇區(qū)”回到樹的頂部(方法 2)。 9. 在“樹顏色基于”

11、字段中選擇“Normal”。樹刷新節(jié)點(diǎn)的顏色之后,可以看到“Customer.Lname.Yearly Income = $150K+”節(jié)點(diǎn)的顏色非常淺;這意味著這些客戶選擇普通卡的可能性非常小。另一方面,可以看到“Customer.Lname.Yearly Income = $10K $30K”節(jié)點(diǎn)的顏色非常深。這意味著這些客戶選擇普通卡的可能性非常高。“特性”窗格顯示在此年收入范圍內(nèi)的客戶中,91.92% 的客戶可能會(huì)選擇普通卡。樹還顯示已無法對(duì)此節(jié)點(diǎn)進(jìn)行進(jìn)一步調(diào)查。這意味著在樹的這個(gè)分支中,年收入是決定客戶選擇普通卡的可能性的唯一因素。 10. 可以查看樹的其它分支并調(diào)查客戶選擇一種卡而

12、不選擇另一種卡的可能性。市場(chǎng)部可以使用此信息來確定最可能選擇某種類型卡的客戶的特征。根據(jù)這些特征(收入、子女?dāng)?shù)、婚姻狀況等等),可以重新定義會(huì)員卡服務(wù)和方案以便更好地適應(yīng)其客戶。 11. 完成對(duì)決策樹的分析之后,請(qǐng)關(guān)閉 OLAP 挖掘模型編輯器。  瀏覽 OLAP 數(shù)據(jù)挖掘維度和虛擬多維數(shù)據(jù)集數(shù)據(jù)挖掘維度和虛擬多維數(shù)據(jù)集是兩個(gè)彼此關(guān)聯(lián)的對(duì)象,在使用 Microsoft 決策樹算法建立 OLAP 數(shù)據(jù)挖掘模型時(shí)得以創(chuàng)建。   為什么?OLAP 數(shù)據(jù)挖掘模型提供了一個(gè)新增的功能,可以選擇創(chuàng)建數(shù)據(jù)挖掘維度和虛擬多維數(shù)據(jù)集。數(shù)據(jù)挖掘維度由決策樹的節(jié)點(diǎn)組成,具有與決策樹本身類似的層次

13、結(jié)構(gòu)。此數(shù)據(jù)挖掘維度然后將添加到多維數(shù)據(jù)集,用于虛擬多維數(shù)據(jù)集中的數(shù)據(jù)挖掘模型預(yù)測(cè)。使用虛擬多維數(shù)據(jù)集,用戶可以瀏覽與決策樹的特定節(jié)點(diǎn)相關(guān)的原多維數(shù)據(jù)集中所包含的數(shù)據(jù)。它提供有關(guān)決策樹單個(gè)節(jié)點(diǎn)的詳細(xì)信息,例如,哪些單個(gè)客戶屬于此節(jié)點(diǎn),這些客戶購買了什么產(chǎn)品,在何處購買,以及其它有關(guān)信息。 方案:數(shù)據(jù)挖掘模型結(jié)果允許重新定義成員資格卡程序?,F(xiàn)在市場(chǎng)部想要進(jìn)一步了解這些客戶的情況:他們的人口統(tǒng)計(jì)分布狀況如何?他們購買哪些類型的產(chǎn)品等等。 在上一節(jié)定義 OLAP 數(shù)據(jù)挖掘模型時(shí)曾創(chuàng)建了數(shù)據(jù)挖掘維度,本節(jié)將瀏覽該數(shù)據(jù)挖掘維度。然后,將瀏覽定義數(shù)據(jù)挖掘模型時(shí)所創(chuàng)建的虛擬多維數(shù)據(jù)集。此操作允許為市場(chǎng)部提供

14、有關(guān)決策樹每個(gè)節(jié)點(diǎn)的人口統(tǒng)計(jì)分布信息何和產(chǎn)品購買模式。 如何瀏覽數(shù)據(jù)挖掘虛擬維度1. 在 Analysis Manager 樹視圖中,展開“共享維度”文件夾,右擊“Customer patterns”維度,然后單擊“瀏覽維度數(shù)據(jù)”命令。 2. 維度瀏覽器打開。展開“全部”成員維度。 3. 選擇“Customer.Lname.Yearly Income = $150K+”成員。在“自定義成員公式”窗格中,出現(xiàn)定義該節(jié)點(diǎn)的 MDX 公式。 4. 可以繼續(xù)展開維度并考察該節(jié)點(diǎn)的屬性。完成時(shí),單擊“關(guān)閉”按鈕。 如何瀏覽數(shù)據(jù)挖掘虛擬多維數(shù)據(jù)集1. 在 Analysis Manage

15、r 樹窗格中,展開“多維數(shù)據(jù)集”文件夾,右擊“Trained Cube”多維數(shù)據(jù)集,然后選擇“瀏覽數(shù)據(jù)”命令。 2. 多維數(shù)據(jù)集瀏覽器打開。最大化該多維數(shù)據(jù)集瀏覽器。 3. 將“Customer Patterns”維度拖動(dòng)到“MeasuresLevel”框,以便用“Customer Patterns”維度替換“Measures”維度。   4. 按下列順序雙擊,展開“Customer”維度:“USA”->“WA”->“Redmond”。顯示 Redmond 地區(qū)的所有客戶。 5. 雙擊“級(jí)別 01”展開“Customer”維度。顯示“Customer Patterns”維

16、度的第一個(gè)級(jí)別。   6. 關(guān)閉多維數(shù)據(jù)集瀏覽器。 (二、) 用聚集算法創(chuàng)建OLAP挖掘模型“客戶分組”:使用 Microsoft 聚集創(chuàng)建 OLAP 數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型是包含運(yùn)行特定數(shù)據(jù)挖掘任務(wù)所需全部設(shè)置的模型。   為什么?數(shù)據(jù)挖掘?qū)Σ檎液兔枋鎏囟ǘ嗑S數(shù)據(jù)集中的隱藏模式非常有用。 隨著多維數(shù)據(jù)集中的數(shù)據(jù)迅速增長,手動(dòng)查找信息變得非常困難。數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找及交互式分析。管理員現(xiàn)在可以在將要訓(xùn)練數(shù)據(jù)的 Analysis Services 中設(shè)置數(shù)據(jù)挖掘模型。然后用戶可以使用 ISV 客戶端工具對(duì)受訓(xùn)數(shù)據(jù)運(yùn)行高級(jí)分析。 方案:市場(chǎng)部想增加客戶滿意度和

17、客戶保有率。于是實(shí)行了兩個(gè)創(chuàng)造性的方法以達(dá)到這些目標(biāo)。對(duì)會(huì)員卡方案重新進(jìn)行定義,以便更好地為客戶提供服務(wù)并且使所提供的服務(wù)能夠更加密切地滿足客戶的期望。創(chuàng)辦每周贈(zèng)券雜志,將雜志送給客戶群,以鼓勵(lì)他們?cè)L問 FoodMart 商店。 我們?cè)谏弦徽轮v述了如何使用“Microsoft 決策樹”算法重新定義會(huì)員卡方案。 為了定義每周贈(zèng)券雜志,市場(chǎng)部想將客戶群劃分為三個(gè)類別。事實(shí)上,市場(chǎng)部已有創(chuàng)建三個(gè)版本的每周贈(zèng)券雜志的財(cái)政預(yù)算。市場(chǎng)部想對(duì)銷售數(shù)據(jù)運(yùn)行一些數(shù)據(jù)挖掘進(jìn)程,以便識(shí)別三個(gè)組中的客戶。根據(jù)三個(gè)組的特征,市場(chǎng)部可以選擇贈(zèng)券的類型,以便插入各個(gè)版本的每周贈(zèng)券雜志。市場(chǎng)部還將能夠知道哪一類客戶應(yīng)該接收哪

18、一個(gè)版本的雜志。 本節(jié)將創(chuàng)建第二個(gè)數(shù)據(jù)挖掘模型,此模型將使用“Microsoft 聚集”算法將客戶群劃分為三個(gè)類別。請(qǐng)將客戶設(shè)置為要調(diào)查的維度(事例維度)。然后將 Store Sales(商店銷售)度量值設(shè)置為數(shù)據(jù)挖掘算法劃分 Customer(客戶)維度所用信息。接下來,請(qǐng)選擇想要在算法中表示各個(gè)客戶類別特性的人口統(tǒng)計(jì)特征列表:婚姻狀況、年收入、在家子女?dāng)?shù)、教育程度 然后訓(xùn)練此模型,最終使其能夠?yàn)g覽受訓(xùn)數(shù)據(jù)并從中分析三種客戶類別。市場(chǎng)部將根據(jù)每個(gè)客戶類別的人口統(tǒng)計(jì)屬性,選擇將要插入每周贈(zèng)券雜志各個(gè)版本中的贈(zèng)券列表。 如何創(chuàng)建將客戶群劃分為邏輯段的數(shù)據(jù)挖掘模型 1. 在 Analys

19、is Manager 樹窗格中展開“多維數(shù)據(jù)集”文件夾,右擊“Sales”多維數(shù)據(jù)集,然后單擊“新建挖掘模型”命令。 2. 在挖掘模型向?qū)У摹斑x擇數(shù)據(jù)挖掘技術(shù)”步驟中,在“技術(shù)”框中單擊“Microsoft 聚集”。單擊“下一步”按鈕。 3. 在“選擇事例”步驟中的“維度”框中,選擇“Customer”。在“級(jí)別”框中,確保已經(jīng)選擇了“Lname”。 單擊“下一步”按鈕。 4. 在“選擇訓(xùn)練數(shù)據(jù)”步聚中,在“Customer”維度中清除“Country”、“State Province”和“City”復(fù)選框,因?yàn)闆]有必要使用匯總級(jí)別劃分客戶群。然后,在“Measures”維度中只選擇“Stor

20、e Sales”。單擊“下一步”按鈕。 5. 在最后一個(gè)步驟中,在“模型名稱”框中輸入“Customer segmentation”。選擇“保存,但現(xiàn)在不處理”。單擊“完成”按鈕。 6. 當(dāng)前在 OLAP 挖掘模型編輯器中。可以使用此編輯器編輯模型屬性或?yàn)g覽其結(jié)果。 7. 在編輯器的左窗格的屬性窗格中,在“Cluster Count”框中,用“3”代替“10”。 8. 保存所做更改。 9. 單擊“工具”菜單上的“處理挖掘模型”命令。 注意: 處理數(shù)據(jù)挖掘模型可能會(huì)花費(fèi)一些時(shí)間。10. 出現(xiàn)“處理”窗口,顯示正在處理模型。處理完成之后出現(xiàn)一則消息,說明“已成功完成處理”。單擊“關(guān)閉”按鈕。

21、60;如何讀取包含在各個(gè)聚集(客戶段)中的信息1. 現(xiàn)在已回到 OLAP 挖掘模型編輯器。分段樹顯示于右窗格中。右窗格由四個(gè)窗格組成:中間的“內(nèi)容詳情”窗格 (1) 顯示焦點(diǎn)所在的分段樹的部分。“內(nèi)容選擇區(qū)”窗格 (2) 顯示樹的完整視圖。該窗格使您可以將焦點(diǎn)設(shè)置到樹的其它部分。其它的兩個(gè)窗格分別是“特性”窗格 (3)(特性信息可以用“合計(jì)”選項(xiàng)卡以數(shù)值方式查看或者用“直方圖”選項(xiàng)卡以圖形方式查看)和與焦點(diǎn)所在節(jié)點(diǎn)相關(guān)聯(lián)的“節(jié)點(diǎn)路徑”區(qū)域 (4)。   2. 在“內(nèi)容詳情”窗格中,在分段樹區(qū)域中,顏色代表事例的密度(在此事例中為客戶的密度)。顏色越深則節(jié)點(diǎn)中包含的事例就越多。單擊“全

22、部”節(jié)點(diǎn)。該節(jié)點(diǎn)為黑色,因?yàn)樗?100% 的事例(客戶)。 3. 單擊“Cluster 1”。特性窗格顯示一個(gè)下拉列表和一個(gè)網(wǎng)格。下拉列表可用于選擇特定的客戶人口統(tǒng)計(jì)特征。網(wǎng)格顯示以人口統(tǒng)計(jì)特征的各個(gè)值為基礎(chǔ)對(duì)聚集中客戶的重新分區(qū)。 4. 對(duì)于“Cluster 1”,請(qǐng)選擇“節(jié)點(diǎn)特性集”框中的“Customer.Lname.Marital Status”,然后轉(zhuǎn)到“特性”網(wǎng)格。網(wǎng)格顯示“Cluster 1”包括 2878 個(gè)事例,對(duì)于“婚姻狀況”特征,事例分布如下:21.12% 的客戶已婚,其余 78.88% 單身。   5. 讓我們從另一個(gè)角度查看這些相同的 2878 個(gè)事例。

23、在“節(jié)點(diǎn)特性集”框中,選擇“Customer.Lname.Yearly Income”。網(wǎng)格中的分布顯示 0% 的客戶收入在 10000-30000 美元范圍之內(nèi);41.62% 的客戶收入在 30000-50000 美元范圍之內(nèi);24.01% 的客戶收入在 50000-70000 美元范圍之內(nèi)。結(jié)果顯示該聚集的 65% 以上的客戶在中等收入(年收入為 30000-70000 美元)范圍之內(nèi)。 6. 現(xiàn)在可以知道“Cluster 1”主要由中等收入的客戶構(gòu)成而且主要由單身客戶構(gòu)成。在列表中選擇“Customer.Lname.Num Children At Home”。結(jié)果顯示該聚集中平均在家子女

24、數(shù)為零。此項(xiàng)選擇顯示一個(gè)平均數(shù)而不是重新分區(qū),因?yàn)樵磾?shù)據(jù)庫的“Num of Children at Home”字段中包含連續(xù)的值。當(dāng)算法發(fā)現(xiàn)源數(shù)據(jù)中包含不連續(xù)的值,它將顯示包含這些值的重新分區(qū)。 當(dāng)算法發(fā)現(xiàn)源數(shù)據(jù)中包含連續(xù)的值(即非預(yù)定義數(shù)字),它將計(jì)算并顯示平均值。 7. 在“節(jié)點(diǎn)特性集”框中,選擇“Measures.Stores Sales”。網(wǎng)格顯示在“Cluster 1”中對(duì)每個(gè)客戶的平均銷售額為 72.42 美元。 8. 市場(chǎng)部現(xiàn)在了解到“Cluster 1”主要由中等收入的客戶構(gòu)成,而且完全是由單身客戶構(gòu)成,這些客戶家中沒有子女,每年在 FoodMart 商店平均花費(fèi) 72.42

25、美元。根據(jù)這種情況,市場(chǎng)部可以確定在周刊中插入哪種贈(zèng)券了。您也可以在樹中瀏覽以確定在“Cluster 2”和“Cluster 3”中所包含客戶特征。 9. 瀏覽完其它聚集后,請(qǐng)關(guān)閉 OLAP 挖掘模型編輯器。(三、) 用決策樹創(chuàng)建關(guān)系挖掘模型;使用 Microsoft 決策樹創(chuàng)建關(guān)系數(shù)據(jù)挖掘模型數(shù)據(jù)挖掘模型是一種包含運(yùn)行特定數(shù)據(jù)挖掘任務(wù)所需的全部設(shè)置的模型。   為什么?數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)和描述關(guān)系表中的隱藏模式非常有用。因?yàn)閿?shù)據(jù)庫中的數(shù)據(jù)增長很快,手動(dòng)查找信息會(huì)變得非常困難。數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找。數(shù)據(jù)挖掘通常用于定義郵件列表或客戶在 Web 站點(diǎn)上的下一移動(dòng)。管理員現(xiàn)在

26、可以在 Analysis Services 中設(shè)置將要訓(xùn)練數(shù)據(jù)的數(shù)據(jù)挖掘模型。然后,用戶可以使用 ISV 客戶端工具對(duì)受訓(xùn)數(shù)據(jù)運(yùn)行高級(jí)分析。方案:市場(chǎng)部現(xiàn)在已漸漸熟悉數(shù)據(jù)挖掘的技術(shù)。他們認(rèn)識(shí)到數(shù)據(jù)倉庫中包含大量多維數(shù)據(jù)集所沒有的信息。他們想分析這些詳細(xì)的信息,以便找出這些信息是否能揭示關(guān)于客戶購買行為的有意義的事實(shí)。   在本節(jié),將使用“Microsoft 決策樹”算法創(chuàng)建一個(gè)關(guān)系挖掘模型,以便調(diào)查數(shù)據(jù)倉庫中的數(shù)據(jù)。 如何創(chuàng)建揭示客戶模式的數(shù)據(jù)挖掘模型1. 在 Analysis Manager 樹窗格中右擊“挖掘模型”文件夾,然后單擊“新建挖掘模型”命令。 2. 打開挖掘模型向?qū)?。?/p>

27、“歡迎使用挖掘模型向?qū)А辈襟E中,單擊“下一步”按鈕。 3. 在“選擇源類型”步驟中,單擊“關(guān)系數(shù)據(jù)”。單擊“下一步”按鈕。 4. 在“選擇事例表”步驟中,單擊“單個(gè)表包含數(shù)據(jù)”。在“可用的表”框中選擇“Customer”。單擊“下一步”按鈕。 5. 在“選擇數(shù)據(jù)挖掘技術(shù)”步驟中,在“技術(shù)”框中選擇“Microsoft 決策樹”。單擊“下一步”按鈕。 6. 在“選擇鍵列”步驟中,在“事例鍵列”框中單擊“customer_id”。然后單擊“下一步”按鈕。 7. 在“選擇輸入與可預(yù)測(cè)列”步驟中,選擇以下列,然后用“>”按鈕依次移動(dòng)到“可預(yù)測(cè)列”框中:“marital_status”、“yearly_income”、“num_children_at_home”、“total_children”、“education”、“member_card”、“occupation”、“houseowner”和“num_cars_owned”。 8. 這些列還將用作輸入列。選擇同樣的列并通過“輸入列”列表旁邊的“>”按鈕將其移動(dòng)到“輸入列”框中。單擊“下一步”按鈕。 9. 在最后的步驟中,在“模型名稱”框中輸入“Advanced customer patterns discovery”。確保選擇了“保存并立即處理”。單擊“完成”按鈕。 注意: 處理數(shù)據(jù)挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論