數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾鎱⒖寄0錩第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾鎱⒖寄0錩第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾鎱⒖寄0錩第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾鎱⒖寄0錩第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾鎱⒖寄0錩第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、一、上機目的及內(nèi)容目的:1理解數(shù)據(jù)挖掘的基本概念及其過程;2理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、OLAP之間的關(guān)系3理解基本的數(shù)據(jù)挖掘技術(shù)與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關(guān)工具的使用。內(nèi)容:將創(chuàng)建一個數(shù)據(jù)挖掘模型以訓(xùn)練銷售數(shù)據(jù),并使用“Microsoft 決策樹”算法在客戶群中找出購買自行車模式。請將要挖掘的維度(事例維度)設(shè)置為客戶,再將客戶的屬性設(shè)置為數(shù)據(jù)挖掘算法識別模式時要使用的信息。然后算法將使用決策樹從中確定模式。下一步需要訓(xùn)練模型,以便能夠瀏覽樹視圖并從中讀取模式。市場部將根據(jù)這些模式選擇潛在的客戶發(fā)送自行車促銷信息。要求: 利用實驗室和指導(dǎo)教師提供的實驗軟件,認真完成規(guī)定的實驗內(nèi)容,真

2、實地記錄實驗中遇到的各種問題和解決的方法與過程,并根據(jù)實驗案例繪出模型及操作過程。實驗完成后,應(yīng)根據(jù)實驗情況寫出實驗報告。二、實驗原理及基本技術(shù)路線圖(方框原理圖或程序流程圖)關(guān)聯(lián)分析:關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。時序模式:通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。分類:分類是在聚類的基礎(chǔ)上對已確定的類找出該類別的概念描述,代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述,一般用規(guī)則或決策樹模式表示。三、所用儀器、材料(設(shè)備名稱、型號、規(guī)格等或使用軟件)1臺PC及Microsoft SQL Server套件四、實驗方法、步驟(或:程序代碼或操作過程)及實驗過程原始記錄( 測試數(shù)據(jù)、圖

3、表、計算等)創(chuàng)建 Analysis Services 項目1. 打開 Business Intelligence Development Studio。2. 在“文件”菜單上,指向“新建”,然后選擇“項目”。3. 確保已選中“模板”窗格中的“Analysis Services 項目”。4. 在“名稱”框中,將新項目命名為 AdventureWorks。5. 單擊“確定”。 1 / 24更改存儲數(shù)據(jù)挖掘?qū)ο蟮膶嵗?. 在 Business Intelligence Development Studio 的“項目”菜單中,選擇“屬性”。2. 在“屬性頁”窗格的左側(cè),單擊“部署”。3. 在“目標”選

4、項部分,驗證數(shù)據(jù)庫名稱是否為 localhost。如果使用的是其他實例,請鍵入該實例的名稱。單擊“確定”。創(chuàng)建數(shù)據(jù)源1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源”文件夾,然后選擇“新建數(shù)據(jù)源”。 系統(tǒng)將打開數(shù)據(jù)源向?qū)А?. 在“歡迎使用數(shù)據(jù)源向?qū)А表撁嬷?,單擊“下一步”按鈕。3. 在“選擇如何定義連接”頁上,單擊“新建”向 Adventure Works 數(shù)據(jù)庫中添加連接。系統(tǒng)將打開“連接管理器”對話框。4. 在“連接管理器”的“提供程序”列表中,選擇“本機 OLE DBMicrosoft OLE DB Provider for SQL Server”。5. 在“服務(wù)器名稱”列表中,鍵入或選

5、擇承載 AdventureWorksDW 的服務(wù)器的名稱。6. 在“登錄到服務(wù)器”組中,選擇身份驗證方法,并輸入憑據(jù)。7. 在“選擇或輸入數(shù)據(jù)庫名稱”列表中,選擇 AdventureWorksDW,再單擊“確定”按鈕。8. 單擊“下一步”按鈕進入向?qū)У南乱豁摗?. 在“模擬信息”頁中,選擇“使用服務(wù)帳戶”,再單擊“下一步”。10. 請注意,在“完成向?qū)А表撝?,?shù)據(jù)源名稱默認為 Adventure Works DW。11. 單擊“完成”。新的數(shù)據(jù)源 Adventure Works DW 將顯示在解決方案資源管理器的“數(shù)據(jù)源”文件夾中。創(chuàng)建數(shù)據(jù)源視圖1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源視

6、圖”,選擇“新建數(shù)據(jù)源視圖”。系統(tǒng)將打開數(shù)據(jù)源視圖向?qū)А?. 在“歡迎使用數(shù)據(jù)源視圖向?qū)А表撋希瑔螕簟跋乱徊健薄?. 在“選擇數(shù)據(jù)源”頁的“關(guān)系數(shù)據(jù)源”下,系統(tǒng)將默認選中您在上一個任務(wù)中創(chuàng)建的 Adventure Works DW 數(shù)據(jù)源。 單擊“下一步”。 若要創(chuàng)建新數(shù)據(jù)源,請單擊“新建數(shù)據(jù)源”,啟動數(shù)據(jù)源向?qū)А?. 在“選擇表和視圖”頁上,選擇下列各表,然后單擊右箭頭鍵,將這些表包括在新數(shù)據(jù)源視圖中:· dbo.ProspectiveBuyer · dbo.vAssocSeqLineItems · dbo.vAssocSeqOrders · dbo.

7、vTargetMail · dbo.vTimeSeries 5. 單擊“下一步”。 6. 在“完成向?qū)А表撋?,默認情況下,系統(tǒng)將數(shù)據(jù)源視圖命名為 Adventure Works DW。 單擊“完成”。系統(tǒng)將打開數(shù)據(jù)源視圖設(shè)計器,顯示 Adventure Works DW 數(shù)據(jù)源視圖。創(chuàng)建用于目標郵件方案的挖掘結(jié)構(gòu)1. 在解決方案資源管理器中,右鍵單擊“挖掘結(jié)構(gòu)”并選擇“新建挖掘結(jié)構(gòu)”啟動數(shù)據(jù)挖掘向?qū)А?. 在“歡迎使用數(shù)據(jù)挖掘向?qū)А表撋?,單擊“下一步”?. 在“選擇定義方法”頁上,確保已選中“從現(xiàn)有關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。4. 在“創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)”頁的“您要使用

8、何種數(shù)據(jù)挖掘技術(shù)?”下,選擇“Microsoft 決策樹”。 5. 單擊“下一步”。6. 在“選擇數(shù)據(jù)源視圖”頁上,請注意已默認選中 Adventure Works DW。在數(shù)據(jù)源視圖中,單擊“瀏覽”查看各表,然后單擊“關(guān)閉”返回該向?qū)А?. 單擊“下一步”。8. 在“指定表類型”頁上,選中 vTargetMail 表旁邊“事例”列中的復(fù)選框,再單擊“下一步”。9. 在“指定定型數(shù)據(jù)”頁上,確保已選中 CustomerKey 列旁邊 Key 列中的復(fù)選框。如果數(shù)據(jù)源視圖中的源表表示一個鍵,則數(shù)據(jù)挖掘向?qū)⒆詣舆x擇該列作為模型的鍵。10. 選中 BikeBuyer 列旁邊的“輸入”和“可預(yù)測”。

9、11. 單擊“建議”打開“提供相關(guān)列建議”對話框。只要選中至少一個可預(yù)測屬性,即可啟用“建議”按鈕?!疤峁┫嚓P(guān)列建議”對話框?qū)⒘谐雠c可預(yù)測列關(guān)聯(lián)最密切的列,并按照與可預(yù)測屬性的相互關(guān)系對屬性進行排序。值大于 0.05 的列將被自動選中,以包括在模型中。12. 閱讀建議,然后單擊“取消”忽略建議并保留向?qū)гO(shè)置的原始值。13. 選中以下各列旁邊的“輸入”復(fù)選框:· Age · CommuteDistance · EnglishEducation · EnglishOccupation · FirstName · Gender ·

10、 GeographyKey · HouseOwnerFlag · LastName · MaritalStatus · NumberCarsOwned · NumberChildrenAtHome · Region · TotalChildren · YearlyIncome 14. 單擊“下一步”。15. 在“指定列的內(nèi)容和數(shù)據(jù)類型”頁上,單擊“檢測”以運行對數(shù)值數(shù)據(jù)進行取樣并確定數(shù)值列是否包含連續(xù)或離散值的算法。例如,某列可包含薪金信息,用以作為連續(xù)的實際薪金值,也可包含整數(shù),用以表示離散的編碼薪金范圍(例如

11、1 = < $25,000;2 = 從 $25,000 到 $50,000)。16. 單擊“檢測”后,請查看“內(nèi)容類型”和“數(shù)據(jù)類型”列中的各項;如有必要,請進行更改,以確保設(shè)置與下表所示一致。通常,向?qū)z測數(shù)值,并分配相應(yīng)的數(shù)值數(shù)據(jù)類型;但有些情況下,您可能想要將數(shù)值作為文本處理。例如,GeographyKey 應(yīng)作為文本處理,因為對此標識符進行數(shù)學(xué)運算是不對的。列 內(nèi)容類型 數(shù)據(jù)類型 Age Continuous Long BikeBuyer Discrete Long CommuteDistance Discrete Text CustomerKey Key Long Engli

12、shEducation Discrete Text EnglishOccupation Discrete Text FirstName Discrete Text Gender Discrete Text GeographyKey Discrete Text HouseOwnerFlag Discrete Text LastName Discrete Text MaritalStatus Discrete Text NumberCarsOwned Discrete Long NumberChildrenAtHome Discrete Long Region Discrete Text Tota

13、lChildren Discrete Long YearlyIncome Continuous Double 17. 單擊“下一步”。18. 在“將數(shù)據(jù)拆分為定型集和測試集”頁上,對于“測試數(shù)據(jù)百分比”,請保留默認值 30。19. 對于“測試數(shù)據(jù)集中的最大事例數(shù)”,請鍵入 1000。單擊“下一步”。 20. 在“完成向?qū)А表撋系摹巴诰蚪Y(jié)構(gòu)名稱”中,鍵入 Targeted Mailing。21. 在“挖掘模型名稱”中,鍵入 TM_Decision_Tree。22. 選中“允許鉆取”復(fù)選框。23. 單擊“完成”。測試挖掘模型的準確性映射輸入列如果使用外部數(shù)據(jù)測試挖掘模型,則必須確保挖掘結(jié)構(gòu)中的列與

14、輸入數(shù)據(jù)中的列匹配。為此,可以使用“指定列映射”對話框。如果直接映射列名,則數(shù)據(jù)挖掘設(shè)計器將自動創(chuàng)建關(guān)系。若要刪除兩列之間的映射,請選擇將“挖掘結(jié)構(gòu)”表中的列鏈接到“選擇輸入表”表中的列的行,再按 Delete 鍵。還可以通過單擊“選擇輸入表”中的列并將其拖到“挖掘結(jié)構(gòu)”中相應(yīng)的列來手動創(chuàng)建映射。將輸入列映射到挖掘結(jié)構(gòu)1. 在數(shù)據(jù)挖掘設(shè)計器中的“挖掘準確性圖表”選項卡的“輸入選擇”選項卡中,選擇選項“指定其他數(shù)據(jù)集”。2. 單擊“指定其他數(shù)據(jù)集”選項右側(cè)的 () 按鈕。此時將打開“指定列映射”對話框。如果您要測試的結(jié)構(gòu)未顯示在“挖掘結(jié)構(gòu)”窗格中,請單擊“選擇結(jié)構(gòu)”并選擇目標郵件。3. 在“選擇

15、輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對話框。在此對話框中選擇包含表或需要使用的表的數(shù)據(jù)源視圖,然后選擇該表。用于確定模型準確性的數(shù)據(jù)必須包含可以映射到可預(yù)測列的列。為了實現(xiàn)本教程的教學(xué)目標,您需要對用于處理模型的輸入列使用相同的數(shù)據(jù)并對數(shù)據(jù)應(yīng)用篩選器。但是,理想情況下,您將使用用于處理該模型的數(shù)據(jù)中保留的測試數(shù)據(jù)集。在“選擇輸入選擇”選項卡上選擇選項“使用挖掘結(jié)構(gòu)測試事例”,將選擇該數(shù)據(jù)作為輸入。4. 在“數(shù)據(jù)源”列表中,確保已選中 Adventure Works DW。5. 在“表/視圖名稱”列表中,選擇 vTargetMail,再單擊“確定”。挖掘結(jié)構(gòu)中的列會自動映射到輸

16、入表中具有相同名稱的列。 篩選輸入行如果選擇“指定其他數(shù)據(jù)集”選項,則可以通過使用顯示事例表列和嵌套表列的一組對話框生成篩選條件??梢詮倪\算符、類型值的列表中進行選擇,并連接條件與邏輯運算符,以創(chuàng)建限制測試所用事例的復(fù)雜條件。對測試數(shù)據(jù)應(yīng)用篩選器1. 在數(shù)據(jù)挖掘設(shè)計器中的“挖掘準確性圖表”選項卡的“輸入選擇”選項卡上,單擊“打開篩選器編輯器”。 2. 此時將打開“vTargetMail 數(shù)據(jù)集篩選器”對話框。在此網(wǎng)格內(nèi),輸入轉(zhuǎn)換為將應(yīng)用于源表的 WHERE 子句的條件,以限制用于測試的事例。3. 在“挖掘結(jié)構(gòu)列”下,單擊網(wǎng)格內(nèi)頂部的行。選擇 vTargetMail。4. 單擊“值”單元。此時將

17、打開“篩選器”對話框,該對話框可幫助您對 vTargetMail 表設(shè)置條件。5. 在第一行中,單擊“挖掘結(jié)構(gòu)列”下的網(wǎng)格,然后從列的列表中選擇 Age。6. 單擊 Age 旁邊的“運算符”框,并選擇 >(大于)運算符。7. 在同一行單擊“值”框,并鍵入 20。8. 單擊“表達式”窗格以刷新該表達式,并驗證它是否正確。單擊“確定”。9. 再次單擊“確定”,關(guān)閉“篩選數(shù)據(jù)集”對話框。“輸入選擇”選項卡中的“篩選表達式”窗格會顯示剛才創(chuàng)建的篩選表達式 vTargetMail: (Age > 20)。當(dāng)制作提升圖時,模型將僅使用其年齡大于 20 的客戶進行測試。顯示模型的提升1. 在“選

18、擇要在提升圖中顯示的可預(yù)測的挖掘模型列”下,確保已在每個模型的“可預(yù)測的列名”列表中選中 Bike Buyer。2. 在“預(yù)測值”列中,選擇 1。對于具有相同可預(yù)測列的每個模型,將自動填充相同的值。顯示模型的準確性1. 在“選擇要在提升圖中顯示的可預(yù)測的挖掘模型列”下,確保已在每個模型的“可預(yù)測的列名”列表中選中 Bike Buyer。2. 將“預(yù)測值”列保留為空。查看提升圖若要查看提升圖,請切換到“挖掘準確性圖表”的“提升圖”選項卡。當(dāng)您單擊該選項卡時,便會對服務(wù)器和數(shù)據(jù)庫的挖掘結(jié)構(gòu)和輸入表或測試數(shù)據(jù)運行預(yù)測查詢。預(yù)測結(jié)果隨后會與已知的實際值進行比較,并將繪制在圖上。有關(guān)如何使用該圖的詳細信

19、息,請參閱提升圖(Analysis Services - 數(shù)據(jù)挖掘)。創(chuàng)建查詢創(chuàng)建預(yù)測查詢的第一步是選擇挖掘模型和輸入表。選擇模型和輸入表1. 在數(shù)據(jù)挖掘設(shè)計器“挖掘模型預(yù)測”選項卡的“挖掘模型”框中,單擊“選擇模型”。系統(tǒng)將打開“選擇挖掘模型”對話框。2. 在整個樹中導(dǎo)航到“目標郵件”結(jié)構(gòu),展開該結(jié)構(gòu)并選擇 TM_Decision_Tree,再單擊“確定”。3. 在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對話框。4. 在“數(shù)據(jù)源”中,選擇 Adventure Works DW。5. 在“表/視圖名稱”中,選擇 ProspectiveBuyer 表,再單擊“確定”。選擇輸入

20、表之后,預(yù)測查詢生成器便會根據(jù)各列的名稱在挖掘模型和輸入表之間創(chuàng)建默認映射。 生成預(yù)測查詢1. 在“挖掘模型預(yù)測”選項卡上的網(wǎng)格內(nèi)的“源”列中,單擊第一個空行中的單元格,然后選擇 ProspectiveBuyer。2. 在 ProspectiveBuyer 行的“字段”列中,選擇 ProspectAlternateKey。這會將唯一標識符添加到預(yù)測查詢中,以便標識誰可能購買自行車,以及誰不可能購買自行車。3. 在“源”列中,單擊下一個空行,然后選擇 TM_Decision_Tree。4. 在 TM_Decision_Tree 行的“字段”列中,選擇 Bike Buyer。這將會輸出 Microsoft 決策樹模型中作為預(yù)測目標的列。5. 在“源”列下,單擊下一個空行,然后選擇“預(yù)測函數(shù)”。6. 在“預(yù)測函數(shù)”行的“字段”列中,選擇 PredictProbability。預(yù)測函數(shù)提供有關(guān)模型如何進行預(yù)測的信息。PredictProbability 函數(shù)提供有關(guān)正確預(yù)測的概率信息。您可以在“條件/參數(shù)”列中指定預(yù)測函數(shù)的參數(shù)。7. 在 PredictProba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論