




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一、上機目的及內容目的:1理解數(shù)據(jù)挖掘的基本概念及其過程;2理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫、OLAP之間的關系3理解基本的數(shù)據(jù)挖掘技術與方法的工作原理與過程,掌握數(shù)據(jù)挖掘相關工具的使用。內容:將創(chuàng)建一個數(shù)據(jù)挖掘模型以訓練銷售數(shù)據(jù),并使用“Microsoft 決策樹”算法在客戶群中找出購買自行車模式。請將要挖掘的維度(事例維度)設置為客戶,再將客戶的屬性設置為數(shù)據(jù)挖掘算法識別模式時要使用的信息。然后算法將使用決策樹從中確定模式。下一步需要訓練模型,以便能夠瀏覽樹視圖并從中讀取模式。市場部將根據(jù)這些模式選擇潛在的客戶發(fā)送自行車促銷信息。要求: 利用實驗室和指導教師提供的實驗軟件,認真完成規(guī)定的實驗內容,真
2、實地記錄實驗中遇到的各種問題和解決的方法與過程,并根據(jù)實驗案例繪出模型及操作過程。實驗完成后,應根據(jù)實驗情況寫出實驗報告。二、實驗原理及基本技術路線圖(方框原理圖或程序流程圖)關聯(lián)分析:關聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。時序模式:通過時間序列搜索出重復發(fā)生概率較高的模式。分類:分類是在聚類的基礎上對已確定的類找出該類別的概念描述,代表了這類數(shù)據(jù)的整體信息,既該類的內涵描述,一般用規(guī)則或決策樹模式表示。三、所用儀器、材料(設備名稱、型號、規(guī)格等或使用軟件)1臺PC及Microsoft SQL Server套件四、實驗方法、步驟(或:程序代碼或操作過程)及實驗過程原始記錄( 測試數(shù)據(jù)、圖
3、表、計算等)創(chuàng)建 Analysis Services 項目1. 打開 Business Intelligence Development Studio。2. 在“文件”菜單上,指向“新建”,然后選擇“項目”。3. 確保已選中“模板”窗格中的“Analysis Services 項目”。4. 在“名稱”框中,將新項目命名為 AdventureWorks。5. 單擊“確定”。 1 / 24更改存儲數(shù)據(jù)挖掘對象的實例1. 在 Business Intelligence Development Studio 的“項目”菜單中,選擇“屬性”。2. 在“屬性頁”窗格的左側,單擊“部署”。3. 在“目標”選
4、項部分,驗證數(shù)據(jù)庫名稱是否為 localhost。如果使用的是其他實例,請鍵入該實例的名稱。單擊“確定”。創(chuàng)建數(shù)據(jù)源1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源”文件夾,然后選擇“新建數(shù)據(jù)源”。 系統(tǒng)將打開數(shù)據(jù)源向導。2. 在“歡迎使用數(shù)據(jù)源向導”頁面中,單擊“下一步”按鈕。3. 在“選擇如何定義連接”頁上,單擊“新建”向 Adventure Works 數(shù)據(jù)庫中添加連接。系統(tǒng)將打開“連接管理器”對話框。4. 在“連接管理器”的“提供程序”列表中,選擇“本機 OLE DBMicrosoft OLE DB Provider for SQL Server”。5. 在“服務器名稱”列表中,鍵入或選
5、擇承載 AdventureWorksDW 的服務器的名稱。6. 在“登錄到服務器”組中,選擇身份驗證方法,并輸入憑據(jù)。7. 在“選擇或輸入數(shù)據(jù)庫名稱”列表中,選擇 AdventureWorksDW,再單擊“確定”按鈕。8. 單擊“下一步”按鈕進入向導的下一頁。9. 在“模擬信息”頁中,選擇“使用服務帳戶”,再單擊“下一步”。10. 請注意,在“完成向導”頁中,數(shù)據(jù)源名稱默認為 Adventure Works DW。11. 單擊“完成”。新的數(shù)據(jù)源 Adventure Works DW 將顯示在解決方案資源管理器的“數(shù)據(jù)源”文件夾中。創(chuàng)建數(shù)據(jù)源視圖1. 在解決方案資源管理器中,右鍵單擊“數(shù)據(jù)源視
6、圖”,選擇“新建數(shù)據(jù)源視圖”。系統(tǒng)將打開數(shù)據(jù)源視圖向導。2. 在“歡迎使用數(shù)據(jù)源視圖向導”頁上,單擊“下一步”。3. 在“選擇數(shù)據(jù)源”頁的“關系數(shù)據(jù)源”下,系統(tǒng)將默認選中您在上一個任務中創(chuàng)建的 Adventure Works DW 數(shù)據(jù)源。 單擊“下一步”。 若要創(chuàng)建新數(shù)據(jù)源,請單擊“新建數(shù)據(jù)源”,啟動數(shù)據(jù)源向導。4. 在“選擇表和視圖”頁上,選擇下列各表,然后單擊右箭頭鍵,將這些表包括在新數(shù)據(jù)源視圖中:· dbo.ProspectiveBuyer · dbo.vAssocSeqLineItems · dbo.vAssocSeqOrders · dbo.
7、vTargetMail · dbo.vTimeSeries 5. 單擊“下一步”。 6. 在“完成向導”頁上,默認情況下,系統(tǒng)將數(shù)據(jù)源視圖命名為 Adventure Works DW。 單擊“完成”。系統(tǒng)將打開數(shù)據(jù)源視圖設計器,顯示 Adventure Works DW 數(shù)據(jù)源視圖。創(chuàng)建用于目標郵件方案的挖掘結構1. 在解決方案資源管理器中,右鍵單擊“挖掘結構”并選擇“新建挖掘結構”啟動數(shù)據(jù)挖掘向導。2. 在“歡迎使用數(shù)據(jù)挖掘向導”頁上,單擊“下一步”。3. 在“選擇定義方法”頁上,確保已選中“從現(xiàn)有關系數(shù)據(jù)庫或數(shù)據(jù)倉庫”,再單擊“下一步”。4. 在“創(chuàng)建數(shù)據(jù)挖掘結構”頁的“您要使用
8、何種數(shù)據(jù)挖掘技術?”下,選擇“Microsoft 決策樹”。 5. 單擊“下一步”。6. 在“選擇數(shù)據(jù)源視圖”頁上,請注意已默認選中 Adventure Works DW。在數(shù)據(jù)源視圖中,單擊“瀏覽”查看各表,然后單擊“關閉”返回該向導。7. 單擊“下一步”。8. 在“指定表類型”頁上,選中 vTargetMail 表旁邊“事例”列中的復選框,再單擊“下一步”。9. 在“指定定型數(shù)據(jù)”頁上,確保已選中 CustomerKey 列旁邊 Key 列中的復選框。如果數(shù)據(jù)源視圖中的源表表示一個鍵,則數(shù)據(jù)挖掘向導將自動選擇該列作為模型的鍵。10. 選中 BikeBuyer 列旁邊的“輸入”和“可預測”。
9、11. 單擊“建議”打開“提供相關列建議”對話框。只要選中至少一個可預測屬性,即可啟用“建議”按鈕?!疤峁┫嚓P列建議”對話框將列出與可預測列關聯(lián)最密切的列,并按照與可預測屬性的相互關系對屬性進行排序。值大于 0.05 的列將被自動選中,以包括在模型中。12. 閱讀建議,然后單擊“取消”忽略建議并保留向導設置的原始值。13. 選中以下各列旁邊的“輸入”復選框:· Age · CommuteDistance · EnglishEducation · EnglishOccupation · FirstName · Gender ·
10、 GeographyKey · HouseOwnerFlag · LastName · MaritalStatus · NumberCarsOwned · NumberChildrenAtHome · Region · TotalChildren · YearlyIncome 14. 單擊“下一步”。15. 在“指定列的內容和數(shù)據(jù)類型”頁上,單擊“檢測”以運行對數(shù)值數(shù)據(jù)進行取樣并確定數(shù)值列是否包含連續(xù)或離散值的算法。例如,某列可包含薪金信息,用以作為連續(xù)的實際薪金值,也可包含整數(shù),用以表示離散的編碼薪金范圍(例如
11、1 = < $25,000;2 = 從 $25,000 到 $50,000)。16. 單擊“檢測”后,請查看“內容類型”和“數(shù)據(jù)類型”列中的各項;如有必要,請進行更改,以確保設置與下表所示一致。通常,向導會檢測數(shù)值,并分配相應的數(shù)值數(shù)據(jù)類型;但有些情況下,您可能想要將數(shù)值作為文本處理。例如,GeographyKey 應作為文本處理,因為對此標識符進行數(shù)學運算是不對的。列 內容類型 數(shù)據(jù)類型 Age Continuous Long BikeBuyer Discrete Long CommuteDistance Discrete Text CustomerKey Key Long Engli
12、shEducation Discrete Text EnglishOccupation Discrete Text FirstName Discrete Text Gender Discrete Text GeographyKey Discrete Text HouseOwnerFlag Discrete Text LastName Discrete Text MaritalStatus Discrete Text NumberCarsOwned Discrete Long NumberChildrenAtHome Discrete Long Region Discrete Text Tota
13、lChildren Discrete Long YearlyIncome Continuous Double 17. 單擊“下一步”。18. 在“將數(shù)據(jù)拆分為定型集和測試集”頁上,對于“測試數(shù)據(jù)百分比”,請保留默認值 30。19. 對于“測試數(shù)據(jù)集中的最大事例數(shù)”,請鍵入 1000。單擊“下一步”。 20. 在“完成向導”頁上的“挖掘結構名稱”中,鍵入 Targeted Mailing。21. 在“挖掘模型名稱”中,鍵入 TM_Decision_Tree。22. 選中“允許鉆取”復選框。23. 單擊“完成”。測試挖掘模型的準確性映射輸入列如果使用外部數(shù)據(jù)測試挖掘模型,則必須確保挖掘結構中的列與
14、輸入數(shù)據(jù)中的列匹配。為此,可以使用“指定列映射”對話框。如果直接映射列名,則數(shù)據(jù)挖掘設計器將自動創(chuàng)建關系。若要刪除兩列之間的映射,請選擇將“挖掘結構”表中的列鏈接到“選擇輸入表”表中的列的行,再按 Delete 鍵。還可以通過單擊“選擇輸入表”中的列并將其拖到“挖掘結構”中相應的列來手動創(chuàng)建映射。將輸入列映射到挖掘結構1. 在數(shù)據(jù)挖掘設計器中的“挖掘準確性圖表”選項卡的“輸入選擇”選項卡中,選擇選項“指定其他數(shù)據(jù)集”。2. 單擊“指定其他數(shù)據(jù)集”選項右側的 () 按鈕。此時將打開“指定列映射”對話框。如果您要測試的結構未顯示在“挖掘結構”窗格中,請單擊“選擇結構”并選擇目標郵件。3. 在“選擇
15、輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對話框。在此對話框中選擇包含表或需要使用的表的數(shù)據(jù)源視圖,然后選擇該表。用于確定模型準確性的數(shù)據(jù)必須包含可以映射到可預測列的列。為了實現(xiàn)本教程的教學目標,您需要對用于處理模型的輸入列使用相同的數(shù)據(jù)并對數(shù)據(jù)應用篩選器。但是,理想情況下,您將使用用于處理該模型的數(shù)據(jù)中保留的測試數(shù)據(jù)集。在“選擇輸入選擇”選項卡上選擇選項“使用挖掘結構測試事例”,將選擇該數(shù)據(jù)作為輸入。4. 在“數(shù)據(jù)源”列表中,確保已選中 Adventure Works DW。5. 在“表/視圖名稱”列表中,選擇 vTargetMail,再單擊“確定”。挖掘結構中的列會自動映射到輸
16、入表中具有相同名稱的列。 篩選輸入行如果選擇“指定其他數(shù)據(jù)集”選項,則可以通過使用顯示事例表列和嵌套表列的一組對話框生成篩選條件。可以從運算符、類型值的列表中進行選擇,并連接條件與邏輯運算符,以創(chuàng)建限制測試所用事例的復雜條件。對測試數(shù)據(jù)應用篩選器1. 在數(shù)據(jù)挖掘設計器中的“挖掘準確性圖表”選項卡的“輸入選擇”選項卡上,單擊“打開篩選器編輯器”。 2. 此時將打開“vTargetMail 數(shù)據(jù)集篩選器”對話框。在此網(wǎng)格內,輸入轉換為將應用于源表的 WHERE 子句的條件,以限制用于測試的事例。3. 在“挖掘結構列”下,單擊網(wǎng)格內頂部的行。選擇 vTargetMail。4. 單擊“值”單元。此時將
17、打開“篩選器”對話框,該對話框可幫助您對 vTargetMail 表設置條件。5. 在第一行中,單擊“挖掘結構列”下的網(wǎng)格,然后從列的列表中選擇 Age。6. 單擊 Age 旁邊的“運算符”框,并選擇 >(大于)運算符。7. 在同一行單擊“值”框,并鍵入 20。8. 單擊“表達式”窗格以刷新該表達式,并驗證它是否正確。單擊“確定”。9. 再次單擊“確定”,關閉“篩選數(shù)據(jù)集”對話框?!拜斎脒x擇”選項卡中的“篩選表達式”窗格會顯示剛才創(chuàng)建的篩選表達式 vTargetMail: (Age > 20)。當制作提升圖時,模型將僅使用其年齡大于 20 的客戶進行測試。顯示模型的提升1. 在“選
18、擇要在提升圖中顯示的可預測的挖掘模型列”下,確保已在每個模型的“可預測的列名”列表中選中 Bike Buyer。2. 在“預測值”列中,選擇 1。對于具有相同可預測列的每個模型,將自動填充相同的值。顯示模型的準確性1. 在“選擇要在提升圖中顯示的可預測的挖掘模型列”下,確保已在每個模型的“可預測的列名”列表中選中 Bike Buyer。2. 將“預測值”列保留為空。查看提升圖若要查看提升圖,請切換到“挖掘準確性圖表”的“提升圖”選項卡。當您單擊該選項卡時,便會對服務器和數(shù)據(jù)庫的挖掘結構和輸入表或測試數(shù)據(jù)運行預測查詢。預測結果隨后會與已知的實際值進行比較,并將繪制在圖上。有關如何使用該圖的詳細信
19、息,請參閱提升圖(Analysis Services - 數(shù)據(jù)挖掘)。創(chuàng)建查詢創(chuàng)建預測查詢的第一步是選擇挖掘模型和輸入表。選擇模型和輸入表1. 在數(shù)據(jù)挖掘設計器“挖掘模型預測”選項卡的“挖掘模型”框中,單擊“選擇模型”。系統(tǒng)將打開“選擇挖掘模型”對話框。2. 在整個樹中導航到“目標郵件”結構,展開該結構并選擇 TM_Decision_Tree,再單擊“確定”。3. 在“選擇輸入表”框中,單擊“選擇事例表”。系統(tǒng)將打開“選擇表”對話框。4. 在“數(shù)據(jù)源”中,選擇 Adventure Works DW。5. 在“表/視圖名稱”中,選擇 ProspectiveBuyer 表,再單擊“確定”。選擇輸入
20、表之后,預測查詢生成器便會根據(jù)各列的名稱在挖掘模型和輸入表之間創(chuàng)建默認映射。 生成預測查詢1. 在“挖掘模型預測”選項卡上的網(wǎng)格內的“源”列中,單擊第一個空行中的單元格,然后選擇 ProspectiveBuyer。2. 在 ProspectiveBuyer 行的“字段”列中,選擇 ProspectAlternateKey。這會將唯一標識符添加到預測查詢中,以便標識誰可能購買自行車,以及誰不可能購買自行車。3. 在“源”列中,單擊下一個空行,然后選擇 TM_Decision_Tree。4. 在 TM_Decision_Tree 行的“字段”列中,選擇 Bike Buyer。這將會輸出 Microsoft 決策樹模型中作為預測目標的列。5. 在“源”列下,單擊下一個空行,然后選擇“預測函數(shù)”。6. 在“預測函數(shù)”行的“字段”列中,選擇 PredictProbability。預測函數(shù)提供有關模型如何進行預測的信息。PredictProbability 函數(shù)提供有關正確預測的概率信息。您可以在“條件/參數(shù)”列中指定預測函數(shù)的參數(shù)。7. 在 PredictProba
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 轉讓高科物業(yè)合同協(xié)議
- 道路環(huán)境清理合同協(xié)議
- 運動場地安全協(xié)議合同
- 郵政客服簽協(xié)議合同
- 超市自營聯(lián)營合同協(xié)議
- 個人包工頭承包的協(xié)議
- 智能解決方案提供與服務協(xié)議
- 炸砂安全協(xié)議書
- 返遷房協(xié)議書范本
- 片石購銷協(xié)議書
- 慢阻肺的管理課件
- 新媒體實驗影像課件
- 北師大版《相遇問題》公開課課件
- HP系列培訓手冊
- 游戲王統(tǒng)一規(guī)則
- 畢業(yè)論文-原油電脫水方法與機理的研究
- 陜西省2022年普通高中學業(yè)水平考試(真題)
- 2021-2022學年甘肅省天水市第一中學高一下學期第二階段考物理試題(原卷版)
- 大學體育課程設置
- JJF(魯) 142-2022 稱重式雨量計校準規(guī)范
- GE全球供應鏈的管理與實踐
評論
0/150
提交評論