版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本文格式為Word版,下載可任意編輯——數(shù)據(jù)挖掘與商務(wù)智能總結(jié)第一章緒論
什么是數(shù)據(jù)挖掘,什么是商業(yè)智能
從大型數(shù)據(jù)庫(kù)中提取好玩兒的(非平凡的、蘊(yùn)涵的、從前未知的且是潛在有用的)信息或模式。
商業(yè)智能是要在必需的時(shí)間段內(nèi),把正確有用的信息傳遞給適當(dāng)?shù)臎Q策者,以便為有效決策提供信息支持。
分類算法的評(píng)價(jià)標(biāo)準(zhǔn)
召回率recall=系統(tǒng)檢索到的相關(guān)文件數(shù)/相關(guān)文件總數(shù)確鑿率precision(查準(zhǔn)率)=系統(tǒng)檢索到的相關(guān)文件數(shù)/系統(tǒng)返回的文件總數(shù)其次章數(shù)據(jù)倉(cāng)庫(kù)什么是數(shù)據(jù)倉(cāng)庫(kù)
是運(yùn)用新信息科技所提供的大量數(shù)據(jù)存儲(chǔ)、分析能力,將以往無(wú)法深入整理分析的客戶數(shù)據(jù)建立成為一個(gè)強(qiáng)大的顧客關(guān)系管理系統(tǒng),以協(xié)助企業(yè)制定精準(zhǔn)的運(yùn)營(yíng)決策。
數(shù)據(jù)倉(cāng)庫(kù)的基本特征
1面向主題2整合性3長(zhǎng)期性4穩(wěn)定性第三章數(shù)據(jù)挖掘簡(jiǎn)介數(shù)據(jù)挖掘的一般功能
1分類2估計(jì)3預(yù)計(jì)4關(guān)聯(lián)分類5聚類數(shù)據(jù)挖掘的完整步驟
1理解數(shù)據(jù)與數(shù)據(jù)所代表的含義2獲取相關(guān)知識(shí)與技術(shù)3整合與檢查數(shù)據(jù)
4取出錯(cuò)誤或不一致的數(shù)據(jù)5建模與假設(shè)6數(shù)據(jù)挖掘運(yùn)行
7測(cè)試與驗(yàn)證所挖掘的數(shù)據(jù)8解釋與使用數(shù)據(jù)數(shù)據(jù)挖掘建模的標(biāo)準(zhǔn)CRISP-CM
跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化過(guò)程
第四章數(shù)據(jù)挖掘中的主要方法
基于SQLServer2023SSAS的十種數(shù)據(jù)挖掘算法是什么
1.決策樹(shù)2.聚類3.Bayes分類4.有序規(guī)則5.關(guān)聯(lián)規(guī)則6.神經(jīng)網(wǎng)絡(luò)7.線性回歸8.Logistic回歸9.時(shí)間序列10.文本挖掘第五章數(shù)據(jù)挖掘與相關(guān)領(lǐng)域的關(guān)系
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析之間的區(qū)別與聯(lián)系(再看看書(shū)整理下)32頁(yè)
處理大量實(shí)際數(shù)據(jù)更具優(yōu)勢(shì),并且使用數(shù)據(jù)挖掘工具無(wú)需具備專業(yè)的統(tǒng)計(jì)學(xué)背景。
數(shù)據(jù)分析的需求和趨勢(shì)已經(jīng)被大量大型數(shù)據(jù)庫(kù)所實(shí)現(xiàn),并且可以進(jìn)行企業(yè)級(jí)別的
數(shù)據(jù)挖掘應(yīng)用。
相對(duì)于重視理論和方法的統(tǒng)計(jì)學(xué)而言,數(shù)據(jù)挖掘更強(qiáng)調(diào)應(yīng)用,終究數(shù)據(jù)挖掘目的是便利企業(yè)用戶的使用。
第六章SQLServer2023中的商業(yè)智能商業(yè)智能(BI)的核心技術(shù)是什么數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘
第七章SQLServer2023中的數(shù)據(jù)挖掘
MicrosoftSQLServerManagementStudio提供了兩個(gè)用于管理數(shù)據(jù)庫(kù)項(xiàng)目(如腳本、查詢、數(shù)據(jù)連接和文件)的容器是什么?1項(xiàng)目2解決方案
第八章SQLServer2023的分析服務(wù)什么是UDM?統(tǒng)一維度模型
第九章SQLServer2023的報(bào)表服務(wù)什么是報(bào)表服務(wù),其功能
是一個(gè)基于服務(wù)器的完整平臺(tái),可創(chuàng)立、管理和交付傳統(tǒng)報(bào)表和交互式報(bào)表。1制作報(bào)表2管理報(bào)表3提交報(bào)表
第十章決策樹(shù)模型什么是決策樹(shù)?
是數(shù)據(jù)挖掘的一項(xiàng)主要分析工具。
(決策樹(shù)能從一個(gè)或多個(gè)預(yù)計(jì)變量中,針對(duì)類別因變量的選項(xiàng),預(yù)計(jì)出個(gè)例的趨勢(shì)變化關(guān)系等。也可以由結(jié)果來(lái)反推原因。)SQLServer2023決策樹(shù)算法步驟
第十一章貝葉斯分類什么是簡(jiǎn)單貝葉斯分類器是簡(jiǎn)單又使用的分類方法。
SQLServer2023貝葉斯分類算法步驟第十二章關(guān)聯(lián)規(guī)則
什么是關(guān)聯(lián)規(guī)則可解決哪些問(wèn)題?
是分析發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同變量或個(gè)體間(例如商品間的關(guān)系及年齡與購(gòu)買行為?)之間關(guān)系程度,并用這些規(guī)則找出顧客購(gòu)買行為模式,如購(gòu)買了臺(tái)式計(jì)算機(jī)外設(shè)產(chǎn)品(打印機(jī)、音箱、硬盤?)的相關(guān)影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架擺設(shè)、庫(kù)存安排以及根據(jù)購(gòu)買行為模式對(duì)客戶進(jìn)行分類。
興趣度指標(biāo)的意義
當(dāng)興趣度指標(biāo)大于1的時(shí)候,這條規(guī)則就是比較好的;當(dāng)興趣度小于1的時(shí)候,這條規(guī)則就是沒(méi)有很大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。
SQLServer2023關(guān)聯(lián)規(guī)則算法步驟第十三章聚類分析什么是聚類分析
聚類分析的思想與判斷分析類似,同樣是由樣本分組,尋覓到多維數(shù)據(jù)點(diǎn)中的差異之處。不同的地方有兩點(diǎn):(1)聚類分析的分類方式并不需要預(yù)先指定一個(gè)指針變量;(2)聚類分析屬于一種非參數(shù)分析方法,所以并沒(méi)有十分嚴(yán)謹(jǐn)?shù)臄?shù)理依據(jù),也無(wú)需假設(shè)總體為正態(tài)分布。
在聚類方法中定量地描述研究對(duì)象之間的相近程度的指標(biāo)兩個(gè)1相像系數(shù)2距離(用的比較多)聚類分析中“類〞的具有什么特征(判斷)
–聚類所說(shuō)的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相像性和距離來(lái)劃分–聚類的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定
聚類分析方法的分類
1基于層次的方法2基于劃分的方法
k-means(K均值聚類)屬于哪種聚類劃分聚類的方法歐式距離的計(jì)算
聚類的原則是最大化類內(nèi)的相像性,最小化類間的相像性(選擇)
SQLServer2023聚類分析算法步驟第十四章時(shí)序聚類分析
序列聚類與關(guān)聯(lián)規(guī)則挖掘區(qū)別是什么?
?SequenceClustering:在找出先后發(fā)生事物的關(guān)系,重點(diǎn)在于分析數(shù)據(jù)
間先后序列關(guān)系。
?Association則是找出某一事件或資料中會(huì)同時(shí)出現(xiàn)的狀態(tài),例如項(xiàng)目A
是某事件的一部份,則項(xiàng)目B也出現(xiàn)在該事件中的機(jī)率有a%。
序列模式解決什么問(wèn)題?
時(shí)序聚類算法用于根據(jù)某一順序?qū)?shù)據(jù)分組。
?例如,Web應(yīng)用程序的用戶經(jīng)常依照各種路徑瀏覽網(wǎng)站。此算法可以根
據(jù)瀏覽站點(diǎn)的頁(yè)面順序?qū)τ脩暨M(jìn)行分組,以幫助分析消費(fèi)者并確定是否某個(gè)路徑比其他路徑具有更高的收益。
?此算法還可以用于預(yù)計(jì),例如預(yù)計(jì)用戶可能訪問(wèn)的下一個(gè)頁(yè)面。利用顧客
購(gòu)買的時(shí)間間隔序列數(shù)據(jù)可以分析顧客的購(gòu)買物和時(shí)間的相關(guān)性,有一致或類似行為的顧客會(huì)被分在一致的聚婁中,這樣的分析不但可以包含物品購(gòu)買的相關(guān)也包含了在時(shí)間上對(duì)購(gòu)買物的關(guān)聯(lián)性。因此若能針對(duì)這樣的數(shù)據(jù)聚類,在應(yīng)用上會(huì)更加靈活。
包含時(shí)間間間隔的有序序列的數(shù)值數(shù)據(jù)和定性數(shù)據(jù)相像度計(jì)算方法
1事件共同發(fā)生種類相像度2事件發(fā)生周期相像度3基于一致子序列長(zhǎng)度的相
似度
SQLServer2023時(shí)序聚類分析算法步驟第十五章線性回歸模型什么是線性回歸
回歸分析是以一個(gè)或多個(gè)自變量描述、預(yù)計(jì)或控制特定因變量的分析。
回歸分析主要在了解自變量與因變量間的數(shù)量關(guān)系。主要目的:了解自變量與因變量關(guān)系方向及強(qiáng)度。以自變量所建立模式對(duì)固變量作預(yù)計(jì)。
回歸分析根據(jù)自變量個(gè)數(shù)的不同可以分為:簡(jiǎn)單回歸分析。多元回歸分析?;貧w分析中變量的篩選原則:相關(guān)理論或規(guī)律。研究人員探討變量關(guān)系來(lái)決定。
什么是多元回歸分析
多元回歸:回歸分析中自變量的數(shù)量有多個(gè)選擇回歸變量的常用方法
1所有可能回歸法2向前選擇法3向后淘汰法4逐步回歸法SQLServer2023線性回歸分析算法步驟第十六章羅吉斯回歸模型什么是羅吉斯回歸
Logistic回歸模型在分析二分類或有序因變量與解釋變量的關(guān)系。
SQLServer2023羅吉斯回歸分析算法步驟第十七章神經(jīng)網(wǎng)絡(luò)模型什么是人工神經(jīng)網(wǎng)絡(luò)
ANN就是ArtificialNeuralNetworks,意思是人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)理論是用神經(jīng)元這種抽象的數(shù)學(xué)模型來(lái)描述客觀世界的生物細(xì)胞的。在數(shù)據(jù)挖掘中能夠得到應(yīng)用。
神經(jīng)網(wǎng)絡(luò)的能力特征
1非線性2非局域性3非定常性4非凸性
神經(jīng)網(wǎng)絡(luò)的算法
1單層知覺(jué)網(wǎng)絡(luò)2多層知覺(jué)網(wǎng)絡(luò)
SQLServer2023神經(jīng)網(wǎng)絡(luò)模型步驟第十八章時(shí)間序列模型時(shí)間序列分析的目的
1對(duì)時(shí)間序列未來(lái)趨勢(shì)作預(yù)計(jì)
2將時(shí)間序列分解成主要趨勢(shì)成分、季節(jié)變化成分。3檢驗(yàn)理論模型是否能正確反映現(xiàn)象。
時(shí)間序列的特點(diǎn)
時(shí)間序列由四個(gè)影響成分所組成,分別是長(zhǎng)期趨勢(shì)(Trend),循環(huán)變動(dòng)(CyclicalFluctuation),季節(jié)變動(dòng)(SeasonalFluctuation)、不規(guī)則變動(dòng)(IrregularFluctuation)。因此進(jìn)行時(shí)間序列時(shí)應(yīng)先將此四個(gè)成分分解出來(lái),以了解各個(gè)成分的影響。時(shí)間序列的各觀測(cè)值尋常自相關(guān),且時(shí)間相隔越長(zhǎng),相關(guān)程度越小。時(shí)間序列的時(shí)間單位可以年、季、月、周、日等,應(yīng)劃分為一致間隔的時(shí)間單位。不同時(shí)間單位的時(shí)間序列可轉(zhuǎn)換成一致時(shí)間單位的時(shí)間序列。
時(shí)間序列應(yīng)依時(shí)間順序排列,不可任意變更。
時(shí)間序列分析前,須將數(shù)據(jù)按時(shí)間次序以縱軸為變量,橫軸為時(shí)間作圖,即時(shí)間序列圖。
在利用SQLSERVER2023進(jìn)行數(shù)據(jù)挖掘時(shí),數(shù)據(jù)挖掘的任務(wù)中,什么可以沒(méi)有輸入
時(shí)間序列模型可以不用輸入
時(shí)間序列的四個(gè)成分
趨勢(shì)成分循環(huán)成分季節(jié)成分隨即成分常見(jiàn)的時(shí)序預(yù)計(jì)方法
平滑法回歸模型趨勢(shì)投影SQLServer2023時(shí)間序列模型步驟第十九章SQLServer2023整合服務(wù)什么是SSIS
SQLserver整合服務(wù)
SSISdesigner幾個(gè)重要部分
數(shù)據(jù)流控制流程控件
如何理解控制流與數(shù)據(jù)流分開(kāi)
答在SQLserver中試驗(yàn)中數(shù)據(jù)與操作是分開(kāi)的,數(shù)據(jù)流與控制流有各自的組建。其次十章文本挖掘模型
文本挖掘的數(shù)據(jù)預(yù)處理技術(shù)(文本分析技術(shù))有哪些
三個(gè):分詞技術(shù)特征表示特征提取文本分析處理的數(shù)據(jù)類型
結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
常用的文本挖掘技術(shù)有哪些
文本分類文本聚類自動(dòng)摘要關(guān)聯(lián)分析可視化。
其次十一章SQLServer2023的DMX語(yǔ)言DMX全稱
DataminingExtension
DMX是SQLServer用于建立和操作數(shù)據(jù)挖掘模型的語(yǔ)言,其組成有哪些由數(shù)據(jù)定義語(yǔ)言、數(shù)據(jù)操作語(yǔ)言以及函數(shù)和運(yùn)算子等組成。
數(shù)據(jù)流控制流程控件
如何理解控制流與數(shù)據(jù)流分開(kāi)
答在SQLserver中試驗(yàn)中數(shù)據(jù)與操作是分開(kāi)的,數(shù)據(jù)流與控制流有各自的組建。其次十章文本挖掘模型
文本挖掘的數(shù)據(jù)預(yù)處理技術(shù)(文本分析技術(shù))有哪些
三個(gè):分詞技
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)墻板施工報(bào)價(jià)協(xié)議模板匯編版A版
- 2024年高速公路監(jiān)控系統(tǒng)電線敷設(shè)合同
- 2024年航空航天零部件生產(chǎn)合同承包協(xié)議范本3篇
- 專業(yè)化進(jìn)修培訓(xùn)管理合同書(shū)2024版版B版
- 2025年度餐飲企業(yè)員工工作環(huán)境改善與安全保障合同3篇
- 2025年度云計(jì)算數(shù)據(jù)中心建設(shè)合同(安全高效版)3篇
- 2024施工合同路燈施工項(xiàng)目驗(yàn)收標(biāo)準(zhǔn)3篇
- 2024年設(shè)計(jì)行業(yè)技術(shù)交流合同協(xié)議書(shū)3篇
- 2024新款吉他租賃協(xié)議電子版下載版B版
- 2024年綜合性物業(yè)管理服務(wù)協(xié)議細(xì)則版B版
- 為時(shí)代而歌 與人民同行-寫(xiě)在音樂(lè)家姚牧百年誕辰之際
- 《頭痛》醫(yī)學(xué)課件
- 通用質(zhì)量特性基本概念和理論
- 平臺(tái)經(jīng)濟(jì)的典型特征、壟斷分析與反壟斷監(jiān)管
- 交房安保方案
- 《診斷學(xué)》實(shí)訓(xùn)指導(dǎo)
- 靜療并發(fā)癥護(hù)理
- 七年級(jí)上冊(cè)音樂(lè)試題附答案
- 物業(yè)管理勞務(wù)外包合同范本
- 《財(cái)務(wù)共享實(shí)務(wù)》課程期末考試題庫(kù)及答案
- 小學(xué)四年級(jí)語(yǔ)文下冊(cè)全書(shū)背誦內(nèi)容
評(píng)論
0/150
提交評(píng)論