版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第一章 緒論什么是數(shù)據(jù)挖掘,什么是商業(yè)智能從大型數(shù)據(jù)庫中提取有趣的 (非平凡的、蘊(yùn)涵的、先前未知的且是潛在有用的) 信息或模式。商業(yè)智能是要在必須的時(shí)間段內(nèi),把正確有用的信息傳遞給適當(dāng)?shù)臎Q策者,以便為有效決策提供信息支持。分類算法的評(píng)價(jià)標(biāo)準(zhǔn) 召回率recall =系統(tǒng)檢索到的相關(guān)文件數(shù)/相關(guān)文件總數(shù) 準(zhǔn)確率precision(查準(zhǔn)率)= 系統(tǒng)檢索到的相關(guān)文件數(shù)/系統(tǒng)返回的文件總數(shù)第二章 數(shù)據(jù)倉庫什么是數(shù)據(jù)倉庫是運(yùn)用新信息科技所提供的大量數(shù)據(jù)存儲(chǔ)、分析能力,將以往無法深入整理分析的客戶數(shù)據(jù)建立成為一個(gè)強(qiáng)大的顧客關(guān)系管理系統(tǒng),以協(xié)助企業(yè)制定精準(zhǔn)的運(yùn)營決策。數(shù)據(jù)倉庫的基本特征1面向主題2整合性 3長
2、期性 4穩(wěn)定性第三章 數(shù)據(jù)挖掘簡介數(shù)據(jù)挖掘的一般功能1分類 2估計(jì)3 預(yù)測 4關(guān)聯(lián)分類 5聚類數(shù)據(jù)挖掘的完整步驟1理解數(shù)據(jù)與數(shù)據(jù)所代表的含義2獲取相關(guān)知識(shí)與技術(shù)3整合與檢查數(shù)據(jù)4取出錯(cuò)誤或不一致的數(shù)據(jù)5建模與假設(shè)6數(shù)據(jù)挖掘運(yùn)行7測試與驗(yàn)證所挖掘的數(shù)據(jù)8解釋與使用數(shù)據(jù)數(shù)據(jù)挖掘建模的標(biāo)準(zhǔn)CRISP-CM跨行業(yè)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化過程第四章 數(shù)據(jù)挖掘中的主要方法基于SQL Server 2005 SSAS的十種數(shù)據(jù)挖掘算法是什么1.決策樹 2.聚類 3.Bayes分類 4.有序規(guī)則 5. 關(guān)聯(lián)規(guī)則 6.神經(jīng)網(wǎng)絡(luò) 7.線性回歸 8. Logistic回歸 9. 時(shí)間序列 10. 文本挖掘第五章 數(shù)據(jù)挖掘與
3、相關(guān)領(lǐng)域的關(guān)系數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析之間的區(qū)別與聯(lián)系(再看看書 整理下)32頁處理大量實(shí)際數(shù)據(jù)更具優(yōu)勢,并且使用數(shù)據(jù)挖掘工具無需具備專業(yè)的統(tǒng)計(jì)學(xué)背景。數(shù)據(jù)分析的需求和趨勢已經(jīng)被許多大型數(shù)據(jù)庫所實(shí)現(xiàn),并且可以進(jìn)行企業(yè)級(jí)別的數(shù)據(jù)挖掘應(yīng)用。相對(duì)于重視理論和方法的統(tǒng)計(jì)學(xué)而言,數(shù)據(jù)挖掘更強(qiáng)調(diào)應(yīng)用,畢竟數(shù)據(jù)挖掘目的是方便企業(yè)用戶的使用。第六章 SQL Server 2005中的商業(yè)智能商業(yè)智能(BI)的核心技術(shù)是什么數(shù)據(jù)倉庫和數(shù)據(jù)挖掘第七章 SQL Server 2005中的數(shù)據(jù)挖掘Microsoft SQL Server Management Studio提供了兩個(gè)用于管理數(shù)據(jù)庫項(xiàng)目(如腳本、查詢
4、、數(shù)據(jù)連接和文件)的容器是什么?1項(xiàng)目 2解決方案第八章 SQL Server 2005的分析服務(wù)什么是UDM?統(tǒng)一維度模型第九章 SQL Server 2005的報(bào)表服務(wù)什么是報(bào)表服務(wù),其功能是一個(gè)基于服務(wù)器的完整平臺(tái),可創(chuàng)建、管理和交付傳統(tǒng)報(bào)表和交互式報(bào)表。1制作報(bào)表 2管理報(bào)表 3提交報(bào)表第十章 決策樹模型什么是決策樹?是數(shù)據(jù)挖掘的一項(xiàng)主要分析工具。(決策樹能從一個(gè)或多個(gè)預(yù)測變量中,針對(duì)類別因變量的選項(xiàng),預(yù)測出個(gè)例的趨勢變化關(guān)系等。也可以由結(jié)果來反推原因。)SQL Server 2005決策樹算法步驟第十一章 貝葉斯分類什么是簡單貝葉斯分類器是簡單又使用的分類方法。SQL Server
5、2005貝葉斯分類算法步驟第十二章 關(guān)聯(lián)規(guī)則什么是關(guān)聯(lián)規(guī)則可解決哪些問題?是分析發(fā)現(xiàn)數(shù)據(jù)庫中不同變量或個(gè)體間(例如商品間的關(guān)系及年齡與購買行為)之間關(guān)系程度,并用這些規(guī)則找出顧客購買行為模式,如購買了臺(tái)式計(jì)算機(jī)外設(shè)產(chǎn)品(打印機(jī)、音箱、硬盤)的相關(guān)影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架擺設(shè)、庫存安排以及根據(jù)購買行為模式對(duì)客戶進(jìn)行分類。興趣度指標(biāo)的意義當(dāng)興趣度指標(biāo)大于1的時(shí)候,這條規(guī)則就是比較好的;當(dāng)興趣度小于1的時(shí)候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。SQL Server 2005關(guān)聯(lián)規(guī)則算法步驟第十三章 聚類分析什么是聚類分析聚類分析的思想與判斷分析類似,同樣是由樣
6、本分組,尋找到多維數(shù)據(jù)點(diǎn)中的差異之處。不同的地方有兩點(diǎn):(1)聚類分析的分類方式并不需要預(yù)先指定一個(gè)指針變量;(2)聚類分析屬于一種非參數(shù)分析方法,所以并沒有非常嚴(yán)謹(jǐn)?shù)臄?shù)理依據(jù),也無需假設(shè)總體為正態(tài)分布。在聚類方法中定量地描述研究對(duì)象之間的相近程度的指標(biāo)兩個(gè) 1相似系數(shù) 2 距離(用的比較多)聚類分析中“類”的具有什么特征(判斷) 聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分 聚類的數(shù)目和結(jié)構(gòu)都沒有事先假定聚類分析方法的分類1基于層次的方法 2基于劃分的方法k-means(K均值聚類)屬于哪種聚類劃分聚類的方法歐式距離的計(jì)算聚類的原則是最大化類內(nèi)的相似性,最小化類間的相似性(選
7、擇)SQL Server 2005聚類分析算法步驟第十四章 時(shí)序聚類分析序列聚類與關(guān)聯(lián)規(guī)則挖掘區(qū)別是什么? Sequence Clustering:在找出先后發(fā)生事物的關(guān)系,重點(diǎn)在于分析數(shù)據(jù)間先后序列關(guān)系。 Association則是找出某一事件或資料中會(huì)同時(shí)出現(xiàn)的狀態(tài),例如項(xiàng)目A是某事件的一部份,則項(xiàng)目B也出現(xiàn)在該事件中的機(jī)率有a %。序列模式解決什么問題?時(shí)序聚類算法用于根據(jù)某一順序?qū)?shù)據(jù)分組。 例如,Web應(yīng)用程序的用戶經(jīng)常按照各種路徑瀏覽網(wǎng)站。此算法可以根據(jù)瀏覽站點(diǎn)的頁面順序?qū)τ脩暨M(jìn)行分組,以幫助分析消費(fèi)者并確定是否某個(gè)路徑比其他路徑具有更高的收益。 此算法還可以用于預(yù)測,例如預(yù)測用戶
8、可能訪問的下一個(gè)頁面。利用顧客購買的時(shí)間間隔序列數(shù)據(jù)可以分析顧客的購買物和時(shí)間的相關(guān)性,有相同或類似行為的顧客會(huì)被分在相同的聚婁中,這樣的分析不但可以包含物品購買的相關(guān)也包含了在時(shí)間上對(duì)購買物的關(guān)聯(lián)性。因此若能針對(duì)這樣的數(shù)據(jù)聚類,在應(yīng)用上會(huì)更加靈活。包含時(shí)間間間隔的有序序列的數(shù)值數(shù)據(jù)和定性數(shù)據(jù)相似度計(jì)算方法1事件共同發(fā)生種類相似度 2事件發(fā)生周期相似度 3基于相同子序列長度的相似度SQL Server 2005時(shí)序聚類分析算法步驟第十五章 線性回歸模型什么是線性回歸回歸分析是以一個(gè)或多個(gè)自變量描述、預(yù)測或控制特定因變量的分析?;貧w分析主要在了解自變量與因變量間的數(shù)量關(guān)系。主要目的:了解自變量與
9、因變量關(guān)系方向及強(qiáng)度。 以自變量所建立模式對(duì)固變量作預(yù)測。 回歸分析根據(jù)自變量個(gè)數(shù)的不同可以分為: 簡單回歸分析。 多元回歸分析。回歸分析中變量的篩選原則: 相關(guān)理論或邏輯。 研究人員探討變量關(guān)系來決定。什么是多元回歸分析多元回歸:回歸分析中自變量的數(shù)量有多個(gè)選擇回歸變量的常用方法1所有可能回歸法 2向前選擇法 3向后淘汰法 4逐步回歸法SQL Server 2005線性回歸分析算法步驟第十六章 羅吉斯回歸模型什么是羅吉斯回歸Logistic回歸模型在分析二分類或有序因變量與解釋變量的關(guān)系。SQL Server 2005羅吉斯回歸分析算法步驟第十七章 神經(jīng)網(wǎng)絡(luò)模型什么是人工神經(jīng)網(wǎng)絡(luò)ANN 就是
10、Artificial Neural Networks, 意思是人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)理論是用神經(jīng)元這種抽象的數(shù)學(xué)模型來描述客觀世界的生物細(xì)胞的。 在數(shù)據(jù)挖掘中能夠得到應(yīng)用。神經(jīng)網(wǎng)絡(luò)的能力特征1非線性 2非局域性 3非定常性 4非凸性神經(jīng)網(wǎng)絡(luò)的算法1單層知覺網(wǎng)絡(luò) 2多層知覺網(wǎng)絡(luò)SQL Server 2005神經(jīng)網(wǎng)絡(luò)模型步驟第十八章 時(shí)間序列模型時(shí)間序列分析的目的1對(duì)時(shí)間序列未來趨勢作預(yù)測2將時(shí)間序列分解成主要趨勢成分、季節(jié)變化成分。3檢驗(yàn)理論模型是否能正確反映現(xiàn)象。時(shí)間序列的特點(diǎn)時(shí)間序列由四個(gè)影響成分所組成,分別是長期趨勢(Trend),循環(huán)變動(dòng)(Cyclical Fluctuation),
11、季節(jié)變動(dòng)(Seasonal Fluctuation)、不規(guī)則變動(dòng)(Irregular Fluctuation)。因此進(jìn)行時(shí)間序列時(shí)應(yīng)先將此四個(gè)成分分解出來,以了解各個(gè)成分的影響。 時(shí)間序列的各觀測值通常自相關(guān),且時(shí)間相隔越長,相關(guān)程度越小。時(shí)間序列的時(shí)間單位可以年、季、月、周、日等,應(yīng)劃分為相同間隔的時(shí)間單位。不同時(shí)間單位的時(shí)間序列可轉(zhuǎn)換成相同時(shí)間單位的時(shí)間序列。 時(shí)間序列應(yīng)依時(shí)間順序排列,不可任意變更。時(shí)間序列分析前,須將數(shù)據(jù)按時(shí)間次序以縱軸為變量,橫軸為時(shí)間作圖,即時(shí)間序列圖。在利用SQL SERVER 2005進(jìn)行數(shù)據(jù)挖掘時(shí),數(shù)據(jù)挖掘的任務(wù)中,什么可以沒有輸入時(shí)間序列模型可以不用輸入時(shí)間序列的四個(gè)成分趨勢成分 循環(huán)成分 季節(jié)成分 隨即成分常見的時(shí)序預(yù)測方法平滑法 回歸模型 趨勢投影 SQL Server 2005時(shí)間序列模型步驟第十九章 SQL Server 2005整合服務(wù)什么是SSISSQL server整合服務(wù)SSIS designer幾個(gè)重要部分?jǐn)?shù)據(jù)流 控制流程 控件如何理解控制流與數(shù)據(jù)流分開答 在SQL server中實(shí)驗(yàn)中數(shù)據(jù)與操作是分開的,數(shù)據(jù)流與控制流有各自的組建。第二十章 文本挖掘模型文本挖掘的數(shù)據(jù)預(yù)處理技術(shù)(文本分析技術(shù))有哪些三個(gè):分詞技術(shù) 特征表示 特征提取文本分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州交通職業(yè)技術(shù)學(xué)院《英美文學(xué)作品賞析》2023-2024學(xué)年第一學(xué)期期末試卷
- 無人機(jī)配送發(fā)展策略與實(shí)施路徑分析
- 2024年四川省阿壩州理縣米亞羅鎮(zhèn)招聘社區(qū)工作者考前自測高頻考點(diǎn)模擬試題(共500題)含答案
- 2025年新教師下半年工作計(jì)劃范文
- 企業(yè)發(fā)票管理規(guī)章制度范本
- 2025總經(jīng)理秘書工作計(jì)劃報(bào)告
- 2025年新學(xué)期學(xué)習(xí)計(jì)劃
- 2025開學(xué)工作計(jì)劃
- Unit 6 My clothes,my style Grammar 說課稿 -2024-2025學(xué)年譯林版英語七年級(jí)上冊(cè)
- 事故預(yù)防知識(shí)培訓(xùn)課件
- 2024年危險(xiǎn)化學(xué)品生產(chǎn)經(jīng)營單位其他從業(yè)人員考試題庫附答案
- 信號(hào)分析與處理課程設(shè)計(jì)課程教學(xué)大綱基本要求及規(guī)范(集中實(shí)踐環(huán)節(jié))
- 2024年中考物理真題及分類匯編-考點(diǎn)25:磁現(xiàn)象-電生磁
- 2024年更新版:精準(zhǔn)農(nóng)業(yè)無人機(jī)植保服務(wù)合同
- 2024年度中國醫(yī)院人力資源現(xiàn)狀調(diào)研報(bào)告
- 【MOOC】有機(jī)化學(xué)-華中農(nóng)業(yè)大學(xué) 中國大學(xué)慕課MOOC答案
- 二水石膏轉(zhuǎn)化為半水石膏的研究
- 中醫(yī)特色治療進(jìn)修匯報(bào)
- 中華傳統(tǒng)文化之文學(xué)瑰寶學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2023年外交學(xué)院招聘筆試備考試題及答案解析
- (完整word版)澳大利亞簽證54表(家庭構(gòu)成)
評(píng)論
0/150
提交評(píng)論