數(shù)據挖掘重點(最新版)_第1頁
數(shù)據挖掘重點(最新版)_第2頁
數(shù)據挖掘重點(最新版)_第3頁
數(shù)據挖掘重點(最新版)_第4頁
數(shù)據挖掘重點(最新版)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上精選優(yōu)質文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質文檔-傾情為你奉上專心-專注-專業(yè)題型:單項選擇題(每小題1分,共10分) 2多項選擇題(每小題2分,共20分)3簡答題(每小題15分,共30分) 4、算法實現(xiàn)(每小題20分,共40分)重點企業(yè)資源的要素組成企業(yè)資源包括如下要素。有形資源:(1) 人:人力資源。(2) 財:資金資源。(3) 物:包括材料、設備和能源在內的資源。無形資源:數(shù)據、信息和知識數(shù)據資源的要素組成數(shù)據資源由以下3 個要素組成 (1) 有用的數(shù)據。(2) 作為企業(yè)神經系統(tǒng)的信息基礎設施(Information Infrastruct

2、ure),如計算機硬件、軟件以及網絡系統(tǒng)。(3) 人的因素,如系統(tǒng)人員和用戶。數(shù)據資源管理生命周期的各個過程(1) 數(shù)據獲?。捍_保能夠收集到必要的原始數(shù)據。(銷售小票、員工工資單)(2) 數(shù)據加工:將原始數(shù)據加工成為有用的信息。(統(tǒng)計報表、工作總結)(3) 數(shù)據利用:確保能夠在適當?shù)臅r間、以適當?shù)男问降玫奖匾臄?shù)據和信息;從數(shù)據中發(fā)現(xiàn) 決策所需要的知識。(發(fā)展戰(zhàn)略、銷售計劃)(4) 數(shù)據報廢:在適當?shù)臅r候廢棄過時的數(shù)據, 并代之以及時、準確的數(shù)據。數(shù)據資源管理的技術框架(1) 面向業(yè)務操作的數(shù)據資源管理:包括數(shù)據庫、事務處理系統(tǒng)(TPS)以及管理信息系統(tǒng)(MIS)。(2) 面向決策分析的數(shù)據資

3、源管理:包括數(shù)據倉庫以及與之緊密相關決策支持系統(tǒng)(DSS)。(3) 知識資源的管理和利用:包括知識庫以及基于知識的系統(tǒng)。數(shù)據庫與數(shù)據倉庫的區(qū)別數(shù)據倉庫的關鍵特征數(shù)據倉庫關鍵特征一面向主題 面向主題(subject-oriented),數(shù)據倉庫顯著區(qū)別于關系數(shù)據庫系統(tǒng)的一個特征數(shù)據倉庫關鍵特征二數(shù)據集成數(shù)據倉庫的集成性(integrated):是指根據決策分析的要求, 將分散于各處的源數(shù)據進行抽取、篩選、清理、綜合等工作, 使數(shù)據倉庫的數(shù)據具有集成性。數(shù)據倉庫關鍵特征三隨時間而變化 數(shù)據倉庫是從歷史的角度提供信息數(shù)據倉庫關鍵特征四數(shù)據不易丟失商務智能的四大部分包含:商務分析、OLAP、數(shù)據挖掘和

4、數(shù)據倉庫四大部分多維數(shù)據模型的存儲形式在多維數(shù)據模型中,數(shù)據以數(shù)據立方體(data cube) 的形式存在數(shù)據立方體允許以多維數(shù)據建模和觀察。它由維和事實定義維是關于一個組織想要記錄的視角或觀點。每個維都有一個表與之相關聯(lián),稱為維表。多維數(shù)據模型圍繞中心主題組織,該主題用事實表表示事實表包括事實的名稱或度量以及每個相關維表的關鍵字事實指的是一些數(shù)字度量數(shù)據倉庫應用的關鍵步驟數(shù)據源數(shù)據倉庫的數(shù)據源是指存儲在數(shù)據倉庫中的數(shù)據來源,數(shù)據倉庫在使用過程中所涉及的數(shù)據 來源,主要包括:業(yè)務數(shù)據歷史數(shù)據辦公數(shù)據 Web數(shù)據外部數(shù)據 數(shù)據源元數(shù)據2、數(shù)據準備數(shù)據的標準化處理數(shù)據的過濾與匹配數(shù)據的凈化處理標明

5、數(shù)據的時間戳確認數(shù)據質量元數(shù)據抽取和創(chuàng)建3、數(shù)據重整數(shù)據的集成與分解數(shù)據的概括與聚集數(shù)據的預算與推導數(shù)據的翻譯與格式化數(shù)據的轉換與映射4、數(shù)據倉庫創(chuàng)建數(shù)據倉庫的建模數(shù)據的概括數(shù)據的聚集數(shù)據的調整與確認建立結構化查詢5、建立數(shù)據集市知識挖據庫6、數(shù)據倉庫的數(shù)據存取與使用數(shù)據倉庫的概念模型數(shù)據倉庫概念模型的設計是給出一個數(shù)據倉庫的粗略 藍本,以此為設計圖紙來確認數(shù)據倉庫的設計者是否 已經正確地了解數(shù)據倉庫最終用戶的決策信息需求。 在概念模型的設計中,必須將注意力集中在對商務的 理解上,要保證管理者的所有決策信息需要都被歸納 進概念模型。在構建數(shù)據倉庫的概念模型時,可以采用在業(yè)務數(shù)據 處理系統(tǒng)中經常

6、應用的實體聯(lián)系模型:E-R圖數(shù)據倉庫的粒度模型在蔡博 課件3的 第97-103頁元數(shù)據元數(shù)據描述了數(shù)據倉庫的數(shù)據和環(huán)境, 即關于數(shù)據的數(shù)據 (data about data)。它描述了數(shù)據的結構、內容、碼、索引等項內容。傳統(tǒng)數(shù)據庫中的數(shù)據字典是一種元數(shù)據, 但在數(shù)據倉庫中, 元數(shù)據的內容比數(shù)據庫中的數(shù)據字典更豐富、更復雜OLAP 與 OLTP 的對比OLAP 是以數(shù)據倉庫為基礎的, 其最終數(shù)據來源與OLTP 一樣均來自底層的數(shù)據庫系統(tǒng), 但由于二者面對的用戶不同, OLTP 面對的是操作人員和低層管理人員, OLAP 面對的是決策人員和高層管理人員, 因而數(shù)據的特點與處理也明顯不同。用戶和系統(tǒng)

7、的面向性面 向顧客(事務)VS. 面向市場(分析)數(shù)據內容 當前的、詳細的數(shù)據VS. 歷史的、匯總的數(shù)據數(shù)據庫設計 實體聯(lián)系模型(ER)和面向應用的數(shù)據庫設計VS. 星型/雪花模型和面向主題的數(shù)據庫設計數(shù)據視圖 當前的、企業(yè)內部的數(shù)據VS. 經過演化的、集成的數(shù)據訪問模式 事務操作VS. 只讀查詢(但很多是復雜的查詢)任務單位 簡短的事務VS. 復雜的查詢訪問數(shù)據量 數(shù)十個VS. 數(shù)百萬個用戶數(shù) 數(shù)千個VS. 數(shù)百個數(shù)據庫規(guī)模 100M-數(shù)GB VS. 100GB-數(shù)TB設計優(yōu)先性 高性能、高可用性VS. 高靈活性、端點用戶自治度量 事務吞吐量VS. 查詢吞吐量、響應時間OLTPOLAP數(shù)據庫

8、數(shù)據數(shù)據庫或數(shù)據倉庫數(shù)據細節(jié)性數(shù)據綜合性數(shù)據當前數(shù)據歷史數(shù)據經常營更新不更新, 但周期性刷新一次性處理的數(shù)據量小一次處理的數(shù)據量大對響應時間要求高響應時間合理用戶數(shù)量大用戶數(shù)據相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應用, 事務驅動面向分析, 分析驅動多維分析的基本分析動作切片(Slice) 、切塊(Dice) 、旋轉(Pivoting)1、切片(Slice)定義1 在多維數(shù)組的某一維上選定一組成員的動作稱為切片,即在多維數(shù)組 (維1, 維2, , 維n, 變量) 中選一維,即維i,并取其一維成員(設為“維成員Vi” ),所得的多維數(shù)組的子集(維1, , 維成員Vi,

9、, 維n, 變量) 稱為在維i 上的一個切片。定義2 選定多維數(shù)組的一個二維子集的動作叫作切片,即選定多維數(shù)組 (維1, 維2, , 維n, 變量)中的兩個維:維 i 和維j, 在這兩個維上取某一區(qū)間或任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i 和維j 上一個二維子集,稱這個二維子集為多維數(shù)組在維i 和維j 上的一個切片,表示為:(維i,維j,變量)。2、切塊(Dice)定義1 在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組的某一維的取值區(qū)間。顯然,當這一區(qū)間只取一個維成員時,即得到一個切片 (切片的定義1)。定義2 選定多維數(shù)組的一個三維子集

10、的動作稱為切塊。即選定多維數(shù)組(維1, 維2, , 維n, 變量)中的三個維:維 i、維j 和維r,在這三個維上取某一區(qū)間或任意的維成員, 而將其余的維都取定一個維成員, 則得到的就是多維數(shù)組在維 i、維j 和維r上一個三維子集, 稱該三維子集為多維數(shù)組在維 i、維j 和維r上的一個切塊, 表示為:(維i,維j, 維r, 變量)。3、旋轉(Pivoting)旋轉即是改變一個報告或頁面顯示的維方向。4、下鉆/上探下鉆(drill down):從匯總數(shù)據深入到細節(jié)數(shù)據進行觀察或增加新維。例如,用戶分析 “各地區(qū)、城市的銷售情況”時,可以對某一個城市、某一年度的銷售額,可以繼續(xù)細分為 各個季度的銷售

11、額。通過下鉆的功能,使用 戶對數(shù)據能更深入了解,更容易發(fā)現(xiàn)問題, 做出正確的決策上探(roll up):是在某一維上將低層次的細節(jié)數(shù)據概括到高層次的匯總數(shù)據,或者減少 維數(shù);是指自動生成匯總行的分析方法。通 過向導的方式,用戶可以定義分析因素的匯 總行,例如對于各地區(qū)各年度的銷售情況, 可以生成地區(qū)與年度的合計行,也可以生成 地區(qū)或者年度的合計行。Codd 關于 OLAP 產品的十二條評價準則(少了第十二條)準則1 OLAP 模型必須提供多維概念視圖準則2 透明性準則準則3 存取能力準則準則4 穩(wěn)定的報表性能準則5 客戶客/服務器體系結構準則6 維的等同性準則準則7 動態(tài)的稀疏矩陣處理準則準則

12、8 多用戶支持能力準則準則9 非受限的跨維操作準則10 直觀的數(shù)據操縱準則11 靈活的報表生成知識發(fā)現(xiàn)KDD的過程數(shù)據挖掘工具與傳統(tǒng)數(shù)據分析工具的比較數(shù)據挖掘技術的分類(1)、根據數(shù)據挖掘任務,可以分為關聯(lián)規(guī)則挖掘、數(shù)據分類規(guī)則挖掘、聚類規(guī)則挖掘、依賴性 分析和依賴性模型發(fā)現(xiàn),以及概念描述、偏差分 析、趨勢分析和模式分析等;(2)、根據所挖掘的數(shù)據庫對象來看,可以分為關系型數(shù)據庫、面向對象型數(shù)據庫、空間型數(shù)據 庫、時間型數(shù)據庫、多媒體型數(shù)據庫和異構型數(shù) 據庫等;(3)、按挖掘方法分類:包括統(tǒng)計方法,機器學習方法,神經網絡方法和數(shù)據庫方法(4)其它分法:經常將數(shù)據挖掘技術分為統(tǒng)計分析類、知識發(fā)現(xiàn)

13、 類和其他類型的數(shù)據挖掘技術三大類。有時也將數(shù)據挖掘技術分為預測模式和知識性模 式的驗證驅動(Verification-driven)和發(fā)現(xiàn)驅動(Discovery-driven)兩大類。數(shù)據挖掘系統(tǒng)的組成數(shù)據庫、數(shù)據倉庫或其它信息庫:它表示數(shù)據挖掘對象是由一個(或組)數(shù)據庫、數(shù)據倉庫、數(shù)據表單或其它信息數(shù)據庫組成。通常需 要使用數(shù)據清洗和數(shù)據集成操作,對這些數(shù)據對象進行初步的處理;數(shù)據庫或數(shù)據倉庫服務器:這類服務器負責根據用戶的數(shù)據挖掘請求,讀取相關的數(shù)據;知識庫:此處存放數(shù)據挖掘所需要的領域知識,這些知識將用于指導數(shù)據挖掘的搜索過程,或者用于幫助對挖掘結果的評估。挖掘算法中所使 用的用戶定

14、義的閾值就是最簡單的領域知識;數(shù)據挖掘引擎:這是數(shù)據挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,以便完成定性歸納、關聯(lián)分析、分類歸納、進化計算和偏 差分析等挖掘功能模式評估模塊:該模塊可根據趣味標準(interesting measure ),協(xié)助數(shù)據挖掘模塊聚焦挖掘更有意義的模式知識。當然該模塊能否與數(shù)據挖掘模塊有機結合,與數(shù)據挖掘 模塊所使用的具體挖掘算法有關。顯然若數(shù)據挖掘算法能夠 與知識評估方法有機結合將有助提高其數(shù)據挖掘的效率;可視化用戶界面:該模塊幫助用戶與數(shù)據挖掘系統(tǒng)本身進行溝通交流。一方面用戶通過該模塊將自己的挖掘要求或任 務提交給挖掘系統(tǒng),以及提供挖掘搜索所需要的相關知

15、識; 另一方面系統(tǒng)通過該模塊向用戶展示或解釋數(shù)據挖掘的結果 或中間結果;此外該模塊也可以幫助用戶瀏覽數(shù)據對象內容 與數(shù)據定義模式、評估所挖掘出的模式知識,以及以多種形 式展示挖掘出的模式知識。數(shù)據挖掘的過程數(shù)據挖掘是一個反復迭代的人機交互處理過程。 該過程需要經歷多個步驟,并且很多決策需要由 用戶提供。從宏觀上看,數(shù)據挖掘過程主要由三個部分組 成,即數(shù)據整理、數(shù)據挖掘和結果的解釋評估。(1)定義商業(yè)問題(2)建立數(shù)據挖掘庫(3)分析數(shù)據(4)準備數(shù)據(5)建立模型(6)評價和解釋(7)實施數(shù)據預處理的主要方法數(shù)據清洗(數(shù)據清理) 填寫空缺的值,平滑噪聲數(shù)據,識別、刪除孤立點,解決 不一致性數(shù)據

16、集成 集成多個數(shù)據庫、數(shù)據立方體或文件數(shù)據變換 規(guī)范化和聚集數(shù)據歸約(消減) 得到數(shù)據集的壓縮表示,它小得多,但可以得到相同或相 近的結果包括:數(shù)據聚合、消減維數(shù)、壓縮數(shù)據、數(shù)據塊消減等。數(shù)據離散化 數(shù)據歸約的一部分,通過概念分層和數(shù)據的離散化來規(guī)約 數(shù)據,對數(shù)字型數(shù)據特別重要Clementine中常用的建模節(jié)點神經網絡、C5.0、C&RT、QUEST、CHAID、Kohonen、KMeans、TwoStep、Apriori、GRI、Carma、序列、主成份/因子分析、特征選擇、回歸、Logistic算法:關聯(lián)規(guī)則(Apriori算法)Apriori算法是最有影響的關聯(lián)規(guī)則挖掘算法之一。它的中

17、心思想是首先通過對事務數(shù)據庫進行掃描,找出支持 度不小于最小支持度的所有項目,即頻繁1 - 項集. 接下來的工作是循環(huán)的,每次循環(huán)分2步進行: 1)連接,對頻繁k - 項集中的項進行連接. 2)減枝,在減枝這一步主要根據一個頻繁項目集的任何一個子集都應該是頻繁的這一思想對連接后的項目集進 行篩選,刪除那些子集不是頻繁集的項目集,得出候選( k + 1) -項集.即對數(shù)據庫進行掃描, 計算候選項的支持度,從候選集中刪除支持度小于最小支持度的候選項, 進而得出頻繁( k + 1) -項集. 循環(huán)的終止條件是頻繁k - 項集為空, 也就是說再也找不出相關聯(lián)的項目了.連接: 用Lk-1 自連接得到Ck

18、 修剪: 一個k-項集,如果他的一個k-1項集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck : Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do beginCk+1 = candidates generated from Lk ;for eachtransaction t in database doincrement the count of all candidates in Ck+1that are contained in tLk+1 = candidates in Ck+1 with min_supportendreturn k Lk ;Apriori算法由連接和剪枝兩個步驟組成。連接:為了找Lk,通過Lk-1與自己連接產生候選k-項集的集合,該候選k項集記為Ck。Lk-1中的兩個元素L1和L2可以執(zhí)行連接操作的條件是Ck是Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的k-項集都在Ck中(為什么?)。因此可以通過掃描數(shù)據庫,通過計算每個k-項集的支持度來得到Lk 。為了減少計算量,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論