資料倉儲與資料采掘概述課件_第1頁
資料倉儲與資料采掘概述課件_第2頁
資料倉儲與資料采掘概述課件_第3頁
資料倉儲與資料采掘概述課件_第4頁
資料倉儲與資料采掘概述課件_第5頁
已閱讀5頁,還剩105頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

資料倉儲技術篇

第1章資料倉儲與資料採掘概述

1.1資料倉儲的發(fā)展與展望(zhǎnwàng)

1.2資料倉儲的架構

1.3資料倉儲的參照結構

1.4資料採掘技術

1.5資料採掘技術與工具

1.6資料倉儲與資料採掘的應用

1.7資料倉儲應用

1.8資料倉儲導向的決策支援系統(tǒng)

1.9資料倉儲的商業(yè)應用

1.10資料倉儲與資料採掘的應用

習題

第一頁,共一百一十頁。隨著資訊技術的不斷推廣和應用,許多企業(yè)都已經(jīng)在使用管理資訊系統(tǒng)(MIS)處理管理交易(jiāoyì)和日常業(yè)務。這些管理資訊系統(tǒng)為企業(yè)累積了大量的資訊因此,在資訊處理中,產(chǎn)生了與傳統(tǒng)資料庫有很大差異的資料環(huán)境要求,和從這些巨量資料中獲取特殊知識的工具的需要。

第二頁,共一百一十頁。1.1資料倉儲的發(fā)展與展望(zhǎnwàng)傳統(tǒng)資料庫只保存了當前的業(yè)務處理資訊,缺乏決策分析所需要(xūyào)的大量歷史資訊。為滿足管理人員的決策分析需求,就需要在資料庫的基礎上產(chǎn)生適應決策分析的資料環(huán)境─資料倉儲(DW,DataWarehouse)。第三頁,共一百一十頁。1.1.1從傳統(tǒng)資料庫到資料倉儲決策處理的系統(tǒng)回應問題在傳統(tǒng)的業(yè)務處理系統(tǒng)中,客戶對系統(tǒng)和資料庫的要求是資料存取頻率要高,操作(cāozuò)時間要快。在決策分析處理中,客戶對系統(tǒng)和資料的要求則發(fā)生了很大的變化。這些操作必然要消耗大量的系統(tǒng)資源,這是對業(yè)務處理即時反應的交易處理系統(tǒng)所無法忍受的。

第四頁,共一百一十頁。決策資料需求的問題在進行決策分析時,需要有整體、正確的整合式資料,這些整合式資料不僅包含企業(yè)內(nèi)部各部門的有關資料,而且還包含企業(yè)外部的,甚至(shènzhì)競爭對手的相關資料。但是在傳統(tǒng)資料庫中,只儲存了本部門的交易處理資料,而沒有與決策問題有關的整合式資料,更沒有企業(yè)外部的資料。

第五頁,共一百一十頁。在決策資料的整合中還需要解決資料混亂問題。例如,企業(yè)進行併購活動之後,被併購企業(yè)的資訊系統(tǒng)與併購企業(yè)的系統(tǒng)不相容,資料無法共享。例如(lìrú),在系統(tǒng)開發(fā)中,由於資金的缺乏,只考慮了一些關鍵系統(tǒng)的開發(fā),而對其他系統(tǒng)不予考慮,使決策資料無法整合。

第六頁,共一百一十頁。例如,員工的性別在人力資訊系統(tǒng)中可能(kěnéng)用邏輯值“M〞和“F〞表示,在財務系統(tǒng)中可能用數(shù)字“0〞和“I〞表示。例如,名稱為“GH〞的欄位名稱在人事系統(tǒng)中表示為員工的“員工號碼〞,但是在銷售管理系統(tǒng)中卻表示為“購貨號碼〞。這樣在使用這些資料作出決策之前,必須對這些資料作分析,確認其真實含義。第七頁,共一百一十頁。在決策分析中,系統(tǒng)常常(chángcháng)需要從資料庫中萃取資料、搜尋有用的資料,然後將這些資料導入其他文件或資料庫中,供客戶使用。這些被萃取出來的資料,有可能被其他客戶再次萃萃取。由於這種不加限制的資料連續(xù)萃取,使企業(yè)的資料空間構成了一個錯綜複雜的資料“蜘蛛網(wǎng)〞(Spider’sWeb),即形成了自然演化架構第八頁,共一百一十頁。資料的整合(zhěnɡhé)還涉及到外部資料與非結構化資料的應用問題。例如行業(yè)的統(tǒng)計報告、顧問公司的市場調(diào)查分析資料。這些資料必須經(jīng)過格式、類型的轉換,才能被決策系統(tǒng)應用。為完成交易處理的需求,傳統(tǒng)資料庫中的資料一般只保存當前的資料。但是對於決策分析而言,歷史的、長期的資料卻具有重要的意義。第九頁,共一百一十頁。在決策分析程序中,決策人員往往需要的並不是(bùshi)非常詳細的資料,而是一些經(jīng)過匯總、彙總的資料。第十頁,共一百一十頁。決策資料操作的問題決策分析(fēnxī)人員則往往希望以專業(yè)客戶的身份而不是參數(shù)客戶的身份對資料進行操作,他們往往希望能夠用各種工具對資料進行多種形式的操作,希望資料操作的結果能以商業(yè)智慧(BusinessIntelligence,BI)的形式呈現(xiàn)出來。第十一頁,共一百一十頁。資料倉儲與傳統(tǒng)資料庫的對比資料倉儲雖然是從資料庫發(fā)展而來的,但是(dànshì)兩者在許多方面都存在著相當大的差異,如表1-1所示。第十二頁,共一百一十頁。資料庫只存放當前之值,而資料倉儲則存放歷史值資料庫中資料的目標是面對業(yè)務操作(cāozuò)人員資料倉儲則是面對中高層主管資料庫內(nèi)的資料是動態(tài)變化的,資料倉儲則是靜態(tài)的歷史性資料資料庫中的資料結構比較複雜,資料倉儲中的資料結構則較為簡單。

第十三頁,共一百一十頁。資料庫中資料的存取頻率較高,但是(dànshì)存取資料的數(shù)量較少;資料倉儲的存取頻率較低,但是(dànshì)資料存取量要遠高於資料庫。資料庫在存取資料時要求回應速度很快,資料倉儲的反應時間則可能長達數(shù)小時。

第十四頁,共一百一十頁。1.1.2資料倉儲的定義與根本(gēnběn)特色WilliamH.Inmon在1993年所寫的論著?BuildingtheDataWarehouse?則首先系統(tǒng)地闡述了關於資料倉儲的理論,為資料倉儲的發(fā)展奠定了里程碑。在內(nèi)文中,他將資料倉儲定義為:“一個主題是導向的、整合式、隨時間變化的、不易(bùyì)失漏性資料的集合,用於支援管理層的決策程序〞。第十五頁,共一百一十頁。主題式導向(Subjectoriented)資料倉儲的創(chuàng)建、使用都是焦距於主題執(zhí)行的。因此,我們必須了解(liǎojiě)如何按照決策分析來萃取主題;所萃取出的主題應該包含哪些資料內(nèi)容;這些資料內(nèi)容應該如何組織。

第十六頁,共一百一十頁。在確定主題之後,需要確定主題所應該包含的資 料。此時,應該注意不能將鎖定主題的資料與交易處理系統(tǒng)中的資料相混淆。

在主題的資料組織中應該注意,不同的主題之間可能會出現(xiàn)相互重疊的資訊。主題在資料倉儲中可以(kěyǐ)用多維資料庫方式進行儲存。

第十七頁,共一百一十頁。整合式資料(IntegratedData)資料倉儲的整合性是指根據(jù)決策分析的需求,將分散於各處的原始(yuánshǐ)資料進行萃取、篩選、淨化、整合等工作,使資料倉儲中的資料具有整合性。

第十八頁,共一百一十頁。資料的時變性(Time-Variant)資料倉儲的時變性,就是資料應該隨著時間的推移而不斷發(fā)生變化。資料倉儲資料的時變性,不僅反映在資料的追加方面(fāngmiàn),而且還反映在資料的刪除上。資料倉儲中資料的時變性還表現(xiàn)在彙總資料的變化上。

第十九頁,共一百一十頁。資料的不易失漏性(Nonvolatile)資料的不易失漏性可以支援不同的客戶在不同的時間查詢、分析相同(xiānɡtónɡ)的問題時,獲得同一結果。

第二十頁,共一百一十頁。資料的聚合性(Aggregate)

資料倉儲所採用的資料聚合方式,主要是以多維資料庫方式進行儲存的多維模式(móshì)、以關聯(lián)式資料庫方式進行儲存的關聯(lián)式模式或以兩者相整合的方式進行儲存的混合模式。

第二十一頁,共一百一十頁。支援管理中的決策制定程序企業(yè)各級主管可以利用資料倉儲進行各種管理決策的分析,利用自己獨特而敏銳的商業(yè)透視力和業(yè)務知識,從貌似(màosì)平淡的資料中發(fā)現(xiàn)潛在的商機。

第二十二頁,共一百一十頁。1.1.3資料倉儲的未來趨勢

關聯(lián)式物件資料庫的資料倉儲關聯(lián)式物件資料庫的出現(xiàn)使得資料倉儲設計人員可以將物件引入到資料倉儲環(huán)境中。物件導向技術引入資料倉儲之後,客戶可以定義適合某種資料類型的最正確操作。關聯(lián)式物件資料庫作為資料倉儲平臺不僅為複雜資料類提供了可延伸功能(gōngnéng),而且還為資料倉庫平臺提供了對資料處理的功能(gōngnéng)延伸。第二十三頁,共一百一十頁。網(wǎng)路的影響未來的資料倉儲將越來越依賴於網(wǎng)路作資料的傳輸、資料的使用(shǐyòng)申請?zhí)幚怼?蛻艨梢越逯秲?nèi)部網(wǎng)路或外部網(wǎng)路使用資料倉儲,這就需要資料倉儲具有網(wǎng)路使用方面的能力。第二十四頁,共一百一十頁。操作(cāozuò)型資料倉儲“操作型資料倉儲〞就能夠以一種可以接受的標準對資料倉儲進行操作。這些標準包括可預測性、可利用性和可存取性。第二十五頁,共一百一十頁。Web應用中的代理技術資料倉儲的Web應用主要是指客戶利用(lìyòng)合作夥伴(partner)的資料倉儲或Intranet(企業(yè)內(nèi)部網(wǎng)路)系統(tǒng)中的多維資料集合進行決策分析活動。第二十六頁,共一百一十頁。1.2資料倉儲的架構

1.2.1資料倉儲的概念(gàiniàn)架構第二十七頁,共一百一十頁。1.2.2虛擬資料倉儲結構

第二十八頁,共一百一十頁。1.2.3資料市集(shìjí)架構第二十九頁,共一百一十頁。1.2.4單一資料倉儲結構

第三十頁,共一百一十頁。1.2.5分散式資料倉儲結構

第三十一頁,共一百一十頁。1.3資料倉儲的參照結構資料倉儲的根本功能包括:資料萃取(cuìqǔ)、資料篩選和淨化、清理之後的資料載入、建構資料市集、完成資料倉儲的查詢、決策分析和知識採掘等。第三十二頁,共一百一十頁。1.3.1資料倉儲根本(gēnběn)功能層資料倉儲的根本功能部份包含了資料來源、資料準備區(qū)、資料倉儲架構、資料市集或知識採掘庫以及(yǐjí)資料的存取與使用功能局部,如圖1.7所示。第三十三頁,共一百一十頁。資料倉儲的資料來源第三十四頁,共一百一十頁。業(yè)務資料業(yè)務資料是指那些從組織目前正在(zhèngzài)執(zhí)行的業(yè)務處理系統(tǒng)那裡收集到並保儲存在業(yè)務處理系統(tǒng)資料儲存中的資料。歷史性資料指組織在長期的資訊處理程序中所累積下來的資料,這些資料一般進行了離線處理。

第三十五頁,共一百一十頁。辦公資料主要(zhǔyào)是指組織內(nèi)部的辦公系統(tǒng)資料,這些資料分為電子資料和非電子資料兩種。Web資料Web資料是企業(yè)透過網(wǎng)際網(wǎng)路所獲取的資料,這些資料可以透過企業(yè)的電子商務系統(tǒng)獲取,也可以透過網(wǎng)路調(diào)查獲取。

第三十六頁,共一百一十頁。外部資料外部資料是指那些不為企業(yè)所操作、所擁有、所控制的資料,這些資料有的是電子形式的。資料來源超資料資料來源資料屬於超資料管理層範圍,在資料倉儲中的所有資料都需要(xūyào)透過超資料管理層來進行管理、控制。

第三十七頁,共一百一十頁。資料準備區(qū)的功能(gōngnéng)結構第三十八頁,共一百一十頁。資料的標準化處理資料準備區(qū)的標準化處理主要是將同名(tóngmíng)不同內(nèi)容的、同內(nèi)容不同名的、同名同內(nèi)容但不同結構的資料進行統(tǒng)一處理。資料的過濾與適配

資料的過濾與適配主要是對進入資料倉儲的資料按照客戶的需要進行篩選。

第三十九頁,共一百一十頁。資料的淨化處理資料的淨化處理主要是對準備載入到資料倉儲中的資料進行正確性判斷。加蓋資料的時間戳由於在資料倉儲中要進行資料的彙總,以分析(fēnxī)交易的發(fā)展趨勢。

第四十頁,共一百一十頁。確認資料品質(zhì)資料倉儲中資料品量的上下是資料倉儲能否成功的關鍵因素之一。超資料萃取與創(chuàng)建資料的持續(xù)改善程序(chéngxù)中,還需要從資料來源中確定這些源資料的超資料內(nèi)容。第四十一頁,共一百一十頁。資料倉儲功的能結構第四十二頁,共一百一十頁。資料重整資料重整是為使資料倉儲能夠更好地為客戶服務所進行的一系列預先操作。資料的整合與分解(fēnjiě)對來自不同系統(tǒng)的資料進行整合,創(chuàng)建新的資料。資料的彙總與聚集資料的概括聚集處理就是根據(jù)某一屬性將資料進行匯總。

第四十三頁,共一百一十頁。資料的預算與推導預算與推導的結果都是事先(shìxiān)進行的計算,並作為資料倉儲的欄位儲存在資料倉儲中。資料的編譯與格式化對來自不同資料來源的資料進行編譯和格式化處理,便於今後的統(tǒng)一處理。

第四十四頁,共一百一十頁。資料的轉換與映射對己經(jīng)儲存好的資料進行轉移或再映像到資料來源中,有利於對新生成或發(fā)生變化的資料添加更新。資料倉儲創(chuàng)建資料倉儲創(chuàng)建作為資料倉儲的核心功能應該完成(wánchéng)資料倉儲的建模、資料的一般性、資料的整合、資料的調(diào)整與確認、建構結構化查詢。

第四十五頁,共一百一十頁。資料倉儲的建模從己經(jīng)創(chuàng)建的資料模型中導出資料倉儲的資料模型(星狀模型或雪花模型)。資料的彙總根據(jù)客戶的需要(xūyào),從初步的一般性資料中創(chuàng)建客戶所需的高度彙總資料。

第四十六頁,共一百一十頁。資料的聚集(jùjí)從擁有大批量資料的資料倉儲中進行查詢分析是一個非常費時的操作。資料的調(diào)整與確認在資料完成彙總與聚集之後,需要對彙總與聚集後的資料進行確認。

第四十七頁,共一百一十頁。建構結構化查詢?yōu)樘岣咭恍┙Y構化查詢,可以預定義這些查詢,並將這些結構化查詢作為超資料儲存在超資料庫中。超資料管理(guǎnlǐ)超資料管理功能主要包含超資料瀏覽與導覽、超資料的萃取與創(chuàng)建、創(chuàng)建字彙表。

第四十八頁,共一百一十頁。超資料瀏覽與導覽資料倉儲的建構者在資料倉儲的建設和維護程序中需要利用資料倉儲的超資料瀏覽和導覽功能。超資料的萃取(cuìqǔ)與創(chuàng)建在資料重整程序中需要從整合資料、彙總資料和衍生資料中捕獲超資料。

第四十九頁,共一百一十頁。創(chuàng)建詞彙表在創(chuàng)建資料倉儲的程序(chéngxù)中,需要根據(jù)所捕獲的超資料建構超資料的詞彙表。第五十頁,共一百一十頁。資料市集(shìjí)

/知識採掘庫結構第五十一頁,共一百一十頁。資料倉儲的資料存取與使用(shǐyòng)結構第五十二頁,共一百一十頁。1.3.2資料倉儲的管理(guǎnlǐ)層第五十三頁,共一百一十頁。1.3.3資料倉儲的超資料管理(guǎnlǐ)層

第五十四頁,共一百一十頁。資料倉儲、資料市集和超資料詞彙表管理(guǎnlǐ)超資料管理層利用超資料詞彙表來管理資料倉儲和資料市集中的邏輯資料模型、實體資料模型以及與技術和業(yè)務相關的資料說明。

第五十五頁,共一百一十頁。超資料萃取、創(chuàng)建、儲存和更新(gēngxīn)管理超資料在資料倉儲對資料來源進行資料萃取、清理、載入等操作程序中需要對所涉及到的超資料進行萃取、創(chuàng)建、儲存和更新處理。

第五十六頁,共一百一十頁。預訂定義的查詢、報表和索引管理(guǎnlǐ)在超資料管理中還需要對設計人員為資料倉儲客戶預訂定義的查詢和報表進行管理,將預定義的查詢和報表的處理方式甚至處理結果置於超資料庫中。

第五十七頁,共一百一十頁。更新、複製、恢復、登錄、歸檔與淨化管理資料倉儲所連接的資料源發(fā)生了變化時,資料倉儲的內(nèi)容也要定期(dìngqī)更新。這些更新工作的進行需要依靠超資料庫中所包含約有關說明。

第五十八頁,共一百一十頁。1.3.4資料倉儲的環(huán)境支援(zhīyuán)層

資料倉儲的資料傳輸層第五十九頁,共一百一十頁。資料傳輸層的架構資料傳輸層中的資料傳輸和傳送網(wǎng)路包括網(wǎng)路協(xié)定、網(wǎng)路管理框架、網(wǎng)路操作系統(tǒng)和網(wǎng)路??蛻舳?伺服器與中間元件(yuánjiàn)客戶端/伺服器代理和中間元件局部包括資料庫網(wǎng)路、資料倉儲的中間元件、傳輸層的資料倉儲資料發(fā)佈和複製系統(tǒng)等。

第六十頁,共一百一十頁。資料複製系統(tǒng)在傳輸層的複製系統(tǒng)中有發(fā)布與複製系統(tǒng)、資料庫閘道內(nèi)所定義的複製工具(gōngjù)、專用的資料倉儲產(chǎn)品等。

第六十一頁,共一百一十頁。資料倉儲的基礎層資料倉儲的基礎層中包括(bāokuò)系統(tǒng)管理、工作流程管理、儲存系統(tǒng)、處理系統(tǒng)等局部,如圖1.16所示。第六十二頁,共一百一十頁。1.4資料採掘技術1989年8月,在第11屆國際人工智慧聯(lián)合會議的專題研討會上首次提出(tíchū)了資料庫導向的知識發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)技術。

該技術涉及到機器學習,模式識別、統(tǒng)計學、智慧型資料庫、知識獲取、專家系統(tǒng)、資料視覺化、高性能計算等領域。

第六十三頁,共一百一十頁。1.4.1資料採掘的發(fā)展超大型資料庫的出現(xiàn)依靠(yīkào)電腦自動收集的各種業(yè)務處理資料使許多大規(guī)模資料庫或資料倉儲擁有了大量的業(yè)務處理資料、市場變化資料。先進的電腦技術先進的電腦技術水準已成為促進資料採掘技術發(fā)展的第二個重要因素。

第六十四頁,共一百一十頁。管理的需求企業(yè)所面臨的市場競爭壓力日趨嚴重,企業(yè)經(jīng)營管理者希望(xīwàng)能夠從企業(yè)累積的大量歷史資料中,找到應對日趨嚴重競爭壓力的良方,希望能夠從這些資料中找到管理中發(fā)生問題的根本原因。

第六十五頁,共一百一十頁。對資料採掘的精深計算能力大規(guī)模資料的採掘需要複雜的、精深的計算能力,這些精深的計算能力主要(zhǔyào)以統(tǒng)計學、集合論、資訊論、認識論和人工智慧等各種學科理論為基礎。

第六十六頁,共一百一十頁。1.4.2資料採掘的定義資料採掘的定義現(xiàn)在很多,在不同的教科書上有不同的定義。呈現(xiàn)方式(fāngshì)雖然不同,但本質(zhì)都是一樣的。這裡主要從技術角度和商業(yè)角度給出資料採掘的定義。第六十七頁,共一百一十頁。資料採掘的技術定義從技術角度看,資料採掘是從大量的、不完全的、有噪音的、模糊的、隨機的實際資料中提取隱含在其中的、人們所不知道(zhīdào)的但又是潛在有用的資訊和知識的程序。

第六十八頁,共一百一十頁。資料採掘的商業(yè)定義商業(yè)應用角度來看,資料採掘是一種嶄新的商業(yè)資訊處理技術,其主要特點是對商業(yè)資料庫中的大量業(yè)務資料進行萃取(cuìqǔ)、轉化、分析和模式化處理,從中提取輔助商業(yè)決策的關鍵知識,即從一個資料庫中自動發(fā)現(xiàn)相關商業(yè)模式。

第六十九頁,共一百一十頁。第七十頁,共一百一十頁。1.5資料採掘技術與工具(gōngjù)

1.5.1常用的資料採掘技術資料採掘的發(fā)展受到資料庫系統(tǒng)、統(tǒng)計學、機器學習、視覺化技術、資訊技術以及其他學科的影響,例如(lìrú)類神經(jīng)網(wǎng)路、模糊/粗糙集理論、知識表示、歸納技術、高性能計算等。第七十一頁,共一百一十頁。如果(rúguǒ)從常用的資料採掘技術來看可以分成三大類:傳統(tǒng)分析類傳統(tǒng)的統(tǒng)計分析(或稱資料分析)技術中使用的資料採掘模型有線性分析、非線性分析、迴歸分析、邏輯迴歸分析、單變數(shù)分析、多變數(shù)分析、時間序列分析、最近近鄰演算法、群集分析等。

第七十二頁,共一百一十頁。知識發(fā)現(xiàn)類知識發(fā)現(xiàn)類資料採掘技術包括類神經(jīng)網(wǎng)路、決策樹、基因演算法、粗糙集、規(guī)則發(fā)現(xiàn)、關聯(lián)順序等。類神經(jīng)網(wǎng)路是模擬人腦神經(jīng)元結構決策樹是一個類似於流程圖的樹結構基因演算法是近幾年發(fā)展起來的一種嶄新的整體最正確(zhèngquè)化演算法粗糙集能夠在缺少關於資料先驗知識的情況下第七十三頁,共一百一十頁。資料採掘技術的發(fā)展在資料採掘技術的最新發(fā)展中包括(bāokuò)了文字資料採掘、Web資料採掘、視覺化系統(tǒng)、空間資料採掘和分散式資料採掘技術等。

第七十四頁,共一百一十頁。文字資料採掘和Web資料採掘是近幾年新發(fā)展起來的嶄新資料採掘技術可視覺化系統(tǒng)是為了便資料採掘能夠以圖形或影像(yǐnɡxiànɡ)的方式在螢幕上顯示出來空間資料採掘是地理資訊系統(tǒng)導向的資料採掘技術。分散式資料採掘是分散式資料庫導向並利用分散式演算法從分散式資料庫中採掘知識的技術。

第七十五頁,共一百一十頁。1.5.2常用(chánɡyònɡ)資料採掘工具按使用方式分類的資料採掘工具決策方案生成工具往往是針對某個特定行業(yè)或特定問題而開發(fā)的一類資料採掘工具。商業(yè)分析工具有兩種類型。一種是只為客戶提供一個黑箱,另一種資料採掘工具則向客戶展示(zhǎnshì)資料採掘模型第七十六頁,共一百一十頁。按資料採掘技術分類的資料採掘工具按照資料採掘的技術可以(kěyǐ)分成:類神經(jīng)網(wǎng)路導向的工具規(guī)則和決策樹導向的工具模糊邏輯導向的工具整合性資料採掘工具等

第七十七頁,共一百一十頁。按應用範圍分類的資料採掘工具(gōngjù)專用型資料採掘工具專用型資料採掘工具主要用於某一特定領域。通用型資料採掘工具通用型資料採掘工具一般不考慮所採掘物件的實際含義,只提供各種通用採掘演算法。

第七十八頁,共一百一十頁。通用型資料採掘工具:IBM公司(ɡōnɡsī)的IM智慧型採掘器,這是一套包括了Explorer、Diamond和Quest在內(nèi)的軟體產(chǎn)品。SPSS公司統(tǒng)計套裝軟體SPSS在統(tǒng)計領域處於領先的地位RedBrick公司的RedBrick資料採掘工具是第一個將資料採掘解決方案與資料庫整合在一起的資料採掘元件。

第七十九頁,共一百一十頁。1.5.3資料採掘工具(gōngjù)的評估標準如何選擇滿足需要的資料採掘工具(gōngjù)就成了資料採掘應用中首先要解決的問題。在選擇資料採掘工具時,一般可以參照以下評價標準。

第八十頁,共一百一十頁。模式種類的數(shù)量資料採掘工具(gōngjù)能夠提供的模式越多,它的知識發(fā)現(xiàn)能力越強,而且多種類型模式的整合應用,有助於降低問題的複雜性。第八十一頁,共一百一十頁。解決複雜問題的能力為了解資料採掘工具(gōngjù)解決複雜問題的能力,可以從採掘工具(gōngjù)的模式應用、資料選擇和轉換能力、視覺化程度和延伸性等方面審視。資料採掘工具的延伸性也是提高採掘工具解決複雜問題能力的一個重要因素。第八十二頁,共一百一十頁。操作性能操作性能的好壞是一個影響採掘工具性能的重要因素。資料獲取能力(nénglì)

沒有一種工具可以支援所有類型的資料庫或資料倉儲,但應該可以通過通用接口連接大多數(shù)流行的資料庫或資料倉儲,這有利於提高資料採掘工具的使用範圍。

第八十三頁,共一百一十頁。採掘結果的輸出資料採掘工具不僅能夠?qū)窬蚪Y果以多種方式輸出,而且要求輸出的結果便於客戶的瞭解與應用。噪音資料的處理及採掘工具的穩(wěn)健性噪音資料的處理從另一個角度說明採掘工具需要具有一定的穩(wěn)定性,從資料採掘工具的目標來看,是希望(xīwàng)能夠?qū)ξ粗奈锛龀稣_的判斷。

第八十四頁,共一百一十頁。1.5.4常用(chánɡyònɡ)資料採掘工具的選擇 由於資料採掘工具種類繁多,客戶在選擇採掘工具時,需要(xūyào)從工具的實用性和技術性方面進行研究。

從技術性方面審視資料採掘工具時,需要根據(jù)資料採掘工具評估標準,選擇那些技術性能指標良好的資料採掘工具。

第八十五頁,共一百一十頁。1.6資料倉儲與資料採掘的應用

1.6.1資料採掘與資料倉儲 根據(jù)資料採掘的定義,我們可以看出,資料採掘包含了一系列旨在從資料集合中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術,如果(rúguǒ)將其與資料倉儲緊密聯(lián)結在一起,將獲得意外的成功。 傳統(tǒng)的觀點認為資料採掘技術紮根於電腦科學和數(shù)學,不需要也不會得益於資料倉儲。這種觀點是不正確的

第八十六頁,共一百一十頁。 當然從資料採掘與資料倉儲的整合情況來看,資料採掘技術己經(jīng)成為資料倉儲應用的強大支柱。資料採掘技術在資料倉儲中的應用,正好(zhènghǎo)彌補了資料倉儲只能提供大量資料,而無法進行深度資訊分析的缺陷。第八十七頁,共一百一十頁。1.6.2資料採掘程序(chéngxù)第八十八頁,共一百一十頁。確定採掘物件定義清晰的採掘物件,認清資料採掘的目標是資料採掘的第一步。在資料採掘的第一步中,有時還需要客戶提供一些先驗知識,例如概念樹等。準備資料資料的選擇在確定資料採掘的業(yè)務物件之後,就需要搜尋所有(suǒyǒu)與業(yè)務物件有關的內(nèi)部資料和外部資料,從中選擇出適合於資料採掘應用的資料。

第八十九頁,共一百一十頁。資料的預先處理

在選擇好資料之後,還需要(xūyào)對資料進行預先處理,對資料進行淨化,解決資料中的遺漏值、冗餘、資料值的不一致、資料定義的不一致、過時的資料等問題。

第九十頁,共一百一十頁。採掘模型的建構這個分析模型是鎖定採掘演算法而建構的。建構一個真正適合採掘演算法的分析模型是資料採掘成功的關鍵。模型的建構必須從資料的分析開始。接著,從原始資料中建構新的預示值。下一步(yībù),就需要從資料中選取一個子集或樣本來建構模型。最後,需要轉換變數(shù),使之和選定用來建構模型的演算法一致。

第九十一頁,共一百一十頁。資料採掘?qū)λ玫降慕?jīng)過轉化的資料採掘,除了完善與選擇合適的演算法需要人工干預之外,資料採掘工作(gōngzuò)主要由採掘工具自動完成。

第九十二頁,共一百一十頁。結果分析當資料採掘出現(xiàn)結果之後,需要對採掘結果作解讀與評估。具體的解讀與評估方法一般應根據(jù)資料採掘操作結果所制定的決策成敗來決定。知識的應用資料採掘結果要能夠在實際中得到(dédào)應用,需要將分析所得到的知識整合到組織機構中去使這些知識在實際的管理決策分析中得到應用。

第九十三頁,共一百一十頁。1.6.3資料採掘的客戶

如果從資料採掘的程序看,不同(bùtónɡ)的資料採掘程序需要不同專長的人員,大致為:業(yè)務分析人員、資料分析人員和資料管理人員。業(yè)務分析人員或稱其為企業(yè)管理顧問。資料分析人員。要求這些人員精通資料採掘分析技術。資料管理人員。這些人員需要精通資料管理技術。

第九十四頁,共一百一十頁。1.7資料倉儲應用

1.7.1資料倉儲與資料採掘

資訊處理、分析處理和資料採掘是三種主要的資料倉儲應用。資訊處理支援(zhīyuán)查詢和根本的統(tǒng)計分析,並使用交叉分析表、列表、圖表或圖形報告結果。第九十五頁,共一百一十頁。線上分析處理支援根本的OLAP操作,包括切片(qiēpiàn)、切塊、下鑽、上捲和轉軸。資料採掘支援知識發(fā)現(xiàn),找出隱藏的模式和關聯(lián),建構分析模型,進行分類和預測,並用視覺化工具提供採掘結果。第九十六頁,共一百一十頁。1.7.2資料採掘和資料倉儲的關係

第九十七頁,共一百一十頁。資料採掘庫是資料倉儲的一個邏輯上的子集(zǐjí),而不一定是實體上單獨的資料庫。

資料採掘是一個相對獨立的系統(tǒng),可以獨立於資料倉儲存在。資料倉儲為資料採掘打下了良好的基礎,包括資料萃取、資料淨化整理、資料一致性處理等。

第九十八頁,共一百一十頁。1.8資料倉儲導向的決策支援(zhīyuán)系統(tǒng)第九十九頁,共一百一十頁。線上分析處理工具(gōngjù)(OLAP)和資料採掘(DM)在整個DSS整體解決方案中,發(fā)揮了關鍵性的功能。OLAP的功能結構是3層客戶伺服器結構,此結構由3個伺服器組件組成:資料倉儲伺服器、OLAP伺服器及客戶描述伺服器。

第一百頁,共一百一十頁。多維資料庫的MOLAP以多維度資料庫為重點,它使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論