新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉(cāng)庫(kù)課件_第1頁(yè)
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉(cāng)庫(kù)課件_第2頁(yè)
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉(cāng)庫(kù)課件_第3頁(yè)
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉(cāng)庫(kù)課件_第4頁(yè)
新圓計(jì)算機(jī)系統(tǒng)公司-數(shù)據(jù)倉(cāng)庫(kù)課件_第5頁(yè)
已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

新圓計(jì)算機(jī)系統(tǒng)公司

---------------------數(shù)據(jù)倉(cāng)庫(kù)

新圓計(jì)算機(jī)系統(tǒng)公司

--------------------1議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)2數(shù)據(jù)庫(kù)的定義傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡(jiǎn)工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫(kù)的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來(lái)。

數(shù)據(jù)庫(kù)的定義3數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡(jiǎn)單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長(zhǎng)期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不4數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫(kù)由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)5用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬(wàn)別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的6用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫(kù)的DDS問(wèn)題。如DDS分析需要較長(zhǎng)時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過(guò)一端歷史時(shí)期的數(shù)據(jù)來(lái)進(jìn)行分析趨勢(shì),而數(shù)據(jù)庫(kù)一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬(wàn)別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)7數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無(wú)法作出正確判斷!為什么要建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa8面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉(cāng)庫(kù)從而獲取正確信息面向應(yīng)用ApplicationOriented操9分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉(cāng)庫(kù)Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫(kù)的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover10議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)11數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場(chǎng)分析、價(jià)格趨勢(shì)等數(shù)據(jù)倉(cāng)庫(kù)是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然經(jīng)過(guò)加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是極少或不更新的。數(shù)據(jù)倉(cāng)庫(kù)是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無(wú)用數(shù)據(jù)的清除。數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀12議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)13

數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)

數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)也有其自身開(kāi)發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展

數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)

數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)141.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來(lái)明確數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過(guò)對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉(cāng)庫(kù)這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉(cāng)庫(kù)是不是用戶所期望的;在此有沒(méi)有不可逾越的障礙。最好能確定評(píng)定將來(lái)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)成功與否的基本原則。開(kāi)展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來(lái)使用數(shù)據(jù)倉(cāng)庫(kù)部門(mén)的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競(jìng)爭(zhēng)對(duì)手比較的差距。在評(píng)估工作開(kāi)展過(guò)程中,他應(yīng)當(dāng)及時(shí)的提出問(wèn)題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)的數(shù)據(jù)庫(kù)管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉(cāng)庫(kù)的主題。進(jìn)一步說(shuō)明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫(kù)類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉(cāng)庫(kù)負(fù)責(zé)人審定。

1.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。15數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競(jìng)爭(zhēng)對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來(lái)的;有沒(méi)有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉(cāng)庫(kù)為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問(wèn)題是什么;希望開(kāi)發(fā)怎樣的功能來(lái)解決這些問(wèn)題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開(kāi)始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問(wèn)題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問(wèn)題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉(cāng)庫(kù)初始裝載和更新的策略、數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉(cāng)庫(kù)建成的時(shí)限。

2.需求的收集和分析數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需163.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)包括了數(shù)據(jù)倉(cāng)庫(kù)的管理,數(shù)據(jù)倉(cāng)庫(kù)的組織和決策支持信息的展現(xiàn)三部分。

數(shù)據(jù)倉(cāng)庫(kù)的管理通過(guò)建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫(xiě)取用數(shù)據(jù)的程序;設(shè)置和編寫(xiě)數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫(xiě)數(shù)據(jù)更新程序;設(shè)置和編寫(xiě)運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。

數(shù)據(jù)倉(cāng)庫(kù)的組織包括了:規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的初始裝載;在數(shù)據(jù)倉(cāng)庫(kù)中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)174數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)

數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉(cāng)庫(kù)后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉(cāng)庫(kù)的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉(cāng)庫(kù)的管理員不是系統(tǒng)的開(kāi)發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉(cāng)庫(kù)的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問(wèn)題及其測(cè)度;所有程序文檔資料的管理等。4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)

數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,185.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門(mén)對(duì)開(kāi)發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開(kāi)發(fā)部門(mén)分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門(mén)是否可以利用數(shù)據(jù)倉(cāng)庫(kù)獲得效益;有沒(méi)有得到未曾期望過(guò)的效益。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)往往是從一個(gè)簡(jiǎn)明的急需主題開(kāi)始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪19議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)20數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)

據(jù)

掘(DataMining),

數(shù)

據(jù)

庫(kù)

識(shí)

發(fā)

現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),

數(shù)

據(jù)

信、

穎、

級(jí)

過(guò)

程。

數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining21知

識(shí)

發(fā)

現(xiàn)

個(gè)

過(guò)

程,

問(wèn)題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。

數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。

數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。

知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過(guò)程,22議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)23數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。

聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。

----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購(gòu)買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目24前

數(shù)

據(jù)

術(shù)KDD在

應(yīng)

發(fā)

速,

業(yè)

領(lǐng)

應(yīng)

發(fā)

快。

行、

險(xiǎn)

司、

業(yè)。

IBM和

應(yīng)

進(jìn)

作,

外,

關(guān)

開(kāi)

國(guó)

內(nèi)

售,

如Platinum、BO以

及IBM。

數(shù)

據(jù)

應(yīng)

用在國(guó)內(nèi)也受

學(xué)

術(shù)

實(shí)

業(yè)

來(lái)

視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究25議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)26數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有27特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。

----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的28通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類型,一般提供六種模式。例如,IBM公司Almaden研究中心開(kāi)發(fā)的QUEST系統(tǒng),SGI公司開(kāi)發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶根據(jù)自己的應(yīng)用來(lái)選擇。

通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘29

下面簡(jiǎn)單介紹幾種數(shù)據(jù)挖掘工具:

下面簡(jiǎn)單介紹幾種數(shù)據(jù)挖掘工具:301.QUESTQUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開(kāi)發(fā)提供高效的數(shù)據(jù)開(kāi)采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):

提供了專門(mén)在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹(shù)分類、遞增式主動(dòng)開(kāi)采等。各種開(kāi)采算法具有近似線性(O(n))計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫(kù)。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來(lái)。為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。1.QUESTQUEST312.MineSetMineSet是由SGI公司和美國(guó)Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。

有如下特點(diǎn):

MineSet2.6中使用了6種可視化工具來(lái)表現(xiàn)數(shù)據(jù)和知識(shí)。對(duì)同一個(gè)挖掘結(jié)果可以用不同的可視化工具以各種形式表示,用戶也可以按照個(gè)人的喜好調(diào)整最終效果,以便更好地理解。提供多種數(shù)據(jù)挖掘模式。包括分類器、回歸模式、關(guān)聯(lián)規(guī)則、聚類歸、判斷列重要度。支持多種關(guān)系數(shù)據(jù)庫(kù)??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過(guò)SQL命令執(zhí)行查詢。多種數(shù)據(jù)轉(zhuǎn)換功能。操作簡(jiǎn)單。支持國(guó)際字符。可以直接發(fā)布到Web。2.MineSetMi32數(shù)據(jù)挖掘工具的選擇

評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:1.可產(chǎn)生的模式種類的多少2.解決復(fù)雜問(wèn)題的能力3.易操作性4.?dāng)?shù)據(jù)存取能力

5.與其他產(chǎn)品的接口數(shù)據(jù)挖掘工具的選擇

評(píng)價(jià)一個(gè)數(shù)據(jù)33議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)34Brio產(chǎn)品介紹

cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIOOne介紹

和BrioReports點(diǎn)擊進(jìn)入CognusBrio產(chǎn)品介紹

cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIO35新圓計(jì)算機(jī)系統(tǒng)公司

---------------------數(shù)據(jù)倉(cāng)庫(kù)

新圓計(jì)算機(jī)系統(tǒng)公司

--------------------36議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)37數(shù)據(jù)庫(kù)的定義傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡(jiǎn)工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫(kù)的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來(lái)。

數(shù)據(jù)庫(kù)的定義38數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡(jiǎn)單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長(zhǎng)期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不39數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫(kù)由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)40用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬(wàn)別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的41用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫(kù)的DDS問(wèn)題。如DDS分析需要較長(zhǎng)時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過(guò)一端歷史時(shí)期的數(shù)據(jù)來(lái)進(jìn)行分析趨勢(shì),而數(shù)據(jù)庫(kù)一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬(wàn)別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)42數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無(wú)法作出正確判斷!為什么要建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa43面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉(cāng)庫(kù)從而獲取正確信息面向應(yīng)用ApplicationOriented操44分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉(cāng)庫(kù)Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫(kù)的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover45議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)46數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場(chǎng)分析、價(jià)格趨勢(shì)等數(shù)據(jù)倉(cāng)庫(kù)是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然經(jīng)過(guò)加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是極少或不更新的。數(shù)據(jù)倉(cāng)庫(kù)是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無(wú)用數(shù)據(jù)的清除。數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀47議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)48

數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)

數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)也有其自身開(kāi)發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展

數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)

數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)491.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來(lái)明確數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過(guò)對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉(cāng)庫(kù)這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉(cāng)庫(kù)是不是用戶所期望的;在此有沒(méi)有不可逾越的障礙。最好能確定評(píng)定將來(lái)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)成功與否的基本原則。開(kāi)展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來(lái)使用數(shù)據(jù)倉(cāng)庫(kù)部門(mén)的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競(jìng)爭(zhēng)對(duì)手比較的差距。在評(píng)估工作開(kāi)展過(guò)程中,他應(yīng)當(dāng)及時(shí)的提出問(wèn)題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)的數(shù)據(jù)庫(kù)管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉(cāng)庫(kù)的主題。進(jìn)一步說(shuō)明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫(kù)類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉(cāng)庫(kù)負(fù)責(zé)人審定。

1.任務(wù)和環(huán)境的評(píng)估

數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。50數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競(jìng)爭(zhēng)對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來(lái)的;有沒(méi)有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉(cāng)庫(kù)為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問(wèn)題是什么;希望開(kāi)發(fā)怎樣的功能來(lái)解決這些問(wèn)題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開(kāi)始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問(wèn)題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問(wèn)題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉(cāng)庫(kù)初始裝載和更新的策略、數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉(cāng)庫(kù)建成的時(shí)限。

2.需求的收集和分析數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需513.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)包括了數(shù)據(jù)倉(cāng)庫(kù)的管理,數(shù)據(jù)倉(cāng)庫(kù)的組織和決策支持信息的展現(xiàn)三部分。

數(shù)據(jù)倉(cāng)庫(kù)的管理通過(guò)建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫(xiě)取用數(shù)據(jù)的程序;設(shè)置和編寫(xiě)數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫(xiě)數(shù)據(jù)更新程序;設(shè)置和編寫(xiě)運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。

數(shù)據(jù)倉(cāng)庫(kù)的組織包括了:規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的初始裝載;在數(shù)據(jù)倉(cāng)庫(kù)中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)524數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)

數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉(cāng)庫(kù)后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉(cāng)庫(kù)的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉(cāng)庫(kù)的管理員不是系統(tǒng)的開(kāi)發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉(cāng)庫(kù)的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問(wèn)題及其測(cè)度;所有程序文檔資料的管理等。4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)

數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,535.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門(mén)對(duì)開(kāi)發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開(kāi)發(fā)部門(mén)分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門(mén)是否可以利用數(shù)據(jù)倉(cāng)庫(kù)獲得效益;有沒(méi)有得到未曾期望過(guò)的效益。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)往往是從一個(gè)簡(jiǎn)明的急需主題開(kāi)始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪54議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)55數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)

據(jù)

掘(DataMining),

數(shù)

據(jù)

庫(kù)

識(shí)

發(fā)

現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),

數(shù)

據(jù)

信、

穎、

級(jí)

過(guò)

程。

數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining56知

識(shí)

發(fā)

現(xiàn)

個(gè)

過(guò)

程,

問(wèn)題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。

數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。

數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。

知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過(guò)程,57議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)58數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。

聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。

----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購(gòu)買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?

-數(shù)據(jù)總結(jié)其目59前

數(shù)

據(jù)

術(shù)KDD在

應(yīng)

發(fā)

速,

業(yè)

領(lǐng)

應(yīng)

發(fā)

快。

行、

險(xiǎn)

司、

業(yè)。

IBM和

應(yīng)

進(jìn)

作,

外,

關(guān)

開(kāi)

國(guó)

內(nèi)

售,

如Platinum、BO以

及IBM。

數(shù)

據(jù)

應(yīng)

用在國(guó)內(nèi)也受

學(xué)

術(shù)

實(shí)

業(yè)

來(lái)

視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究60議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)61數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具

數(shù)據(jù)挖掘工具主要有62特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。

----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論