版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
新圓計(jì)算機(jī)系統(tǒng)公司
---------------------數(shù)據(jù)倉(cāng)庫(kù)
新圓計(jì)算機(jī)系統(tǒng)公司
--------------------1議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)2數(shù)據(jù)庫(kù)的定義傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡(jiǎn)工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫(kù)的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來(lái)。
數(shù)據(jù)庫(kù)的定義3數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡(jiǎn)單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長(zhǎng)期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不4數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫(kù)由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)5用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬(wàn)別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的6用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫(kù)的DDS問(wèn)題。如DDS分析需要較長(zhǎng)時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過(guò)一端歷史時(shí)期的數(shù)據(jù)來(lái)進(jìn)行分析趨勢(shì),而數(shù)據(jù)庫(kù)一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬(wàn)別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)7數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無(wú)法作出正確判斷!為什么要建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa8面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉(cāng)庫(kù)從而獲取正確信息面向應(yīng)用ApplicationOriented操9分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉(cāng)庫(kù)Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫(kù)的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover10議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)11數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場(chǎng)分析、價(jià)格趨勢(shì)等數(shù)據(jù)倉(cāng)庫(kù)是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然經(jīng)過(guò)加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是極少或不更新的。數(shù)據(jù)倉(cāng)庫(kù)是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無(wú)用數(shù)據(jù)的清除。數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀12議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)13
數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)
數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)也有其自身開(kāi)發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展
數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)
數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)141.任務(wù)和環(huán)境的評(píng)估
數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來(lái)明確數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過(guò)對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉(cāng)庫(kù)這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉(cāng)庫(kù)是不是用戶所期望的;在此有沒(méi)有不可逾越的障礙。最好能確定評(píng)定將來(lái)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)成功與否的基本原則。開(kāi)展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來(lái)使用數(shù)據(jù)倉(cāng)庫(kù)部門(mén)的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競(jìng)爭(zhēng)對(duì)手比較的差距。在評(píng)估工作開(kāi)展過(guò)程中,他應(yīng)當(dāng)及時(shí)的提出問(wèn)題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)的數(shù)據(jù)庫(kù)管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉(cāng)庫(kù)的主題。進(jìn)一步說(shuō)明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫(kù)類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉(cāng)庫(kù)負(fù)責(zé)人審定。
1.任務(wù)和環(huán)境的評(píng)估
數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。15數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競(jìng)爭(zhēng)對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來(lái)的;有沒(méi)有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉(cāng)庫(kù)為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問(wèn)題是什么;希望開(kāi)發(fā)怎樣的功能來(lái)解決這些問(wèn)題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開(kāi)始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問(wèn)題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問(wèn)題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉(cāng)庫(kù)初始裝載和更新的策略、數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉(cāng)庫(kù)建成的時(shí)限。
2.需求的收集和分析數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需163.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)包括了數(shù)據(jù)倉(cāng)庫(kù)的管理,數(shù)據(jù)倉(cāng)庫(kù)的組織和決策支持信息的展現(xiàn)三部分。
數(shù)據(jù)倉(cāng)庫(kù)的管理通過(guò)建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫(xiě)取用數(shù)據(jù)的程序;設(shè)置和編寫(xiě)數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫(xiě)數(shù)據(jù)更新程序;設(shè)置和編寫(xiě)運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。
數(shù)據(jù)倉(cāng)庫(kù)的組織包括了:規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的初始裝載;在數(shù)據(jù)倉(cāng)庫(kù)中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)174數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)
數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉(cāng)庫(kù)后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉(cāng)庫(kù)的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉(cāng)庫(kù)的管理員不是系統(tǒng)的開(kāi)發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉(cāng)庫(kù)的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問(wèn)題及其測(cè)度;所有程序文檔資料的管理等。4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)
數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,185.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門(mén)對(duì)開(kāi)發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開(kāi)發(fā)部門(mén)分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門(mén)是否可以利用數(shù)據(jù)倉(cāng)庫(kù)獲得效益;有沒(méi)有得到未曾期望過(guò)的效益。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)往往是從一個(gè)簡(jiǎn)明的急需主題開(kāi)始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪19議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)20數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)
據(jù)
挖
掘(DataMining),
也
可
以
稱
為
數(shù)
據(jù)
庫(kù)
中
的
知
識(shí)
發(fā)
現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),
是
從
大
量
數(shù)
據(jù)
中
提
取
出
可
信、
新
穎、
有
效
并
能
被
人
理
解
的
模
式
的
高
級(jí)
處
理
過(guò)
程。
數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining21知
識(shí)
發(fā)
現(xiàn)
是
一
個(gè)
多
步
驟
的
處
理
過(guò)
程,
問(wèn)題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。
數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。
數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。
知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過(guò)程,22議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)23數(shù)據(jù)挖掘能做什么?
-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。
聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。
----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購(gòu)買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?
-數(shù)據(jù)總結(jié)其目24前
途
光
明
的
數(shù)
據(jù)
挖
掘
技
術(shù)KDD在
研
究
和
應(yīng)
用
方
面
發(fā)
展
迅
速,
尤
其
是
在
商
業(yè)
和
銀
行
領(lǐng)
域
的
應(yīng)
用
比
研
究
的
發(fā)
展
速
度
還
要
快。
用
戶
主
要
集
中
在
大
型
銀
行、
保
險(xiǎn)
公
司、
電
信
公
司
和
銷
售
業(yè)。
IBM和
微
軟
都
成
立
了
相
應(yīng)
的
研
究
中
心
進(jìn)
行
這
方
面
的
工
作,
此
外,
一
些
公
司
的
相
關(guān)
軟
件
也
開(kāi)
始
在
國(guó)
內(nèi)
銷
售,
如Platinum、BO以
及IBM。
數(shù)
據(jù)
挖
掘
的
研
究
和
應(yīng)
用在國(guó)內(nèi)也受
到
了
學(xué)
術(shù)
界
和
實(shí)
業(yè)
界
越
來(lái)
越
多
的
重
視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究25議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)26數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘工具主要有27特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。
----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識(shí)可靠度也比較高。特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的28通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見(jiàn)的數(shù)據(jù)類型,一般提供六種模式。例如,IBM公司Almaden研究中心開(kāi)發(fā)的QUEST系統(tǒng),SGI公司開(kāi)發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開(kāi)發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來(lái)挖掘都由用戶根據(jù)自己的應(yīng)用來(lái)選擇。
通用的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘29
下面簡(jiǎn)單介紹幾種數(shù)據(jù)挖掘工具:
下面簡(jiǎn)單介紹幾種數(shù)據(jù)挖掘工具:301.QUESTQUEST是IBM公司Almaden研究中心開(kāi)發(fā)的一個(gè)多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開(kāi)發(fā)提供高效的數(shù)據(jù)開(kāi)采基本構(gòu)件。系統(tǒng)具有如下特點(diǎn):
提供了專門(mén)在大型數(shù)據(jù)庫(kù)上進(jìn)行各種開(kāi)采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時(shí)間序列聚類、決策樹(shù)分類、遞增式主動(dòng)開(kāi)采等。各種開(kāi)采算法具有近似線性(O(n))計(jì)算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫(kù)。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來(lái)。為各種發(fā)現(xiàn)功能設(shè)計(jì)了相應(yīng)的并行算法。1.QUESTQUEST312.MineSetMineSet是由SGI公司和美國(guó)Standford大學(xué)聯(lián)合開(kāi)發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。
有如下特點(diǎn):
MineSet2.6中使用了6種可視化工具來(lái)表現(xiàn)數(shù)據(jù)和知識(shí)。對(duì)同一個(gè)挖掘結(jié)果可以用不同的可視化工具以各種形式表示,用戶也可以按照個(gè)人的喜好調(diào)整最終效果,以便更好地理解。提供多種數(shù)據(jù)挖掘模式。包括分類器、回歸模式、關(guān)聯(lián)規(guī)則、聚類歸、判斷列重要度。支持多種關(guān)系數(shù)據(jù)庫(kù)??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過(guò)SQL命令執(zhí)行查詢。多種數(shù)據(jù)轉(zhuǎn)換功能。操作簡(jiǎn)單。支持國(guó)際字符。可以直接發(fā)布到Web。2.MineSetMi32數(shù)據(jù)挖掘工具的選擇
評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來(lái)考慮:1.可產(chǎn)生的模式種類的多少2.解決復(fù)雜問(wèn)題的能力3.易操作性4.?dāng)?shù)據(jù)存取能力
5.與其他產(chǎn)品的接口數(shù)據(jù)挖掘工具的選擇
評(píng)價(jià)一個(gè)數(shù)據(jù)33議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)34Brio產(chǎn)品介紹
cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIOOne介紹
和BrioReports點(diǎn)擊進(jìn)入CognusBrio產(chǎn)品介紹
cognus產(chǎn)品介紹點(diǎn)擊進(jìn)入BRIO35新圓計(jì)算機(jī)系統(tǒng)公司
---------------------數(shù)據(jù)倉(cāng)庫(kù)
新圓計(jì)算機(jī)系統(tǒng)公司
--------------------36議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)37數(shù)據(jù)庫(kù)的定義傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源為中心,同時(shí)進(jìn)行從事務(wù)處理,批處理到?jīng)Q策分析的各類處理;特別是OLTP主要是為自動(dòng)化,精簡(jiǎn)工作任務(wù)和高速數(shù)據(jù)采集服務(wù)的。它的運(yùn)行是事務(wù)驅(qū)動(dòng),面向應(yīng)用的,數(shù)據(jù)庫(kù)的根本任務(wù)是完成數(shù)據(jù)操作,即及時(shí)安全地將當(dāng)前事務(wù)所產(chǎn)生的記錄保存下來(lái)。
數(shù)據(jù)庫(kù)的定義38數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不滿足與簡(jiǎn)單的數(shù)據(jù)操作,用于進(jìn)行商務(wù)運(yùn)轉(zhuǎn)的大量數(shù)據(jù)可能是人們不大在意未加充分利用的東西。近而產(chǎn)生了使用現(xiàn)有的和自己長(zhǎng)期積累生成的數(shù)據(jù)進(jìn)行分析和推理,為決策提供依據(jù)的需求,從而導(dǎo)致了DSS和OLAP的產(chǎn)生。人們逐漸認(rèn)識(shí)到計(jì)算機(jī)系統(tǒng)中存在著兩類不同的處理:操作型處理(事務(wù)處理):主要是對(duì)一個(gè)或一組記錄的查詢和修改,這時(shí)候人們關(guān)心的是響應(yīng)時(shí)間數(shù)據(jù)的安全性和完整性。和分析型處理(信息型處理):用于管理人員的決策分析,如DDS(decisionsupportsystem)、EIS、多維分析等。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生隨著計(jì)算機(jī)的全局應(yīng)用和復(fù)雜分析的增加,人們已不39數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境以支持決策的產(chǎn)生;數(shù)據(jù)庫(kù)由操作性環(huán)境發(fā)展成一種新的環(huán)境:t體系化環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)則是體系化環(huán)境的核心。面向主題的、集成的、穩(wěn)定的、用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程的不同時(shí)間的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生和定義隨著時(shí)間的推移,人們開(kāi)始對(duì)DB中的原始數(shù)40用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的時(shí)間標(biāo)準(zhǔn),抽取算法和抽取級(jí)別又不相同,參考的外部數(shù)據(jù)的不同效率低下:操作數(shù)據(jù)難以轉(zhuǎn)化成有用的信息。1。各公司個(gè)階段都要積累大量的數(shù)據(jù),但他們僅是一種處于原始狀態(tài)的資源2為了提高性能,數(shù)據(jù)常被分散在各個(gè)子系統(tǒng)中,而各個(gè)子系統(tǒng)的應(yīng)用又是千差萬(wàn)別、零散瑣碎。3同時(shí)主題內(nèi)容可能分散在多個(gè)應(yīng)用中,同一應(yīng)用在不同字段中可能存在著同名異義,異名同義、單位不同和字段不同等矛盾。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求缺乏組織性:無(wú)統(tǒng)一的41用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)庫(kù)的DDS問(wèn)題。如DDS分析需要較長(zhǎng)時(shí)間,而OLTP則要求盡快作出響應(yīng);進(jìn)行一次大規(guī)模的分析,對(duì)OLTP的影響是難以忍受的。DDS常常需通過(guò)一端歷史時(shí)期的數(shù)據(jù)來(lái)進(jìn)行分析趨勢(shì),而數(shù)據(jù)庫(kù)一般只存儲(chǔ)短期數(shù)據(jù),且各個(gè)領(lǐng)域的保存期限也千差萬(wàn)別,分析難以滿足DDS的需要。用于OLTP的數(shù)據(jù)庫(kù)無(wú)法滿足分析的需求其他困擾著基于傳統(tǒng)數(shù)據(jù)42數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPatternsTrendsFactsRelationsModelsAssociationsSequencesTargetMarketsFundsallocationTradingoptionsWheretoadvertiseCatalogmailinglistSalesgeography財(cái)經(jīng)的Financial經(jīng)濟(jì)的Economic政府Government銷售分?jǐn)?shù)Point-of-Sale人口統(tǒng)計(jì)學(xué)Demographic生活方式Lifestyle痛苦:太多數(shù)據(jù),無(wú)法作出正確判斷!為什么要建立數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)DATA知識(shí)KNOWLEDGE決定DECISIONSPa43面向應(yīng)用ApplicationOriented有限的集成LimitedIntegration經(jīng)常的更新ConstantlyUpdated只有當(dāng)前值CurrentValuesOnly支持日常的操作SupportsDay-to-DayOperations操作性數(shù)據(jù)OperationalData信息性數(shù)據(jù)InformationalData操作性數(shù)據(jù)和信息性數(shù)據(jù)是根本性的不同"Trust"Accounts"Checking"Accounts"Loan"AccountsYearMonthDay財(cái)務(wù)記帳AccountHistory建立數(shù)據(jù)倉(cāng)庫(kù)從而獲取正確信息面向應(yīng)用ApplicationOriented操44分析發(fā)現(xiàn)Display,Analyze,Discover管理和自動(dòng)操作ManageandAutomate轉(zhuǎn)換TransformTemplates分發(fā)DistributeDATADATADATA倉(cāng)庫(kù)Store摘取Extract尋找并理解FindandUnderstandLogMetadata選取數(shù)據(jù)....獲取信息....作出決定設(shè)計(jì)數(shù)據(jù)庫(kù)的建立--------步向成功之路分析發(fā)現(xiàn)Display,Analyze,Discover45議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)46數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀的分析領(lǐng)域如政策、市場(chǎng)分析、價(jià)格趨勢(shì)等數(shù)據(jù)倉(cāng)庫(kù)是集成的。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然經(jīng)過(guò)加工和集成,以統(tǒng)一原始數(shù)據(jù)中的所有矛盾,實(shí)現(xiàn)將原始數(shù)據(jù)從面向應(yīng)用到面向主題的轉(zhuǎn)變。數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù)的內(nèi)容,而不是處理聯(lián)機(jī)數(shù)據(jù)。古數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)是極少或不更新的。數(shù)據(jù)倉(cāng)庫(kù)是時(shí)變的。它存儲(chǔ)有大量的歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)等,它處于永遠(yuǎn)的發(fā)展變化中。引起變化的因素有:新主題的引入、歷史數(shù)據(jù)的不斷積累、細(xì)節(jié)數(shù)據(jù)的綜合存儲(chǔ)及無(wú)用數(shù)據(jù)的清除。數(shù)據(jù)庫(kù)的特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的。每個(gè)主題基本對(duì)應(yīng)于一個(gè)宏觀47議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)48
數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)
數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)也有其自身開(kāi)發(fā)的特點(diǎn)。創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)會(huì)有以下五方面的工作:1任務(wù)和環(huán)境的評(píng)估2需求的收集和分析3構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)5回顧、總結(jié)及再發(fā)展
數(shù)據(jù)倉(cāng)庫(kù)的建立和開(kāi)發(fā)
數(shù)據(jù)倉(cāng)庫(kù)并不等同于數(shù)據(jù)庫(kù),數(shù)據(jù)491.任務(wù)和環(huán)境的評(píng)估
數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。因此要結(jié)合用戶的現(xiàn)狀,來(lái)明確數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)任務(wù)。除了業(yè)務(wù)現(xiàn)狀外,特別要搞清任務(wù)所面對(duì)的數(shù)據(jù)源所在系統(tǒng)和其中的數(shù)據(jù)的狀況。通過(guò)對(duì)這些情況的評(píng)估,看建立數(shù)據(jù)倉(cāng)庫(kù)這個(gè)任務(wù)是否可行;所能建立的數(shù)據(jù)倉(cāng)庫(kù)是不是用戶所期望的;在此有沒(méi)有不可逾越的障礙。最好能確定評(píng)定將來(lái)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)成功與否的基本原則。開(kāi)展評(píng)估工作一定要有高層負(fù)責(zé)人參加,最好他就是將來(lái)使用數(shù)據(jù)倉(cāng)庫(kù)部門(mén)的負(fù)責(zé)人。這樣從他這里就可以了解到全部的業(yè)務(wù)工作狀況。他也最清楚今后的工作目標(biāo)及對(duì)任務(wù)的期望,以及和競(jìng)爭(zhēng)對(duì)手比較的差距。在評(píng)估工作開(kāi)展過(guò)程中,他應(yīng)當(dāng)及時(shí)的提出問(wèn)題,并檢查、回顧工作的進(jìn)展。在他的領(lǐng)導(dǎo)下要組成一個(gè)項(xiàng)目組,并有以下人員參加:項(xiàng)目總負(fù)責(zé)人,與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的所有業(yè)務(wù)單位的負(fù)責(zé)人,計(jì)算機(jī)軟/硬件負(fù)責(zé)人,向數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)的數(shù)據(jù)庫(kù)管理員以及網(wǎng)絡(luò)方面的人員。項(xiàng)目組要進(jìn)行項(xiàng)目定義,并首先按要求達(dá)到的目標(biāo)初步確定數(shù)據(jù)倉(cāng)庫(kù)的主題。進(jìn)一步說(shuō)明這個(gè)主題的層次結(jié)構(gòu),及所涉及的相關(guān)業(yè)務(wù)處理。最好還能設(shè)立幾個(gè)可量化的工作指標(biāo)。除了業(yè)務(wù)工作外,還要對(duì)相關(guān)的信息技術(shù)狀況進(jìn)行評(píng)估:數(shù)據(jù)源的數(shù)據(jù)庫(kù)類型,工作平臺(tái),數(shù)據(jù)量,數(shù)據(jù)的質(zhì)量等;將要建立數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境狀況,以及所利用的網(wǎng)絡(luò)技術(shù)狀況。全部評(píng)估工作應(yīng)有正規(guī)的文檔記載,并交數(shù)據(jù)倉(cāng)庫(kù)負(fù)責(zé)人審定。
1.任務(wù)和環(huán)境的評(píng)估
數(shù)據(jù)倉(cāng)庫(kù)是建立在原有運(yùn)行系統(tǒng)之上的。50數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需求,即現(xiàn)在最重要的工作目標(biāo)是什么;怎樣衡量這個(gè)目標(biāo)的達(dá)到與否;現(xiàn)在是怎樣獲得決策支持信息的;和競(jìng)爭(zhēng)對(duì)手比差距是什么。領(lǐng)導(dǎo)的決策總是由一批具體工作人員支持的,所以還應(yīng)從他們這里收集具體的需求,并加以分析:對(duì)應(yīng)前面所定的主題,現(xiàn)在利用什么信息或報(bào)表(最好有實(shí)例);這報(bào)表中還缺什么信息;這報(bào)表是如何制作出來(lái)的;有沒(méi)有緊急、突發(fā)的決策信息要求,其內(nèi)容是什么;還希望數(shù)據(jù)倉(cāng)庫(kù)為他們完成什么等。在此基礎(chǔ)上確認(rèn):當(dāng)前共同的業(yè)務(wù)問(wèn)題是什么;希望開(kāi)發(fā)怎樣的功能來(lái)解決這些問(wèn)題;由此定義好業(yè)務(wù)處理的規(guī)則;初步估計(jì)功能的規(guī)模和數(shù)據(jù)量;與此同時(shí)還要定義、理清業(yè)務(wù)和編程所需的代碼?;谏鲜鰳I(yè)務(wù)需求和分析即可開(kāi)始制定系統(tǒng)的邏輯模型。此外,還要對(duì)在實(shí)現(xiàn)這些業(yè)務(wù)需求時(shí),對(duì)信息技術(shù)的需求加以分析:每一個(gè)數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量如何;確認(rèn)硬件、網(wǎng)絡(luò)和軟件的限制條件;數(shù)據(jù)裝載與更新的策略和問(wèn)題;數(shù)據(jù)量和占用空間的估計(jì);從信息技術(shù)看數(shù)據(jù)的質(zhì)量有何問(wèn)題等。最后,還有文檔制作,其內(nèi)容應(yīng)包括:項(xiàng)目概述、差距分析、系統(tǒng)基本架構(gòu)圖示、邏輯模型、物理模型、數(shù)據(jù)倉(cāng)庫(kù)初始裝載和更新的策略、數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行計(jì)劃、決策信息展現(xiàn)的希望和需求、數(shù)據(jù)倉(cāng)庫(kù)建成的時(shí)限。
2.需求的收集和分析數(shù)據(jù)倉(cāng)庫(kù)是為支持決策服務(wù)的。故首先要看決策者(亦即領(lǐng)導(dǎo))的需513.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)包括了數(shù)據(jù)倉(cāng)庫(kù)的管理,數(shù)據(jù)倉(cāng)庫(kù)的組織和決策支持信息的展現(xiàn)三部分。
數(shù)據(jù)倉(cāng)庫(kù)的管理通過(guò)建立以下諸項(xiàng)內(nèi)容實(shí)現(xiàn)之:設(shè)置和編寫(xiě)取用數(shù)據(jù)的程序;設(shè)置和編寫(xiě)數(shù)據(jù)轉(zhuǎn)換程序;設(shè)置和編寫(xiě)數(shù)據(jù)更新程序;設(shè)置和編寫(xiě)運(yùn)行的接口程序;建立這一階段的所有管理用數(shù)據(jù)——Metadata;此階段所有程序統(tǒng)一標(biāo)準(zhǔn)命名和建檔。
數(shù)據(jù)倉(cāng)庫(kù)的組織包括了:規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的初始裝載;在數(shù)據(jù)倉(cāng)庫(kù)中建立所需的索引;除了數(shù)據(jù)表外,建立數(shù)據(jù)視窗(View);進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)及工作平臺(tái)的安全檢查;裝入數(shù)據(jù)和應(yīng)用功能;建立這一階段的所有管理用數(shù)據(jù)——Metadata。3.構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)524數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)
數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,建成數(shù)據(jù)倉(cāng)庫(kù)后要認(rèn)真進(jìn)行最終用戶的培訓(xùn)。首先要向用戶介紹數(shù)據(jù)倉(cāng)庫(kù)的全部情況,數(shù)據(jù)是向用戶介紹的重點(diǎn),數(shù)據(jù)內(nèi)容,系統(tǒng)如何保障數(shù)據(jù)的質(zhì)量、完整性和可靠性。假如數(shù)據(jù)倉(cāng)庫(kù)的管理員不是系統(tǒng)的開(kāi)發(fā)者,那末該員亦屬培訓(xùn)范圍。培訓(xùn)內(nèi)容是:數(shù)據(jù)倉(cāng)庫(kù)的邏輯和物理模型;從OLTP系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)流;全部的數(shù)據(jù)轉(zhuǎn)換操作;所有Metadata的所在和內(nèi)容,管理員對(duì)Metadata要有相當(dāng)?shù)氖煜こ潭炔拍軇偃喂ぷ?數(shù)據(jù)裝載和更新的策略;所有安全性問(wèn)題及其測(cè)度;所有程序文檔資料的管理等。4數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)
數(shù)據(jù)倉(cāng)庫(kù)是支持其使用者進(jìn)行決策的,535.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪些地方可以做得更好;業(yè)務(wù)部門(mén)對(duì)開(kāi)發(fā)的支持是否到位;雙方如何合作得更好。主題的范圍選擇是否恰當(dāng);有什么階段成果;發(fā)布這些成果的反映如何;業(yè)務(wù)和開(kāi)發(fā)部門(mén)分別有什么反映;公司層的領(lǐng)導(dǎo)是否看到了初步成果;、公司的其它部門(mén)是否可以利用數(shù)據(jù)倉(cāng)庫(kù)獲得效益;有沒(méi)有得到未曾期望過(guò)的效益。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)往往是從一個(gè)簡(jiǎn)明的急需主題開(kāi)始,從中積累經(jīng)驗(yàn),并由此也可能會(huì)激發(fā)用戶的新需求,然后不斷擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和規(guī)模。5.回顧、總結(jié)再發(fā)展在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中要不斷總結(jié)回顧哪54議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)55數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)
據(jù)
挖
掘(DataMining),
也
可
以
稱
為
數(shù)
據(jù)
庫(kù)
中
的
知
識(shí)
發(fā)
現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),
是
從
大
量
數(shù)
據(jù)
中
提
取
出
可
信、
新
穎、
有
效
并
能
被
人
理
解
的
模
式
的
高
級(jí)
處
理
過(guò)
程。
數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining56知
識(shí)
發(fā)
現(xiàn)
是
一
個(gè)
多
步
驟
的
處
理
過(guò)
程,
問(wèn)題定義了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。
數(shù)據(jù)提取根據(jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。
數(shù)據(jù)挖掘運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。
知識(shí)評(píng)估將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過(guò)程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。知識(shí)發(fā)現(xiàn)是一個(gè)多步驟的處理過(guò)程,57議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)58數(shù)據(jù)挖掘能做什么?
-數(shù)據(jù)總結(jié)其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。分類其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。
聚類是把一組個(gè)體按照相似性歸成若干類別,即"物以類聚"。
----關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,"在購(gòu)買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶"(面包+黃油牛奶)。還有時(shí)間或序列上的規(guī)律。數(shù)據(jù)挖掘能做什么?
-數(shù)據(jù)總結(jié)其目59前
途
光
明
的
數(shù)
據(jù)
挖
掘
技
術(shù)KDD在
研
究
和
應(yīng)
用
方
面
發(fā)
展
迅
速,
尤
其
是
在
商
業(yè)
和
銀
行
領(lǐng)
域
的
應(yīng)
用
比
研
究
的
發(fā)
展
速
度
還
要
快。
用
戶
主
要
集
中
在
大
型
銀
行、
保
險(xiǎn)
公
司、
電
信
公
司
和
銷
售
業(yè)。
IBM和
微
軟
都
成
立
了
相
應(yīng)
的
研
究
中
心
進(jìn)
行
這
方
面
的
工
作,
此
外,
一
些
公
司
的
相
關(guān)
軟
件
也
開(kāi)
始
在
國(guó)
內(nèi)
銷
售,
如Platinum、BO以
及IBM。
數(shù)
據(jù)
挖
掘
的
研
究
和
應(yīng)
用在國(guó)內(nèi)也受
到
了
學(xué)
術(shù)
界
和
實(shí)
業(yè)
界
越
來(lái)
越
多
的
重
視。前途光明的數(shù)據(jù)挖掘技術(shù)KDD在研究60議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的建立服務(wù)器的整合與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的任務(wù)和工具國(guó)內(nèi)外主要供應(yīng)商與產(chǎn)品議程:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的應(yīng)用分類和數(shù)據(jù)倉(cāng)庫(kù)的由來(lái)61數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘工具主要有兩類:特定領(lǐng)域的數(shù)據(jù)挖掘工具通用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘工具主要有62特定領(lǐng)域的數(shù)據(jù)挖掘工具特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在設(shè)計(jì)算法的時(shí)候,充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對(duì)任何領(lǐng)域,都可以開(kāi)發(fā)特定的數(shù)據(jù)挖掘工具。
----特定領(lǐng)域的數(shù)據(jù)挖掘工具針對(duì)性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍?duì)性強(qiáng),往往采用特殊的算法,可以處理特殊
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《DesignofMachineToolJig》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年浙江省安全員A證考試題庫(kù)
- 牡丹繁育研發(fā)觀光基地建設(shè)項(xiàng)目可行性研究報(bào)告-牡丹市場(chǎng)需求持續(xù)擴(kuò)大
- 貴陽(yáng)人文科技學(xué)院《草地植物分子生物學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州應(yīng)用科技學(xué)院《創(chuàng)新創(chuàng)業(yè)論壇》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年河北省建筑安全員-C證(專職安全員)考試題庫(kù)
- 中國(guó)農(nóng)業(yè)-高考地理復(fù)習(xí)
- 《巖體力學(xué)性質(zhì)》課件
- 《心絞痛的家庭急救》課件
- 形式與政策-課程報(bào)告
- 《小學(xué)生良好書(shū)寫(xiě)習(xí)慣培養(yǎng)的研究》中期報(bào)告
- 大學(xué)英語(yǔ)四級(jí)詞匯表(下載)
- 2025年四川成都市溫江區(qū)市場(chǎng)監(jiān)督管理局選聘編外專業(yè)技術(shù)人員20人歷年管理單位筆試遴選500模擬題附帶答案詳解
- 手術(shù)室發(fā)生地震應(yīng)急預(yù)案演練
- 初中數(shù)學(xué)新課程標(biāo)準(zhǔn)(2024年版)
- 高職院校專業(yè)教師數(shù)字素養(yǎng)架構(gòu)與提升路徑
- 售后服務(wù)人員培訓(xùn)資料課件
- 2024-2030年中國(guó)薯?xiàng)l行業(yè)發(fā)展趨勢(shì)及投資盈利預(yù)測(cè)報(bào)告
- 生命智能學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 中華傳統(tǒng)文化之戲曲瑰寶學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 公路工程利用鋰渣技術(shù)規(guī)范 第一部分:路基工程-編制說(shuō)明
評(píng)論
0/150
提交評(píng)論