下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘08廣義概念上的數(shù)據(jù)倉庫是一種幫助企業(yè)做決策的體系化解決方案,它包括了三個(gè)方面的內(nèi)容:數(shù)據(jù)倉庫技術(shù)(DataWarehouse,DW聯(lián)機(jī)分析處理技術(shù)(On-lineAnalyticalProcessing,OLAP數(shù)據(jù)挖掘技術(shù)(DataMining,DM數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘作為信息處理技術(shù)是獨(dú)立出現(xiàn)的。數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲(chǔ)和組織;聯(lián)機(jī)分析處理則側(cè)重于數(shù)據(jù)的分析;數(shù)據(jù)挖掘則致力于知識(shí)的自動(dòng)發(fā)現(xiàn)。因此這三種技術(shù)之間并沒有內(nèi)在的依賴關(guān)系,可以獨(dú)立地應(yīng)用到企業(yè)信息系統(tǒng)的建設(shè)之中,以提高信息系統(tǒng)相應(yīng)的能力。但是,這三種技術(shù)之間確實(shí)存在著一定的聯(lián)系性和互補(bǔ)性,
2、把它們結(jié)合起來,就可以使它們的能力更充分地發(fā)揮出來。這樣就形成了一種決策支持系統(tǒng)的架構(gòu),即DW+OLAP+DM1、數(shù)據(jù)倉庫技術(shù)概述數(shù)據(jù)倉庫是一種只讀的、用于分析的數(shù)據(jù)庫,常常作為決策支持系統(tǒng)的底層。它從大量的事務(wù)性數(shù)據(jù)庫中抽取數(shù)據(jù)、并將其清理、轉(zhuǎn)換為新的存儲(chǔ)格式,即為了決策目標(biāo)而把數(shù)據(jù)聚合在一種特殊的格式中。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、隨時(shí)間變化的、但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合。其中,“主題”是指用戶使用數(shù)據(jù)倉庫輔助決策時(shí)所關(guān)心的重點(diǎn)問題,每一個(gè)主題對(duì)應(yīng)一個(gè)客觀分析領(lǐng)域,如銷售、成本、利潤的情況等。“面向主題”就是指數(shù)據(jù)倉庫中的信息是按主題組織的,按主題來提供信息?!凹?/p>
3、的”是指數(shù)據(jù)倉庫中的數(shù)據(jù)不是業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)的簡單拼湊與匯總,而是經(jīng)過系統(tǒng)的加工整理,是相互一致的、具有代表性的數(shù)據(jù)?!半S時(shí)間變化”是指數(shù)據(jù)倉庫中存儲(chǔ)的是一個(gè)時(shí)間段的數(shù)據(jù),而不僅僅是某一個(gè)時(shí)間的數(shù)據(jù),所以主要用于進(jìn)行時(shí)間趨勢(shì)分析。一般數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限為5到10年,數(shù)據(jù)量也比較大?!靶畔⒈旧硐鄬?duì)穩(wěn)定”是指數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,一般情況下將被長期保留,變更很少。數(shù)據(jù)倉庫組織和管理數(shù)據(jù)的方法與普通數(shù)據(jù)庫的不同點(diǎn)主要表現(xiàn)在三個(gè)方面:它依據(jù)決策要求,只從數(shù)據(jù)庫中抽取那些需要的數(shù)據(jù),并進(jìn)行一定的處理。數(shù)據(jù)倉庫是多維的,即數(shù)據(jù)倉庫中數(shù)據(jù)的組織方式有多層的行和列。它支持決策處理,不同于普通的事務(wù)處理。數(shù)據(jù)
4、倉庫需要的數(shù)據(jù)庫技術(shù)的支持:并行數(shù)據(jù)庫技術(shù):數(shù)據(jù)倉庫中的數(shù)據(jù)量很大,一般要達(dá)到GB級(jí),有的甚至要到TB級(jí)。對(duì)于處理如此大規(guī)模的數(shù)據(jù),使用并行技術(shù)對(duì)提高運(yùn)行效率是很有幫助的。高性能的數(shù)據(jù)庫服務(wù)器:傳統(tǒng)數(shù)據(jù)庫的應(yīng)用是操作型的,而數(shù)據(jù)倉庫的應(yīng)用是分析性的,它需要有高性能的數(shù)據(jù)庫服務(wù)器配合工作,對(duì)DBM骸心的性能也有更高的要求。數(shù)據(jù)庫互操作技術(shù):數(shù)據(jù)倉庫的數(shù)據(jù)來源多種多樣,可能來自數(shù)據(jù)庫,也可能來自文件系統(tǒng)。即使都來自數(shù)據(jù)庫,這些數(shù)據(jù)庫也往往是異構(gòu)的。為了從這些異構(gòu)數(shù)據(jù)源中定期抽取、轉(zhuǎn)換和集成所需要的數(shù)據(jù)存入庫中,異構(gòu)數(shù)據(jù)源之間的互操作技術(shù)是必需的。2、聯(lián)機(jī)分析處理技術(shù)聯(lián)機(jī)分析處理是針對(duì)特定問題的聯(lián)機(jī)
5、數(shù)據(jù)訪問和分析,通過對(duì)信息進(jìn)行快速、穩(wěn)定、一致和交互式的存取,對(duì)數(shù)據(jù)進(jìn)行多層次、多階段的分析處理,以獲得高度歸納的分析結(jié)果。聯(lián)機(jī)分析處理是一種自上而下、不斷深入的分析工具,在用戶提出問題或假設(shè)之后,它負(fù)責(zé)提取出關(guān)于此問題的詳細(xì)信息,并以一種比較直觀的方式呈現(xiàn)給用戶。聯(lián)機(jī)分析處理技術(shù)的發(fā)展速度很快,在數(shù)據(jù)倉庫的概念提出不久,聯(lián)機(jī)分析處理的理論及相應(yīng)工具就被相繼推出了。聯(lián)機(jī)分析處理要求按多維方式組織企業(yè)的數(shù)據(jù)。多維數(shù)據(jù)庫的發(fā)展使決策分析中的數(shù)據(jù)結(jié)構(gòu)和分析方法相分離,才有可能研制出通用而靈活的分析工具,并使分析工具產(chǎn)品化。決策分析需要從不同的角度觀察分析數(shù)據(jù),以多維數(shù)據(jù)為核心的多維數(shù)據(jù)分析是決策的主
6、要內(nèi)容。多維數(shù)據(jù)庫是以多維方式組織數(shù)據(jù)的。目前,聯(lián)機(jī)分析處理的工具可分為兩類:一類是基于多維數(shù)據(jù)庫的,另一類是基于關(guān)系數(shù)據(jù)庫的。兩者的相同點(diǎn)是基本數(shù)據(jù)源仍是數(shù)據(jù)庫和數(shù)據(jù)倉庫,都是基于關(guān)系數(shù)據(jù)模型的,都向用戶顯示多維數(shù)據(jù)視圖;不同點(diǎn)在于,前者把分析所需的數(shù)據(jù)從數(shù)據(jù)倉庫中抽取出來,物理地組織成多維數(shù)據(jù)庫,而后者則是利用關(guān)系表來模擬多維數(shù)據(jù),并不是物理地生成多維數(shù)據(jù)庫。3、數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘的基本思想是從數(shù)據(jù)中抽取有價(jià)值的信息,其目的是幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些對(duì)預(yù)測(cè)趨勢(shì)和決策行為也許是十分有用的。從數(shù)據(jù)庫的角度看,數(shù)據(jù)挖掘就是這樣一個(gè)過程,它從數(shù)據(jù)庫的數(shù)據(jù)中識(shí)別出有
7、效的、新穎的、具有潛在效用的并最終可理解的信息(如規(guī)則、約束等)的非平凡過程。非平凡是一個(gè)數(shù)學(xué)概念,即數(shù)據(jù)挖掘既不是把數(shù)據(jù)全部抽取,也不是一點(diǎn)兒也不抽取,而是抽取出隱含的、未知的和可能有用的信息。從決策支持的角度看,數(shù)據(jù)挖掘是一種決策支持的過程,主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫技術(shù)等多種技術(shù),能高度自動(dòng)地分析企業(yè)原有的數(shù)據(jù),進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)決策者調(diào)整市場策略,從而減少風(fēng)險(xiǎn)、輔助做出正確的決策。它是提高商業(yè)和科學(xué)決策過程中的質(zhì)量和效率的一種新方法。數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理都可以在數(shù)據(jù)倉庫的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行分析,以輔助決策。其中,聯(lián)機(jī)分析處理還是
8、一種傳統(tǒng)的決策支持方法,即,在某個(gè)假設(shè)的前提下通過數(shù)據(jù)查詢和分析來驗(yàn)證和否定這個(gè)假設(shè),所以聯(lián)機(jī)分析處理是一種驗(yàn)證性的分析。與聯(lián)機(jī)分析處理不同,數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的,是一種真正的知識(shí)發(fā)現(xiàn)方法。使用數(shù)據(jù)挖掘工具,用戶不必提出確切的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動(dòng)地挖掘數(shù)據(jù)潛在的模式,或通過聯(lián)想,建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,并找到正確的決策,這顯然有利于發(fā)現(xiàn)未知的事實(shí)。從數(shù)據(jù)分析深度的角度看,聯(lián)機(jī)分析處理位于較低的層次,而數(shù)據(jù)挖掘則處于較深的層次。所以,聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的主要差別就在于是否能自動(dòng)地進(jìn)行數(shù)據(jù)分析。4、決策支持系統(tǒng)在傳統(tǒng)的決策支持系統(tǒng)中,數(shù)據(jù)庫、模型庫和知識(shí)庫
9、往往被獨(dú)立地設(shè)計(jì)和實(shí)現(xiàn),因而缺乏內(nèi)在的統(tǒng)一性。而以數(shù)據(jù)倉庫為中心、事務(wù)處理和數(shù)據(jù)挖掘?yàn)槭侄蔚男路桨负芎玫亟鉀Q了這個(gè)問題。如圖4.18所示1N據(jù)為的支統(tǒng)4數(shù)陣心儀條圖以倉-3聞持?jǐn)?shù)據(jù)倉庫解決了數(shù)據(jù)不統(tǒng)一的問題。數(shù)據(jù)倉庫自底層數(shù)據(jù)庫收集大量事務(wù)級(jí)數(shù)據(jù)的同時(shí),對(duì)數(shù)據(jù)進(jìn)行集成、轉(zhuǎn)換和綜合,形成面向全局的數(shù)據(jù)視圖,形成整個(gè)系統(tǒng)的數(shù)據(jù)基礎(chǔ)。聯(lián)機(jī)分析處理從數(shù)據(jù)倉庫中的集成數(shù)據(jù)出發(fā),構(gòu)建面向分析的多維數(shù)據(jù)模型,利用這個(gè)帶有普遍性的數(shù)據(jù)分析模型,用戶可以使用不同的方法,從不同的角度對(duì)數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)了分析方法和數(shù)據(jù)結(jié)構(gòu)的分離。數(shù)據(jù)挖掘以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的大量數(shù)據(jù)為基礎(chǔ),自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)中的潛在模式,并以這
10、種模式為基礎(chǔ)自動(dòng)做出預(yù)測(cè)。數(shù)據(jù)挖掘反過來又可以為聯(lián)機(jī)分析處理提供分析的模式。正是由于數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘這三種技術(shù)的聯(lián)系性和互補(bǔ)性,使他們從不同的角度為決策支持服務(wù)。隨著企業(yè)競爭的日益加劇,這種新型的決策支持系統(tǒng)解決方案將受到越來越多的企業(yè)的青睞。4.5.3數(shù)據(jù)庫技術(shù)與電子荀務(wù)數(shù)據(jù)庫技術(shù)對(duì)電子商務(wù)的支持是全方位的,從底層的數(shù)據(jù)基礎(chǔ)到上層的應(yīng)用都涉及到數(shù)據(jù)庫技術(shù)。其結(jié)構(gòu)如圖4.19所示。決策i持系統(tǒng)管理信息系統(tǒng)圖4.L9電子商務(wù)中姓及的數(shù)據(jù)座技術(shù)從圖中可以看出,數(shù)據(jù)庫技術(shù)對(duì)于電子商務(wù)的支持可以概括為以下幾部分:1、數(shù)據(jù)的收集、存儲(chǔ)和組織這是傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要功能,對(duì)于參與電子商務(wù)的
11、企業(yè)而言,數(shù)據(jù)的來源不僅僅是企業(yè)內(nèi)部管理信息系統(tǒng),還包括大量的外部數(shù)據(jù)。數(shù)據(jù)是企業(yè)的重要資源,是決策的依據(jù),是進(jìn)行各種生產(chǎn)經(jīng)營活動(dòng)的基礎(chǔ)和結(jié)果。2、決策支持這就要用到前面所提到的數(shù)據(jù)倉庫解決方案。這時(shí)數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)依然是決策的依據(jù)。決策關(guān)系到企業(yè)未來成敗的關(guān)鍵。電子商務(wù)系統(tǒng)如果缺少好的決策支持功能,一方面是對(duì)電子商務(wù)海量數(shù)據(jù)資源的一種浪費(fèi),另一方面也是對(duì)從事電子商務(wù)的企業(yè)的一種損失。3、對(duì)EDI的支持EDI是電子商務(wù)重要的組成部分,要想成功地實(shí)現(xiàn)EDI,企業(yè)的基礎(chǔ)設(shè)施建設(shè)是關(guān)鍵,而數(shù)據(jù)庫系統(tǒng)的建設(shè)是其中重要的一環(huán)。如果有良好的數(shù)據(jù)庫系統(tǒng)的支持,就可以實(shí)現(xiàn)應(yīng)用到應(yīng)用的EDI過程。這一過程是企
12、業(yè)內(nèi)部的管理信息系統(tǒng)依據(jù)業(yè)務(wù)情況自動(dòng)產(chǎn)生EDI訂單,并傳輸給貿(mào)易伙伴;而對(duì)方傳來的EDI單證也可以由系統(tǒng)自動(dòng)解釋,并存入相應(yīng)的數(shù)據(jù)庫,整個(gè)過程無需人工干預(yù)。因此,業(yè)務(wù)數(shù)據(jù)庫和EDI系統(tǒng)之間的接口就變得非常重要。這個(gè)接口的功能可以概括為:提供標(biāo)準(zhǔn)的信息格式定義。與數(shù)據(jù)庫管理系統(tǒng)的無關(guān)性。自動(dòng)抽取數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)轉(zhuǎn)換為Edi單證格式。自動(dòng)抽取EDI單證的關(guān)鍵數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。在這一過程中,可以設(shè)立一個(gè)EDI數(shù)據(jù)庫專門用于有關(guān)EDI數(shù)據(jù)的處理。這樣的管理方式簡單明了,但如果數(shù)據(jù)庫之間的溝通不順暢,就可能產(chǎn)生數(shù)據(jù)不一致的現(xiàn)象。4、We跋據(jù)庫隨著WW隨不斷發(fā)展,越來越多的企業(yè)加入到Web中來。當(dāng)前許
13、多企業(yè)紛紛在Web上開發(fā)自己的主頁來介紹自己的產(chǎn)品和服務(wù)。有的網(wǎng)頁不僅有琳瑯滿目的產(chǎn)品信息和優(yōu)惠的價(jià)格,還配有詳細(xì)的專家評(píng)論,牢牢抓住了網(wǎng)上用戶的心理。企業(yè)不僅可以通過Web發(fā)布自己的信息,同時(shí)也可以收集顧客的需求信息。這樣給雙方都帶來了好處。對(duì)于企業(yè)而言,它不僅可以用相對(duì)低的成本介紹和展示其產(chǎn)品和服務(wù),也可以獲得準(zhǔn)確的客戶需求信息。對(duì)于顧客而言,瀏覽網(wǎng)頁省時(shí)省力,而且可以及時(shí)把要求反映給廠家,定制出自己喜歡的產(chǎn)品。而且,訪問Web都是通過瀏覽器,這樣就統(tǒng)一了界面,有利于行業(yè)標(biāo)準(zhǔn)化。Web數(shù)據(jù)庫是一個(gè)新興事物,WeW數(shù)據(jù)庫的結(jié)合,主要是源于兩者各自的優(yōu)勢(shì)和缺陷。Web的特點(diǎn)Web上數(shù)據(jù)量大、類型多、缺乏組織和管理。目前Web中字節(jié)量的增長速度達(dá)到每月15%以上。因?yàn)閃eb的鏈接資源是非官方的,所以Web的數(shù)據(jù)缺少規(guī)范。目前Web上的數(shù)據(jù)主要由靜態(tài)HTML達(dá),其優(yōu)點(diǎn)是表現(xiàn)能力強(qiáng),鏈點(diǎn)跳車專靈活,與平臺(tái)無關(guān)。但由于Web頁面結(jié)構(gòu)自由性大,致使Web上的信息又多又混亂。就管理角度而言,Web的數(shù)據(jù)管理只相當(dāng)于20世紀(jì)70年代的文件管理水平。而且HTML文件動(dòng)態(tài)更新特性差,用戶很難得到最新的消息反饋。數(shù)據(jù)庫技術(shù)的特點(diǎn)當(dāng)前的數(shù)據(jù)庫管理系統(tǒng)已發(fā)展到相當(dāng)成熟的階段,能高效、高質(zhì)、安全地管理數(shù)據(jù)。與Web相比,數(shù)據(jù)庫管理系統(tǒng)顯得嚴(yán)謹(jǐn)而靈活不足。Web
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年城市別墅裝修改造服務(wù)協(xié)議
- 2024水電項(xiàng)目工程承包協(xié)議范本
- 2024年酒店用品買賣協(xié)議
- 2024年房屋租賃三方協(xié)議樣本
- 店鋪裝修設(shè)計(jì)與施工一體化協(xié)議模板
- 2024年度勞動(dòng)力成本協(xié)議樣本
- DB11∕T 1697-2019 動(dòng)力鋰離子蓄電池制造業(yè)綠色工廠評(píng)價(jià)要求
- 2024年度中央空調(diào)系統(tǒng)翻新工程協(xié)議
- 2024商業(yè)采購協(xié)議模板全面指南
- 2024年輔導(dǎo)班家長服務(wù)協(xié)議
- 水系統(tǒng)中央空調(diào)工程材料清單
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)口算題300道(全)
- 《干粉滅火器檢查卡》
- 校園監(jiān)控值班記錄表(共2頁)
- 試樁施工方案 (完整版)
- 走中國工業(yè)化道路的思想及成就
- ESTIC-AU40使用說明書(中文100版)(共138頁)
- 河北省2012土建定額說明及計(jì)算規(guī)則(含定額總說明)解讀
- Prolog語言(耐心看完-你就入門了)
- 保霸線外加電流深井陽極地床陰極保護(hù)工程施工方案
- 藍(lán)色商務(wù)大氣感恩同行集團(tuán)公司20周年慶典PPT模板
評(píng)論
0/150
提交評(píng)論