數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二章 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)一、數(shù)據(jù)倉(cāng)庫(kù)的定義 沒(méi)有一個(gè)公認(rèn)的、標(biāo)準(zhǔn)的定義 William :數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不同時(shí)間的、穩(wěn)定的數(shù)據(jù)集合,它支持管理決策。1、面向主題主題Subject:特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。 為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是原始的、根底的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)那么是需要對(duì)它們作必要的抽取、加工與總結(jié)而形成。 數(shù)據(jù)倉(cāng)庫(kù)是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個(gè)用戶的要求也會(huì)隨時(shí)間而經(jīng)常變化,因此,數(shù)據(jù)倉(cāng)庫(kù)中的主題有時(shí)會(huì)因用戶主觀要求的變化而變化的

2、。例:一個(gè)面向事務(wù)處理的“商場(chǎng)數(shù)據(jù)庫(kù)系統(tǒng),其數(shù)據(jù)模式如下采購(gòu)子系統(tǒng):訂單訂單號(hào),供給商號(hào),總金額,日期訂單細(xì)那么訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量供給商供給商號(hào),供給商名,地址, 銷售子系統(tǒng):顧客顧客號(hào),姓名,性別,年齡,文化程度,地址, 銷售員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期庫(kù)存管理子系統(tǒng):領(lǐng)料單領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期進(jìn)料單進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期庫(kù)存商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期庫(kù)房庫(kù)房號(hào),倉(cāng)庫(kù)管理員,地點(diǎn),庫(kù)存商品描述人事管理子系統(tǒng):?jiǎn)T工員工號(hào),姓名,性別,年齡,文化程度,部門號(hào)部門部門號(hào),部門名稱,部門主管, 上述數(shù)據(jù)模式根本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動(dòng)及其

3、需要的相關(guān)數(shù)據(jù)來(lái)組織數(shù)據(jù)的存儲(chǔ)的,沒(méi)有實(shí)現(xiàn)真正的數(shù)據(jù)與應(yīng)用別離,其抽象程度也不夠高。如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來(lái)確定主題,而與每個(gè)主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。商品固有信息:商品號(hào),商品名,類別,顏色等商品采購(gòu)信息:商品號(hào),供給商號(hào),供給價(jià),供給日期,供給量等商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等商品庫(kù)存信息:商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期等主題一:商品供給商固有信息:供給商號(hào),供給商名,地址, 等供給商品信息:供給商號(hào),商品號(hào),供給價(jià),供給日期,供給量等主題二:供給商顧客固有信息:顧客號(hào),顧客名,性別,年

4、齡,文化程度,住址, 等顧客購(gòu)物信息:顧客號(hào),商品號(hào),售價(jià),購(gòu)置日期,購(gòu)置量等主題三:顧客在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋棄了與分析處理無(wú)關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個(gè)這樣一致的信息集合。不同的主題之間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲(chǔ)上的重疊;是局部細(xì)節(jié)的重疊,而不是完全的重疊。每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):多維數(shù)據(jù)庫(kù)MDDBMulti-Dimensional DataBase用多維數(shù)組形式存儲(chǔ)數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù)用一組關(guān)系來(lái)組織數(shù)據(jù)的存

5、儲(chǔ),同一主題的一組關(guān)系都有一個(gè)公共的關(guān)鍵字,存放的也不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過(guò)一定程度的綜合形成的綜合性數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是為分析效勞的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫(kù)、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過(guò)數(shù)據(jù)集成而形成數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。集成的方法:2、集成統(tǒng)一:消除不一致的現(xiàn)象綜合:對(duì)原有數(shù)據(jù)進(jìn)行綜合和計(jì)算數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是經(jīng)過(guò)抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是查詢操作,一般情況下不執(zhí)行更新操作。同時(shí),一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和

6、決策的制訂。但這也不等于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不需要更新操作。在需要進(jìn)行新的分析決策時(shí),可能需要進(jìn)行新的數(shù)據(jù)抽取和更新操作數(shù)據(jù)倉(cāng)庫(kù)中的一些過(guò)時(shí)的數(shù)據(jù),也可以通過(guò)刪除操作丟棄掉。因此數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)管理相對(duì)于DBMS來(lái)說(shuō)要簡(jiǎn)單得多。3、不可更新 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更新。4、隨時(shí)間不斷變化不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時(shí)間有關(guān)的綜合數(shù)據(jù)建立數(shù)據(jù)集市的原因數(shù)據(jù)倉(cāng)庫(kù)是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉(cāng)庫(kù)往往太大,在實(shí)際應(yīng)用中將它們按部門或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時(shí)我們也稱它為部門數(shù)據(jù)倉(cāng)庫(kù)。例:在有關(guān)商品銷售

7、的數(shù)據(jù)倉(cāng)庫(kù)中可以建立多個(gè)不同主題的數(shù)據(jù)集市:二、數(shù)據(jù)集市Data Mart商品采購(gòu)數(shù)據(jù)集市庫(kù)房使用數(shù)據(jù)集市商品銷售數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù),它是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一個(gè)局部與局部,是一個(gè)數(shù)據(jù)的再抽取與組織的過(guò)程。建立數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的過(guò)程可以有兩條途徑:從 全局?jǐn)?shù)據(jù)倉(cāng)庫(kù) 到 數(shù)據(jù)集市從 數(shù)據(jù)集市 到 全局?jǐn)?shù)據(jù)倉(cāng)庫(kù) 三、數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)ORACLESYBASESQL Server文 件數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市建 模數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理抽 取數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)示意圖數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)元數(shù)據(jù)多維關(guān)系數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)外部操作型數(shù)據(jù)數(shù)

8、據(jù)抽取數(shù)據(jù)清潔數(shù)據(jù)裝載管理平臺(tái)報(bào)表查詢工具數(shù)據(jù)挖掘工具OLAP工具兩層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)客戶端圖形用戶接口/表示邏輯查詢標(biāo)準(zhǔn)數(shù)據(jù)分析報(bào)表格式總結(jié)數(shù)據(jù)訪問(wèn)多層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)多維數(shù)據(jù)效勞器數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器應(yīng)用效勞器圖形用戶接口/表示邏輯查詢標(biāo)準(zhǔn)數(shù)據(jù)分析報(bào)表格式數(shù)據(jù)訪問(wèn)客戶端過(guò)濾總結(jié)元數(shù)據(jù)多維視圖數(shù)據(jù)訪問(wèn)四、數(shù)據(jù)組織方式和數(shù)據(jù)抽取一、數(shù)據(jù)邏輯組織1、簡(jiǎn)單堆積 每日從數(shù)據(jù)庫(kù)中提取并加工數(shù)據(jù)逐天積累。2、輪轉(zhuǎn)綜合 數(shù)據(jù)存儲(chǔ)單位被分別按日、周、月及年等幾個(gè)級(jí)別。每日事物處理每日綜合天周月年 1 2 3 4

9、5 6 7 1 2 3 4 5。3、簡(jiǎn)單直接文件 在一段時(shí)間如一周,一月后,將數(shù)據(jù)直接從操作型環(huán)境拖入數(shù)據(jù)倉(cāng)庫(kù)環(huán)境4、連續(xù)文件 通過(guò)兩個(gè)連續(xù)的簡(jiǎn)單直接文件,可以生成另一個(gè)連續(xù)文件二、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1、虛擬存儲(chǔ)方式 沒(méi)有專門的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)仍然在源數(shù)據(jù)庫(kù)中。只是根據(jù)用戶的多維需求及形成的多維視圖臨時(shí)在源數(shù)據(jù)庫(kù)中找出所需要的數(shù)據(jù),完成多維分析。優(yōu)點(diǎn):組織方式簡(jiǎn)單、花費(fèi)少、使用靈活;缺點(diǎn):只有當(dāng)源數(shù)據(jù)庫(kù)的數(shù)據(jù)組織比較標(biāo)準(zhǔn)、沒(méi)有數(shù)據(jù)不完備及冗余,同時(shí)又比較接近多維數(shù)據(jù)模型時(shí),虛擬數(shù)據(jù)倉(cāng)庫(kù)的多維語(yǔ)義才容易定義。而在一般的數(shù)據(jù)庫(kù)應(yīng)用中,這很難做到。2、基于關(guān)系表的存儲(chǔ)方式 將數(shù)據(jù)倉(cāng)

10、庫(kù)的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉(cāng)庫(kù)的功能。3、多維數(shù)據(jù)庫(kù)組織 直接面向OLAP分析操作的數(shù)據(jù)組織形式。這種數(shù)據(jù)庫(kù)產(chǎn)品比較多,其實(shí)現(xiàn)方法不盡相同。其數(shù)據(jù)組織采用多維數(shù)組結(jié)構(gòu)文件進(jìn)行數(shù)據(jù)存儲(chǔ),并有維索引及相應(yīng)的元數(shù)據(jù)管理文件與數(shù)據(jù)相對(duì)應(yīng)。三、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加 如何定期在數(shù)據(jù)倉(cāng)庫(kù)追加數(shù)據(jù)?1時(shí)標(biāo):如果數(shù)據(jù)含有時(shí)標(biāo),對(duì)新插入或更新的數(shù)據(jù)記錄,在其上添加更新時(shí)的時(shí)標(biāo),那么只需根據(jù)時(shí)標(biāo)判斷即可。但并非所有數(shù)據(jù)庫(kù)中的數(shù)據(jù)都含有時(shí)標(biāo)。2DELTA文件:它由應(yīng)用生成,記錄了應(yīng)用所改變的所有內(nèi)容。利用DELTA文件效率很高,它防止掃描整個(gè)數(shù)據(jù)庫(kù),但生成DELTA文件的應(yīng)用并不普遍。

11、3前后映像文件方法:在抽取數(shù)據(jù)前后對(duì)數(shù)據(jù)庫(kù)各做一次快照,然后比較兩幅快照從而確定新數(shù)據(jù)。它占用大量資源,對(duì)性能影響極大,因此無(wú)實(shí)際意義。4日志文件:日志是DB固有機(jī)制,不影響OLTP性能。它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個(gè)數(shù)據(jù)庫(kù)。2、元數(shù)據(jù)的使用者:系統(tǒng)管理員和終端用戶3、元數(shù)據(jù)的管理功能1數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的描述2定義數(shù)據(jù)抽取和轉(zhuǎn)換占整個(gè)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的80%)3) 抽取調(diào)度,什么時(shí)候抽???4描述同步需求四、元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),提供有關(guān)數(shù)據(jù)的環(huán)境 1、元數(shù)據(jù)描述數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和環(huán)境,分為:為了從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù):源數(shù)據(jù)項(xiàng)的名稱、屬

12、性及其在數(shù)據(jù)倉(cāng)庫(kù)中轉(zhuǎn)化。用來(lái)建立與最終用戶的多維商業(yè)模型和前端工具之間建立映射的:數(shù)據(jù)倉(cāng)庫(kù)中信息的種類、存儲(chǔ)位置、存儲(chǔ)格式;信息之間的關(guān)系、信息與業(yè)務(wù)的關(guān)系、數(shù)據(jù)使用的業(yè)務(wù)規(guī)那么;數(shù)據(jù)模型;數(shù)據(jù)模型與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系。4、元數(shù)據(jù)的標(biāo)準(zhǔn)化和商品化 需要一種元數(shù)據(jù)標(biāo)準(zhǔn)來(lái)幫助管理制造商進(jìn)行元數(shù)據(jù)信息交換。元數(shù)據(jù)標(biāo)準(zhǔn)可以保證共享數(shù)據(jù)的一致性。 美國(guó)技術(shù)支持小組SC14、ANSI委員會(huì)的X3L8等組織都涉及到了數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)標(biāo)準(zhǔn)。 X3L8已試圖獨(dú)立開(kāi)發(fā)管理共享數(shù)據(jù)的元模型。 由Arbor軟件公司、Cognos公司、Business Object 開(kāi)展技術(shù)公司、Platinum技術(shù)公司和德州儀器公司聯(lián)合

13、發(fā)起組成的“元數(shù)據(jù)委員會(huì)的制造商集團(tuán)正在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域內(nèi)各種產(chǎn)品間元數(shù)據(jù)交換的標(biāo)準(zhǔn)化工作。 SAS正致力于數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的商品開(kāi)發(fā)五、多維數(shù)據(jù)庫(kù)模式 實(shí)體關(guān)系ER模型一般用于關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì),而數(shù)據(jù)倉(cāng)庫(kù)采用的是星型、雪片型或事實(shí)星座。1、星型模式 數(shù)據(jù)倉(cāng)庫(kù)中包含1一個(gè)大的包含大批數(shù)據(jù)和不冗余的事實(shí)表中心表; 2一組小的附屬表,稱為維表。每維一個(gè)。 事實(shí)表中每條元組都含有指向各個(gè)維表的外鍵和一些相應(yīng)的測(cè)量數(shù)據(jù),事實(shí)表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。例:時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)itemlocation地區(qū)

14、鍵國(guó)家省市維表2、雪花模式 星型模式的變種,其中某些維表是標(biāo)準(zhǔn)化的。time時(shí)間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省鍵省鍵省名市鍵市鍵市名provincecity星型模式與雪花模式的差異: 雪花模式的維表可能是標(biāo)準(zhǔn)化的,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。 實(shí)際上,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。所以,在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中,雪花模式不如星型模式流行。3、事實(shí)星座模式 復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表。time時(shí)間鍵年季度

15、月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號(hào)item時(shí)間鍵產(chǎn)品鍵地區(qū)鍵sales(事實(shí)表)銷售量銷售價(jià)location地區(qū)鍵國(guó)家省市ship(事實(shí)表)產(chǎn)品鍵時(shí)間鍵起運(yùn)點(diǎn)終止點(diǎn)運(yùn)價(jià)六、數(shù)據(jù)抽取1、一個(gè)抽取要經(jīng)過(guò)許多步驟獲取:從外部或內(nèi)部源數(shù)據(jù)系統(tǒng)中獲取對(duì)決策支持系統(tǒng)用戶有用的數(shù)據(jù)。過(guò)濾:過(guò)濾掉不需要的內(nèi)容如上次抽取后一直沒(méi)有改變的數(shù)據(jù)。驗(yàn)證:從DSS用戶的角度驗(yàn)證數(shù)據(jù)的質(zhì)量。融合:將本次抽取的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行融合。綜合:對(duì)數(shù)據(jù)進(jìn)行綜合,生成概要級(jí)數(shù)據(jù)。裝載:把新數(shù)據(jù)裝入到數(shù)據(jù)倉(cāng)庫(kù)中。存檔:把新裝入的數(shù)據(jù)單獨(dú)寸為一個(gè)文件,以減少更新操作的數(shù)據(jù)量。2、現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)方案中都有數(shù)據(jù)提取功能,但抽取和轉(zhuǎn)換過(guò)分復(fù)雜

16、時(shí),需要用戶自己編寫抽取程序。SQL 2000中能接受第三方的抽取程序程序按OLE DB規(guī)定格式編寫3、有關(guān)抽取問(wèn)題的討論1)數(shù)據(jù)庫(kù)中的空缺值 空缺的數(shù)據(jù)會(huì)影響數(shù)據(jù)挖掘的質(zhì)量,所以應(yīng)該處理忽略該元組 問(wèn)題:假設(shè)缺少的數(shù)據(jù)的元組太多,那么性能非常差人工填寫空缺值問(wèn)題:缺很多值時(shí)不可行使用一個(gè)全局常量填空問(wèn)題:但由于該常量太多,數(shù)據(jù)挖掘程序可能會(huì)錯(cuò)誤的認(rèn)為是一個(gè)有趣的概念。使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值2)不一致的數(shù)據(jù) 由于某種原因的不一致需統(tǒng)一比方英制與公制3)樣本空間的大小 如抽取一局部數(shù)據(jù)進(jìn)行分析同在整個(gè)數(shù)據(jù)集合上進(jìn)行分析的結(jié)果是一樣的,那么取一局部數(shù)據(jù)進(jìn)行分析時(shí)空效率就高得多。采用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論