版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
隨著信息化和自動(dòng)化技術(shù)的飛速發(fā)展,特別是數(shù)控機(jī)床、傳感器、數(shù)據(jù)采集裝置和其他具備感知能力的智能設(shè)備在離散車(chē)間底層的大量使用,車(chē)間生產(chǎn)從自動(dòng)化、數(shù)字化向智能化發(fā)展。智能車(chē)間的制造數(shù)據(jù)呈現(xiàn)典型的大數(shù)據(jù)3V特性,即規(guī)模性(volume)、多樣性(variety)和高速性(velocity)。此外,由于智能車(chē)間中的性能指標(biāo)多樣、生產(chǎn)方式多變、隨機(jī)擾動(dòng)頻發(fā)、生產(chǎn)環(huán)境開(kāi)放,車(chē)間制造大數(shù)據(jù)還體現(xiàn)出高維度、多尺度、不確定和高噪聲等其他特性。車(chē)間制造大數(shù)據(jù)包括從車(chē)間現(xiàn)場(chǎng)到車(chē)間管理所有生成、交換和集成的數(shù)據(jù),以及所有與制造相關(guān)的業(yè)務(wù)數(shù)據(jù)和衍生附加信息;車(chē)間制造大數(shù)據(jù)對(duì)車(chē)間運(yùn)行過(guò)程進(jìn)行全面描述,任何數(shù)據(jù)的變化都可能改變車(chē)間運(yùn)行過(guò)程、影響車(chē)間運(yùn)行性能,是進(jìn)行車(chē)間運(yùn)行分析與決策的重要依據(jù)。第一部分——第3章:背景從范圍上從作用上為什么要預(yù)處理數(shù)據(jù)描述性數(shù)據(jù)匯總數(shù)據(jù)預(yù)處理方法數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與使用關(guān)聯(lián)分析:基本概念和方法分類(lèi):基本概念和方法聚類(lèi)分析:基本概念和方法大數(shù)據(jù)背景下,在智能車(chē)間中進(jìn)行數(shù)據(jù)挖掘與分析可以量化數(shù)據(jù)值之間的數(shù)理關(guān)系,以更容易、快捷、清楚地分析事物間的內(nèi)在聯(lián)系,為人們觀察并分析事物提供新視角的可能。第一部分——第3.1章:數(shù)據(jù)預(yù)處理本章主要內(nèi)容為什么要預(yù)處理數(shù)據(jù)數(shù)據(jù)輸入和獲得過(guò)程數(shù)據(jù)錯(cuò)誤;數(shù)據(jù)集成所表現(xiàn)出來(lái)的錯(cuò)誤;數(shù)據(jù)傳輸過(guò)程所引入的錯(cuò)誤;據(jù)統(tǒng)計(jì)有錯(cuò)誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右。高昂的操作費(fèi)用;糟糕的決策制定;組織的不信任;分散管理的注意力。第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)錯(cuò)誤的不可避免性:數(shù)據(jù)錯(cuò)誤的危害性:1現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的;數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過(guò)程的精度和性能;高質(zhì)量的決策必然依賴(lài)于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要步驟;檢測(cè)異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過(guò)程中得到高回報(bào)。小結(jié)意義:獲得數(shù)據(jù)的總體印象對(duì)于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的。動(dòng)機(jī):更好地理解數(shù)據(jù),為發(fā)現(xiàn)數(shù)據(jù)間關(guān)聯(lián)關(guān)系和輔助決策奠定基礎(chǔ)。作用:描述性數(shù)據(jù)匯總技術(shù)可以用來(lái)識(shí)別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應(yīng)當(dāng)視為噪聲或離群點(diǎn)。主要內(nèi)容:度量數(shù)據(jù)的中心趨勢(shì)和離散程度、描述數(shù)據(jù)匯總的圖形顯示。描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理意義、動(dòng)機(jī)、作用、內(nèi)容算數(shù)平均值最常用分布式度量可以通過(guò)如下方法計(jì)算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原(整個(gè))數(shù)據(jù)集的度量值。sum()、count()、min()、max()代數(shù)度量可以通過(guò)應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量mean()、中列數(shù)代數(shù)度量必須對(duì)整個(gè)數(shù)據(jù)集計(jì)算的度量。中位數(shù)、眾數(shù)描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理度量數(shù)據(jù)的中心趨勢(shì)mean加權(quán)平均截?cái)嗑担喝サ舾?、低極端值得到的均值。減小極端值對(duì)均值的影響。中列數(shù)(midrange):(max+min)/2中位數(shù)(median):適用于傾斜的數(shù)據(jù)。近似值計(jì)算如下:設(shè)N個(gè)數(shù)值排序,若N為奇數(shù),中位數(shù)是有序集的中間值;若N為偶數(shù),中位數(shù)是中間兩個(gè)值的平均值。例如:1,3,5,7中位數(shù)41,3,5,6,7中位數(shù)5代數(shù)度量整體度量描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理度量數(shù)據(jù)的中心趨勢(shì):代數(shù)度量、整體度量整體度量眾數(shù)(mode):集合中出現(xiàn)頻率最高的值。單峰、多峰(雙峰、三峰…)、無(wú)眾數(shù)對(duì)于適度傾斜的單峰頻率曲線(xiàn),有如下的經(jīng)驗(yàn)關(guān)系:mean-mode=3×(mean-median)描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理度量數(shù)據(jù)的中心趨勢(shì):代數(shù)度量、整體度量極差最大值與最小值之差四分位數(shù)中位數(shù)是第50個(gè)百分位數(shù),是第2個(gè)四分位數(shù);第1個(gè)是第25個(gè)百分位數(shù),Q1;中間四分位數(shù)極差I(lǐng)QR=Q3-Q1。離群點(diǎn)與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象方差、標(biāo)準(zhǔn)差反映了每個(gè)數(shù)與均值相比平均相差的數(shù)值盒圖描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理度量數(shù)據(jù)的離散程度盒圖boxplot,也稱(chēng)箱線(xiàn)圖;從下到上五條線(xiàn)分別表示最小值、下四分位數(shù)Q1、中位數(shù)、上四分位數(shù)Q3和最大值;盒的長(zhǎng)度等于IRQ;中位數(shù)用盒內(nèi)的橫線(xiàn)表示;盒外的兩條線(xiàn)(胡須)分別延伸到最小和最大觀測(cè)值。描述性數(shù)據(jù)匯總第一部分——第3.1章:數(shù)據(jù)預(yù)處理度量數(shù)據(jù)的離散程度:盒圖1功能:1.直觀明了地識(shí)別數(shù)據(jù)集中的離群點(diǎn);2.判斷數(shù)據(jù)集的偏態(tài)和尾重;3.比較幾批數(shù)據(jù)的形狀。當(dāng)今現(xiàn)實(shí)世界的數(shù)據(jù)庫(kù)極易受噪聲、缺失值和不一致數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫(kù)太大(常常多達(dá)數(shù)兆兆字節(jié),甚至更多),并且多半來(lái)自多個(gè)異種數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的數(shù)據(jù)分析結(jié)果。為保證數(shù)據(jù)質(zhì)量,在使用數(shù)據(jù)進(jìn)行分析前對(duì)其進(jìn)行預(yù)處理是必要的,數(shù)據(jù)預(yù)處理基本步驟包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)預(yù)處理方法第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的背景與基本過(guò)程數(shù)據(jù)預(yù)處理方法第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)清理數(shù)據(jù)預(yù)處理缺失值處理噪聲處理異常值處理丟棄:根據(jù)該條數(shù)據(jù)記錄上其它的數(shù)據(jù)是否有價(jià)值,選擇丟棄缺失項(xiàng)處的值,或者丟棄包含缺失項(xiàng)的整條數(shù)據(jù)記錄。估計(jì)替代:用缺失值所處屬性上全部值的平均值填充:可以用與缺失值記錄“相似”記錄上的值來(lái)填充缺失值,對(duì)于時(shí)間序列,則可以用插值的方法,包括線(xiàn)性和非線(xiàn)性插值?;诮y(tǒng)計(jì)模型的估計(jì):基于非缺失的值構(gòu)建統(tǒng)計(jì)模型,并對(duì)模型參數(shù)進(jìn)行估計(jì),然后再預(yù)測(cè)缺失處的值。分箱:通過(guò)考察數(shù)據(jù)的“近鄰”(周?chē)闹担﹣?lái)光滑有序數(shù)據(jù)的值。局部光滑?;貧w:用一個(gè)函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。聚類(lèi):將類(lèi)似的值聚集為簇。其他:如數(shù)據(jù)歸約、離散化和概念分層。修改丟棄冗余和相關(guān)分析給定兩個(gè)屬性,這種分析可以根據(jù)可用的數(shù)據(jù),度量一個(gè)屬性能在多大程度上蘊(yùn)涵另一個(gè)。對(duì)于標(biāo)稱(chēng)數(shù)據(jù),我們使用χ^2(卡方)檢驗(yàn)。對(duì)于數(shù)值屬性,我們使用相關(guān)系數(shù)(cormelationcoefficient)和協(xié)方差(covariance)。數(shù)值數(shù)據(jù)的相關(guān)系數(shù)對(duì)于數(shù)值數(shù)據(jù),我們可以通過(guò)計(jì)算屬性A和B的相關(guān)系數(shù)(又稱(chēng)Pearson積矩系數(shù)),用發(fā)明者KarlPearson的名字命名),估計(jì)這兩個(gè)屬性的相關(guān)度r_(A,B)。數(shù)值數(shù)據(jù)的協(xié)方差協(xié)方差和方差是兩個(gè)類(lèi)似的度量,評(píng)估兩個(gè)屬性如何一起變化。元組重復(fù)除了檢測(cè)屬性間的冗余外,還應(yīng)當(dāng)在元組級(jí)檢測(cè)重復(fù)(例如,對(duì)于給定的唯一效據(jù)實(shí)體,容在兩個(gè)或多個(gè)相同的元組)。數(shù)據(jù)值沖突的檢測(cè)與處理對(duì)于現(xiàn)實(shí)世界的同一實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能不同,這可能是因?yàn)楸硎?、尺度或編碼不同。數(shù)據(jù)預(yù)處理方法第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)集成使用的標(biāo)稱(chēng)屬性的相關(guān)分析
直齒斜齒合計(jì)斷裂250(90)200(360)450磨損50(210)1000(840)1050合計(jì)30012001500時(shí)間點(diǎn)AllElectronicsHighTecht1620t2510t3414t435t525數(shù)值屬性的協(xié)方差分析給出了在5個(gè)時(shí)間點(diǎn)觀測(cè)到的兩公司的股票價(jià)格的簡(jiǎn)化例子。如果股市受相同的產(chǎn)業(yè)趨勢(shì)影響,它們的股價(jià)會(huì)一起漲跌嗎?對(duì)于給定的人群,這兩個(gè)屬性是(強(qiáng))相關(guān)的。假設(shè)調(diào)查了1500個(gè)故障齒輪,記錄了每個(gè)齒輪的類(lèi)型,以及每個(gè)齒輪的故障類(lèi)型,研究單元(直齒,斷裂)的相關(guān)性。數(shù)據(jù)預(yù)處理方法
可以說(shuō)兩個(gè)公司的股票同時(shí)上漲。
第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)集成非監(jiān)督離散化:用于分類(lèi)的離散化方法之間的根本區(qū)別在于使用類(lèi)信息還是不使用類(lèi)信息。監(jiān)督離散化:基于熵的方法。分類(lèi)值整數(shù)值健康0000亞健康1001正常2010劣化3011故障4100分類(lèi)值整數(shù)值健康010000亞健康101000正常200100劣化300010故障410001數(shù)據(jù)預(yù)處理方法第一部分——第3.1章:數(shù)據(jù)預(yù)處理離散化二元化用多個(gè)二元屬性來(lái)表示一個(gè)多元屬性。規(guī)范化最小-最大規(guī)范化:z-score規(guī)范化:小數(shù)定標(biāo)規(guī)范化:特征轉(zhuǎn)換與創(chuàng)建對(duì)有一些時(shí)間序列,可以通過(guò)傅里葉變換、小波變換、EMD分解等方法得到數(shù)據(jù)的頻域或其它類(lèi)型特征
數(shù)據(jù)變換抽樣:用數(shù)據(jù)的小得多的隨機(jī)樣本(子集)表示大型數(shù)據(jù)集。數(shù)據(jù)預(yù)處理方法第一部分——第3.1章:數(shù)據(jù)預(yù)處理數(shù)據(jù)聚集:數(shù)據(jù)聚集是將多個(gè)數(shù)據(jù)對(duì)象合并成一個(gè)數(shù)據(jù)對(duì)象,目的是為了減少數(shù)據(jù)及計(jì)算量,同時(shí)也可以得到更加穩(wěn)定的特征。求和;求平均(加權(quán)平均);S個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣(SRSWOR);S個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣(SRSWR);聚類(lèi)抽樣;分層抽樣.維規(guī)約:維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮"表示。分為無(wú)損和有損兩種。串壓縮:無(wú)損,但只允許有限的數(shù)據(jù)操作;小波變換(DWT):有損,適合高維數(shù)據(jù);主成分分析(PCA):有損,能更好地處理稀疏數(shù)據(jù)。數(shù)據(jù)規(guī)約數(shù)據(jù)倉(cāng)庫(kù)可以看作是一種特殊的關(guān)系數(shù)據(jù)庫(kù)。DW是一個(gè)面向主題的、集成的、不更新的、隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理部門(mén)的決策過(guò)程。DW允許將各種應(yīng)用系統(tǒng)集成在一起為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理、決策提供支持。數(shù)據(jù)倉(cāng)庫(kù)金融業(yè)制造業(yè)……零售業(yè)汽車(chē)行業(yè)航空航天鋼鐵行業(yè)…..數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)什么是數(shù)據(jù)倉(cāng)庫(kù)DW(DataWarehouse)面向主題的(subject-oriented):所謂主題(宏觀領(lǐng)域),如顧客、供應(yīng)商、產(chǎn)品和銷(xiāo)售組織;是在高層次上將企業(yè)IS中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象。面向主題,是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是按主題進(jìn)行組織的,為按決策的過(guò)程提供信息;DW關(guān)注決策者的數(shù)據(jù)建模與分析,而傳統(tǒng)數(shù)據(jù)庫(kù)是面向應(yīng)用的,集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理;DW排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖;傳統(tǒng)數(shù)據(jù)庫(kù)使用OLTP聯(lián)機(jī)事務(wù)處理方式,進(jìn)行數(shù)據(jù)組織時(shí)考慮記錄每一筆業(yè)務(wù)的情況;數(shù)據(jù)倉(cāng)庫(kù)使用OLAP聯(lián)機(jī)分析處理方式,進(jìn)行數(shù)據(jù)分析處理,以主題為單位組織數(shù)據(jù),例如:供應(yīng)商、商品、顧客等。面向主題的數(shù)據(jù)組織方式要求將數(shù)據(jù)組織成主題域,各主題域之間有明確的界限(獨(dú)立性)在某一主題內(nèi)的數(shù)據(jù)應(yīng)該包括分析處理所要求的一切數(shù)據(jù)(完備性)。數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn):面向主題的、集成的、不更新的、隨時(shí)間變化的不更新的(nonvolatile):訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)主要是兩種方式:數(shù)據(jù)的插入和查詢(xún)。修改和刪除操作很少。DW的數(shù)據(jù)與操作環(huán)境下的應(yīng)用數(shù)據(jù)分開(kāi)存放。因此,數(shù)據(jù)倉(cāng)庫(kù)不需要在操作環(huán)境下事務(wù)處理、恢復(fù)和并發(fā)控制等機(jī)制。集成的(integrated):構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)不同的數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。將多個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算和整理,保證DW的數(shù)據(jù)是關(guān)于整個(gè)系統(tǒng)的、一致的、全局的。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定編碼結(jié)構(gòu)、屬性等的數(shù)據(jù)結(jié)構(gòu)一致性。保證各數(shù)據(jù)源中數(shù)據(jù)的一致性。數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn):面向主題的、集成的、不更新的、隨時(shí)間變化的總結(jié):DW是一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu);DW是決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息;DW通過(guò)將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起構(gòu)造而成;完成各種數(shù)據(jù)查詢(xún)、信息分析報(bào)告和決策支持。隨時(shí)間變化的(time-variant):數(shù)據(jù)倉(cāng)庫(kù)記錄了從過(guò)去某一時(shí)間到目前的各個(gè)階段的信息,通過(guò)這些信息,可以表明發(fā)展歷程并對(duì)未來(lái)的趨勢(shì)作出定量分析和預(yù)測(cè)。DW的數(shù)據(jù)結(jié)構(gòu),隱式或顯式地包含時(shí)間元素;其包含的大量綜合數(shù)據(jù)也與時(shí)間相關(guān),例如:月產(chǎn)量。DW隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容;去掉超過(guò)時(shí)限(例如:5-10年)的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn):面向主題的、集成的、不更新的、隨時(shí)間變化的操作型數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢(xún)處理,稱(chēng)為聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。它涵蓋了一個(gè)組織的大部分日常操作,如采購(gòu)、制造、庫(kù)存、銷(xiāo)售、財(cái)務(wù)、銀行等事務(wù)。DW在數(shù)據(jù)分析和決策方面為決策者提供服務(wù)??梢杂貌煌母袷饺ソM織和提供數(shù)據(jù),以便滿(mǎn)足不同用戶(hù)的形形色色需求。這種系統(tǒng)稱(chēng)為聯(lián)機(jī)分析處理(OLAP)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)操作型數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別數(shù)據(jù)倉(cāng)庫(kù)和OLAP通常是基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)立方體(datacube)形式。數(shù)據(jù)立方體由維和事實(shí)來(lái)定義;以多維的形式對(duì)數(shù)據(jù)建模和觀察。維是關(guān)于一個(gè)組織想要記錄的透視或?qū)嶓w。事實(shí)是面向某一主題的數(shù)據(jù)度量,它表示了多個(gè)分析維之間的分析結(jié)果。多維數(shù)據(jù)模型通常有星型和雪花型兩種形式。維維的層次維成員多維數(shù)據(jù)數(shù)據(jù)單元維是人們觀察數(shù)據(jù)的特定角度,如時(shí)間維,地理維。某個(gè)維以下存在的對(duì)細(xì)節(jié)的多個(gè)描述方面,例如:時(shí)間維有年、季度、月、日等不同層次。維的一個(gè)取值是該維的一個(gè)成員。一個(gè)多維數(shù)組可以表示為(維1,維2,維3,..維n,變量);例如:(地區(qū)、時(shí)間、銷(xiāo)售渠道、銷(xiāo)售額)。多維數(shù)組的取值是數(shù)據(jù)單元。例如:(上海,2002年2月,批發(fā),2188)數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型服務(wù)對(duì)象:OLTP是面向顧客的,用于辦事員、客戶(hù)和信息技術(shù)專(zhuān)業(yè)人員的事務(wù)和查詢(xún)處理。OLAP是面向市場(chǎng)的,用于經(jīng)理、主管和信息分析人員的數(shù)據(jù)分析。數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)。這種數(shù)據(jù)太瑣碎,難以用于決策。OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。數(shù)據(jù)易于用作中、高層的決策過(guò)程。數(shù)據(jù)庫(kù)設(shè)計(jì):OLTP系統(tǒng)采用E-R模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)。OLAP系統(tǒng)采用星型或雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì).數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)OLTP和OLAP的主要區(qū)別視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門(mén)內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。OLAP系統(tǒng)由于組織的變化常??缭綌?shù)據(jù)庫(kù)模式的多個(gè)版本。OLAP系統(tǒng)也處理來(lái)自不同組織的信息,由多個(gè)數(shù)據(jù)存儲(chǔ)集成的信息。由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個(gè)存儲(chǔ)介質(zhì)上。訪(fǎng)問(wèn)模式:對(duì)OLTP系統(tǒng)的訪(fǎng)問(wèn)主要由短的原子事務(wù)組成,需要并行控制和恢復(fù)機(jī)制。對(duì)OLAP系統(tǒng)的訪(fǎng)問(wèn)大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢(xún)。其他區(qū)別:包括數(shù)據(jù)庫(kù)大小、操作的頻繁程度、性能度量等。數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)OLTP和OLAP的主要區(qū)別三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)底層中間層頂層數(shù)據(jù)倉(cāng)庫(kù)概念第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)立方體允許以多維對(duì)數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。location=“溫哥華”time(季度)item(類(lèi)型)家庭娛樂(lè)計(jì)算機(jī)電話(huà)安全Q160582514400Q268095231512Q3812102330501Q4927103838580timelocation=“芝加哥”itemlocation=“紐約”itemlocation=“多倫多”itemlocation=“溫哥華”item家庭娛樂(lè)計(jì)算機(jī)電話(huà)安全家庭娛樂(lè)計(jì)算機(jī)電話(huà)安全家庭娛樂(lè)計(jì)算機(jī)電話(huà)安全家庭娛樂(lè)計(jì)算機(jī)電話(huà)安全Q185488289623108796838872819746435916058251448Q29438906469811301024419258947695268268095231512Q31023924597891034104845100294079558728812102330501Q4112999263870114210915498497886459784927103838580第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)立方體多維數(shù)據(jù)庫(kù)模型星形模式(starschema)雪花模式(snowflakeschema)事實(shí)星座(factconstellation)關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)廣泛使用E—R數(shù)據(jù)模型。數(shù)據(jù)庫(kù)模式由實(shí)體的集合和它們之間的聯(lián)系組成。這種數(shù)據(jù)模型適用于聯(lián)機(jī)事務(wù)處理。數(shù)據(jù)倉(cāng)庫(kù)需要簡(jiǎn)明的、面向主題的模型,便于聯(lián)機(jī)數(shù)據(jù)分析。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型有星形模式、雪花模式和事實(shí)星座等。數(shù)據(jù)倉(cāng)庫(kù)建模第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)庫(kù)模型星形模式是最常見(jiàn)的模型,其中數(shù)據(jù)倉(cāng)庫(kù)包括:一個(gè)大的中心表(事實(shí)表),它包含大批數(shù)據(jù)并且不含冗余;一組小的附屬表(維表),每維一個(gè)。這種模式圖很像星光四射,維表顯示在圍繞中心表的射線(xiàn)上。從四個(gè)維time、item、branch和location考慮銷(xiāo)售。該模式包含一個(gè)中心事實(shí)表sales,它包含四個(gè)維的碼和兩個(gè)度量dollars_sold和units_sold。為盡量減小事實(shí)表的大小,維標(biāo)識(shí)符(如time_key和item_key)是系統(tǒng)產(chǎn)生的標(biāo)識(shí)符。AllElectronics的sales的星形模式數(shù)據(jù)倉(cāng)庫(kù)建模第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)星形模式(starschema)雪花模式是星形模式的變種,其中某些維表被規(guī)范化,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果模式圖形成類(lèi)似于雪花的形狀。雪花模式和星形模式的主要不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。兩個(gè)模式的主要差別是維表。星形模式中item的單個(gè)維表在雪花模式中被規(guī)范化,導(dǎo)致新的item表和supplier表。例如,現(xiàn)在維表item包含屬性item_key、item_name,brand,type和supplier_key,其中supplier_key連接到包含supplier_key和supplier_type信息的維表suppier。類(lèi)似地,星形模式中單個(gè)維表localion也被規(guī)范化成兩個(gè)新表;location和city?,F(xiàn)在,新的location表中的city_key連接到city維。數(shù)據(jù)倉(cāng)庫(kù)建模第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)雪花模式(snowflakeschema)AllElectronics的sales的雪花模式復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表。這種模式可以看做星形模式的匯集,因此稱(chēng)作星系模式(galaxyschema)或事實(shí)星座。該模式說(shuō)明了兩個(gè)事實(shí)表,sales和shipping。sales表的定義與星形模式相同。shipping表有五個(gè)維或碼——itemkey、timehey、shipperkey、fromlocation和to_location,兩個(gè)度量——dollars_cost和units_shipped。事實(shí)星座模式允許事實(shí)表共享維表。例如,事實(shí)表sales和shipping共享維表time、item和location。sales和shipping數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)星座模式數(shù)據(jù)倉(cāng)庫(kù)建模第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)事實(shí)星座(factconstellation)選取事務(wù)處理的粒度。對(duì)于處理,該粒度是基本的,在事實(shí)表中是數(shù)據(jù)的原子級(jí)(例如,單個(gè)事務(wù)等)。選取用于每個(gè)事實(shí)表記錄的維。典型的維是時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫(kù)、事務(wù)類(lèi)型和狀態(tài)。選取將安放在每個(gè)事實(shí)表記錄中的度量。典型的度量是可加的數(shù)值量,如dollars_sold和unis_sold。選取待建模的事務(wù)(如訂單、發(fā)票、庫(kù)存等)。如果一個(gè)事務(wù)過(guò)程是整個(gè)組織的,并涉及多個(gè)復(fù)雜的對(duì)象,應(yīng)當(dāng)選用數(shù)據(jù)倉(cāng)庫(kù)模型。然而,如果處理是部門(mén)的,并關(guān)注某一類(lèi)商務(wù)處理的分析,則應(yīng)選擇數(shù)據(jù)集市。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與使用第一部分——第3.2章:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與使用步驟關(guān)聯(lián)分析是一種認(rèn)知模式,這種關(guān)聯(lián)規(guī)則和人的反射類(lèi)似,就是在認(rèn)識(shí)事物的過(guò)程中在認(rèn)知中建立的關(guān)聯(lián)規(guī)則。頻繁模式例如一個(gè)超市每天有很多的購(gòu)物記錄,而且消費(fèi)者的購(gòu)買(mǎi)單品的順序是無(wú)序的,所以一個(gè)無(wú)序的組合就是“模式”。在這些模式里有的出現(xiàn)頻率低,有的出現(xiàn)頻率高,一般說(shuō)頻率較高的通常更有指導(dǎo)意義,這種高頻率的模式就叫做“頻繁模式”。Apriori算法找出頻繁集先設(shè)置一個(gè)最小支持度作為閾值門(mén)限進(jìn)行掃描,因?yàn)橥瑫r(shí)過(guò)濾最小支持度和最小置信度這兩個(gè)操作來(lái)說(shuō),最小支持度的查找更為簡(jiǎn)單一些。掃描所有滿(mǎn)足最小支持度的單品。在這個(gè)過(guò)程中可以發(fā)現(xiàn),大量小于閾值的單品被過(guò)濾掉,這個(gè)過(guò)程在算法中叫“剪枝”再逐級(jí)查找模式時(shí),有很多單
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州商貿(mào)旅游職業(yè)學(xué)院《單片機(jī)應(yīng)用課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)2024年藝術(shù)教育發(fā)展年度報(bào)告
- 浙江電力職業(yè)技術(shù)學(xué)院《纖維化學(xué)與物理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長(zhǎng)春大學(xué)《衛(wèi)生財(cái)務(wù)管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 生產(chǎn)調(diào)度中的敏捷性管理策略
- 餐飲新員工安全訓(xùn)練模板
- AI企業(yè)技術(shù)路演模板
- 水的化學(xué)屬性模板
- 生物制藥業(yè)策略講解模板
- 親子活動(dòng)相冊(cè)制作模板
- 資金審批權(quán)限管理規(guī)定
- 《工業(yè)園區(qū)節(jié)水管理技術(shù)規(guī)范(征求意見(jiàn)稿)》編制說(shuō)明
- GB/T 44186-2024固定式壓縮空氣泡沫滅火系統(tǒng)
- 血液凈化十大安全目標(biāo)
- 福建省漳州市2024年高一下數(shù)學(xué)期末調(diào)研模擬試題含解析
- 中國(guó)保險(xiǎn)行業(yè)協(xié)會(huì)官方-2023年度商業(yè)健康保險(xiǎn)經(jīng)營(yíng)數(shù)據(jù)分析報(bào)告-2024年3月
- 家具桌子設(shè)計(jì)說(shuō)明
- DB32T3622-2019水利地理信息圖形標(biāo)示
- 2024年代理記賬工作總結(jié)6篇
- 4D廚房管理對(duì)比
- 2024年大型集團(tuán)公司IT信息化頂層規(guī)劃報(bào)告
評(píng)論
0/150
提交評(píng)論