02第二章相關(guān)概念_第1頁
02第二章相關(guān)概念_第2頁
02第二章相關(guān)概念_第3頁
02第二章相關(guān)概念_第4頁
02第二章相關(guān)概念_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘與處理

(DataMiningandDataProcessing)第二章相關(guān)概念1數(shù)據(jù)庫類型2多維數(shù)據(jù)立方體3在線分析處理4概念/類描述1數(shù)據(jù)庫類型1.1關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫系統(tǒng):數(shù)據(jù)庫管理系統(tǒng)(DBMS),由一組內(nèi)部相關(guān)的數(shù)據(jù)(即數(shù)據(jù)庫)和一組管理和存取數(shù)據(jù)的軟件程序組成。關(guān)系數(shù)據(jù)庫(relationaldatabase):按照關(guān)系模型建立的數(shù)據(jù)庫,是表的集合。實體關(guān)系模型(ERModel,ER即Entity-Relationship):將數(shù)據(jù)庫作為一組實體和它們之間的聯(lián)系進行建模,用真實世界中事物與關(guān)系來解釋數(shù)據(jù)庫中的抽象的數(shù)據(jù)架構(gòu)。通過關(guān)系數(shù)據(jù)庫構(gòu)造ER模型。實體關(guān)系模型利用圖形(ERDiagram,實體-關(guān)系圖)的方式來表示數(shù)據(jù)庫的概念設(shè)計。關(guān)系數(shù)據(jù)庫ER模型實例1數(shù)據(jù)庫類型1.2數(shù)據(jù)倉庫數(shù)據(jù)倉庫:從多個數(shù)據(jù)源收集的信息存儲,存放在一個一致的模式下,并通常駐留在單個站點。它收集整個組織的信息,是企業(yè)范圍的。數(shù)據(jù)倉庫用多維數(shù)據(jù)庫結(jié)構(gòu)建模,實際物理結(jié)構(gòu)可以是關(guān)系數(shù)據(jù)存儲或多維數(shù)據(jù)立方體(datacube)。多維數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖,并允許預(yù)計算和快速訪問匯總的數(shù)據(jù)。數(shù)據(jù)倉庫非常適合聯(lián)機分析處理(OLAP)。數(shù)據(jù)集市:數(shù)據(jù)倉庫的一個子集。它聚集在選定的主題上,是部門范圍的。數(shù)據(jù)倉庫結(jié)構(gòu)圖數(shù)據(jù)倉庫結(jié)構(gòu)圖1數(shù)據(jù)庫類型1.3事務(wù)數(shù)據(jù)庫事務(wù)數(shù)據(jù)庫:每條記錄代表一個事務(wù)的數(shù)據(jù)庫,它由一個文件構(gòu)成。一個事務(wù)包含一個唯一的事務(wù)標(biāo)識號(Trans_ID)和一個組成事務(wù)的項的列表。事務(wù)數(shù)據(jù)可能有一些與之相關(guān)聯(lián)的附加表,如事務(wù)的日期、顧客ID號、銷售者的ID號、銷售分店等等。事務(wù)標(biāo)識項目的列表事務(wù)標(biāo)識項目的列表T1罩衫T6鞋,T恤T2牛仔褲,T恤T7牛仔褲,裙子T3鞋,裙子,T恤T8牛仔褲,鞋,短褲,T恤T4牛仔褲,鞋,T恤T9牛仔褲T5牛仔褲,短褲T10牛仔褲,鞋,T恤1數(shù)據(jù)庫類型1.4其它類型數(shù)據(jù)庫(1)面向?qū)ο蟮臄?shù)據(jù)庫:每個實體被看作一個對象。涉及一個對象的數(shù)據(jù)和代碼封裝在一個單元中。每個對象關(guān)聯(lián)一個變量集、一個消息集和一個方法集。(2)對象-關(guān)系數(shù)據(jù)庫:基于對象-關(guān)系數(shù)據(jù)模型構(gòu)造。(3)空間數(shù)據(jù)庫:涉及空間信息的數(shù)據(jù)庫,包含地理(地圖)數(shù)據(jù)庫、醫(yī)療圖像數(shù)據(jù)庫、衛(wèi)星圖像數(shù)據(jù)庫??臻g數(shù)據(jù)可以采用光柵格式(RasterFormat)。(4)文本、時間(序列)、多媒體、異種和遺產(chǎn)、WWW數(shù)據(jù)庫等等。2多維數(shù)據(jù)立方體實例2多維數(shù)據(jù)立方體多數(shù)據(jù)立方體:一類多維矩陣,由維與事實決定。它讓用戶從多個角度探索和分析數(shù)據(jù)集,是一個非常有用的解釋工具。在線分析處理(OLAP)系統(tǒng)能用很多個維度構(gòu)建數(shù)據(jù)立方體。微軟的SQLServer2000AnalysisServices工具允許維度數(shù)高達64個數(shù)據(jù)立方體。維:一個組織想要記錄的透視或?qū)嶓w,用維表來表示。事實:相關(guān)內(nèi)容及其度量,用事實表來表示.事實表包含事實的名稱和度量.例:事實包含銷售款,銷售量,預(yù)算金額.2多維數(shù)據(jù)立方體事實表2多維數(shù)據(jù)立方體描述2003年4月份嬌子X在北京地區(qū)銷售額10萬元時,涉及到3個維度:時間、產(chǎn)品、銷區(qū)和銷售額。實例2多維數(shù)據(jù)立方體實例:高光譜遙感數(shù)據(jù)立方體2多維數(shù)據(jù)立方體基本方體:創(chuàng)建在最低層的數(shù)據(jù)立方體。頂點方體:創(chuàng)建在最高層抽象的數(shù)據(jù)立方體。n-D方體:n維度的立方體。通過它建立多個層次的聚集,縮減所要處理的數(shù)據(jù)量。當(dāng)響應(yīng)OLAP查詢或者數(shù)據(jù)挖掘時,應(yīng)當(dāng)使用與給定任務(wù)相關(guān)的“最小方體”。n-D方體3在線分析處理(OLAP)在線(聯(lián)機)分析處理是應(yīng)用廣泛的數(shù)據(jù)倉庫使用技術(shù)。它有在線性(On_Line)和多維分析性(Multi_Analysis)這兩個特點。具有以下4條性質(zhì):(1)快速性:系統(tǒng)能在數(shù)秒內(nèi)對用戶的多數(shù)分析要求做出反應(yīng)。(2)可分析性:用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以用戶所希望的方式給出報告。(3)多維性:提供對數(shù)據(jù)分析的多維視圖和分析。(4)信息性:能及時獲得信息,并且管理大容量信息。3在線分析處理(OLAP)OLAP操作(1)上卷(上鉆):通過一個維的概念分層攀升或者維歸約,在數(shù)據(jù)立方體上進行聚集。(2)下鉆:上卷的逆操作,它不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。(3)切片和切塊:在給定的數(shù)據(jù)立方體的一個維是進行選擇,導(dǎo)致一個子方。(4)轉(zhuǎn)軸(旋轉(zhuǎn)):一種目視操作,它旋轉(zhuǎn)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。(5)其它操作:鉆過(執(zhí)行涉及多個事實表的查詢)、鉆透(使用關(guān)系SQL機制鉆到數(shù)據(jù)立方體底層)等等。銷售地區(qū)西南華中華東四川云南河南湖北江蘇上海3在線分析處理(OLAP)操作:上卷(上鉆),下鉆北京市上海市天津市2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962943在線分析處理旋轉(zhuǎn)3在線分析處理各種OLAP操作3在線分析處理OLAP操作應(yīng)用圖4概念/類描述4.1概念描述類或概念的描述。數(shù)據(jù)可以與類或概念相關(guān)聯(lián)。概念或類描述途徑(1)數(shù)據(jù)特征化:一般地匯總所研究類(目標(biāo)類TargetClass)的數(shù)據(jù),是目標(biāo)類數(shù)據(jù)的一般特征或匯總。數(shù)據(jù)特征的輸出可以有多種形式。(2)數(shù)據(jù)區(qū)分:將目標(biāo)類對象的一般特征與一個或多個比較類(對比類ContrastingClass)對象的一般特征進行比較。區(qū)分描述包含比較度量(區(qū)分目標(biāo)類和對比類),其中規(guī)則表示的描述稱為區(qū)分規(guī)則。(3)數(shù)據(jù)特征化與比較4概念/類描述4.2數(shù)據(jù)概化:將任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。要概化方法可分為兩類:數(shù)據(jù)立方體(或OLAP)方法、面向?qū)傩缘臍w納方法。(1)面向?qū)傩缘臍w納方法:面向關(guān)系庫查詢的、基于概化(泛化)的、聯(lián)機的數(shù)據(jù)分析處理技術(shù)。(2)面向?qū)傩詺w納的過程:使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);通過考慮任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù)進行概化;聚集合并了的廣義元組,累計其計數(shù)值;將廣義關(guān)系映射到不同形式提供給用戶。4概念/類描述(3)面向?qū)傩詺w納的基本操作(即數(shù)據(jù)概化):屬性刪除和屬性概化。屬性刪除(attributeremove):若某個屬性有大量不同的值且該屬性沒有概化操作符或它的較高層概念用其它屬性表示,則該屬性從工作表中刪除。屬性概化(attributegeneralization):若某個屬性有大量不同的值且該屬性存在概化操作符,則應(yīng)當(dāng)選擇該概化操作符。屬性概化控制技術(shù):屬性概化閾值控制和概化關(guān)系閾值控制。4概念/類描述面向?qū)傩詺w納的實例變量屬性:度量(如Count)和維(如GPA等)4概念/類描述面向?qū)傩詺w納的實例4概念/類描述4.3導(dǎo)出概化的表示:由面向?qū)傩缘臍w納方法產(chǎn)生的概化描述通常以概化關(guān)系形式顯示。(1)概化關(guān)系location item sales($1000000) count($1000)亞洲 TV 15 300歐洲 TV 12 250北美 TV 28 450亞洲 計算機 120 1000歐洲 計算機 150 1200北美 計算機 200 18004概念/類描述(2)3-D交叉表location\itemTVComputerboth_items sales count salescount sales count亞洲 15 300 1201000 135 1300歐洲 12 250 1501200 162 1450北美 28 450 2001800 228 2250所有 55 1000 4704000 525 5000地區(qū)數(shù)據(jù):data.xls4概念/類描述(3)條形圖4概念/類描述條形圖:將屬性值劃分為不相交的子集,或“桶”。制作方法:(a)桶安放在水平軸上,而桶的高度(或面積)是該桶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論