




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據庫系統(tǒng)原理
第二部分
第七章數據挖掘與數據倉庫數據庫系統(tǒng)原理
第二部分
第七章數據挖掘與數據倉庫17.1數據倉庫概述7.2數據挖掘技術7.3WEB數據挖掘7.1數據倉庫概述27.1數據倉庫概述一、什么是數據倉庫二、DBMS與DWMS三、數據倉庫的系統(tǒng)結構四、數據倉庫的工作過程7.1數據倉庫概述一、什么是數據倉庫3不同層次的信息處理需求事務處理需求不同的事務處理子系統(tǒng)采購子系統(tǒng):訂單、訂單細則、供應商銷售子系統(tǒng):顧客、銷售庫存子系統(tǒng):出庫領料單、進料入庫單、庫存臺帳人事子系統(tǒng):員工、部門各種事務處理需求一筆訂購、一筆銷售、一次進料、一次出料要求強調多用戶并發(fā)環(huán)境,數據的一致性、完整性不同層次的信息處理需求事務處理需求4不同層次的信息處理需求分析處理需求今年銷售量下降的因素(時間、地區(qū)、商品、銷售部門)某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?要求多個子系統(tǒng)中的數據(數據集成)歷史數據匯總、綜合的數據不同層次的信息處理需求分析處理需求5從數據庫到數據倉庫事務處理與分析處理的性能特性不同事務處理環(huán)境數據存取操作頻率高每次操作處理的時間短占用系統(tǒng)資源少系統(tǒng)可以允許多個用戶按分時方式使用資源,保持較短的響應時間分析處理環(huán)境運行時間長消耗大量系統(tǒng)資源事務與分析應用不宜放在同一中環(huán)境中從數據庫到數據倉庫事務處理與分析處理的性能特性不同6從數據庫到數據倉庫數據集成問題事務處理目的是使業(yè)務自動化只關注與本部門業(yè)務相關的當前數據事務處理應用的分散:企業(yè)內部各事務處理應用間相互獨立DSS需要集成的數據(內部各部門數據、外部數據、競爭對手數據)DSS需要對分散在各個事務處理應用中的相關數據進行集成,以向分析人員提供統(tǒng)一的數據視圖從數據庫到數據倉庫數據集成問題7從數據庫到數據倉庫數據動態(tài)集成問題每次分析都進行數據集成的開銷太大靜態(tài)集成開始對所需數據進行集成,以后就一直以這部分數據作為分析的基礎,不再與數據源發(fā)生聯(lián)系如果數據源發(fā)生了變化,這些變化不能反映到集成數據中,導致決策者使用的是過時的數據動態(tài)集成集成數據必須以一定的周期進行刷新事務處理系統(tǒng)不具備動態(tài)集成的能力從數據庫到數據倉庫數據動態(tài)集成問題8數據倉庫的定義數據倉庫是一個面向主題的(SubjectOriented),集成的(Integrated),相對穩(wěn)定的(Nonvolatile),反映歷史變化的(timeVariant)數據集合。用于支持管理決策數據倉庫的定義數據倉庫是一個面向主題的(SubjectOr9一、什么是數據倉庫數據倉庫技術所要研究和解決的問題就是從OLTP系統(tǒng)、異構分散的外部數據源、脫機的歷史業(yè)務數據中獲取數據,處理后為數據分析和管理決策提供應用服務
。數據倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。一、什么是數據倉庫數據倉庫技術所要研究和解決的問題就是從OL10數據庫系統(tǒng)原理數據挖掘與數據倉庫課件11數據庫系統(tǒng)原理數據挖掘與數據倉庫課件12數據庫系統(tǒng)原理數據挖掘與數據倉庫課件13數據庫系統(tǒng)原理數據挖掘與數據倉庫課件14數據庫系統(tǒng)原理數據挖掘與數據倉庫課件15數據庫系統(tǒng)原理數據挖掘與數據倉庫課件16二、DBMS與DWMSOLTP主要用來完成基礎業(yè)務數據的增、刪、改等操作,對響應時間要求比較高,強調的是密集數據更新處理的性能和系統(tǒng)的可靠性及效率
OLAP應用是對用戶當前及歷史數據進行分析、輔助領導決策,主要通過多維數據的查詢、旋轉、鉆取和切片等關鍵技術對數據進行分析和報表。二、DBMS與DWMSOLTP主要用來完成基礎業(yè)務數據的增17數據庫系統(tǒng)原理數據挖掘與數據倉庫課件18三、數據倉庫的系統(tǒng)結構與相關問題三、數據倉庫的系統(tǒng)結構與相關問題19四、數據倉庫的工作過程1.數據的抽取2.數據的存儲和管理3.數據的展現(xiàn)等四、數據倉庫的工作過程1.數據的抽取201.數據的抽取數據的抽取是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環(huán)境,它需要通過抽取過程將數據從聯(lián)機事務處理系統(tǒng)、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數據抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統(tǒng)更便于管理和維護。1.數據的抽取數據的抽取是數據進入倉庫的入口。212.數據的存儲和管理數據倉庫的組織管理方式決定了它有別于傳統(tǒng)數據庫的特性,也決定了其對外部數據的表現(xiàn)形式。數據倉庫管理所涉及的數據量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優(yōu)化查詢等。目前,許多數據庫廠家提供的技術解決方案是擴展關系型數據庫的功能,將普通關系數據庫改造成適合擔當數據倉庫的服務器。
2.數據的存儲和管理數據倉庫的組織管理方式決定了它有別于傳統(tǒng)223.數據的展現(xiàn)在數據展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數據及其相互關系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的知識。
3.數據的展現(xiàn)在數據展現(xiàn)方面主要的方式有:237.2數據挖掘技術一、問題的提出二、什么是數據挖掘三、數據挖掘的環(huán)境四、數據挖掘的主要步驟五、數據挖掘的主要任務六、數據挖掘的主要方法七、數據挖掘的主要應用八、數據挖掘的主要工具7.2數據挖掘技術一、問題的提出24一、問題的提出一方面規(guī)模龐大、紛繁復雜的數據體系讓使用者漫無頭緒、無從下手;另一方面在這些大量數據的背后卻隱藏著很多具有決策意義的有價值的信息。如何發(fā)現(xiàn)這些有用的知識,使之為管理決策和經營戰(zhàn)略發(fā)展服務?-數據挖掘(DataMining)。一、問題的提出一方面規(guī)模龐大、紛繁復雜的數據體系讓使用者漫無25一個廣為流傳的數據挖掘例子 美國加州某個超市連鎖店通過數據挖掘從記錄著每天銷售和顧客基本情況的數據庫中發(fā)現(xiàn):
在下班后前來購買嬰兒尿布的顧客多數是男性,他們往往也同時購買啤酒。 于是這個連鎖店的經理當機立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時把男士們需要的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量幾乎馬上成倍增長。一個廣為流傳的數據挖掘例子 美國加州某個超市連鎖店通過數據挖26二、什么是數據挖掘數據挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數據中建立模型和發(fā)現(xiàn)數據間關系的過程這些模型和關系可以用來做出決策和預測。支持大規(guī)模數據分析的方法和過程,選擇或者建立一種適合數據挖掘應用的數據環(huán)境是數據挖掘研究的重要課題之一
數據挖掘是一門交叉學科,會聚了數據庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域二、什么是數據挖掘數據挖掘是一個利用各種分析方法和分析工具在27三、數據挖掘的環(huán)境合理而科學的數據環(huán)境是確保數據挖掘有效和正確實施的基礎和關鍵。數據挖掘對大量數據的探索式分析的起點是聯(lián)機分析處理(OLAP)。需要支持OLAP數據系統(tǒng)與OLTP數據系統(tǒng)的分離,需要服務于數據挖掘總體目標的數據再組織,需要有單獨的數據分析和數據處理環(huán)境。
數據倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數據存儲和組織技術產品。三、數據挖掘的環(huán)境合理而科學的數據環(huán)境是確保數據挖掘有效和正28四、數據挖掘的主要步驟
1、數據搜集2、數據整理3、數據挖掘4、數據挖掘結果的評估5、分析決策四、數據挖掘的主要步驟1、數據搜集291.數據搜集大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從作起。因此,數據收集是數據挖掘的首要步驟。數據可以來自于現(xiàn)有事務處理系統(tǒng),也可以從數據倉庫中得到。1.數據搜集大量全面豐富的數據是數據挖掘的前提,沒有數據,數302.數據整理數據整理是數據挖掘的必要環(huán)節(jié)。由數據收集階段得到的數據可能有一定的“污染”,表現(xiàn)在數據可能存在自身的不一致性,或者有缺失數據的存在等;因此數據的整理是必須的。同時,通過數據整理,可以對數據做簡單的泛化處理,從而在原始數據的基礎之上得到更為豐富的數據信息,進而便于下一步數據挖掘的順利進行。2.數據整理數據整理是數據挖掘的必要環(huán)節(jié)。313.數據挖掘利用各種數據挖掘方法對數據進行分析。3.數據挖掘利用各種數據挖掘方法對數據進行分析。324.數據挖掘結果的評估數據挖掘的結果有些是有實際意義的,而有些是沒有實際意義的,或是與實際情況相違背的,這就需要進行評估。評估可以根據用戶多年的經驗,也可以直接用實際數據來驗證模型的正確性,進而調整挖掘模型,不斷重復進行數據挖掘。4.數據挖掘結果的評估數據挖掘的結果有些是有實際意義的,而有335.分析決策數據挖掘的最終目的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等。
總之,數據挖掘過程需要多次的循環(huán)反復,才有可能達到預期的效果5.分析決策數據挖掘的最終目的是輔助決策。決策者可以根據數據34五、數據挖掘的主要任務1.數據總結2.分類3.關聯(lián)分析4.聚類五、數據挖掘的主要任務1.數據總結351.數據總結數據總結目的是對數據進行濃縮,給出它的總體綜合描述。傳統(tǒng)的也是最簡單的數據總結方法利用統(tǒng)計學中的方法計算出數據庫的各個數據項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量?;蛘咄ㄟ^利用統(tǒng)計圖形工具,對數據制作直方圖、餅狀圖等。利用OLAP技術實現(xiàn)數據的多維查詢也是一種廣泛使用的數據總結的方法。1.數據總結數據總結目的是對數據進行濃縮,給出它的總體綜合描362.分類分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中。分類應用的實例很多。例如,我們可以將銀行網點分為好、一般和較差三種類型,并以此分析這三種類型銀行網點的各種屬性,特別是位置、盈利情況等屬性,并決定它們分類的關鍵屬性及相互間關系。此后就可以根據這些關鍵屬性對每一個預期的銀行網點進行分析,以便決定預期銀行網點屬于哪一種類型。2.分類分類的主要功能是學會一個分類函數或分類模型(也常常稱37分類分析(Classifiers)含義有一個記錄集合和一組標記,標記用以標識記錄的類別先為每個記錄賦予一個標記(按標記對記錄分類)對同類記錄的特征進行描述顯式描述:例如,一組規(guī)則定義隱式描述:例如,一個數學模型或公式分類具有極其廣泛的應用分類常用于預測醫(yī)療診斷、性能預測、選擇購物、信譽證實等分類分析(Classifiers)含義38分類分析的兩個步驟構建模型:對預先確定的類別給出相應的描述先假設一個元組(或樣本)集合中的每一個元組(或樣本)屬于預先定義的某一個類別,由一個類標號屬性(classlabelattribute)來確定這些元組(或樣本)的集合稱為訓練集,用于構建模型;由于提供了每個訓練樣本的類標號,稱作有指導的學習最終的模型用決策樹、分類規(guī)則或者數學公式等來表示模型應用:對未知的數據對象進行分類分類分析的兩個步驟構建模型:對預先確定的類別給出相應的描述39分類分析第一步:構建模型訓練數據分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類器(分類模型)分類分析第一步:構建模型訓練數據分類算法IFrank=40分類分析第二步:模型應用分類器測試數據未知數據(Jeff,Professor,4)Tenured?分類分析第二步:模型應用分類器測試數據未知數據(Jeff,41分類分析舉例對信用卡持卡人的信譽進行分類分析記錄集合:持卡人的記錄集一組標記:良好、普通、較差;(信譽程度)先為每個持卡人賦予一個標記,即信譽等級對同類記錄(即同信譽等級的持卡人)的特征進行描述。例如,信譽良好的持卡人的特征為:收入在25000以上年齡在45-55之間居住在XYZ地區(qū)對同類記錄特征的描述(規(guī)則或模型)可用來分類新記錄分類分析舉例對信用卡持卡人的信譽進行分類分析42分類分析舉例顧客購物分類顧客屬性:姓名、年齡、收入、職業(yè)、信譽度為每個顧客賦予一個標記,即是否購買計算機按該標記將顧客分類,建立分類模型新來一個顧客,按分類模型識別該顧客是否屬于購買計算機類若顧客屬于購買計算機的類別,則將有關新的計算機的促銷材料分發(fā)給他分類分析舉例顧客購物分類43利用決策樹進行數據分類決策樹一個類似與流程圖的樹結構內部接點表示一個與屬性值相關的判斷邊表示判斷的結果每個葉節(jié)點是一個類別的標識利用決策樹進行數據分類決策樹44決策樹分類舉例:訓練數據集決策樹分類舉例:訓練數據集45決策樹分類舉例:計算屬性的熵類標號屬性buys_computer,有兩個不同值{yes,no},有兩個類,類yes有9個樣本,類no有5個樣本決策樹分類舉例:計算屬性的熵類標號屬性46決策樹分類舉例:分枝age?overcast<=30>4030..40決策樹分類舉例:分枝age?overcast<=30>40347決策樹分類舉例:最終結果age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40決策樹分類舉例:最終結果age?overcaststuden48由決策樹產生規(guī)則
IFage=“<=30”ANDstudent=“no”
THENbuys_computer=“no”
IFage=“<=30”ANDstudent=“yes”
THENbuys_computer=“yes”
IFage=“31…40”
THENbuys_computer=“yes”
IFage=“>40”ANDcredit_rating=“excellent”
THENbuys_computer=“no”
IFage=“>40”ANDcredit_rating=“fair”
THENbuys_computer=“yes”由決策樹產生規(guī)則 IFage=“<=30”ANDs493.關聯(lián)分析數據庫中的數據一般都存在著關聯(lián)關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。這種關聯(lián)關系有簡單關聯(lián)和時序關聯(lián)兩種。關聯(lián)分析的目的是找出數據庫中隱藏的關聯(lián)網,描述一組數據項目的密切度或關系。關聯(lián)模型的一個典型例子是市場菜籃分析,通過挖掘數據派生關聯(lián)規(guī)則,可以了解客戶的行為。3.關聯(lián)分析數據庫中的數據一般都存在著關聯(lián)關系,也就是說,兩50關聯(lián)分析(Associations)目的和含義目的:發(fā)現(xiàn)數據庫中數據間的相互關聯(lián)含義:給定一組數據項(例如:商品號)和一個交易集合(例如交易記錄),通過分析記錄集合,推導出數據項間的相關性(例如:在交易活動中商品間的相關性)基本形式給定:一組事務集每一個事務中包含若干個數據項挖掘:各個數據項之間的關聯(lián)例如,98%的顧客在購買電動剃須刀的同時會購買一些電池關聯(lián)分析(Associations)目的和含義514.聚類當要分析的數據缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。4.聚類當要分析的數據缺乏描述信息,或者是無法組織成任何分類52聚類分析(Clustering)含義聚類是把一組對象按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的小而不同類別上的個體間的距離盡可能的大。不同的聚類分析工具可以定義不同的規(guī)則集,從而相同的記錄集合可能有不同的劃分應用市場或客戶分割、模式識別、基因分類、Web文檔分類等聚類分析(Clustering)含義53六、數據挖掘的主要方法1.決策樹2.相關規(guī)則3.神經元網絡4.遺傳算法5.可視化、OLAP聯(lián)機分析處理等六、數據挖掘的主要方法1.決策樹541.決策樹決策樹是建立在信息論基礎之上,對數據進行分類的一種方法。首先,通過一批已知的訓練數據建立一棵決策樹然后,利用建好的決策樹,對數據進行預測.例如:在金融領域中將貸款對象分為低貸款風險與高貸款風險兩類。通過決策樹,我們可以很容易地確定貸款申請者是屬于高風險的還是低風險的。
決策樹方法精確度比較高,結果容易理解,效率也比較高,因而比較常用。1.決策樹決策樹是建立在信息論基礎之上,對數據進行分類的一種552.神經網絡神經網絡建立在自學習的數學模型基礎之上??梢詫Υ罅繌碗s的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析。神經網絡系統(tǒng)由一系列類似于人腦神經元一樣的處理單元(節(jié)點)組成。這些節(jié)點通過網絡彼此互連,如果有數據輸入,它們便可以進行確定數據模式的工作。神經網絡有相互連接的輸入層、中間層(或隱藏層)、輸出層組成。例如:我們可以指定輸入層為代表過去的銷售情況、價格及季節(jié)等因素,輸出層便可輸出判斷本季度的銷售情況的數據。2.神經網絡神經網絡建立在自學習的數學模型基礎之上。可以對大563.相關規(guī)則相關規(guī)則是一種簡單卻很實用的關聯(lián)分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。例如:超級市場中通過POS系統(tǒng)收集存儲了大量售貨數據,記錄了什么樣的顧客在什么時間購買了什么商品,這些數據中常常隱含著諸如:購買面包的顧客中有90%的人同時購買牛奶的相關規(guī)則。相關規(guī)則分析就是依據一定的可信度、支持度、期望可信度、作用度建立相關規(guī)則的。3.相關規(guī)則相關規(guī)則是一種簡單卻很實用的關聯(lián)分析規(guī)則,它描述574.遺傳算法遺傳算法是一種基于生物進化論和分子遺傳學的搜索優(yōu)化算法。它首先將問題的可能的解按某種形式進行編碼,編碼后的解稱為染色體;隨機選取N個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值;選擇適應值較高的染色體進行復制,并通過遺傳算子,產生一群新的更適應環(huán)境的染色體,形成新的種群,直至最后收斂到一個最適應環(huán)境的個體,得到問題的最優(yōu)化解。4.遺傳算法遺傳算法是一種基于生物進化論和分子遺傳學的搜索優(yōu)585.聯(lián)機分析處理聯(lián)機分析處理(OLAP)主要通過多維的方式來對數據進行分析、查詢和報表。它不同于傳統(tǒng)的聯(lián)機事物處理(OLTP)應用。OLTP應用主要是用來完成用戶的事務處理,通常要進行大量的更新操作,同時對響應時間要求比較高。而OLAP應用主要是對用戶當前及歷史數據進行分析,輔助領導決策。其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
5.聯(lián)機分析處理聯(lián)機分析處理(OLAP)主要通過多維的方式來596.數據可視化對大批量數據的展現(xiàn)也是數據挖掘的重要方面。數據可視化工具大大擴展了傳統(tǒng)商業(yè)圖形的能力,支持多維數據的可視化,從而提供了多方向同時進行數據分析的圖形方法。有些工具甚至提供動畫能力,使用戶可以“飛越”數據,觀看到數據不同層次的細節(jié)。6.數據可視化對大批量數據的展現(xiàn)也是數據挖掘的重要方面。60七、數據挖掘的主要應用
金融數據挖掘在金融領域應用廣泛,包括:金融市場分析和預測、帳戶分類、銀行擔保和信用評估等。市場業(yè)市場業(yè)應用是利用數據挖掘技術進行市場定位和消費者分析,輔助制定市場策略。工程與科學研究數據挖掘技術可應用于各種工程與科學數據分析。產品制造業(yè)制造業(yè)應用數據挖掘技術進行零部件故障診斷、資源優(yōu)化、生產過程分析等。司法數據挖掘技術可應用于案件調查、詐騙監(jiān)測、洗錢認證、犯罪組織分析等,可以給司法工作帶來巨大收益。七、數據挖掘的主要應用金融61八、數據挖掘的主要工具
1.應用于特定領域的專用數據挖掘工具2.應用面較廣的通用數據挖掘工具。八、數據挖掘的主要工具1.應用于特定領域的專用數據挖掘工具621.應用于特定領域的專用數據挖掘工具專用數據挖掘工具針對某個特定領域的問題提供解決方案。在算法設計方面,充分考慮到數據、需求的特殊性,并進行優(yōu)化。例如:IBM公司的AdvancedScout系統(tǒng),針對NBA數據,幫助教練優(yōu)化戰(zhàn)術組合、1.應用于特定領域的專用數據挖掘工具專用數據挖掘工具針對某個632.應用面較廣的通用數據挖掘工具通用數據挖掘工具處理常見的數據類型,采用通用的數據挖掘算法,提供較為通用的處理模式,如:分類模式、回歸模式、時間序列模式、聚類模式、關聯(lián)模式等。例如:IBM公司的QUEST系統(tǒng)、SGI公司的MineSet系統(tǒng)、加拿大SimonFraser大學的DBMiner、美國BusinessObjects公司的BusinessMiner系統(tǒng)、SAS公司的SASEM(EnterpriseMiner)系統(tǒng)等。2.應用面較廣的通用數據挖掘工具通用數據挖掘工具處理常見的數64數據挖掘的發(fā)展目前,國內外很多大學、研究機構和公司都已經在這個方面進行了實質性的研究和產品開發(fā)。今后研究的焦點可能有:研究專門用于知識發(fā)現(xiàn)的數據挖掘語言;研究Internet上的數據挖掘方法;對各種非結構化數據,如:文本數據、圖形圖象數據、多媒體數據的挖掘;研究數據挖掘與數據倉庫相結合的方式,數據挖掘與數據倉庫一體化的研究等。數據挖掘的發(fā)展目前,國內外很多大學、研究機構和公司都已經在這657.3WEB數據挖掘一、Web挖掘的處理流程二、Web數據挖掘分類三、Web數據挖掘應用前景7.3WEB數據挖掘一、Web挖掘的處理流程66Web挖掘指使用數據挖掘技術在WWW數據中發(fā)現(xiàn)潛在的、有用的模式或信息。與傳統(tǒng)數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理Web挖掘指使用數據挖掘技術在WWW數據中發(fā)現(xiàn)潛在的、有用的67一、Web挖掘的處理流程1.查找資源2.信息選擇和預處理:從取得的Web資源中剔除無用信息和將信息進行必要的整理3.模式發(fā)現(xiàn):自動進行模式發(fā)現(xiàn)。可以在同一個站點內部或在多個站點之間進行。4.模式分析:驗證、解釋上一步驟產生的模式??梢允菣C器自動完成,也可以是與分析人員進行交互來完成。一、Web挖掘的處理流程1.查找資源68研究方向隨著Web技術的發(fā)展,基于Web技術的信息獲得(IR)、信息抽取(IE)得到了更多的重視。由于Web數據量非常大,而且可能動態(tài)變化,目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在Web環(huán)境下既要處理非結構化文檔,又要處理半結構化的數據,最近幾年在這兩方面都有相應的研究成果和具體應用,特別是在大型搜索引擎中得到了很好的應用。研究方向隨著Web技術的發(fā)展,基于Web技術的信息獲得(I69二、Web數據挖掘分類1、Web內容挖掘(WebContentmining)、2、Web結構挖掘(Webstructuremining)、3、Web用法挖掘(WebusageMining)二、Web數據挖掘分類1、Web內容挖掘(WebCon701、Web內容挖掘從Web內容/數據/文檔中發(fā)現(xiàn)有用信息Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。針對無結構化文本進行的Web挖掘被歸類到基于文本的知識發(fā)現(xiàn)(KDT)領域,也稱文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成為另一個熱點。1、Web內容挖掘從Web內容/數據/文檔中發(fā)現(xiàn)有用信息711、Web內容挖掘Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找(IR)的觀點來看,Web內容挖掘的任務是從用戶的角度出發(fā),怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模,以支持對Web數據的復雜查詢。1、Web內容挖掘Web內容挖掘一般從兩個不同的觀點來進行721.1從資源查找(InformationRetrival)的觀點挖掘非結構化文檔非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞匯袋(bagofwords)或稱向量表示法(vectorrepresentation)的基礎上用資源查找的觀點挖掘半結構化文檔:與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發(fā)現(xiàn)文檔之間的關系、提出半結構化文檔中的模式和規(guī)則等1.1從資源查找(InformationRetrival)731.2從數據庫(Database)的觀點挖掘非結構化文檔數據庫技術應用于Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。從數據庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型并加以集成,以支持復雜查詢,而不止是簡單的基于關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬數據庫來實現(xiàn)。相關研究主要是基于半結構化數據進行的1.2從數據庫(Database)的觀點挖掘非結構化文檔742、Web結構挖掘Web結構挖掘的對象是Web本身的超連接,即對Web文檔的結構進行挖掘。對于給定的Web文檔集合,應該能夠通過算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系。Web結構挖掘在一定程度上得益于社會網絡和引用分析的研究。在Web結構挖掘領域最著名的算法是HITS算法和PageRank算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就采用了該類算法。2、Web結構挖掘Web結構挖掘的對象是Web本身的超連接,753、Web用法挖掘即Web使用記錄挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強站點的服務競爭力。3、Web用法挖掘即Web使用記錄挖掘,在新興的電子商務763、Web用法挖掘根據對數據源的不同處理方法,Web用法挖掘可以分為兩類一類是將Web使用記錄的數據轉換并傳遞進傳統(tǒng)的關系表里,再使用數據挖掘算法對關系表中的數據進行常規(guī)挖掘;另一類是將Web使用記錄的數據直接預處理再進行挖掘。3、Web用法挖掘根據對數據源的不同處理方法,Web用法77三、Web數據挖掘的應用前景電子商務
運用網絡挖掘技術能夠從服務器和瀏覽器端日志記錄中自動發(fā)現(xiàn)隱藏在數據中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預測性分析。網站設計
通過對網站內容的挖掘,可以有效地組織網站信息搜索引擎
用搜索引擎進行網絡信息挖掘的最大特色體現(xiàn)在他所采用的對網頁鏈接信息的挖掘技術上。通過對網頁內容挖掘,可以實現(xiàn)對網頁的聚類、分類,實現(xiàn)網絡信息的分類瀏覽與檢索;運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
三、Web數據挖掘的應用前景電子商務
運用網絡挖掘技78參考書1.JiaweiHan等著,2002,《數據挖掘:概念與技術》機械工業(yè)出版社2.DavidHand等著、張銀奎等譯,2003,《數據挖掘原理》,機械工業(yè)出版社
參考書1.JiaweiHan等著,2002,《數據挖掘:79數據庫系統(tǒng)原理
第二部分
第七章數據挖掘與數據倉庫數據庫系統(tǒng)原理
第二部分
第七章數據挖掘與數據倉庫807.1數據倉庫概述7.2數據挖掘技術7.3WEB數據挖掘7.1數據倉庫概述817.1數據倉庫概述一、什么是數據倉庫二、DBMS與DWMS三、數據倉庫的系統(tǒng)結構四、數據倉庫的工作過程7.1數據倉庫概述一、什么是數據倉庫82不同層次的信息處理需求事務處理需求不同的事務處理子系統(tǒng)采購子系統(tǒng):訂單、訂單細則、供應商銷售子系統(tǒng):顧客、銷售庫存子系統(tǒng):出庫領料單、進料入庫單、庫存臺帳人事子系統(tǒng):員工、部門各種事務處理需求一筆訂購、一筆銷售、一次進料、一次出料要求強調多用戶并發(fā)環(huán)境,數據的一致性、完整性不同層次的信息處理需求事務處理需求83不同層次的信息處理需求分析處理需求今年銷售量下降的因素(時間、地區(qū)、商品、銷售部門)某種商品今年的銷售情況與以往相比,有怎樣的變化?每年的第一季度商品銷售在各類商品上的分布情況怎樣?要求多個子系統(tǒng)中的數據(數據集成)歷史數據匯總、綜合的數據不同層次的信息處理需求分析處理需求84從數據庫到數據倉庫事務處理與分析處理的性能特性不同事務處理環(huán)境數據存取操作頻率高每次操作處理的時間短占用系統(tǒng)資源少系統(tǒng)可以允許多個用戶按分時方式使用資源,保持較短的響應時間分析處理環(huán)境運行時間長消耗大量系統(tǒng)資源事務與分析應用不宜放在同一中環(huán)境中從數據庫到數據倉庫事務處理與分析處理的性能特性不同85從數據庫到數據倉庫數據集成問題事務處理目的是使業(yè)務自動化只關注與本部門業(yè)務相關的當前數據事務處理應用的分散:企業(yè)內部各事務處理應用間相互獨立DSS需要集成的數據(內部各部門數據、外部數據、競爭對手數據)DSS需要對分散在各個事務處理應用中的相關數據進行集成,以向分析人員提供統(tǒng)一的數據視圖從數據庫到數據倉庫數據集成問題86從數據庫到數據倉庫數據動態(tài)集成問題每次分析都進行數據集成的開銷太大靜態(tài)集成開始對所需數據進行集成,以后就一直以這部分數據作為分析的基礎,不再與數據源發(fā)生聯(lián)系如果數據源發(fā)生了變化,這些變化不能反映到集成數據中,導致決策者使用的是過時的數據動態(tài)集成集成數據必須以一定的周期進行刷新事務處理系統(tǒng)不具備動態(tài)集成的能力從數據庫到數據倉庫數據動態(tài)集成問題87數據倉庫的定義數據倉庫是一個面向主題的(SubjectOriented),集成的(Integrated),相對穩(wěn)定的(Nonvolatile),反映歷史變化的(timeVariant)數據集合。用于支持管理決策數據倉庫的定義數據倉庫是一個面向主題的(SubjectOr88一、什么是數據倉庫數據倉庫技術所要研究和解決的問題就是從OLTP系統(tǒng)、異構分散的外部數據源、脫機的歷史業(yè)務數據中獲取數據,處理后為數據分析和管理決策提供應用服務
。數據倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。一、什么是數據倉庫數據倉庫技術所要研究和解決的問題就是從OL89數據庫系統(tǒng)原理數據挖掘與數據倉庫課件90數據庫系統(tǒng)原理數據挖掘與數據倉庫課件91數據庫系統(tǒng)原理數據挖掘與數據倉庫課件92數據庫系統(tǒng)原理數據挖掘與數據倉庫課件93數據庫系統(tǒng)原理數據挖掘與數據倉庫課件94數據庫系統(tǒng)原理數據挖掘與數據倉庫課件95二、DBMS與DWMSOLTP主要用來完成基礎業(yè)務數據的增、刪、改等操作,對響應時間要求比較高,強調的是密集數據更新處理的性能和系統(tǒng)的可靠性及效率
OLAP應用是對用戶當前及歷史數據進行分析、輔助領導決策,主要通過多維數據的查詢、旋轉、鉆取和切片等關鍵技術對數據進行分析和報表。二、DBMS與DWMSOLTP主要用來完成基礎業(yè)務數據的增96數據庫系統(tǒng)原理數據挖掘與數據倉庫課件97三、數據倉庫的系統(tǒng)結構與相關問題三、數據倉庫的系統(tǒng)結構與相關問題98四、數據倉庫的工作過程1.數據的抽取2.數據的存儲和管理3.數據的展現(xiàn)等四、數據倉庫的工作過程1.數據的抽取991.數據的抽取數據的抽取是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環(huán)境,它需要通過抽取過程將數據從聯(lián)機事務處理系統(tǒng)、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數據抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統(tǒng)更便于管理和維護。1.數據的抽取數據的抽取是數據進入倉庫的入口。1002.數據的存儲和管理數據倉庫的組織管理方式決定了它有別于傳統(tǒng)數據庫的特性,也決定了其對外部數據的表現(xiàn)形式。數據倉庫管理所涉及的數據量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優(yōu)化查詢等。目前,許多數據庫廠家提供的技術解決方案是擴展關系型數據庫的功能,將普通關系數據庫改造成適合擔當數據倉庫的服務器。
2.數據的存儲和管理數據倉庫的組織管理方式決定了它有別于傳統(tǒng)1013.數據的展現(xiàn)在數據展現(xiàn)方面主要的方式有:查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數據及其相互關系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的知識。
3.數據的展現(xiàn)在數據展現(xiàn)方面主要的方式有:1027.2數據挖掘技術一、問題的提出二、什么是數據挖掘三、數據挖掘的環(huán)境四、數據挖掘的主要步驟五、數據挖掘的主要任務六、數據挖掘的主要方法七、數據挖掘的主要應用八、數據挖掘的主要工具7.2數據挖掘技術一、問題的提出103一、問題的提出一方面規(guī)模龐大、紛繁復雜的數據體系讓使用者漫無頭緒、無從下手;另一方面在這些大量數據的背后卻隱藏著很多具有決策意義的有價值的信息。如何發(fā)現(xiàn)這些有用的知識,使之為管理決策和經營戰(zhàn)略發(fā)展服務?-數據挖掘(DataMining)。一、問題的提出一方面規(guī)模龐大、紛繁復雜的數據體系讓使用者漫無104一個廣為流傳的數據挖掘例子 美國加州某個超市連鎖店通過數據挖掘從記錄著每天銷售和顧客基本情況的數據庫中發(fā)現(xiàn):
在下班后前來購買嬰兒尿布的顧客多數是男性,他們往往也同時購買啤酒。 于是這個連鎖店的經理當機立斷地重新布置了貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放上土豆片之類的佐酒小食品,同時把男士們需要的日常生活用品也就近布置。這樣一來,上述幾種商品的銷量幾乎馬上成倍增長。一個廣為流傳的數據挖掘例子 美國加州某個超市連鎖店通過數據挖105二、什么是數據挖掘數據挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數據中建立模型和發(fā)現(xiàn)數據間關系的過程這些模型和關系可以用來做出決策和預測。支持大規(guī)模數據分析的方法和過程,選擇或者建立一種適合數據挖掘應用的數據環(huán)境是數據挖掘研究的重要課題之一
數據挖掘是一門交叉學科,會聚了數據庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域二、什么是數據挖掘數據挖掘是一個利用各種分析方法和分析工具在106三、數據挖掘的環(huán)境合理而科學的數據環(huán)境是確保數據挖掘有效和正確實施的基礎和關鍵。數據挖掘對大量數據的探索式分析的起點是聯(lián)機分析處理(OLAP)。需要支持OLAP數據系統(tǒng)與OLTP數據系統(tǒng)的分離,需要服務于數據挖掘總體目標的數據再組織,需要有單獨的數據分析和數據處理環(huán)境。
數據倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數據存儲和組織技術產品。三、數據挖掘的環(huán)境合理而科學的數據環(huán)境是確保數據挖掘有效和正107四、數據挖掘的主要步驟
1、數據搜集2、數據整理3、數據挖掘4、數據挖掘結果的評估5、分析決策四、數據挖掘的主要步驟1、數據搜集1081.數據搜集大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從作起。因此,數據收集是數據挖掘的首要步驟。數據可以來自于現(xiàn)有事務處理系統(tǒng),也可以從數據倉庫中得到。1.數據搜集大量全面豐富的數據是數據挖掘的前提,沒有數據,數1092.數據整理數據整理是數據挖掘的必要環(huán)節(jié)。由數據收集階段得到的數據可能有一定的“污染”,表現(xiàn)在數據可能存在自身的不一致性,或者有缺失數據的存在等;因此數據的整理是必須的。同時,通過數據整理,可以對數據做簡單的泛化處理,從而在原始數據的基礎之上得到更為豐富的數據信息,進而便于下一步數據挖掘的順利進行。2.數據整理數據整理是數據挖掘的必要環(huán)節(jié)。1103.數據挖掘利用各種數據挖掘方法對數據進行分析。3.數據挖掘利用各種數據挖掘方法對數據進行分析。1114.數據挖掘結果的評估數據挖掘的結果有些是有實際意義的,而有些是沒有實際意義的,或是與實際情況相違背的,這就需要進行評估。評估可以根據用戶多年的經驗,也可以直接用實際數據來驗證模型的正確性,進而調整挖掘模型,不斷重復進行數據挖掘。4.數據挖掘結果的評估數據挖掘的結果有些是有實際意義的,而有1125.分析決策數據挖掘的最終目的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等。
總之,數據挖掘過程需要多次的循環(huán)反復,才有可能達到預期的效果5.分析決策數據挖掘的最終目的是輔助決策。決策者可以根據數據113五、數據挖掘的主要任務1.數據總結2.分類3.關聯(lián)分析4.聚類五、數據挖掘的主要任務1.數據總結1141.數據總結數據總結目的是對數據進行濃縮,給出它的總體綜合描述。傳統(tǒng)的也是最簡單的數據總結方法利用統(tǒng)計學中的方法計算出數據庫的各個數據項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量。或者通過利用統(tǒng)計圖形工具,對數據制作直方圖、餅狀圖等。利用OLAP技術實現(xiàn)數據的多維查詢也是一種廣泛使用的數據總結的方法。1.數據總結數據總結目的是對數據進行濃縮,給出它的總體綜合描1152.分類分類的主要功能是學會一個分類函數或分類模型(也常常稱作分類器),該模型能夠根據數據的屬性將數據分派到不同的組中。分類應用的實例很多。例如,我們可以將銀行網點分為好、一般和較差三種類型,并以此分析這三種類型銀行網點的各種屬性,特別是位置、盈利情況等屬性,并決定它們分類的關鍵屬性及相互間關系。此后就可以根據這些關鍵屬性對每一個預期的銀行網點進行分析,以便決定預期銀行網點屬于哪一種類型。2.分類分類的主要功能是學會一個分類函數或分類模型(也常常稱116分類分析(Classifiers)含義有一個記錄集合和一組標記,標記用以標識記錄的類別先為每個記錄賦予一個標記(按標記對記錄分類)對同類記錄的特征進行描述顯式描述:例如,一組規(guī)則定義隱式描述:例如,一個數學模型或公式分類具有極其廣泛的應用分類常用于預測醫(yī)療診斷、性能預測、選擇購物、信譽證實等分類分析(Classifiers)含義117分類分析的兩個步驟構建模型:對預先確定的類別給出相應的描述先假設一個元組(或樣本)集合中的每一個元組(或樣本)屬于預先定義的某一個類別,由一個類標號屬性(classlabelattribute)來確定這些元組(或樣本)的集合稱為訓練集,用于構建模型;由于提供了每個訓練樣本的類標號,稱作有指導的學習最終的模型用決策樹、分類規(guī)則或者數學公式等來表示模型應用:對未知的數據對象進行分類分類分析的兩個步驟構建模型:對預先確定的類別給出相應的描述118分類分析第一步:構建模型訓練數據分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類器(分類模型)分類分析第一步:構建模型訓練數據分類算法IFrank=119分類分析第二步:模型應用分類器測試數據未知數據(Jeff,Professor,4)Tenured?分類分析第二步:模型應用分類器測試數據未知數據(Jeff,120分類分析舉例對信用卡持卡人的信譽進行分類分析記錄集合:持卡人的記錄集一組標記:良好、普通、較差;(信譽程度)先為每個持卡人賦予一個標記,即信譽等級對同類記錄(即同信譽等級的持卡人)的特征進行描述。例如,信譽良好的持卡人的特征為:收入在25000以上年齡在45-55之間居住在XYZ地區(qū)對同類記錄特征的描述(規(guī)則或模型)可用來分類新記錄分類分析舉例對信用卡持卡人的信譽進行分類分析121分類分析舉例顧客購物分類顧客屬性:姓名、年齡、收入、職業(yè)、信譽度為每個顧客賦予一個標記,即是否購買計算機按該標記將顧客分類,建立分類模型新來一個顧客,按分類模型識別該顧客是否屬于購買計算機類若顧客屬于購買計算機的類別,則將有關新的計算機的促銷材料分發(fā)給他分類分析舉例顧客購物分類122利用決策樹進行數據分類決策樹一個類似與流程圖的樹結構內部接點表示一個與屬性值相關的判斷邊表示判斷的結果每個葉節(jié)點是一個類別的標識利用決策樹進行數據分類決策樹123決策樹分類舉例:訓練數據集決策樹分類舉例:訓練數據集124決策樹分類舉例:計算屬性的熵類標號屬性buys_computer,有兩個不同值{yes,no},有兩個類,類yes有9個樣本,類no有5個樣本決策樹分類舉例:計算屬性的熵類標號屬性125決策樹分類舉例:分枝age?overcast<=30>4030..40決策樹分類舉例:分枝age?overcast<=30>403126決策樹分類舉例:最終結果age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40決策樹分類舉例:最終結果age?overcaststuden127由決策樹產生規(guī)則
IFage=“<=30”ANDstudent=“no”
THENbuys_computer=“no”
IFage=“<=30”ANDstudent=“yes”
THENbuys_computer=“yes”
IFage=“31…40”
THENbuys_computer=“yes”
IFage=“>40”ANDcredit_rating=“excellent”
THENbuys_computer=“no”
IFage=“>40”ANDcredit_rating=“fair”
THENbuys_computer=“yes”由決策樹產生規(guī)則 IFage=“<=30”ANDs1283.關聯(lián)分析數據庫中的數據一般都存在著關聯(lián)關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。這種關聯(lián)關系有簡單關聯(lián)和時序關聯(lián)兩種。關聯(lián)分析的目的是找出數據庫中隱藏的關聯(lián)網,描述一組數據項目的密切度或關系。關聯(lián)模型的一個典型例子是市場菜籃分析,通過挖掘數據派生關聯(lián)規(guī)則,可以了解客戶的行為。3.關聯(lián)分析數據庫中的數據一般都存在著關聯(lián)關系,也就是說,兩129關聯(lián)分析(Associations)目的和含義目的:發(fā)現(xiàn)數據庫中數據間的相互關聯(lián)含義:給定一組數據項(例如:商品號)和一個交易集合(例如交易記錄),通過分析記錄集合,推導出數據項間的相關性(例如:在交易活動中商品間的相關性)基本形式給定:一組事務集每一個事務中包含若干個數據項挖掘:各個數據項之間的關聯(lián)例如,98%的顧客在購買電動剃須刀的同時會購買一些電池關聯(lián)分析(Associations)目的和含義1304.聚類當要分析的數據缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數據分成一系列有意義的子集合。每一個集合中的數據性質相近,不同集合之間的數據性質相差較大。4.聚類當要分析的數據缺乏描述信息,或者是無法組織成任何分類131聚類分析(Clustering)含義聚類是把一組對象按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個體之間的距離盡可能的小而不同類別上的個體間的距離盡可能的大。不同的聚類分析工具可以定義不同的規(guī)則集,從而相同的記錄集合可能有不同的劃分應用市場或客戶分割、模式識別、基因分類、Web文檔分類等聚類分析(Clustering)含義132六、數據挖掘的主要方法1.決策樹2.相關規(guī)則3.神經元網絡4.遺傳算法5.可視化、OLAP聯(lián)機分析處理等六、數據挖掘的主要方法1.決策樹1331.決策樹決策樹是建立在信息論基礎之上,對數據進行分類的一種方法。首先,通過一批已知的訓練數據建立一棵決策樹然后,利用建好的決策樹,對數據進行預測.例如:在金融領域中將貸款對象分為低貸款風險與高貸款風險兩類。通過決策樹,我們可以很容易地確定貸款申請者是屬于高風險的還是低風險的。
決策樹方法精確度比較高,結果容易理解,效率也比較高,因而比較常用。1.決策樹決策樹是建立在信息論基礎之上,對數據進行分類的一種1342.神經網絡神經網絡建立在自學習的數學模型基礎之上??梢詫Υ罅繌碗s的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析。神經網絡系統(tǒng)由一系列類似于人腦神經元一樣的處理單元(節(jié)點)組成。這些節(jié)點通過網絡彼此互連,如果有數據輸入,它們便可以進行確定數據模式的工作。神經網絡有相互連接的輸入層、中間層(或隱藏層)、輸出層組成。例如:我們可以指定輸入層為代表過去的銷售情況、價格及季節(jié)等因素,輸出層便可輸出判斷本季度的銷售情況的數據。2.神經網絡神經網絡建立在自學習的數學模型基礎之上??梢詫Υ?353.相關規(guī)則相關規(guī)則是一種簡單卻很實用的關聯(lián)分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。例如:超級市場中通過POS系統(tǒng)收集存儲了大量售貨數據,記錄了什么樣的顧客在什么時間購買了什么商品,這些數據中常常隱含著諸如:購買面包的顧客中有90%的人同時購買牛奶的相關規(guī)則。相關規(guī)則分析就是依據一定的可信度、支持度、期望可信度、作用度建立相關規(guī)則的。3.相關規(guī)則相關規(guī)則是一種簡單卻很實用的關聯(lián)分析規(guī)則,它描述1364.遺傳算法遺傳算法是一種基于生物進化論和分子遺傳學的搜索優(yōu)化算法。它首先將問題的可能的解按某種形式進行編碼,編碼后的解稱為染色體;隨機選取N個染色體作為初始種群,再根據預定的評價函數對每個染色體計算適應值,性能較好的染色體有較高的適應值;選擇適應值較高的染色體進行復制,并通過遺傳算子,產生一群新的更適應環(huán)境的染色體,形成新的種群,直至最后收斂到一個最適應環(huán)境的個體,得到問題的最優(yōu)化解。4.遺傳算法遺傳算法是一種基于生物進化論和分子遺傳學的搜索優(yōu)1375.聯(lián)機分析處理聯(lián)機分析處理(OLAP)主要通過多維的方式來對數據進行分析、查詢和報表。它不同于傳統(tǒng)的聯(lián)機事物處理(OLTP)應用。OLTP應用主要是用來完成用戶的事務處理,通常要進行大量的更新操作,同時對響應時間要求比較高。而OLAP應用主要是對用戶當前及歷史數據進行分析,輔助領導決策。其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
5.聯(lián)機分析處理聯(lián)機分析處理(OLAP)主要通過多維的方式來1386.數據可視化對大批量數據的展現(xiàn)也是數據挖掘的重要方面。數據可視化工具大大擴展了傳統(tǒng)商業(yè)圖形的能力,支持多維數據的可視化,從而提供了多方向同時進行數據分析的圖形方法。有些工具甚至提供動畫能力,使用戶可以“飛越”數據,觀看到數據不同層次的細節(jié)。6.數據可視化對大批量數據的展現(xiàn)也是數據挖掘的重要方面。139七、數據挖掘的主要應用
金融數據挖掘在金融領域應用廣泛,包括:金融市場分析和預測、帳戶分類、銀行擔保和信用評估等。市場業(yè)市場業(yè)應用是利用數據挖掘技術進行市場定位和消費者分析,輔助制定市場策略。工程與科學研究數據挖掘技術可應用于各種工程與科學數據分析。產品制造業(yè)制造業(yè)應用數據挖掘技術進行零部件故障診斷、資源優(yōu)化、生產過程分析等。司法數據挖掘技術可應用于案件調查、詐騙監(jiān)測、洗錢認證、犯罪組織分析等,可以給司法工作帶來巨大收益。七、數據挖掘的主要應用金融140八、數據挖掘的主要工具
1.應用于特定領域的專用數據挖掘工具2.應用面較廣的通用數據挖掘工具。八、數據挖掘的主要工具1.應用于特定領域的專用數據挖掘工具1411.應用于特定領域的專用數據挖掘工具專用數據挖掘工具針對某個特定領域的問題提供解決方案。在算法設計方面,充分考慮到數據、需求的特殊性,并進行優(yōu)化。例如:IBM公司的AdvancedScout系統(tǒng),針對NBA數據,幫助教練優(yōu)化戰(zhàn)術組合、1.應用于特定領域的專用數據挖掘工具專用數據挖掘工具針對某個1422.應用面較廣的通用數據挖掘工具通用數據挖掘工具處理常見的數據類型,采用通用的數據挖掘算法,提供較為通用的處理模式,如:分類模式、回歸模式、時間序列模式、聚類模式、關聯(lián)模式等。例如:IBM公司的QUEST系統(tǒng)、SGI公司的MineSet系統(tǒng)、加拿大SimonFraser大學的DBMiner、美國BusinessObjects公司的BusinessMiner系統(tǒng)、SAS公司的SASEM(EnterpriseMiner)系統(tǒng)等。2.應用面較廣的通用數據挖掘工具通用數據挖掘工具處理常見的數143數據挖掘的發(fā)展目前,國內外很多大學、研究機構和公司都已經在這個方面進行了實質性的研究和產品開發(fā)。今后研究的焦點可能有:研究專門用于知識發(fā)現(xiàn)的數據挖掘語言;研究Internet上的數據挖掘方法;對各種非結構化數據,如:文本數據、圖形圖象數據、多媒體數據的挖掘;研究數據挖掘與數據倉庫相結合的方式,數據挖掘與數據倉庫一體化的研究等。數據挖掘的發(fā)展目前,國內外很多大學、研究機構和公司都已經在這1447.3WEB數據挖掘一、Web挖掘的處理流程二、Web數據挖掘分類三、Web數據挖掘應用前景7.3WEB數據挖掘一、Web挖掘的處理流程145Web挖掘指使用數據挖掘技術在WWW數據中發(fā)現(xiàn)潛在的、有用的模式或信息。與傳統(tǒng)數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理Web挖掘指使用數據挖掘技術在WWW數據中發(fā)現(xiàn)潛在的、有用的146一、Web挖掘的處理流程1.查找資源2.信息選擇和預處理:從取得的Web資源中剔除無用信息和將信息進行必
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025租房合同范文2
- 公路應急搶修合同樣本
- 農行 貸款合同樣本
- 2025房產個人分銷合同
- 農村環(huán)衛(wèi)勞務合同樣本
- 2025年中小學食堂食品定點供應合同
- 農業(yè)林地收購合同標準文本
- 企業(yè)轉正定級合同標準文本
- 入住代辦服務合同標準文本
- 急診工作的重要性計劃
- 幼兒園安全制度
- 2025屆蘇錫常鎮(zhèn)四市高三二模試題英語試題試卷含解析
- 廣東省廣州市花都區(qū)2022-2023學年二年級下學期數學期中檢測練習卷
- 探討DeepSeek對出版業(yè)的數字化轉型支持
- 管理學基礎-形考任務二-國開-參考資料
- 2025年江蘇淮安市漣水縣安東控股集團招聘筆試參考題庫含答案解析
- 2025年中央一號文件參考試題庫100題(含答案)
- 物資出入庫管理制度范本
- 世界地圖矢量圖和各國國旗 world map and flags
- 銀行借款合同變更協(xié)議
- 外科主治醫(yī)師資格考試(專業(yè)代碼317)題庫
評論
0/150
提交評論