商務(wù)智能復(fù)習(xí)資料(必讀)_第1頁(yè)
商務(wù)智能復(fù)習(xí)資料(必讀)_第2頁(yè)
商務(wù)智能復(fù)習(xí)資料(必讀)_第3頁(yè)
商務(wù)智能復(fù)習(xí)資料(必讀)_第4頁(yè)
商務(wù)智能復(fù)習(xí)資料(必讀)_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、商務(wù)智能復(fù)習(xí)綱要第1章 商務(wù)智能概述1.1 商業(yè)決策需要商務(wù)智能一、數(shù)據(jù)、信息和知識(shí)1、數(shù)據(jù):符號(hào)、事實(shí)和數(shù)字 信息:有用的數(shù)據(jù)關(guān)系:信息是經(jīng)過(guò)某種加工處理后的數(shù)據(jù),是反映客觀事物規(guī)律的一些數(shù)據(jù)。數(shù)據(jù)是信息的載體, 信息是對(duì)數(shù)據(jù)的解釋。事物運(yùn)動(dòng)數(shù)據(jù)信息記錄解釋知識(shí):對(duì)信息內(nèi)容進(jìn)行提煉、比較、挖掘、分析、概括、判斷和推論。2、決策離不開(kāi)信息、知識(shí)決策需要信息,更離不開(kāi)知識(shí);知識(shí)更多地表現(xiàn)為經(jīng)驗(yàn)-學(xué)習(xí)的結(jié)晶;學(xué)習(xí)的過(guò)程是不斷地對(duì)信息加工處理;信息的收集、加工、傳輸與利用貫穿著決策各階段的工作過(guò)程。信息已成為企業(yè)經(jīng)營(yíng)中重要性僅次于人才的第二大要素。決策=信息+經(jīng)驗(yàn)+冒險(xiǎn)商務(wù)智能是對(duì)企業(yè)信息的科學(xué)管理

2、。3、商務(wù)智能支持商業(yè)決策商務(wù)智能如何創(chuàng)造知識(shí)和價(jià)值1.2 商務(wù)智能簡(jiǎn)介商務(wù)智能這一術(shù)語(yǔ)1996年由 Gartner 公司的分析師Howard Dresner首次提出,他提出商務(wù)智能描述了一系列的概念和方法,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。一、商務(wù)智能概念商務(wù)智能是整合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成了企業(yè)內(nèi)外的數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的信息,面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)企業(yè)經(jīng)營(yíng)決策,提升企業(yè)競(jìng)爭(zhēng)力,涉及企業(yè)戰(zhàn)略、管理思想、業(yè)務(wù)整合和技術(shù)體系等層面,促進(jìn)信息到知識(shí)再到利潤(rùn)的轉(zhuǎn)變,從而實(shí)現(xiàn)更好的績(jī)效。先進(jìn)信息技術(shù):商務(wù)智能是多項(xiàng)技術(shù)的綜合應(yīng)用

3、;集成了企業(yè)內(nèi)外的數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的信息:商務(wù)智能的層次;企業(yè)戰(zhàn)略:商務(wù)智能服務(wù)于企業(yè)戰(zhàn)略;管理層、業(yè)務(wù)層:商務(wù)智能用戶多樣性;更好的績(jī)效:商務(wù)智能提升企業(yè)績(jī)效。二、商務(wù)智能的價(jià)值1、在商務(wù)智能背后有一些商業(yè)驅(qū)動(dòng)力,如:增加收入,減少費(fèi)用和更有效地競(jìng)爭(zhēng)的需求。管理和模擬當(dāng)前商業(yè)環(huán)境復(fù)雜性的需求。減少I(mǎi)T費(fèi)用和利用已有公司業(yè)務(wù)信息的需求。2、商務(wù)智能的價(jià)值制定合適的市場(chǎng)營(yíng)銷策略;改善顧客智能;經(jīng)營(yíng)成本與收入分析;提高風(fēng)險(xiǎn)管理能力;改善業(yè)務(wù)洞察力;提高市場(chǎng)響應(yīng)能力。1.3商務(wù)智能系統(tǒng)的功能 數(shù)據(jù)集成:數(shù)據(jù)是決策分析的基礎(chǔ);信息呈現(xiàn):商務(wù)智能的初步功能;經(jīng)營(yíng)分析:運(yùn)營(yíng)指標(biāo)、運(yùn)

4、營(yíng)業(yè)績(jī)和財(cái)務(wù)分析;戰(zhàn)略決策支持:合理的投資組合。1.4 商務(wù)智能應(yīng)用領(lǐng)域銀行:美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤(rùn)評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等電子商務(wù):網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁(yè);自適應(yīng)網(wǎng)站生物制藥、基因研究:DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性 電信:欺詐甄別;客戶流失保險(xiǎn)、零售政府部門(mén)、教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)和公用事業(yè)等。利用商務(wù)智能的企業(yè)現(xiàn)在已越來(lái)越多,遍及各行各業(yè)。第13章 商務(wù)智能發(fā)展一、商務(wù)智能的發(fā)展事務(wù)處理系統(tǒng)TPS管理信息系統(tǒng)MIS主管信息系統(tǒng)EIS決策支持系統(tǒng)DS

5、S智能決策支持系統(tǒng)IDSS二、商務(wù)智能應(yīng)用趨勢(shì)更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù);從戰(zhàn)略型的BI到操作型或者實(shí)時(shí)型的BI;關(guān)注績(jī)效、關(guān)注價(jià)值、關(guān)注數(shù)據(jù)質(zhì)量。三、商務(wù)智能在中國(guó)的發(fā)展商務(wù)智能在中國(guó)的發(fā)展尚處于起步階段,大部分企業(yè)對(duì)商務(wù)智能仍然缺乏必要的了解。國(guó)、內(nèi)外商務(wù)智能軟件企業(yè)的實(shí)施和應(yīng)用水平有很大的差距,目前國(guó)外有一些企業(yè)已進(jìn)入多維分析和數(shù)據(jù)挖掘階段,而國(guó)內(nèi)商務(wù)智能的發(fā)展只是近幾年的事情,商務(wù)智能應(yīng)用的范圍和程度都與國(guó)外企業(yè)有很大差距。絕大多數(shù)實(shí)施商務(wù)智能的企業(yè)的應(yīng)用水平停留在基本的數(shù)據(jù)整合階段和簡(jiǎn)單的統(tǒng)計(jì)分析階段,真正實(shí)現(xiàn)深度數(shù)據(jù)分析的項(xiàng)目很少。四、中國(guó)商務(wù)智能應(yīng)用存在的問(wèn)題起步較晚:國(guó)內(nèi)管理者

6、想要利用商務(wù)智能解決缺乏有效信息支持決策的管理模式和操作準(zhǔn)則越來(lái)越體現(xiàn)出缺乏理性的缺點(diǎn)。因此國(guó)內(nèi)企業(yè)管理者試圖通過(guò)商務(wù)智能解決上述問(wèn)題,但這種需求比國(guó)外發(fā)達(dá)國(guó)家滯后了。差距拉大:目前國(guó)內(nèi)各行業(yè)商務(wù)智能的發(fā)展水平仍是參差不齊,商務(wù)智能在行業(yè)內(nèi)也存在差距,不同規(guī)模的企業(yè)應(yīng)用商務(wù)智能的差距也在拉大。普及有待時(shí)日:技術(shù)、觀念和管理水平的相對(duì)落后,商務(wù)智能的普及還需要較長(zhǎng)時(shí)間供應(yīng)商有待成長(zhǎng)五、商務(wù)智能動(dòng)態(tài)商務(wù)智能發(fā)展的特點(diǎn)實(shí)時(shí);標(biāo)準(zhǔn)化;嵌入式商務(wù)智能;移動(dòng)商務(wù)智能;大眾化趨勢(shì);供應(yīng)商的動(dòng)向;易用性。第2章 商務(wù)智能系統(tǒng)架構(gòu)2.1 商務(wù)智能系統(tǒng)組成1、體系結(jié)構(gòu)(Architecture):體系結(jié)構(gòu)是指一整

7、套的規(guī)則和結(jié)構(gòu),為一個(gè)系統(tǒng)或產(chǎn)品的整體設(shè)計(jì)提供主框架。2、商務(wù)智能的體系結(jié)構(gòu)一個(gè)商務(wù)智能的體系結(jié)構(gòu)是通過(guò)識(shí)別和理解數(shù)據(jù)在系統(tǒng)中的流動(dòng)過(guò)程和數(shù)據(jù)在企業(yè)中的應(yīng)用過(guò)程來(lái)提供商業(yè)智能系統(tǒng)應(yīng)用的主框架。商務(wù)智能系統(tǒng)構(gòu)架(見(jiàn)書(shū)P27)3、商務(wù)智能系統(tǒng)的組成數(shù)據(jù)源與數(shù)據(jù)提取;數(shù)據(jù)倉(cāng)庫(kù);訪問(wèn)工具;決策支持工具;商務(wù)智能應(yīng)用;系統(tǒng)管理;元數(shù)據(jù)管理。2.2 數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來(lái)源、格式、特點(diǎn)的數(shù)據(jù)有機(jī)地整合,從而為企業(yè)提供全面的數(shù)據(jù)共享。目的:運(yùn)用一定的技術(shù)手段把分布在異構(gòu)系統(tǒng)中的數(shù)據(jù)按一定的規(guī)則組織成一個(gè)整體,使用戶能有效地對(duì)其進(jìn)行共享、分析,因此數(shù)據(jù)集成是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。1、數(shù)據(jù)集

8、成的常用方法數(shù)據(jù)聯(lián)邦;基于中間件模型;數(shù)據(jù)倉(cāng)庫(kù);主數(shù)據(jù)管理2、主數(shù)據(jù)管理與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系聯(lián)系:二者相輔相成,都是減少數(shù)據(jù)冗余和不一致性的跨部門(mén)集中式系統(tǒng),都依賴ETL、元數(shù)據(jù)管理等技術(shù)保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的分析結(jié)果可以輸入到主數(shù)據(jù)管理系統(tǒng)中。區(qū)別:主數(shù)據(jù)管理是為呼叫中心、電子商務(wù)和CRM等業(yè)務(wù)系統(tǒng)提供聯(lián)機(jī)服務(wù),數(shù)據(jù)倉(cāng)庫(kù)面向分析型的應(yīng)用;主數(shù)據(jù)管理涉及的數(shù)據(jù)量相對(duì)較小,在運(yùn)行中對(duì)主數(shù)據(jù)的集成實(shí)時(shí)性要求比數(shù)據(jù)倉(cāng)庫(kù)高。3、主數(shù)據(jù)管理與ODS的關(guān)系實(shí)時(shí)性要求具有共性,但主數(shù)據(jù)管理系統(tǒng)不儲(chǔ)存ODS系統(tǒng)的交易數(shù)據(jù)。第3章 數(shù)據(jù)倉(cāng)庫(kù)3.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1、企業(yè)數(shù)據(jù)處理分為:事務(wù)型處理和分析型處理

9、2、事務(wù)型處理即操作型處理,是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理OLTP。事務(wù)型處理是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢等(大量、簡(jiǎn)單、重復(fù)和例行性)。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。3、分析型處理分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問(wèn)題。分析型處理經(jīng)常要訪問(wèn)大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。分析型處理過(guò)程中經(jīng)常用到外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來(lái)自于

10、其他外部數(shù)據(jù)源。4、事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別(見(jiàn)書(shū)P36)5、數(shù)據(jù)庫(kù)系統(tǒng)的局限性數(shù)據(jù)庫(kù)適于存儲(chǔ)高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在決策分析環(huán)境中,如果事務(wù)處理的細(xì)節(jié)數(shù)據(jù)量太大一方面會(huì)嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會(huì)分散決策者的注意力。當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中,事務(wù)型處理對(duì)數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來(lái)自企業(yè)內(nèi)部的,也有來(lái)自企業(yè)外部的。來(lái)自企業(yè)外部的數(shù)據(jù)又可能來(lái)自不同的數(shù)據(jù)庫(kù)系統(tǒng),在分析時(shí)如果直接對(duì)這些數(shù)據(jù)

11、操作會(huì)造成分析的混亂。對(duì)于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫(kù)系統(tǒng)常常是無(wú)能為力。6、多庫(kù)系統(tǒng)的限制可用性:源站點(diǎn)或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓, 源站點(diǎn)不能通過(guò)網(wǎng)絡(luò)在線聯(lián)入多庫(kù)系統(tǒng)。響應(yīng)速度:全局查詢多級(jí)轉(zhuǎn)換和通信傳輸, 延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能:總體性能取決于源站點(diǎn)中性能最低的系統(tǒng), 影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開(kāi)銷:每次查詢要啟動(dòng)多個(gè)局部系統(tǒng), 通信和運(yùn)行開(kāi)銷大。 3.2 數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展1981年 NCR公司為Wal Mart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。1988年 IBM公司的研究員Barry Devlin和Paul Murphy創(chuàng)造性的提出了一個(gè)新術(shù)語(yǔ)¡ª

12、;¡ª數(shù)據(jù)倉(cāng)庫(kù)1991年 Bill Inmon正式出版Building the Data 、Warehouse,第一次給出了數(shù)據(jù)倉(cāng)庫(kù)的清晰定義和操作性極強(qiáng)的指導(dǎo)意見(jiàn)1993年 拉爾夫.金博爾出版了The Data Warehouse Toolkit,在具體構(gòu)建方法上提出不同意見(jiàn)1996年 加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。2、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)含義:數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù), 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。支持整個(gè)企業(yè)范圍的主要業(yè)務(wù)來(lái)建立的,

13、主要特點(diǎn)是,包含大量面向整個(gè)企業(yè)的綜合信息及導(dǎo)出信息。Bill Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)所下的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。3、數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)要求復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時(shí)經(jīng)常會(huì)使用多表的聯(lián)接、累計(jì)、分類、排序等操作。對(duì)提取出來(lái)的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從多個(gè)應(yīng)用領(lǐng)域中提取出來(lái)的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫(kù)系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對(duì)數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要方面。對(duì)進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。4、數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)3.7 數(shù)據(jù)倉(cāng)庫(kù)模型1、概念

14、模型設(shè)計(jì)概念模型用來(lái)表達(dá)信息世界中的信息結(jié)構(gòu),通常人們利用概念模型定義實(shí)際的數(shù)據(jù)需求。概念模型最常用的表示方法是實(shí)體關(guān)系法(E-R法),E-R圖將現(xiàn)實(shí)世界表示成信息世界,便于向計(jì)算機(jī)的表示形式進(jìn)行轉(zhuǎn)化。目前的數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是通過(guò)主題分析表示概念模型,每個(gè)主題用若干維和度量表示。維度是人們觀察世界的特定角度,度量是確定與維度分析有關(guān)的數(shù)值信息。2、邏輯模型設(shè)計(jì)主要工作:a分析主題域進(jìn)行概念模型到邏輯模型的轉(zhuǎn)換;b確定粒度層次劃分;c確定數(shù)據(jù)分割策略;d關(guān)系模式定義;e定義記錄系統(tǒng)。3、數(shù)據(jù)倉(cāng)庫(kù)常用的兩種基本邏輯模型:星型模型:星型模型的核心是事實(shí)表,事實(shí)表把各種不同的維表連接起來(lái)。雪花模型:雪花

15、模型是星型模型的擴(kuò)展,某些維表中的數(shù)據(jù)可以進(jìn)一步分解到附加的表中。4、物理模型設(shè)計(jì)物理模型設(shè)計(jì)因素:a I/O存取時(shí)間;b空間利用率;c維護(hù)的代價(jià)。主要工作:a全面了解所選用的數(shù)據(jù)庫(kù)管理系統(tǒng),確定一個(gè)最適合應(yīng)用要求的物理結(jié)構(gòu),特別是存儲(chǔ)結(jié)構(gòu)和存取方法。b了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等。c了解外部存儲(chǔ)設(shè)備的特征。5、確定一個(gè)最適合應(yīng)用要求的物理結(jié)構(gòu)估計(jì)存儲(chǔ)容量;確定數(shù)據(jù)的存儲(chǔ)計(jì)劃;確定索引策略;確定數(shù)據(jù)存放位置;確定存儲(chǔ)分配。3.4 元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的所有數(shù)據(jù)都要通過(guò)元數(shù)據(jù)來(lái)管理和控制。1、元數(shù)據(jù)元數(shù)據(jù):是用來(lái)描述數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)有什么,指明了數(shù)

16、據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的內(nèi)容和位置,刻畫(huà)了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的。2、元數(shù)據(jù)的分類技術(shù)元數(shù)據(jù):與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù)。(如數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)模型的源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)映射的源數(shù)據(jù))業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述數(shù)據(jù),為管理及業(yè)務(wù)分析人員服務(wù)。(如數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù))3、元數(shù)據(jù)的存儲(chǔ)方式元數(shù)據(jù)有兩種常見(jiàn)存儲(chǔ)方式:以數(shù)據(jù)集為基礎(chǔ),每一個(gè)數(shù)據(jù)集有對(duì)應(yīng)的元數(shù)據(jù)文件;以數(shù)據(jù)庫(kù)為基礎(chǔ)的,即元數(shù)據(jù)庫(kù)(推薦)。3.5 數(shù)據(jù)抽取、轉(zhuǎn)換和加載ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié),也是企業(yè)數(shù)據(jù)管理的核心,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的后續(xù)環(huán)節(jié)影響較大。1、數(shù)據(jù)抽

17、取(Extraction)確認(rèn)數(shù)據(jù)源;數(shù)據(jù)抽取技術(shù)2、數(shù)據(jù)轉(zhuǎn)換( Transform)數(shù)據(jù)轉(zhuǎn)換的的主要任務(wù)是對(duì)數(shù)據(jù)粒度以及不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的形式:格式修正;計(jì)算值和導(dǎo)出值;度量單位的轉(zhuǎn)化化;日期/時(shí)間轉(zhuǎn)化;特征集合轉(zhuǎn);信息的合并;匯總等3、數(shù)據(jù)清洗(Cleaning)數(shù)據(jù)清洗也稱數(shù)據(jù)凈化,主要指對(duì)數(shù)據(jù)字段的有效值檢驗(yàn)。有效值的檢驗(yàn)通常包括:范圍檢驗(yàn);枚舉字段取值;相關(guān)檢驗(yàn)要求。4、數(shù)據(jù)裝載( Load)數(shù)據(jù)裝載方式:a基本裝載:按照裝載的目標(biāo)表,將轉(zhuǎn)換過(guò)的數(shù)據(jù)輸入到目標(biāo)表中去。 b追加:如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過(guò)程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。 c破壞性合并:用新輸入

18、數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 d建設(shè)性合并:保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。數(shù)據(jù)裝載類型:a初始裝載:這是第一次對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行裝載。 b增量裝載:由于源系統(tǒng)的變化,數(shù)據(jù)倉(cāng)庫(kù)需要裝載變化的數(shù)據(jù)。c完全刷新:這種類型的數(shù)據(jù)裝載用于周期性重寫(xiě)數(shù)據(jù)倉(cāng)庫(kù)。5、數(shù)據(jù)處理的有關(guān)討論數(shù)據(jù)庫(kù)中的空缺值;不一致的數(shù)據(jù);樣本空間的大??;與分析無(wú)關(guān)的數(shù)據(jù)不要裝入數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)離散化;數(shù)據(jù)規(guī)范化3.6 操作數(shù)據(jù)存儲(chǔ)很多情況下,DB-DW的兩層體系結(jié)構(gòu)并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。日常管理和控制決策的問(wèn)題并不是聯(lián)機(jī)事務(wù)處理,又算不上高層決策分析,需要企業(yè)全局一致的、細(xì)節(jié)的、當(dāng)前或接近當(dāng)前的數(shù)據(jù),又

19、需要面向主題、集成的數(shù)據(jù)環(huán)境。因此需要DB-DW之間存在著一個(gè)中間層次,即操作型數(shù)據(jù)存儲(chǔ) ODS(Operational Data Store )。1、ODS和DW的比較(見(jiàn)書(shū)P44)3.7數(shù)據(jù)集市(Data Mart)1、數(shù)據(jù)集市:數(shù)據(jù)倉(cāng)庫(kù)是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉(cāng)庫(kù)往往太大,在實(shí)際應(yīng)用中將它們按部門(mén)或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時(shí)我們也稱它為部門(mén)數(shù)據(jù)倉(cāng)庫(kù)。2、數(shù)據(jù)集市類型:按照數(shù)據(jù)獲取來(lái)源:獨(dú)立型:直接從操作型環(huán)境獲取數(shù)據(jù);從屬型:從企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù)。3、數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)

20、系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來(lái)自數(shù)據(jù)倉(cāng)庫(kù),它是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一個(gè)部分與局部,是一個(gè)數(shù)據(jù)的再抽取與組織的過(guò)程。注:數(shù)據(jù)集市不是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市并非小的數(shù)據(jù)倉(cāng)庫(kù)多個(gè)數(shù)據(jù)集市集合并不構(gòu)成數(shù)據(jù)倉(cāng)庫(kù)第4章 在線分析處理OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展 (數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。注:OLTP在線事務(wù)處理通常是一個(gè)或一組記錄的查詢和修改,用于處理短暫的交易事務(wù)。1993年,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。(認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)

21、進(jìn)行的簡(jiǎn)單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求) 4.1 OLAP簡(jiǎn)介聯(lián)機(jī)分析處理(OnLine Analysis Processing,OLAP)在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,聯(lián)機(jī)分析處理是重要的數(shù)據(jù)分析工具。OLAP的基本思想是從多方面和多角度以多維的形式來(lái)觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。OLAP是獨(dú)立于數(shù)據(jù)倉(cāng)庫(kù)的一種技術(shù)概念。當(dāng)OLAP與數(shù)據(jù)倉(cāng)庫(kù)結(jié)合時(shí),OLAP的數(shù)據(jù)源為數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)是根據(jù)多維方式組織的。1、OLAP的定義OLAP委員會(huì)的定義:OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)

22、行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。2、OLAP的基本概念維:是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性。維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面。維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為: (維1,維2,¡&

23、#173;,維n,變量)數(shù)據(jù)單元(單元格):多維數(shù)組的取值3、超立方結(jié)構(gòu)(Hypercube)多維數(shù)據(jù)集立方體或超立方結(jié)構(gòu)指用三維或更多的維數(shù)來(lái)描述一個(gè)對(duì)象,每個(gè)維彼此垂直。數(shù)據(jù)的測(cè)量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性(收縮超立方結(jié)構(gòu),這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維)。  4、OLAP的特點(diǎn)快速性Fast:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求??煞治鲂訟nalysis:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。多維性Multidimensional:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包

24、括對(duì)層次維和多重層次維的完全支持。信息性Information:OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。4.2 OLTP VS OLAP(見(jiàn)書(shū)P65)4.3 OLAP操作E.F.Codd從可視化角度提出,主要基于統(tǒng)計(jì)的方法:切片和切塊(Slice and Dice):切片與切塊的作用是對(duì)分析的數(shù)據(jù)進(jìn)行過(guò)濾,使用戶專注于局部數(shù)據(jù)。鉆取(Drill):鉆取能夠幫助用戶獲得更多的細(xì)節(jié)性數(shù)據(jù)。 旋轉(zhuǎn)(Rotate):旋轉(zhuǎn)(Pivot)通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。輔之于各種圖形展示分析結(jié)果。1、切片、切塊 (Slice and Dice)多維數(shù)據(jù)是由多個(gè)維度組成的,如果在某個(gè)維度上選定一個(gè)

25、取值,則多維數(shù)據(jù)從n維下降成n-1維。切片與切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有兩個(gè)以上,則是切塊。切塊可以看成是在切片的基礎(chǔ)上,確定某一個(gè)維成員的區(qū)間得到的片段,也即由多個(gè)切片疊合起來(lái)。2、鉆取(Drill)鉆取改變維的層次,變換分析的粒度。鉆取有向下鉆?。╠rill down)和向上鉆取(drill up)操作。向下鉆取是使用戶在多層數(shù)據(jù)中能通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),即從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。向上鉆取是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù)。3、旋轉(zhuǎn)(Rotate)通過(guò)旋轉(zhuǎn)可以

26、得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。例如,旋轉(zhuǎn)可能包含了交換行和列,或是把某一個(gè)行維移到列維中去?;蚴前秧?yè)面顯示中的一個(gè)維和頁(yè)面外的維進(jìn)行交換(令其成為新的行或列中的一個(gè))。4.4 OLAP分類(見(jiàn)書(shū)P69)1、ROLAPROLAP是基于關(guān)系數(shù)據(jù)庫(kù)的OLAP。它是一個(gè)平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫(kù)表示多維數(shù)據(jù)時(shí),采用星型模型、雪花模型。2、MOLAPMOLAP是基于多維數(shù)據(jù)庫(kù)存儲(chǔ)方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),采用類似于多維數(shù)組的結(jié)構(gòu)。3、ROLAP與MOLAP的比較(見(jiàn)書(shū)P71)數(shù)據(jù)存取速度 MOLAP在數(shù)據(jù)存儲(chǔ)速度上性能好數(shù)據(jù)存儲(chǔ)的容量 ROLAP在存儲(chǔ)容量上基本沒(méi)有

27、限制多維計(jì)算的能力 MOLAP能夠支持高性能的決策支持計(jì)算維度變化的適應(yīng)性 ROLAP對(duì)于維表的變更有很好的適應(yīng)性數(shù)據(jù)變化的適應(yīng)性 ROLAP中靈活性較好,對(duì)于數(shù)據(jù)變化的適應(yīng)性高軟硬件平臺(tái)的適應(yīng)性 ROLAP對(duì)軟硬件平臺(tái)的適應(yīng)性很好元數(shù)據(jù)管理 MOLAP和ROLAP都沒(méi)有成形的標(biāo)準(zhǔn)4、HOLAPHOLAP(Hybrid OLAP),即混和型OLAP,介于MOLAP和ROLAP之間。在HOLAP中,對(duì)最常用的維度和維層次,使用多維數(shù)據(jù)表來(lái)存儲(chǔ),對(duì)于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來(lái)存儲(chǔ)。 HOLAP得宜于ROLAP的可伸縮性,和MOLAP的快速計(jì)算。(如MS SQL SERVER)

28、在HOLAP的多維數(shù)據(jù)表中的數(shù)據(jù)維度少于MOLAP中的維度表,數(shù)據(jù)存儲(chǔ)容量也少于MOLAP方式。HOLAP在數(shù)據(jù)存取速度上又低于MOLAP。4.6 OLAP工具目前許多公司已經(jīng)推出了相應(yīng)的OLAP支持工具:ORACLE;IBM;Business Object;SAS;NCR。第5章 數(shù)據(jù)挖掘 5.1 數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的由來(lái):數(shù)據(jù)爆炸但知識(shí)貧乏;網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn);支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ);從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化。注:如何才能不被信息淹沒(méi),而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用效率:要學(xué)會(huì)拋棄信息!2、從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化(見(jiàn)書(shū)P84)3、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘

29、軟件:獨(dú)立的,可以支持少數(shù)幾種數(shù)據(jù)挖掘算法。第二代數(shù)據(jù)挖掘軟件:和數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行了集成,能夠處理在規(guī)模的數(shù)據(jù),但缺少對(duì)業(yè)務(wù)的預(yù)測(cè)能力。第三代數(shù)據(jù)挖掘軟件:增加了預(yù)測(cè)功能,還可在分布式系統(tǒng)中運(yùn)行,可挖掘網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)。第四代數(shù)據(jù)挖掘軟件:支持移動(dòng)計(jì)算和各種嵌入式系統(tǒng),擴(kuò)展了應(yīng)用領(lǐng)域。4、數(shù)據(jù)挖掘的定義定義:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識(shí)并用于決策支持的過(guò)程。目的:不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。5、數(shù)據(jù)挖掘受多學(xué)科影響:數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括

30、數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。 6、數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法的區(qū)別數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變:數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的; 傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動(dòng)的:一般都是先給出一個(gè)假設(shè)然后通過(guò)數(shù)據(jù)驗(yàn)證。數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動(dòng)的:模式都是通過(guò)大量的搜索工作從數(shù)據(jù)中自動(dòng)提取出來(lái) 。7、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)8、數(shù)據(jù)挖掘與OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設(shè):a what happened查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么b what next OLAP更進(jìn)一步告訴你下一步會(huì)怎么樣c what if如果我采取這樣

31、的措施又會(huì)怎么樣數(shù)據(jù)挖掘本質(zhì)上是一個(gè)歸納的過(guò)程,不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補(bǔ)性。9、數(shù)據(jù)挖掘模型及流程數(shù)據(jù)挖掘模型:a為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐洲委員會(huì)聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開(kāi)發(fā)了CRISP-DM。b CRISP-DM(Cross Industry Standard Process for Data Mining)模型,最先在1996年被提出,當(dāng)前的白皮書(shū)版本是1.0。c目的是把數(shù)據(jù)挖掘的過(guò)程標(biāo)準(zhǔn)化,使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。10、為保證項(xiàng)目的可靠性和可管理性,CR

32、ISP-DM規(guī)定一個(gè)數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個(gè)報(bào)告:業(yè)務(wù)理解報(bào)告;原始數(shù)據(jù)收集報(bào)告;數(shù)據(jù)描述報(bào)告;數(shù)據(jù)探索報(bào)告;數(shù)據(jù)質(zhì)量報(bào)告;數(shù)據(jù)集描述報(bào)告;模型訓(xùn)練報(bào)告;模型評(píng)估報(bào)告;部署計(jì)劃;監(jiān)控和維護(hù)計(jì)劃;總結(jié)報(bào)告。通過(guò)這些報(bào)告,可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程,減少開(kāi)發(fā)風(fēng)險(xiǎn)。11、數(shù)據(jù)挖掘的過(guò)程(見(jiàn)書(shū)P85圖)數(shù)據(jù)挖掘過(guò)程的分步實(shí)現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:A業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。B數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇

33、合適的技術(shù)。C數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個(gè)多領(lǐng)域?qū)<液献鞯倪^(guò)程,也是一個(gè)在資金上和技術(shù)上高投入的過(guò)程。注:數(shù)據(jù)挖掘過(guò)程要反復(fù)進(jìn)行,在反復(fù)過(guò)程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)化問(wèn)題的解決方案。5.2 數(shù)據(jù)挖掘的應(yīng)用及其發(fā)展1、數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的產(chǎn)生本身就有其強(qiáng)烈的應(yīng)用需求背景,它從一開(kāi)始就是面向應(yīng)用的。具體涉及數(shù)據(jù)挖掘的商業(yè)問(wèn)題:數(shù)據(jù)庫(kù)營(yíng)銷(Database Marketing);客戶群體劃分(Customer Segmentation & Classification);背景分析(Profile Analysis);交叉銷售

34、(Cross-selling);客戶流失分析(Churn Analysis);客戶信用評(píng)分(Credit Scoring);欺詐甄別(Fraud Detection)2、數(shù)據(jù)挖掘的未來(lái)發(fā)展趨勢(shì)未來(lái)的熱點(diǎn)應(yīng)用領(lǐng)域:網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining);生物信息或基因的數(shù)據(jù)挖掘;文本挖掘(Textual mining);多媒體挖掘。5.3 數(shù)據(jù)預(yù)處理1、數(shù)據(jù)清理數(shù)據(jù)清理的內(nèi)容:修補(bǔ)空缺值,識(shí)別出數(shù)據(jù)中的孤立點(diǎn)、去除噪聲,消除數(shù)據(jù)中的不一致。常用的數(shù)據(jù)清理方法:聚類;空值處理;冗余和重復(fù)。2、空值處理有些記錄的值可能空缺,或者某一個(gè)屬性可能會(huì)有大量的空缺值。a對(duì)第一種情況,可以

35、不使用這些記錄;b對(duì)第二種情況,可以丟棄這個(gè)屬性。 另一種處理空缺值的方法是歸咎(imputation)??梢允褂靡恍┫嚓P(guān)技術(shù)(復(fù)雜度逐漸增加):a從別的記錄中隨機(jī)抽取一個(gè)值添入。b取其他記錄中對(duì)應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。c對(duì)其他記錄中這個(gè)屬性的值分布做一個(gè)統(tǒng)計(jì)模型,然后根據(jù)分布情況,隨機(jī)選一個(gè)值。d試圖用統(tǒng)計(jì)或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。3、數(shù)據(jù)挖掘算法聚類分析;分類分析;關(guān)聯(lián)分析;序列模式挖掘;回歸分析;時(shí)間序列分析。5.4 聚類分析1、聚類分析的概念類是指相似對(duì)象的集合。 聚類是把對(duì)象或樣本的集合分組成為多個(gè)簇(類)的過(guò)程,使同一個(gè)組中的對(duì)象具有較高的相似度,而不同類型的對(duì)

36、象差別較大。聚類是一種無(wú)監(jiān)督分類法: 沒(méi)有預(yù)先指定的類別; 2、聚類問(wèn)題的數(shù)學(xué)描述給定數(shù)據(jù)集合V,根據(jù)數(shù)據(jù)對(duì)象間的相似程度將數(shù)據(jù)集合分成組,并滿足: 則該過(guò)程稱為聚類。Ci稱為簇。3、聚類分析的統(tǒng)計(jì)量通過(guò)引進(jìn)一些表示樣本間相似程度的度量標(biāo)準(zhǔn)把性質(zhì)相似的對(duì)象歸為一類,這些度量標(biāo)準(zhǔn)稱為聚類統(tǒng)計(jì)量。距離和相似系數(shù)是經(jīng)常采用的聚類統(tǒng)計(jì)量。 距離:a連續(xù)值數(shù)據(jù)常用的距離度量方法:歐幾里德距離;曼哈坦距離;明考斯基距離;切比雪夫距離。b其他數(shù)據(jù)類型的距離度量方法:可分類變量、二元變量、標(biāo)稱變量、序數(shù)型變量和文本等。a連續(xù)值數(shù)據(jù)常用的距離度量方法:b其它類型變量常用距離度量方法:二元變量:變量的取值只有兩個(gè)

37、狀態(tài),如性別,表示是否吸煙,醫(yī)療檢查正常還是不正常等。 i和j是兩個(gè)變量:q是兩個(gè)變量中都為1的個(gè)數(shù) t是兩個(gè)變量中都為0的個(gè)數(shù) s是i變量中為0,j中為1的個(gè)數(shù) r是i變量中為1,j中為0的個(gè)數(shù)(1)二元變量權(quán)重相同(對(duì)稱的,如性別)即:分子為兩者相異的總數(shù),分母為二元變量總數(shù)(2)二元變量權(quán)重不同(非對(duì)稱的) 例如,一個(gè)疾病化驗(yàn)結(jié)果正常和不正常,對(duì)一個(gè)群體,正常者總是大多數(shù),我們用1表現(xiàn)幾率小的 情況,0表示另一種情況。 評(píng)價(jià)系數(shù),Jaccard系數(shù)即:兩個(gè)相異的數(shù)量作為分子,相異的數(shù)量加兩個(gè)為1的數(shù)量作為分母。(同對(duì)稱二元變量相比,兩個(gè)同為0的數(shù)量不出現(xiàn)在分母中)相似系數(shù):對(duì)于連續(xù)型數(shù)據(jù)

38、,常用的相似系數(shù)Cij 有夾角余弦和相關(guān)系數(shù)等。4、常用聚類算法聚類目標(biāo): 將一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù)組織成k個(gè)劃分(k<=n),其中每個(gè)劃分代表一個(gè)簇。常用算法:a基于劃分的聚類分析算法:k-means;k-modes;k-prototypesb基于層次的聚類分析算法c其它聚類分析算法 1)基于劃分的聚類分析算法A、k-means算法:k-means算法是常見(jiàn)的基于劃分的聚類方法,其中相異度基于對(duì)象與類中心(簇中心)的距離計(jì)算,與簇中心距離最近的對(duì)象可以劃為一個(gè)簇。此算法目標(biāo)是每個(gè)對(duì)象與簇中心距離的平方和最小。(1)把n個(gè)對(duì)象分為k個(gè)簇,是簇內(nèi)具有較高的相似度,而簇間的相似度較底。

39、相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均值(重心)來(lái)進(jìn)行。(2)流程:首先,隨機(jī)的抽取k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表一個(gè)簇的平均值。對(duì)剩余的每個(gè)對(duì)象,根據(jù)與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算各個(gè)簇的平均值。過(guò)程不斷反復(fù),直到準(zhǔn)則函數(shù)收斂。一般采用平方誤差準(zhǔn)則:這里,p是空間的點(diǎn),表示給定的對(duì)象,mi是簇Ci的平均值。B、k-modes算法:k-modes算法把k-means算法擴(kuò)展到可分類數(shù)據(jù),用一個(gè)簡(jiǎn)單的相異度測(cè)量對(duì)數(shù)據(jù)進(jìn)行聚類。假設(shè)X,Y是數(shù)據(jù)集中的兩個(gè)對(duì)象,它們用m維屬性描述,則這兩個(gè)對(duì)象之間的相異度為:(1)k-modes算法根據(jù)可分類屬性值出現(xiàn)的頻率更新聚類中心,聚類中出現(xiàn)頻率

40、最高的屬性值被選為聚類中心,即modes(類模式)。(2)k-modes算法不斷更新modes,使得所有對(duì)象與其最近modes的相異度總和最?。菏紫扔?jì)算每一簇在某一屬性值的對(duì)象所占百分?jǐn)?shù)。然后,取每個(gè)簇中頻率最大的一個(gè)屬性值作為類模式Q。分別對(duì)每個(gè)屬性進(jìn)行上述計(jì)算,最后得到類模式Q,即初始聚類中心。k-modes算法與k-means的步驟類似: 預(yù)先定義好k類,確定各個(gè)類的初始類模式Q。 根據(jù)類模式Q把每個(gè)對(duì)象賦給最近鄰的類,然后更新類模式Q。 不斷重復(fù),直到不再發(fā)生變化為止。C、k-prototypes算法(1)在實(shí)際應(yīng)用中,數(shù)據(jù)可能是數(shù)值型的,同時(shí)也有可分類型的。k-prototypes算

41、法綜合了k-means和k-modes算法,采用新的距離度量方法,能夠快速處理混合類型數(shù)據(jù)集的聚類問(wèn)題。(2)k-prototypes算法的聚類中心由數(shù)值型數(shù)據(jù)的聚類中心和可分類數(shù)據(jù)的聚類中心兩部分加權(quán)組成,其中數(shù)值型屬性的聚類中心和k-means算法類似,通過(guò)計(jì)算數(shù)值型屬性的平均值得到。而可分類型屬性的中心采用類似k-modes算法聚類中心的更新方式,通過(guò)計(jì)算可分類屬性值出現(xiàn)的頻率確定。2)基于層次的聚類分析算法(1)凝聚的層次聚集:自底向上的策略首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在某個(gè)簇中,或者終結(jié)條件滿足。(2)分裂的層次聚類:自頂向下,首先將所

42、有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來(lái)越小的簇,直到每個(gè)對(duì)象自成一個(gè)簇或者達(dá)到了某個(gè)終結(jié)條件。(達(dá)到希望的簇?cái)?shù)或兩個(gè)簇之間的距離超過(guò)了某個(gè)閥值)3)其它聚類分析算法:基于密度的方法;基于網(wǎng)格的方法;基于模型的聚類。注:每種方法都有各自的優(yōu)缺點(diǎn),適用范圍也有限。選擇哪種聚類方法,需要考慮實(shí)際的應(yīng)用需求、簇的類型與特征、數(shù)據(jù)的特性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集的規(guī)模(樣本個(gè)數(shù)、樣本屬性個(gè)數(shù))等因素。5、 聚類分析的典型應(yīng)用作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布;偏離(異常)檢測(cè);作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟。5.5 分類分析與回歸分析分類和回歸都屬于預(yù)測(cè)建模,是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)

43、據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。一般認(rèn)為:a預(yù)測(cè)數(shù)值數(shù)據(jù)歸屬于哪個(gè)類稱為分類;b預(yù)測(cè)連續(xù)屬性取值為回歸。1、分類分析分類要解決的問(wèn)題是為一個(gè)事件或?qū)ο髿w類,即確定一個(gè)特定的對(duì)象屬于哪一類。分類就是通過(guò)分析訓(xùn)練集(決策表)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其它數(shù)據(jù)對(duì)象進(jìn)行分類。注:訓(xùn)練集:用于建立模型的數(shù)據(jù)稱為訓(xùn)練集,通常是已經(jīng)掌握的歷史數(shù)據(jù)。2、數(shù)據(jù)分類的步驟數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)清理;相關(guān)性分析;數(shù)據(jù)變換。建立模型:建立模型,描述預(yù)定的數(shù)據(jù)類,通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。模型評(píng)估:評(píng)估模型的預(yù)測(cè)正確率。使用模型分類。3、數(shù)據(jù)分類的方法

44、貝葉斯分類器;決策樹(shù);支持向量機(jī);BP神經(jīng)網(wǎng)絡(luò);其它分類方法4、決策樹(shù)決策樹(shù)是一個(gè)樹(shù)形的結(jié)構(gòu),由決策結(jié)點(diǎn)、分枝和葉子結(jié)點(diǎn)組成。a內(nèi)部結(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試b每個(gè)分枝都表示一個(gè)測(cè)試輸出c葉子節(jié)點(diǎn)表示一個(gè)類一個(gè)電器銷售商根據(jù)數(shù)據(jù)庫(kù)的數(shù)據(jù)分析概念 “買(mǎi)計(jì)算機(jī)”,構(gòu)造的決策樹(shù)。使用決策樹(shù)進(jìn)行分類的過(guò)程決策樹(shù)算法:A、常用算法:a ID3、C4.5 ;b SLIQ、SPRINT等B、基本算法(貪心算法):a自上而下分而治之的方法;b開(kāi)始時(shí)所有的實(shí)例都在根節(jié)點(diǎn);c屬性都是分類型 (如果是連續(xù)的,將其離散化);d所有記錄用所選屬性遞歸的進(jìn)行分割。e屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如信息

45、增益)決策樹(shù)的屬性選擇f屬性選取是決策樹(shù)算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產(chǎn)生樣本數(shù)量太少的分枝。決策樹(shù)的屬性選擇a屬性選取是決策樹(shù)算法中重要的步驟,一般需要最大程度地增加樣本集的純度,而且不要產(chǎn)生樣本數(shù)量太少的分枝。b常見(jiàn)屬性選擇標(biāo)準(zhǔn):信息增益;基尼指數(shù);其它A、信息增益(information gain)(1)計(jì)算給定的樣本分類的期望信息設(shè)S是有s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同的值,定義m個(gè)不同類Ci(i=1,m)。設(shè)si是類Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需要的期望信息由下式給出:注:其中pi是任意樣本屬于Ci的概率,一般用si/s估計(jì)代替

46、pi(2)計(jì)算由A劃分為子集的熵 設(shè)屬性A有v個(gè)不同值a1,a2,av??梢愿鶕?jù)屬性值將S劃分為v個(gè)子集S1,S2,Sv;sij是子集Sj中類Ci的樣本數(shù)。由A劃分成子集的熵(期望信息)為:(3)計(jì)算A作為分枝屬性的信息增益注:決策樹(shù)如何分枝?計(jì)算屬性的信息增益,取最大的信息增益分枝。B、基尼指數(shù)(Gini Index)(1)集合T包含n個(gè)類別的記錄,那么其Gini指數(shù)是pj 類別j出現(xiàn)的頻率(2)如果集合T分成兩部分 N1 and N2 。那么這個(gè)分割的Gini就是(3)提供最小Ginisplit 就被選擇作為分割的標(biāo)準(zhǔn)。決策樹(shù)的過(guò)擬合問(wèn)題注:避免過(guò)擬合;決策樹(shù)泛化。決策樹(shù)的剪枝目的:消除決

47、策樹(shù)的過(guò)擬合問(wèn)題。實(shí)質(zhì):消除訓(xùn)練集中的異常和噪聲。兩種剪枝方法:先剪枝法;后剪枝法。5、貝葉斯分類器統(tǒng)計(jì)學(xué)的方法,可以預(yù)測(cè)類成員關(guān)系的可能性,即給定樣本屬于一個(gè)特定類的概率。貝葉斯定理假設(shè)X和Y在分類中可以分別表示樣本的屬性集和類別。X和Y的聯(lián)合概率和條件概率滿足下列關(guān)系:注:P(X,Y)表示X,Y的聯(lián)合概率p(X|Y) 和p(Y|X)表示條件概率p(Y|X)是Y后驗(yàn)概率,表示條件X下Y的概率p(Y)稱為Y的先驗(yàn)概率變換后得到6、樸素貝葉斯分類器每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X=x1,x2,xn表示,分別描述對(duì)n個(gè)屬性A1,A2,.,An樣本的n個(gè)度量。 假定有m個(gè)類C1,,Cm,對(duì)于數(shù)據(jù)樣本

48、X,分類法將預(yù)測(cè)X屬于類Ci,當(dāng)且僅當(dāng): P(Ci|X)> P(Cj|X),1<=j<=m, j不等于i根據(jù)貝葉斯定理: P(Ci|X)=P(X|Ci)P(Ci)/P(X) 由于P(X)對(duì)于所有類都是常數(shù),只需最大化P(X|Ci)P(Ci) 計(jì)算P(X|Ci),樸素貝葉斯分類假設(shè)類條件獨(dú)立。即給定樣本屬性值相互條件獨(dú)立。(在一般情況下此假定都能成立)在使用中,p常用頻度代替。7、其它分類方法:支持向量機(jī);神經(jīng)網(wǎng)絡(luò)方法;以及在商品化的數(shù)據(jù)挖掘中用的較少的:k_最鄰近分類;遺傳算法;粗糙集合方法;模糊集方法。8、回歸分析回歸分析(regression analysis)是一種基本

49、的統(tǒng)計(jì)分析方法,它已被廣泛地應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域。分析一個(gè)變量與其他一個(gè)(或幾個(gè))變量之間的相關(guān)關(guān)系的統(tǒng)計(jì)方法就稱為回歸分析?;貧w分析主要內(nèi)容包括確定連續(xù)值變量之間的相關(guān)關(guān)系,建立回歸模型,檢驗(yàn)變量之間的相關(guān)程度,應(yīng)用回歸模型對(duì)變量進(jìn)行預(yù)測(cè)等。 回歸分析的分類:a按涉及的自變量個(gè)數(shù):一元回歸分析;多元回歸分析。b按自變量和因變量間的關(guān)系:線性回歸分析;非線性回歸?;貧w分析的步驟:a確定因變量和影響因素(自變量)。b繪制散點(diǎn)圖,觀察變量的大致關(guān)系。c求回歸系數(shù),并建立回歸模型。d檢驗(yàn)回歸模型。e進(jìn)行預(yù)測(cè)。 9、回歸預(yù)測(cè)預(yù)測(cè)是回歸模型最重要的應(yīng)用,回歸預(yù)測(cè)包括點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)?;貧w點(diǎn)預(yù)測(cè)是指對(duì)于給定

50、的變量值x0,用回歸值作為變量y的預(yù)測(cè)值y0。然而現(xiàn)實(shí)中實(shí)際值與預(yù)測(cè)值總會(huì)產(chǎn)生偏移,因此還需要得到可能偏離的范圍以提高預(yù)測(cè)的可靠程度,這稱為區(qū)間預(yù)測(cè),即以一定的概率預(yù)測(cè)y0附近的變動(dòng)范圍。5.6 關(guān)聯(lián)分析1、關(guān)聯(lián)規(guī)則相關(guān)術(shù)語(yǔ):a項(xiàng):集合I=i1,i2,,im為標(biāo)識(shí)符的集合,其中m為正整數(shù),ik(k=1,2,,m)稱為項(xiàng)目。b項(xiàng)集:在數(shù)據(jù)庫(kù)中出現(xiàn)的屬性值的集合。K_項(xiàng)集:包含K個(gè)項(xiàng)的項(xiàng)集。c頻繁項(xiàng)集:滿足最小支持度要求的項(xiàng)集。d關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是形如X->Y的規(guī)則,其中X,Y為項(xiàng)目集且XÇY=Æ。例:(超級(jí)市場(chǎng))在購(gòu)買(mǎi)商品A的客戶中有部分人會(huì)同時(shí)購(gòu)買(mǎi)商品B,則可用關(guān)聯(lián)

51、規(guī)則表示為:A=>B(support,confidence)關(guān)聯(lián)規(guī)則度量標(biāo)準(zhǔn):a支持度(Support):同時(shí)購(gòu)買(mǎi)A和B的客戶人數(shù)占總客戶數(shù)的百分比稱為規(guī)則的支持度。b置信度(Confidence):同時(shí)購(gòu)買(mǎi)A和B的客戶人數(shù)占購(gòu)買(mǎi)A的客戶人數(shù)的百分比稱為規(guī)則的置信度。注:在實(shí)際應(yīng)用中,概率P一般無(wú)法事先給出,所以常以頻度代替有意義的關(guān)聯(lián)規(guī)則:a 為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小置信度。b關(guān)聯(lián)規(guī)則挖掘的實(shí)質(zhì)是在數(shù)據(jù)集合中尋找滿足用戶給定的最小支持度和最小置信度的規(guī)則。關(guān)聯(lián)規(guī)則挖掘問(wèn)題的分解給定數(shù)據(jù)庫(kù)D,關(guān)聯(lián)規(guī)則的挖掘就是找出所有存在于數(shù)據(jù)庫(kù)D中的強(qiáng)關(guān)聯(lián)規(guī)則。因

52、此整個(gè)關(guān)聯(lián)規(guī)則挖掘過(guò)程可以分解為以下兩個(gè)子問(wèn)題:a找出所有的頻繁項(xiàng)目集;b根據(jù)找到的頻繁項(xiàng)目集導(dǎo)出所有的強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分類:a 根據(jù)規(guī)則中所處理的值類型:布爾關(guān)聯(lián)規(guī)則;量化關(guān)聯(lián)規(guī)則。b 根據(jù)規(guī)則中所涉及的數(shù)據(jù)維:?jiǎn)尉S關(guān)聯(lián)規(guī)則;多維關(guān)聯(lián)規(guī)則。根據(jù)規(guī)則中所涉及的抽象層A 一般采用自頂向下策略,由概念的頂層開(kāi)始向下,到較低的更特定的概念層,對(duì)每個(gè)概念層的頻繁集累加計(jì)數(shù),直到不能再找到頻繁項(xiàng)集。B 對(duì)于所有層使用一致的最小支持度注:因?yàn)檩^低層次抽象的項(xiàng)不大可能像較高層次抽象的項(xiàng)出現(xiàn)得那么頻繁。如果最小支持度閥值設(shè)置的太高,可能丟掉出現(xiàn)在較低抽象層次中有意義的關(guān)聯(lián)規(guī)則。如果閥值設(shè)置太低,可能會(huì)出現(xiàn)

53、在較高抽象層的無(wú)興趣的關(guān)聯(lián)規(guī)則。注:在較低層使用遞減的最小支持度2、Apriori算法(見(jiàn)書(shū)P139) Lk:k項(xiàng)頻繁集的集合; Ck:k項(xiàng)集的候補(bǔ)集合步驟1.連接: 用 Lk-1自連接得到Ck,(k>2) 設(shè)L1,L2是兩個(gè)有k-1個(gè)有序項(xiàng)的項(xiàng)集,Lji代表k-1個(gè)項(xiàng)的第i項(xiàng)(j=1,2; i=1,2,k-1)。L1和L2是可連接的L1XL2,需滿足: L11=L21 ,L12=L22,.,L1k-2=L2k-2, L1k-1 L2k-1,產(chǎn)生的項(xiàng)是: L11L12.L1k-2L1k-1L2k-1(Lji是有序的)例:L1=A,B,C , L2=A,B,D,L3=A,C,F則:L1 X

54、 L2=A,B,C,D L1 X L3,L2 X L3均為空2.修剪: 一個(gè)k-項(xiàng)集,如果它的一個(gè)k-1項(xiàng)子集不是頻繁的,那它本身也不可能是頻繁的。 Apriori 的性能瓶頸A、Apriori算法的核心:a用頻繁的(k-1)_項(xiàng)集生成候選的頻繁 k_項(xiàng)集b用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度B、Apriori 的瓶頸:候選集生成a巨大的候選集:104 個(gè)頻繁1_項(xiàng)集要生成 107 個(gè)候選 2_項(xiàng)集要找尺寸為100的頻繁模式,如 a1, a2, ¡­, a100, 你必須先產(chǎn)生2100 » 1030 個(gè)候選集(1_項(xiàng)集)b多次掃描數(shù)據(jù)庫(kù):如最長(zhǎng)的模式是n的話,則需要n次數(shù)據(jù)庫(kù)掃描注:為提高Apriori算法的性能,有許多改進(jìn)的算法。3、其他關(guān)聯(lián)規(guī)則算法FP樹(shù);約束性關(guān)聯(lián)規(guī)則挖掘算法;增量式關(guān)聯(lián)規(guī)則挖掘算法;多層關(guān)聯(lián)規(guī)則挖掘。5.6 序列模式分析序列模式的發(fā)現(xiàn)是由RAgrawal于1995年首先提出的。序列模式

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論