《商務(wù)智能方法與應(yīng)用》全冊(cè)配套課件_第1頁(yè)
《商務(wù)智能方法與應(yīng)用》全冊(cè)配套課件_第2頁(yè)
《商務(wù)智能方法與應(yīng)用》全冊(cè)配套課件_第3頁(yè)
《商務(wù)智能方法與應(yīng)用》全冊(cè)配套課件_第4頁(yè)
《商務(wù)智能方法與應(yīng)用》全冊(cè)配套課件_第5頁(yè)
已閱讀5頁(yè),還剩805頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《商務(wù)智能方法與應(yīng)用》

全冊(cè)配套課件引例:(1)榨菜指數(shù)3引例:榨菜指數(shù)(1/2)4引例:榨菜指數(shù)(3/4)引例:榨菜指數(shù)(4/4)(2)日本7-11案例(感冒指數(shù))6日本7-11案例(溫度和暢銷品)7一家零售商最近發(fā)現(xiàn),當(dāng)天氣變冷,肉桂葡式蛋撻的銷量上升500%。那么零售商可能就要做出抉擇。每當(dāng)預(yù)測(cè)天氣轉(zhuǎn)冷時(shí),應(yīng)該儲(chǔ)備多少肉桂葡式蛋撻?還有一家零售商發(fā)現(xiàn),奶酪打折似乎能促進(jìn)紅酒的銷售。那么希望減小紅酒庫(kù)存的時(shí)候,是不是應(yīng)考慮奶酪打折這種方法?

這兩個(gè)問(wèn)題的答案取決于大數(shù)據(jù)分析的核心問(wèn)題:弄清與因果關(guān)系之間的區(qū)別。將相關(guān)性誤解為因果關(guān)系所做出的決策是危險(xiǎn)的,可能會(huì)遭受慘敗,因?yàn)槟闼诖吹降挠绊懣赡懿⒉粫?huì)發(fā)生。8葡式蛋撻(3)啤酒與尿布一般看來(lái),啤酒和尿布是顧客群完全不同的商品。但是沃爾瑪一年內(nèi)數(shù)據(jù)挖掘的結(jié)果顯示,在居民區(qū)中尿布賣得好的店面啤酒也賣得很好。原因其實(shí)很簡(jiǎn)單,一般太太讓先生下樓買尿布的時(shí)候,先生們一般都會(huì)犒勞自己兩聽啤酒。因此啤酒和尿布一起購(gòu)買的機(jī)會(huì)是最多的。塔吉特美國(guó)一名男子闖入Target店鋪進(jìn)行抗議:"你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券。“該經(jīng)理當(dāng)時(shí)并不知道這一行為是總公司數(shù)據(jù)挖掘的結(jié)果。一個(gè)月后,這位父親來(lái)道歉,因?yàn)檫@時(shí)他才知道他的女兒的確懷孕了。Target比這位父親知道他女兒懷孕的時(shí)間足足早了一個(gè)月。10塔吉特Target能夠通過(guò)分析女性客戶購(gòu)買記錄,“猜出”哪些是孕婦。他們從Target的數(shù)據(jù)倉(cāng)庫(kù)中挖掘出25項(xiàng)與懷孕高度相關(guān)的商品,制作“懷孕預(yù)測(cè)”指數(shù)。比如他們發(fā)現(xiàn)女性會(huì)在懷孕四個(gè)月左右,大量購(gòu)買無(wú)香味乳液。以此為依據(jù)推算出預(yù)產(chǎn)期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來(lái)吸引客戶購(gòu)買。1112★過(guò)去零售商依靠供應(yīng)鏈軟件、內(nèi)部分析軟件甚至直覺來(lái)預(yù)測(cè)庫(kù)存需求。預(yù)測(cè)分析能夠準(zhǔn)確預(yù)測(cè)哪些商店位置應(yīng)該保持哪些產(chǎn)品?!锸褂肕icrosoft

AnalysisServices,采用數(shù)據(jù)挖掘技術(shù)可以為產(chǎn)品存儲(chǔ)決策提供準(zhǔn)確及時(shí)的信息,可以預(yù)測(cè)在未來(lái)一周內(nèi)一本書是否將脫銷,準(zhǔn)確性為98.52%,預(yù)測(cè)該書是否將在未來(lái)兩周內(nèi)脫銷的準(zhǔn)確性為86.45%。(4)庫(kù)存預(yù)測(cè)★美國(guó)一家箱包銷售網(wǎng)站通過(guò)個(gè)性化的展示提高銷售額。與其他網(wǎng)站設(shè)計(jì)頁(yè)面以鼓勵(lì)大部分消費(fèi)者采購(gòu)的做法不同,該網(wǎng)站個(gè)性化的解決方案將不停地創(chuàng)建頁(yè)面以適合每個(gè)具體的訪問(wèn)者?!锶绻L問(wèn)者的瀏覽記錄顯示其對(duì)手提包感興趣,網(wǎng)站將創(chuàng)建突出這些商品的個(gè)性化頁(yè)面?!镏紊鲜瞿康膶?shí)現(xiàn)的手段:準(zhǔn)確的數(shù)據(jù)挖掘和智能分析。(5)登錄網(wǎng)站的當(dāng)前用戶現(xiàn)在最可能購(gòu)買什么東西?亞馬遜網(wǎng)站的個(gè)性化推薦服務(wù)★NBA的教練的新式武器:數(shù)據(jù)挖掘。使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件優(yōu)化他們的戰(zhàn)術(shù)組合?!顰nferneeHardaway+BrianShaw=-17分★AnferneeHardaway+DarrellArmstrong=+14分★增加Armstrong的上場(chǎng)時(shí)間,Armstrong得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。(6)NBA教練如何布陣以提升獲勝機(jī)會(huì)?曼城隊(duì)2011年夏天,曼城隊(duì)助理教練大衛(wèi)·普拉特決定利用數(shù)據(jù)分析來(lái)解決球隊(duì)在表現(xiàn)方面遇到的一個(gè)棘手難題。普拉特發(fā)現(xiàn),盡管球隊(duì)陣容中擁有多名高大強(qiáng)壯的球員,但他們的角球得分情況卻不盡如人意。

在征求了俱樂(lè)部?jī)?nèi)部數(shù)據(jù)分析師的意見后,該隊(duì)增加了對(duì)內(nèi)旋角球(球轉(zhuǎn)向守門員方向)的使用。戰(zhàn)術(shù)轉(zhuǎn)變產(chǎn)生了驚人的效果。在整個(gè)賽季中,曼城隊(duì)依靠角球打入15個(gè)進(jìn)球,成為英超角球得分效率最高的球隊(duì),其中2/3的進(jìn)球采用的是內(nèi)旋角球。

17曼城隊(duì)這一實(shí)踐為數(shù)據(jù)驅(qū)動(dòng)型決策提供了強(qiáng)有力的支撐。事實(shí)上,早在兩年前,曼奇尼曾就球隊(duì)角球的使用情況咨詢過(guò)俱樂(lè)部的數(shù)據(jù)分析師。分析師回應(yīng),曼奇尼依靠直覺偏愛采用的戰(zhàn)術(shù)——外旋角球(球飛向遠(yuǎn)離守門員的方向)從數(shù)據(jù)統(tǒng)計(jì)上看并不理想。曼奇尼選擇相信自己的直覺而非數(shù)據(jù)分析的導(dǎo)向性建議。因?yàn)橹庇X告訴他,球旋向遠(yuǎn)離門將的方向減小了門將觸球的概率,同時(shí)增加了進(jìn)攻隊(duì)員沖頂時(shí)爭(zhēng)到頭球的概率。但當(dāng)曼奇尼發(fā)現(xiàn)兩種變數(shù)存在某種聯(lián)系的時(shí)候,直覺卻模糊了他對(duì)兩者關(guān)聯(lián)程度的判斷能力。換句話說(shuō),外旋角球和進(jìn)球數(shù)可能存在著某種關(guān)聯(lián),但數(shù)據(jù)表明,內(nèi)旋角球和進(jìn)球數(shù)存在著更為直接的因果關(guān)系。

18創(chuàng)立于2007年9月,是淘寶第一箱包品牌成功秘笈:強(qiáng)大的數(shù)據(jù)分析來(lái)鎖定消費(fèi)者需求利用IT技術(shù),麥包包實(shí)現(xiàn)了對(duì)淘寶、拍拍和有啊三大C2C平臺(tái)數(shù)百家箱包店鋪以及數(shù)十家B2C箱包網(wǎng)站的信息和數(shù)據(jù)抓取,從而判斷市場(chǎng)前景。麥包包的數(shù)據(jù)抓取范圍已經(jīng)走出中國(guó),開始監(jiān)控亞馬遜、eBay和歐洲的一些電子商務(wù)平臺(tái)。支撐這一系統(tǒng)的,是50多臺(tái)服務(wù)器以及10個(gè)專職的數(shù)據(jù)分析師,天天對(duì)抓回來(lái)的數(shù)據(jù)進(jìn)行分析,試圖精確捕捉消費(fèi)者需求。(7)麥包包:數(shù)據(jù)預(yù)測(cè)需求提前兩個(gè)月,麥包包就在做市場(chǎng)分析計(jì)算出各種款式的受歡迎度預(yù)測(cè)在淘寶以及它所有在線零售市場(chǎng)可能的銷售數(shù)額倒推回去做產(chǎn)品設(shè)計(jì)、包裝及宣傳推廣麥包包:數(shù)據(jù)預(yù)測(cè)需求成功模式中糧生化簡(jiǎn)介中糧集團(tuán)中糧集團(tuán)有限公司于1952年成立,是一家集貿(mào)易、實(shí)業(yè)、金融、信息、服務(wù)和科研為一體的大型企業(yè)集團(tuán),橫跨農(nóng)產(chǎn)品、食品、酒店、地產(chǎn)等眾多領(lǐng)域。1994年以來(lái),一直名列美國(guó)《財(cái)富》雜志全球企業(yè)500強(qiáng)。旗下上市公司

中國(guó)糧油

中國(guó)食品

中糧屯河

中糧包裝

中糧生化

中糧地產(chǎn)

蒙牛乳業(yè)旗下品牌福臨門玉米油,金帝巧克力,長(zhǎng)城葡萄酒…中糧生化簡(jiǎn)介信息化建設(shè)較為完善作為世界500強(qiáng)企業(yè),中糧集團(tuán)一直積極致力于信息化建設(shè)工作,充分利用信息化工具提高企業(yè)管理水平。中糧生化下屬各利潤(rùn)點(diǎn)基本實(shí)現(xiàn)業(yè)務(wù)流程的信息化,主要包括財(cái)務(wù)系統(tǒng)、生產(chǎn)制造系統(tǒng)、采購(gòu)系統(tǒng)、人力資源管理系統(tǒng)、6S報(bào)表系統(tǒng)。全面信息化后存在的問(wèn)題1數(shù)據(jù)量增大,數(shù)據(jù)難以管理★隨著中糧生化能源事業(yè)部各個(gè)業(yè)務(wù)系統(tǒng)的持續(xù)運(yùn)行和未來(lái)業(yè)務(wù)系統(tǒng)的陸續(xù)投入,形成了大量的基礎(chǔ)數(shù)據(jù)★子公司數(shù)據(jù)不斷上傳各業(yè)務(wù)系統(tǒng),給業(yè)務(wù)系統(tǒng)帶來(lái)大數(shù)據(jù)量的事務(wù)處理壓力全面信息化后存在的問(wèn)題2查詢與報(bào)表不足以支持戰(zhàn)略決策的需求★在各業(yè)務(wù)系統(tǒng)中進(jìn)行統(tǒng)計(jì)分析,對(duì)各系統(tǒng)的日?qǐng)?bào)表匯總形成企業(yè)整體日?qǐng)?bào)表★領(lǐng)導(dǎo)層不會(huì)看底層的原始數(shù)據(jù)和怎么處理業(yè)務(wù),希望看到整個(gè)公司層面的信息全面信息化后存在的問(wèn)題3信息孤島,部門數(shù)據(jù)相互獨(dú)立★銷售、財(cái)務(wù)、人力資源、生產(chǎn)、日?qǐng)?bào)表等業(yè)務(wù)系統(tǒng)相互獨(dú)立,形成信息孤島★各子公司數(shù)據(jù)相互獨(dú)立,無(wú)法滿足決策層統(tǒng)觀全局的要求商務(wù)智能解決方案-數(shù)據(jù)整合建立統(tǒng)一數(shù)據(jù)模型對(duì)數(shù)據(jù)的規(guī)范化定義,實(shí)現(xiàn)統(tǒng)一的信息資源層次體系、數(shù)據(jù)元素標(biāo)準(zhǔn)和信息編碼,建立統(tǒng)一的數(shù)據(jù)模型以滿足各個(gè)業(yè)務(wù)系統(tǒng)的集成。整合各個(gè)業(yè)務(wù)系統(tǒng),建立中糧生化數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)由于數(shù)據(jù)分布在不同的業(yè)務(wù)系統(tǒng),給數(shù)據(jù)共享、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用帶來(lái)很多不便,因此中糧生化整合各個(gè)業(yè)務(wù)系統(tǒng),建立中糧生化數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),將數(shù)據(jù)集中起來(lái),解決數(shù)據(jù)層面的信息孤島問(wèn)題。

商務(wù)智能解決方案-數(shù)據(jù)分析多維分析支持直接基于現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(kù)(關(guān)系型數(shù)據(jù)庫(kù))創(chuàng)建多維立方體;可進(jìn)行常規(guī)的切片,旋轉(zhuǎn)、鉆取等在線分析操作;支持圖表(如:直方圖、餅圖等),并能在圖表中鉆取數(shù)據(jù)。數(shù)據(jù)挖掘從時(shí)間、空間、橫向、縱向等多維度對(duì)數(shù)據(jù)進(jìn)行分析。按主題細(xì)分,可劃分為生產(chǎn)主題分析、采購(gòu)主題分析、銷售主題分析、財(cái)務(wù)主題分析、產(chǎn)成品庫(kù)存主題分析、物流主題分析、人力資源主題分析等。商務(wù)智能解決方案-數(shù)據(jù)分析銷售分析產(chǎn)品庫(kù)存管理分析物流管理分析人力資源管理分析財(cái)務(wù)管理分析原料采購(gòu)管理分析生產(chǎn)管理分析商務(wù)智能解決方案-結(jié)果展示能夠制作標(biāo)準(zhǔn)、主從、交叉、分組統(tǒng)計(jì)、參數(shù)等各種形式的報(bào)表能夠創(chuàng)建多種類型圖形包括2D和3D餅圖、柱狀圖、線性圖、泡泡圖、散點(diǎn)圖、漏斗圖、金字塔圖、錐體圖等,提供多種美觀儀表盤、信號(hào)燈等,支持多種形式的數(shù)據(jù)鉆取支持Web方式瀏覽,所有報(bào)表能發(fā)布到指定的Webserver,可以通過(guò)IE方式瀏覽各種報(bào)表的數(shù)據(jù)和相應(yīng)的圖表商業(yè)智能案例:銀行高管駕駛艙SmarteVision高管駕駛艙目標(biāo)32以用戶最熟悉工具實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)應(yīng)用高可用性高性能

及時(shí)的關(guān)鍵指標(biāo)以集團(tuán)運(yùn)營(yíng)的視角,滲透到整個(gè)企業(yè),釋放新的洞察力突破性的洞察力按需要,快速創(chuàng)建跨系統(tǒng)、逐步擴(kuò)展的業(yè)務(wù)解決方案按需求構(gòu)建與擴(kuò)大

關(guān)注三位一體戰(zhàn)略實(shí)況產(chǎn)品業(yè)務(wù)類別現(xiàn)金管理績(jī)效分析客戶貢獻(xiàn)分析36營(yíng)業(yè)網(wǎng)點(diǎn)收益分析37服務(wù)網(wǎng)點(diǎn)擴(kuò)張策略分析38數(shù)據(jù)挖掘(2)商務(wù)智能能夠?yàn)槲覀冏鍪裁??Tosupportdecisionmakingatalllevelsofbusinessmanagementbasedonthefactsand(scientific)predictionsofcurrentandfuturebusinesssituationsthatareobtainedfromintelligentanalysisofhistoricalbusinessdata.BusinessdecisionsmadewithBIsupportaremore

★Correct

★Accurate

★Objective

★Timely40聚類示意圖(1/5)41聚類示意圖(2/5)42聚類示意圖(3/5)43聚類示意圖(4/5)44聚類示意圖(5/5)45聚類——銀行客戶細(xì)分46聚類——非學(xué)生群體的通信行為474849復(fù)雜類型數(shù)據(jù)挖掘空間數(shù)據(jù)挖掘空間數(shù)據(jù)包括:地圖,遙感圖片,醫(yī)學(xué)圖像等空間數(shù)據(jù)的特點(diǎn)包括距離、位置、色塊、氣溫等信息。通常按照復(fù)雜、多維的空間索引結(jié)構(gòu)組織數(shù)據(jù)??臻g數(shù)據(jù)挖掘是指對(duì)空間中非顯式存在的知識(shí)、空間關(guān)系或其他有意義的模式等進(jìn)行提取,需要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù)技術(shù)。例如,通過(guò)對(duì)地質(zhì)斷裂帶應(yīng)力分析可以推斷出哪些地方近期發(fā)生地震的概率較高,這個(gè)挖掘過(guò)程中,不但需要對(duì)地址斷裂帶的地理位置數(shù)據(jù)進(jìn)行處理,還需要結(jié)合地震歷史數(shù)據(jù)和時(shí)間數(shù)據(jù)進(jìn)行挖掘。5051復(fù)雜類型數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)包括:音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖像數(shù)據(jù)等。典型的多媒體數(shù)據(jù)庫(kù)系統(tǒng)包括GoogleEarth,百度圖像,人類基因數(shù)據(jù)庫(kù)等。如在反恐檔案和追蹤系統(tǒng)中,應(yīng)用恐怖份子圖像查詢和搜索,音頻匹配與語(yǔ)音識(shí)別等方面。52圖像數(shù)據(jù)——輪胎痕跡(1/2)53圖像數(shù)據(jù)——輪胎痕跡(2/2)54圖像數(shù)據(jù)——模糊的車牌畫面(1/2)5556圖像數(shù)據(jù)——模糊的車牌畫面(2/2)文本挖掘和多媒體挖掘舉例(定制愛情)575859文本挖掘和多媒體挖掘舉例60文本挖掘和多媒體挖掘舉例花田界面清新簡(jiǎn)潔,采用類似微博的信息流展示形式。首頁(yè)是異性用戶最近更新的圖片、內(nèi)心獨(dú)白和文字傳情,展示其生活方式、個(gè)人品味等軟性資料?;ㄌ飯F(tuán)隊(duì)正試圖通過(guò)自然語(yǔ)言處理技術(shù)和語(yǔ)義分析方法來(lái)解碼用戶性格,實(shí)現(xiàn)“軟硬兼施”的精準(zhǔn)推薦。首先,他們運(yùn)用切分詞方法,從用戶的“內(nèi)心獨(dú)白”中提取出現(xiàn)頻率較高的關(guān)鍵詞;再將這些關(guān)鍵詞分類,如感性詞匯或理性詞匯;最后,通過(guò)文本分析、語(yǔ)義分析,從中挖掘出用戶的性格是內(nèi)向、外向、理想化還是現(xiàn)實(shí)派等等。6162文本挖掘和多媒體挖掘舉例花田團(tuán)隊(duì)只有30多個(gè)人,大多是85后。他們?cè)趯?duì)海量軟硬數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,總結(jié)出一些人物特征,建立出一定數(shù)量的人物模型。再分析具體用戶,將其分門別類套入各種模型。這樣,用戶心儀其中某一個(gè)人,便可向其推薦這一類人。這種模型不僅是性格模型,還包括外貌模型?!拔覀凂R上要推出人臉識(shí)別。比如你想找個(gè)像范冰冰的女生,你輸入范冰冰,就會(huì)推薦給你很多范冰冰臉型的女生?!被ㄌ锏暮笈_(tái)已經(jīng)提取出范冰冰臉型的數(shù)據(jù),之后還會(huì)推出幾十種流行的男女明星臉型供用戶選擇。63文本挖掘和多媒體挖掘舉例如果花田能夠跨產(chǎn)品平臺(tái),結(jié)合網(wǎng)易門戶、郵箱、游戲等其它網(wǎng)易資源進(jìn)行大數(shù)據(jù)分析,是否就能向用戶推薦與自身閱讀習(xí)慣、工作習(xí)慣、娛樂(lè)習(xí)慣都匹配的對(duì)象呢?真正的大數(shù)據(jù)必然是跨平臺(tái)的,但跨平臺(tái)數(shù)據(jù)提取在一定程度上又涉及用戶隱私。數(shù)據(jù)分析不只可用于精準(zhǔn)推薦,還能識(shí)別婚戀網(wǎng)站中的造假和詐騙。引入大數(shù)據(jù)可以開發(fā)出一套騙子識(shí)別模型,由以往的被動(dòng)等待用戶舉報(bào)騙子,改為主動(dòng)出擊。64網(wǎng)絡(luò)挖掘——尋找意見領(lǐng)袖65END66商務(wù)智能方法與應(yīng)用北京信息科技大學(xué)胡敏minmin516@第一章導(dǎo)言Lecture1:Introduction思維導(dǎo)圖上課內(nèi)容:whattorememberinclass?

whattounderstandinclass?

whattoexerciseafterclass?

whattowidenyoursights?

whattogodeepintoresearch?主要內(nèi)容1.1商務(wù)智能的基本概念1.2商務(wù)智能的過(guò)程1.3商務(wù)智能的系統(tǒng)構(gòu)成1.4商務(wù)智能的發(fā)展歷史1.1商務(wù)智能的基本概念商務(wù)智能數(shù)據(jù)信息和知識(shí)商務(wù)智能商務(wù)智能(Businessintelligence)1996年GartnerGroup

HowardDresner數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以輔助企業(yè)決策為目的一類技術(shù)及其應(yīng)用商務(wù)智能商務(wù)智能(Businessintelligence)工業(yè)界商務(wù)智能可以被看作是一類技術(shù)或工具,利用它們可以對(duì)大量的數(shù)據(jù)進(jìn)行收集、管理、分析和挖掘,以改善業(yè)務(wù)決策水平,增強(qiáng)企業(yè)的競(jìng)爭(zhēng)力學(xué)術(shù)界商務(wù)智能是一套理論、方法和應(yīng)用,通過(guò)它們可以快速地發(fā)現(xiàn)海量數(shù)據(jù)中隱含的各種知識(shí),有效地解決企業(yè)面臨的管理和決策問(wèn)題,支持企業(yè)的戰(zhàn)略實(shí)施。商務(wù)智能的概念

商務(wù)智能指收集、轉(zhuǎn)換、分析和發(fā)布數(shù)據(jù)的過(guò)程,目的是為了更好的決策。商務(wù)智能是指將數(shù)據(jù)轉(zhuǎn)化為知識(shí)的過(guò)程。它包括捕獲和分析信息,交流信息,以及利用這些信息開發(fā)市場(chǎng)。商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計(jì)商務(wù)知識(shí)和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升商務(wù)績(jī)效,增強(qiáng)綜合競(jìng)爭(zhēng)力的智慧和能力。BusinessIntelligenceisaprocessofturningdataintoknowledgeandknowledgeintoactionforbusinessgain

—DataWarehouseInstitute

商務(wù)智能是融合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成企業(yè)內(nèi)外數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的知識(shí),面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)企業(yè)經(jīng)營(yíng)決策,提升企業(yè)競(jìng)爭(zhēng)力。商務(wù)智能的概念

商務(wù)智能的概念數(shù)據(jù)ETL數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘可視化OLAP數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)POS人口統(tǒng)計(jì)生命周期77商務(wù)智能在行業(yè)的應(yīng)用銀行客戶利潤(rùn)分析分支行利潤(rùn)分析交叉銷售信用風(fēng)險(xiǎn)管理新產(chǎn)品推銷收費(fèi)策略保險(xiǎn)欺詐管理收費(fèi)策略目標(biāo)市場(chǎng)活動(dòng)客戶挽留客戶利潤(rùn)分析零售地區(qū)/商店各種貨物(品牌,分類等)銷售業(yè)績(jī)定價(jià)和減價(jià)市場(chǎng)籃子關(guān)系市場(chǎng)需求預(yù)測(cè)倉(cāng)儲(chǔ)規(guī)劃通訊客戶忠實(shí)客戶流失模式客戶利潤(rùn)分析競(jìng)爭(zhēng)分析欺詐管理80各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤(rùn)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁(yè)推薦商品推薦……基因挖掘基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析……銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究……相關(guān)行業(yè)商務(wù)應(yīng)用需求的推動(dòng)神經(jīng)網(wǎng)絡(luò)、決策樹、回歸分析、粗集、遺傳算法商務(wù)智能應(yīng)用領(lǐng)域銀行美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤(rùn)評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等電子商務(wù)網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁(yè);自適應(yīng)網(wǎng)站…生物制藥、基因研究DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性…電信欺詐甄別;客戶流失…保險(xiǎn)、零售……政府部門、教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)和公用事業(yè)等。利用商務(wù)智能的企業(yè)現(xiàn)在已越來(lái)越多,遍及各行各業(yè)。數(shù)據(jù)倉(cāng)庫(kù)理解業(yè)務(wù):網(wǎng)絡(luò)資源分析產(chǎn)品結(jié)構(gòu)及組合分析服務(wù)質(zhì)量分析業(yè)務(wù)發(fā)展分析理解客戶:客戶貢獻(xiàn)度分析客戶群體劃分客戶行為分析制訂市場(chǎng)營(yíng)銷策略風(fēng)險(xiǎn)分析:客戶流失的測(cè)算信用分析欺詐分析內(nèi)部績(jī)效考核:產(chǎn)品、部門利潤(rùn)分析資源分配資源成本分析誰(shuí)是最好的客戶?如何擴(kuò)大利潤(rùn)?如何避免風(fēng)險(xiǎn)?收入/成本如何分配?商務(wù)智能對(duì)企業(yè)的作用和價(jià)值不同層次的商務(wù)智能應(yīng)用以前發(fā)生了什么為什么發(fā)生了現(xiàn)在發(fā)生著什么將來(lái)會(huì)發(fā)生什么業(yè)務(wù)活動(dòng)管理不同層次的商務(wù)智能應(yīng)用商務(wù)智能用戶數(shù)據(jù)(data)數(shù)據(jù)是對(duì)事物描述的符號(hào)。在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)是數(shù)字、文字、圖像、聲音等可以輸入到計(jì)算機(jī)被識(shí)別的符號(hào)企業(yè)運(yùn)營(yíng)離不開數(shù)據(jù)。企業(yè)運(yùn)營(yíng)的各個(gè)環(huán)節(jié)每天都在積累數(shù)據(jù),如供應(yīng)商、客戶的數(shù)據(jù),銷售、生產(chǎn)以及庫(kù)存數(shù)據(jù)等。用戶生成數(shù)據(jù)(usergenerateddata,UGD)社會(huì)化媒體、智能化手機(jī)等使得全世界不計(jì)其數(shù)的個(gè)體也在不斷產(chǎn)生數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)(structureddata)通常二維表格的形式存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中交易細(xì)節(jié)表交易號(hào)商品號(hào)單價(jià)折扣數(shù)量005872051337922.99010058720514677520100587205000700104.500587206147525105.900587206113838107.5非結(jié)構(gòu)化數(shù)據(jù)(unstructureddata)文本數(shù)據(jù)iphone4s,目前最大的問(wèn)題,感覺還是電量,充滿一次,用兩天,不過(guò),我還沒(méi)怎么玩游戲,都是開瀏覽器之類的應(yīng)用,和聽歌,但是想想,畢竟手機(jī)的電池和ipad的還是沒(méi)法比。信息(information)通過(guò)一定的技術(shù)和方法,對(duì)數(shù)據(jù)進(jìn)行集成、分析,挖掘其潛在的規(guī)律和內(nèi)涵,得到的結(jié)果是信息。信息是具有商務(wù)意義的數(shù)據(jù)例如,通過(guò)對(duì)零售信息的集成和分析發(fā)現(xiàn),某超市的客戶群根據(jù)其消費(fèi)行為可以分為若干個(gè)群體,每個(gè)群體具有一些明顯的特征。例如,其中一個(gè)群體是單身女性,喜歡經(jīng)常購(gòu)買化妝品,消費(fèi)金額高。知識(shí)(knowledge)當(dāng)信息用于商務(wù)決策,并基于決策開展相應(yīng)的商務(wù)活動(dòng)時(shí),信息就上升為知識(shí)信息轉(zhuǎn)化為知識(shí)的過(guò)程不僅需要信息,而且需要結(jié)合決策者的經(jīng)驗(yàn)和能力,用以解決實(shí)際的問(wèn)題。例如,某連鎖超市的經(jīng)理發(fā)現(xiàn),近期化妝品的銷售業(yè)績(jī)下降了,為了解決該問(wèn)題,決定采取促銷措施,根據(jù)對(duì)數(shù)據(jù)的分析得到的客戶分群的信息,銷售經(jīng)理鎖定了促銷的目標(biāo)客戶群,最終開展了為這部分客戶郵寄優(yōu)惠券的促銷活動(dòng)。1.2商務(wù)智能過(guò)程1.2.1知識(shí)發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)的特征知識(shí)模式是使用一種形式化語(yǔ)言來(lái)進(jìn)行的表達(dá),表達(dá)描述了事實(shí)集合的子集中的一種顯著的事實(shí)。通過(guò)某種知識(shí)發(fā)現(xiàn)方法得到一個(gè)顧客細(xì)分的結(jié)果子集為{41歲顧客,42歲顧客,48歲顧客,43歲顧客,64歲顧客…},可以歸納為“40歲之上的顧客”或者“中年以上的顧客”等。知識(shí)發(fā)現(xiàn)強(qiáng)調(diào)模式的有效性、新穎性、潛在有用性以及最終能被理解。921.2商務(wù)智能過(guò)程1.2.2知識(shí)發(fā)現(xiàn)過(guò)程1、理解所要進(jìn)行研究的領(lǐng)域、與之相關(guān)的以前的知識(shí)、以及用戶的目標(biāo);2、創(chuàng)建/選擇目標(biāo)數(shù)據(jù)集合;3、數(shù)據(jù)清理和預(yù)處理;4、數(shù)據(jù)縮減和投影;5、選定數(shù)據(jù)挖掘任務(wù);6、選擇數(shù)據(jù)挖掘算法;7、數(shù)據(jù)挖掘過(guò)程;8、對(duì)挖掘出來(lái)的模式進(jìn)行解釋;9、完善和鞏固所發(fā)現(xiàn)的知識(shí)。9394信息管理學(xué)院1.2.2知識(shí)發(fā)現(xiàn)過(guò)程——7個(gè)步驟如下:1)數(shù)據(jù)清理:消除噪聲或不一致2)數(shù)據(jù)集成:多種數(shù)據(jù)源組合在一起3)數(shù)據(jù)選擇:從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式6)模式評(píng)估:根據(jù)某種興趣度量,識(shí)別表示知識(shí)的真正有趣的模式7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)1.2商務(wù)智能過(guò)程信息管理學(xué)院知識(shí)發(fā)現(xiàn)過(guò)程7個(gè)步驟如下:數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)知識(shí)任務(wù)相關(guān)的數(shù)據(jù)選擇與轉(zhuǎn)換數(shù)據(jù)挖掘模式評(píng)估與知識(shí)表示1.2商務(wù)智能過(guò)程商務(wù)智能流程1

Identifybusinessissue2Formulatebusinessquestion3Whatinfo.doIneed4WheredoIfindtheinfo.5Retrieveinfo.6

Analyse

Info.7

Report

answers8

Take

actions1.3商務(wù)智能的系統(tǒng)構(gòu)成六個(gè)主要組成部分?jǐn)?shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)在線分析處理數(shù)據(jù)探查數(shù)據(jù)挖掘業(yè)務(wù)性能管理數(shù)據(jù)源企業(yè)內(nèi)部的操作型系統(tǒng),即支持各業(yè)務(wù)部分日常運(yùn)營(yíng)的信息系統(tǒng)企業(yè)的外部,如人口統(tǒng)計(jì)信息、競(jìng)爭(zhēng)對(duì)手信息等數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)各種數(shù)據(jù)源的數(shù)據(jù)經(jīng)過(guò)抽取、轉(zhuǎn)換之后需要放到一個(gè)供分析使用的環(huán)境,以便對(duì)數(shù)據(jù)進(jìn)行管理,這就是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市(datamart):通常針對(duì)單個(gè)部門的數(shù)據(jù)倉(cāng)庫(kù),區(qū)別于企業(yè)范圍內(nèi)的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)可以將分析數(shù)據(jù)與實(shí)現(xiàn)業(yè)務(wù)處理的操作型數(shù)據(jù)隔離,一方面不影響業(yè)務(wù)處理系統(tǒng)的性能,另一方面為數(shù)據(jù)的分析提供了一個(gè)綜合的、集成的、統(tǒng)一的數(shù)據(jù)管理平臺(tái)。詳細(xì)信息在第8章介紹在線分析處理(onlineanalyticalprocessing)在線分析處理:業(yè)務(wù)性能度量可以通過(guò)多個(gè)維度、多個(gè)層次進(jìn)行多種聚集匯總,通過(guò)交互的方式發(fā)現(xiàn)業(yè)務(wù)運(yùn)行的關(guān)鍵性能指標(biāo)的異常之處。多維數(shù)據(jù)可以進(jìn)行多種操作如切片、切塊、下鉆、上卷等詳細(xì)信息在第9章介紹數(shù)據(jù)探查(exploration)包括靈活的查詢、即時(shí)報(bào)表以及統(tǒng)計(jì)方法等該類方法屬于被動(dòng)分析方法探查數(shù)據(jù)的方法可以借助統(tǒng)計(jì)上的中心性、發(fā)散性以及相關(guān)性的統(tǒng)計(jì)量分析,多變量分析時(shí)也可以借助可視化技術(shù)。詳細(xì)信息在第7、10章介紹。數(shù)據(jù)挖掘(datamining)數(shù)據(jù)挖掘是從大量數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)隱含的信息和知識(shí)的過(guò)程,屬于主動(dòng)分析方法,不需要分析者的先驗(yàn)假設(shè),可以發(fā)現(xiàn)未知的知識(shí)常用的分析方法包括分類、聚類、關(guān)聯(lián)分析、數(shù)值預(yù)測(cè)、序列分析、社會(huì)網(wǎng)絡(luò)分析等數(shù)據(jù)挖掘:分類分類(classification)是通過(guò)對(duì)具有類別的對(duì)象的數(shù)據(jù)集進(jìn)行學(xué)習(xí),概括其主要特征,構(gòu)建分類模型,根據(jù)該模型預(yù)測(cè)對(duì)象的類別的一種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)。例如,電信公司的客戶可以分為兩類,一類是忠誠(chéng)的,一類是流失的。根據(jù)這兩類客戶的個(gè)人特征方面的數(shù)據(jù)以及在公司的消費(fèi)方面的數(shù)據(jù),利用分類技術(shù)可以構(gòu)建分類模型數(shù)據(jù)挖掘:聚類聚類(clustering)是依據(jù)物以類聚的原理,將沒(méi)有類別的對(duì)象根據(jù)對(duì)象的特征自動(dòng)聚集成不同簇的過(guò)程,使得屬于同一個(gè)簇的對(duì)象之間非常相似,屬于不同簇的對(duì)象之間不相似。其典型應(yīng)用是客戶分群數(shù)據(jù)挖掘:關(guān)聯(lián)分析關(guān)聯(lián)分析最早用于分析超市中顧客一次購(gòu)買的物品之間的關(guān)聯(lián)性例如,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則(associationrule)“尿不濕

啤酒(0.5%,60%)”,其含義為,0.5%的交易中會(huì)同時(shí)購(gòu)買尿不濕和啤酒,且買尿不濕的交易中有60%會(huì)同時(shí)買啤酒數(shù)據(jù)挖掘:數(shù)值預(yù)測(cè)數(shù)值預(yù)測(cè)用于預(yù)測(cè)連續(xù)變量的取值。常用的預(yù)測(cè)方法是回歸分析例如,可以根據(jù)客戶個(gè)人特征,如年齡、工作類型、受教育程度、婚姻狀況等,來(lái)預(yù)測(cè)其每月的消費(fèi)額度。數(shù)據(jù)挖掘:序列分析序列分析是對(duì)序列數(shù)據(jù)庫(kù)進(jìn)行分析,從中挖掘出有意義模式的技術(shù)。序列模式(sequentialpattern)的發(fā)現(xiàn)屬于序列分析,它是從序列數(shù)據(jù)庫(kù)中發(fā)現(xiàn)的一種有序模式例如,《赤壁,鴻門宴,見龍卸甲》,意味著“看了赤壁之后會(huì)接著看鴻門宴,過(guò)段時(shí)間會(huì)看見龍卸甲”。數(shù)據(jù)挖掘:社會(huì)網(wǎng)絡(luò)分析社會(huì)網(wǎng)絡(luò)(socialnetwork)是由個(gè)人或組織及其之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)社會(huì)網(wǎng)絡(luò)分析(socialnetworkanalysis)是對(duì)社會(huì)網(wǎng)絡(luò)的結(jié)構(gòu)和屬性進(jìn)行分析,以發(fā)現(xiàn)其中的局部或全局特點(diǎn),發(fā)現(xiàn)其中有影響力的個(gè)人或組織,發(fā)現(xiàn)網(wǎng)絡(luò)的動(dòng)態(tài)變化規(guī)律等。業(yè)務(wù)績(jī)效管理業(yè)務(wù)績(jī)效管理(businessperformancemanagement),簡(jiǎn)稱BPM,又稱為企業(yè)績(jī)效管理(corporateperformancemanagement),是對(duì)企業(yè)的關(guān)鍵性能指標(biāo),如銷售、成本、利潤(rùn)以及可盈利性等,進(jìn)行度量、監(jiān)控和比較的方法和工具。這些信息通常通過(guò)可視化的工具如平衡積分卡和儀表盤等進(jìn)行展示。相關(guān)內(nèi)容見第10章。1.4商務(wù)智能的發(fā)展管理信息系統(tǒng)決策支持系統(tǒng)主管信息系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和在線分析處理管理信息系統(tǒng)(managementinformationsystem)簡(jiǎn)稱MIS,產(chǎn)生于二十世紀(jì)七十年代為企業(yè)提供企業(yè)管理的全方位信息,為管理人員提供管理決策信息的信息系統(tǒng)其目的主要是提供信息以實(shí)現(xiàn)對(duì)企業(yè)或組織的快速有效管理決策支持系統(tǒng)(decisionsupportsystem),簡(jiǎn)稱DSS,開始于二十世紀(jì)七十年代,發(fā)展于八十年代決策支持系統(tǒng)是基于計(jì)算機(jī)的用于支持業(yè)務(wù)或組織決策的信息系統(tǒng)。通常,決策支持系統(tǒng)基于數(shù)據(jù)庫(kù)和模型庫(kù),用于解決半結(jié)構(gòu)化和非結(jié)構(gòu)化的決策問(wèn)題,輔助管理人員做出快速、正確的決策主管信息系統(tǒng)(Executiveinformationsystem)簡(jiǎn)稱EIS,又稱為經(jīng)理信息系統(tǒng),出現(xiàn)于二十世紀(jì)八十年代是針對(duì)企業(yè)內(nèi)的高級(jí)管理人員的決策支持系統(tǒng)。這種系統(tǒng)提供了靈活的報(bào)表生成、預(yù)測(cè)、趨勢(shì)分析等功能。系統(tǒng)以直觀的形式展現(xiàn)企業(yè)的運(yùn)行狀況以及關(guān)鍵成功因素(criticalsuccessfactors)商務(wù)智能商務(wù)智能系統(tǒng)是隨著數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和在線分析處理等技術(shù)的發(fā)展于二十世紀(jì)九十年代而產(chǎn)生的通過(guò)數(shù)據(jù)倉(cāng)庫(kù)可以集成企業(yè)內(nèi)外的各種數(shù)據(jù),為數(shù)據(jù)的分析處理提供基礎(chǔ)。在線分析處理則提供從多個(gè)維度探查業(yè)務(wù)性能指標(biāo)的交互分析功能。數(shù)據(jù)挖掘結(jié)合人工智能、統(tǒng)計(jì)等技術(shù)實(shí)現(xiàn)對(duì)大量數(shù)據(jù)中潛在模式、規(guī)律、異常的發(fā)現(xiàn)和評(píng)價(jià)。這些新興的技術(shù)為企業(yè)管理人員提供了更強(qiáng)大的決策支持工具。第2章商務(wù)智能過(guò)程Lecture2:DevelopingBIapplications主要內(nèi)容2.1商務(wù)智能系統(tǒng)的開發(fā)方法2.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)2.3在線分析處理與在線事務(wù)處理2.4商務(wù)智能與決策支持系統(tǒng)2.1商務(wù)智能系統(tǒng)的開發(fā)方法商務(wù)智能系統(tǒng)的開發(fā)過(guò)程商務(wù)智能系統(tǒng)成功的關(guān)鍵因素2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)識(shí)別業(yè)務(wù)需求識(shí)別信息需求時(shí)間成本規(guī)劃規(guī)劃詳細(xì)的需求分析數(shù)據(jù)定義分析技術(shù)選擇設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)OLAP設(shè)計(jì)數(shù)據(jù)挖掘設(shè)計(jì)數(shù)據(jù)集市構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建數(shù)據(jù)集市在線分析處理數(shù)據(jù)挖掘算法增強(qiáng)查詢報(bào)表企業(yè)績(jī)效管理2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)在規(guī)劃階段,主要目標(biāo)是選擇要實(shí)施商務(wù)智能的業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域,從而解決企業(yè)的關(guān)鍵業(yè)務(wù)決策問(wèn)題,識(shí)別使用商務(wù)智能系統(tǒng)的人員以及相應(yīng)的信息需求,規(guī)劃項(xiàng)目的時(shí)間、成本、資源的使用了解每個(gè)業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域的需求,收集他們當(dāng)前急需解決的問(wèn)題企業(yè)中哪些業(yè)務(wù)環(huán)節(jié)的支出費(fèi)用太高?哪些過(guò)程耗用時(shí)間太長(zhǎng)?哪些環(huán)節(jié)的決策質(zhì)量不高2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)每類需求,重要性和實(shí)現(xiàn)的難易程度重要性方面,可以從三個(gè)方面進(jìn)行衡量衡量商務(wù)智能提供的信息的可操作性;衡量實(shí)施商務(wù)智能可能給企業(yè)帶來(lái)的回報(bào),衡量實(shí)施商務(wù)智能可以幫助企業(yè)實(shí)現(xiàn)短期目標(biāo)實(shí)現(xiàn)的難易程度商務(wù)智能的實(shí)現(xiàn)需要涉及的范圍衡量數(shù)據(jù)的可獲取性2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)分析階段,針對(duì)在規(guī)劃階段最終選擇要實(shí)現(xiàn)商務(wù)智能的業(yè)務(wù)部門或業(yè)務(wù)領(lǐng)域,進(jìn)行詳細(xì)的需求分析收集需要的各類數(shù)據(jù),選擇需要的商務(wù)智能支撐技術(shù),如數(shù)據(jù)倉(cāng)庫(kù)、在線分析數(shù)據(jù)或者數(shù)據(jù)挖掘等2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)如果要?jiǎng)?chuàng)建數(shù)據(jù)倉(cāng)庫(kù),則進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的模型設(shè)計(jì),常用的是多維數(shù)據(jù)模型。數(shù)據(jù)集市可以從數(shù)據(jù)倉(cāng)庫(kù)中抽取數(shù)據(jù)進(jìn)行構(gòu)建在不構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的情況下,也可以直接為某個(gè)業(yè)務(wù)部門設(shè)計(jì)和實(shí)現(xiàn)數(shù)據(jù)集市。如果要實(shí)現(xiàn)OLAP解決問(wèn)題,則要設(shè)計(jì)多維分析的聚集操作類型。如果要借助數(shù)據(jù)挖掘技術(shù),則需要選擇具體的算法2.1.1商務(wù)智能系統(tǒng)的開發(fā)過(guò)程規(guī)劃需求分析設(shè)計(jì)實(shí)現(xiàn)實(shí)現(xiàn)階段,選擇ETL工具實(shí)現(xiàn)源數(shù)據(jù)的抽取,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)和(或)數(shù)據(jù)集市對(duì)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的數(shù)據(jù),選取并應(yīng)用相應(yīng)的查詢或分析工具,包括增強(qiáng)型的查詢、報(bào)表工具、在線分析處理工具、數(shù)據(jù)挖掘系統(tǒng)以及企業(yè)績(jī)效管理工具等在具體應(yīng)用該系統(tǒng)之前,需要完成對(duì)系統(tǒng)的數(shù)據(jù)加載和應(yīng)用測(cè)試,設(shè)計(jì)系統(tǒng)的訪問(wèn)控制和安全管理方法。2.1.2商務(wù)智能系統(tǒng)成功的關(guān)鍵因素業(yè)務(wù)驅(qū)動(dòng)高層支持業(yè)務(wù)人員和IT人員的合作循序漸進(jìn)培訓(xùn)2.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)聯(lián)系表現(xiàn)在兩個(gè)方面數(shù)據(jù)倉(cāng)庫(kù)中的大部分?jǐn)?shù)據(jù)來(lái)自于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)中當(dāng)前絕大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都是利用數(shù)據(jù)庫(kù)系統(tǒng)來(lái)管理的區(qū)別:構(gòu)建目的、管理的數(shù)據(jù)、管理方法都不同數(shù)據(jù)庫(kù)主要用于實(shí)現(xiàn)企業(yè)的日常業(yè)務(wù)運(yùn)營(yíng),提高業(yè)務(wù)運(yùn)營(yíng)的效率;數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建主要用于集成多個(gè)數(shù)據(jù)源的數(shù)據(jù),這些數(shù)據(jù)最終用于分析數(shù)據(jù)庫(kù)通常只包含當(dāng)前數(shù)據(jù),數(shù)據(jù)的存儲(chǔ)盡量避免冗余,數(shù)據(jù)的組織按照業(yè)務(wù)過(guò)程涉及的數(shù)據(jù)實(shí)現(xiàn),是應(yīng)用驅(qū)動(dòng)的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照主題組織的,將某一主題的所有數(shù)據(jù)集成在一起,數(shù)據(jù)存在冗余2.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)區(qū)別:構(gòu)建目的、管理的數(shù)據(jù)、管理方法都不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)需要進(jìn)行頻繁的插入、刪除、修改等更新操作,需要復(fù)雜的并發(fā)控制機(jī)制保證事務(wù)運(yùn)行的隔離性。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要用于分析處理,除了初始的導(dǎo)入和成批的數(shù)據(jù)清除操作之外,數(shù)據(jù)很少需要更新操作數(shù)據(jù)庫(kù)中數(shù)據(jù)的更新操作的時(shí)效性很強(qiáng),事務(wù)的吞吐率是個(gè)非常重要的指標(biāo)。而數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量十分龐大,分析時(shí)通常涉及大量數(shù)據(jù),時(shí)效性不是最關(guān)鍵的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)質(zhì)量非常關(guān)鍵,不正確的數(shù)據(jù)將導(dǎo)致錯(cuò)誤的分析結(jié)果。2.3在線分析處理與在線事務(wù)處理OLTPvs.OLAP在線事務(wù)處理(onlinetransactionprocessing),簡(jiǎn)稱OLTP,是數(shù)據(jù)庫(kù)管理系統(tǒng)的主要功能,用于完成企業(yè)內(nèi)部各個(gè)部門的日常業(yè)務(wù)操作。在線分析處理(onlineanalyticalprocessing),簡(jiǎn)稱OLAP,是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,提供數(shù)據(jù)的多維分析以支持決策過(guò)程OLTPvs.OLAP

在線事務(wù)處理OLTP在線分析處理OLAP用戶普通職員管理人員,分析人員功能日常業(yè)務(wù)處理決策支持?jǐn)?shù)據(jù)庫(kù)設(shè)計(jì)高度規(guī)范化非規(guī)范化數(shù)據(jù)處理在線插入、刪除、修改批量加載和刪除使用方式重復(fù)操作即時(shí)的圖表形式的交互查詢執(zhí)行單元短的事務(wù)處理復(fù)雜的查詢數(shù)據(jù)當(dāng)前、細(xì)節(jié)數(shù)據(jù)歷史的匯總數(shù)據(jù)性能指標(biāo)事務(wù)吞吐量查詢響應(yīng)時(shí)間事務(wù)特性并發(fā)控制和事務(wù)恢復(fù)很重要并發(fā)控制和事務(wù)恢復(fù)不重要2.4商務(wù)智能與決策支持系統(tǒng)DSS決策支持系統(tǒng)(decisionsupportsystem)的概念最早由ScottMorton在20世紀(jì)70年代初提出“一種交互式的基于計(jì)算機(jī)的系統(tǒng),用于協(xié)助決策者使用數(shù)據(jù)和模型解決非結(jié)構(gòu)化的問(wèn)題”決策支持系統(tǒng)的用戶主要是管理人員和業(yè)務(wù)分析人員,主要目的是輔助決策者進(jìn)行科學(xué)決策DSS的系統(tǒng)架構(gòu)RalphH.Sprague和EricD.Carlson:對(duì)話-數(shù)據(jù)-模型架構(gòu)(Dialog-Data-Modeling,DDM)決策支持系統(tǒng)由數(shù)據(jù)庫(kù)管理系統(tǒng)、模型庫(kù)管理系統(tǒng)和對(duì)話產(chǎn)生與管理系統(tǒng)三部分組成。后來(lái)又引入了知識(shí)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)模型庫(kù)知識(shí)庫(kù)數(shù)據(jù)庫(kù)管理系統(tǒng)模型庫(kù)管理系統(tǒng)知識(shí)庫(kù)管理系統(tǒng)對(duì)話產(chǎn)生與管理系統(tǒng)用戶DSS數(shù)據(jù)庫(kù)管理系統(tǒng)用于抽取、存儲(chǔ)、更新決策所需的數(shù)據(jù)模型庫(kù)管理系統(tǒng)主要用于管理決策所需的各種模型知識(shí)庫(kù)管理系統(tǒng)提供知識(shí)的表示、存儲(chǔ)和管理,用于支持定量模型無(wú)法解決的決策過(guò)程,幫助用戶建立、應(yīng)用和管理描述性、過(guò)程性和推理性知識(shí)對(duì)話產(chǎn)生與管理系統(tǒng)主要負(fù)責(zé)用戶與系統(tǒng)的交互。數(shù)據(jù)庫(kù)模型庫(kù)知識(shí)庫(kù)數(shù)據(jù)庫(kù)管理系統(tǒng)模型庫(kù)管理系統(tǒng)知識(shí)庫(kù)管理系統(tǒng)對(duì)話產(chǎn)生與管理系統(tǒng)用戶DSS&BIDSS中數(shù)據(jù)庫(kù)的數(shù)據(jù)集成功能較弱,而數(shù)據(jù)倉(cāng)庫(kù)技術(shù),具有良好的數(shù)據(jù)集成、轉(zhuǎn)換等功能決策支持系統(tǒng)的知識(shí)庫(kù)通常是設(shè)置好的,知識(shí)很少發(fā)生變化,知識(shí)的類型和范圍很窄。商務(wù)智能系統(tǒng)則能從大量的數(shù)據(jù)中發(fā)現(xiàn)新穎有用的知識(shí),提供更加靈活的查詢和報(bào)表功能以及多維分析功能,可以對(duì)決策支持系統(tǒng)的知識(shí)庫(kù)進(jìn)行動(dòng)態(tài)更新商務(wù)智能系統(tǒng)與決策支持系統(tǒng)相比,在數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)方面具有更強(qiáng)的功能,但是它只提供對(duì)決策有幫助的信息,并不提供可能的決策方案第3章關(guān)聯(lián)分析Chapter3:AssociationAnalysis141關(guān)聯(lián)若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購(gòu)買活動(dòng)中所買不同商品的相關(guān)性。關(guān)聯(lián)分析即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)規(guī)則是形式如下的一種規(guī)則,“在購(gòu)買計(jì)算機(jī)的顧客中,有30%的人也同時(shí)購(gòu)買了打印機(jī)”。從大量的商務(wù)事務(wù)記錄中發(fā)現(xiàn)潛在的關(guān)聯(lián)關(guān)系,可以幫助人們作出正確的商務(wù)決策。142購(gòu)物籃分析此類關(guān)聯(lián)分析在零售業(yè),如超市等得到廣泛應(yīng)用,企業(yè)可以獲得注入產(chǎn)品間的關(guān)聯(lián),或者產(chǎn)品類別和購(gòu)買這些類別的產(chǎn)品的顧客的統(tǒng)計(jì)信息之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析又稱購(gòu)物籃分析,在銷售配貨、商店商品的陳列設(shè)計(jì)、超市購(gòu)物路線設(shè)計(jì)、產(chǎn)品定價(jià)和促銷等方面得到廣泛應(yīng)用。143什么是關(guān)聯(lián)挖掘?關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)結(jié)構(gòu)。應(yīng)用:購(gòu)物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、聚集和分類等。舉例:

規(guī)則形式:“Body—>Head[support,confidence]”.buys(x,“diapers”)—>buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)—>grade(x,“A”)[1%,75%]主要內(nèi)容3.1頻繁模式與關(guān)聯(lián)規(guī)則3.2頻繁項(xiàng)集的典型挖掘方法3.3關(guān)聯(lián)規(guī)則的生成方法3.4關(guān)聯(lián)規(guī)則的其他類型3.5關(guān)聯(lián)規(guī)則的興趣度的其他度量3.1頻繁模式與關(guān)聯(lián)規(guī)則從交易數(shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)以及其他的數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)或?qū)ο蟮念l繁模式(frequentpatterns)、關(guān)聯(lián)(associations)的過(guò)程buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]Rao,SrikumarS.“Diaper-beerSyndrome,”Forbes,April6,1998.pp.128–130outlooktemperaturehumiditywindyplaysunnyhothighFALSEnosunnyhothighTRUEnoovercasthothighFALSEyesrainymildhighFALSEyesrainycoolnormalFALSEyes交易號(hào)(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts交易數(shù)據(jù)庫(kù)I={A,B,C,D,E,F}2項(xiàng)集:Transactionaldatabase

每個(gè)交易:由顧客一次購(gòu)買的商品(items)組成I={i1,i2,…,im}項(xiàng)集(Itemset):x={ij1,ij2,…,ijp},ijiI每個(gè)項(xiàng)集包含的項(xiàng)的個(gè)數(shù),稱為項(xiàng)集的長(zhǎng)度,一個(gè)長(zhǎng)度為k的項(xiàng)集又稱為k項(xiàng)集。支持度(Support)交易包含項(xiàng)集X的概率E.g.X={A},Y={A,B}=AB若support(X)>=minsup,則X稱為頻繁項(xiàng)集(frequentitemset),也可以說(shuō)X是頻繁的.設(shè)minsup=50%{A:3,B:3,D:4,E:3,AD:3}TIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F閉合頻繁項(xiàng)集一個(gè)頻繁項(xiàng)集X被稱為閉合頻繁項(xiàng)集(closedfrequentitemset)當(dāng)且僅當(dāng)不存在任一個(gè)項(xiàng)集Y滿足X

Y且support(Y)=support(X)。閉合頻繁項(xiàng)集X被稱為是閉合的。例如:A是頻繁的,但不是閉合的,因?yàn)閟upport(AD)=support(A),且A

ADTIDItemsbought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則給定兩個(gè)項(xiàng)集X和Y,關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)含式X

I稱為規(guī)則的前件,Y

I稱為規(guī)則的后件,X∩Y=

規(guī)則X→Y的支持度(support)support(X→Y)=support(X∪Y)規(guī)則X→Y的置信度(confidence)SupportandconfidenceTransaction-idItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F關(guān)聯(lián)規(guī)則:X

Ysupport(X

Y)=support(X∪Y)=|TXY|/nE.g:X={A}Y={C}support(A

C)=support(AC)=0.2X={A,D}=ADY=Csupport(AD

C)=support=(ADC)=0.2SupportandconfidenceTIDItemsbought10A,B,D20A,C,D30A,E40B,E,F50B,C,D,E,F置信度(confidence)Confidence(X

Y)=|TXY|/|TX|=sup(XY)/sup(X)A

C(20%,33%)AD

C(20%,50%)買尿片的交易同時(shí)買啤酒和尿片的交易買啤酒的交易關(guān)聯(lián)規(guī)則的挖掘給定如下閾值minimumsupport:minsupMinimumconfidence:

minconf發(fā)現(xiàn)所有形如X

Y

的關(guān)聯(lián)規(guī)則,滿足Support(XY)≥minsupConfidence(XY)≥minconf3.2頻繁項(xiàng)集的典型挖掘方法3.2.1逐層發(fā)現(xiàn)算法AprioriApriori(Agrawal&Srikant@VLDB’94)3.2.2無(wú)候選集發(fā)現(xiàn)算法FP-growthFreq.patterngrowth(FPgrowth—Han,Pei&Yin@SIGMOD’00)其他方法:Verticaldataformatapproach(Charm—Zaki&Hsiao@SDM’02)Highdimensionaldataset:TD-close(Liu,Han,etal.@ICDE06)…3.2.1逐層發(fā)現(xiàn)算法Apriori主要步驟k=1統(tǒng)計(jì)每個(gè)k項(xiàng)候選集的支持度,找出頻繁的k項(xiàng)集:Lk利用頻繁的k項(xiàng)集生成k+1項(xiàng)候選集(Candidateitemset

):Ck+1k=k+1;轉(zhuǎn)至步驟2示例DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2minsup=2/4如何生成候選項(xiàng)集?性質(zhì)1:給定最小支持度閾值minsup,一個(gè)頻繁項(xiàng)集的所有非空子集都是頻繁的。if{beer,diaper}isfrequent,sois{beer}and{diaper}If{beer}isnotfrequent,{beer,diaper}isnotfrequentApriori剪裁規(guī)則:若存在某些項(xiàng)集是不頻繁的,則這些項(xiàng)集的任何超集都是不頻繁的,因而無(wú)須生成和測(cè)試。157

項(xiàng)集格上圖是{i1,i2,i3,i4}的項(xiàng)集格(lattice),這種結(jié)構(gòu)能枚舉所有可能的項(xiàng)集。假設(shè){i2,i3,i4}是頻繁項(xiàng)集,那么它的所有子集{i2},{i3},{i4},{i2,i3},{i2,i4}和{i3,i4}都是頻繁的。反之,如{i1,i2}是非頻繁的,它的所有超集{i1,i2,i3},{i1,i2,i4}和{i1,i2,i3,i4}都是非頻繁的。如何生成候選項(xiàng)集?假設(shè)每個(gè)Lk

中的項(xiàng)集的項(xiàng)都是按順序排列的步驟1:兩兩組合

Lk中項(xiàng)集生成

Ck+1步驟2:裁剪(pruning)如何生成候選項(xiàng)集?假設(shè)項(xiàng)集的項(xiàng)按字母序排列:beer<bread<butter<cheese<diaper<nuts如何生成候選項(xiàng)集?步驟1

abcd

abce設(shè)p和q

是Lk

中的兩個(gè)項(xiàng)集,滿足時(shí)生成(k+1)項(xiàng)集:p.item1=q.item1,…,p.itemk-1=q.itemk-1,

p.itemk<q.itemkp.item1p.item2…p.itemk-1p.itemkq.item1q.item2…q.itemk-1q.itemkp.item1p.item2…p.itemk-1p.itemkq.itemk如何生成候選項(xiàng)集?步驟1字母序:a<b<c<d<eL3={abc,abd,acd,ace,bcd}abcdfromabcandabdacdefromacdandaceC4={abcd,acde}L3item1item2item3abcabdacdacebcd如何生成候選項(xiàng)集?步驟2刪除那些包含非頻繁k項(xiàng)集的(k+1)項(xiàng)集E.g:L3={abc,abd,acd,ace,bcd},C4={abcd,acde}由于{cde}不頻繁,所以acde不可能頻繁

C4={abcd}DatabaseTDB1stscanC1C2C22ndscanL33rdscanC3L1L2TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}2Supmin=2164Apriori性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:多次掃描數(shù)據(jù)庫(kù):

如果最長(zhǎng)的模式是n的話,則需要

n+1次數(shù)據(jù)庫(kù)掃描FP增長(zhǎng)算法與Apriori算法不同,頻繁模式增長(zhǎng)(frequentpatterngrowth)算法,簡(jiǎn)稱FP增長(zhǎng)算法使用一種稱為FP樹的數(shù)據(jù)結(jié)構(gòu),并且采用分而治之的策略,無(wú)需產(chǎn)生候選頻繁項(xiàng)集就能得到全部的頻繁項(xiàng)集。3.2.2無(wú)候選集發(fā)現(xiàn)算法FP-growthFPgrowth—Han,Pei&Yin@SIGMOD’00采用一種樹的數(shù)據(jù)結(jié)構(gòu)(FP-tree)來(lái)實(shí)現(xiàn)頻繁項(xiàng)集的發(fā)現(xiàn),不需要先生成候選項(xiàng)集FP-tree的特點(diǎn)完整性保留了用于挖掘頻繁項(xiàng)集的所有信息緊湊性減少了與頻繁項(xiàng)集挖掘無(wú)關(guān)的信息,F(xiàn)-list:高頻項(xiàng)更多機(jī)會(huì)被不同交易共享永遠(yuǎn)小于原來(lái)的交易數(shù)據(jù)庫(kù)TID Itemsbought 100 {f,a,c,d,g,i,m,p}

200 {a,b,c,f,l,m,o}300

{b,f,h,j,o,w}

400

{b,c,k,s,p}

500

{a,f,c,e,l,p,m,n}

算法:FP-growthHeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3minsup=3/5掃描交易數(shù)據(jù)庫(kù),找出所有頻繁單項(xiàng)按照支持度降序排列所有頻繁單項(xiàng),得到f-list掃描交易數(shù)據(jù)庫(kù),構(gòu)建FP-treeT調(diào)用mineTree(T,}f-list=f-c-a-b-m-p{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1FP-treeTID (ordered)frequentitems100

{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}頻繁項(xiàng)集的分割頻繁項(xiàng)集的集合可以分為若干個(gè)不相交的子集例如:F-list=f-c-a-b-m-p所有包含p的項(xiàng)集含有m不包含p的項(xiàng)集…含有c

不含a,b,m,p的項(xiàng)集項(xiàng)f生成條件模式庫(kù)(conditionalpatternbase)從頭表(headertable)開始

通過(guò)指針鏈遍歷FP-tree找到所有包含某項(xiàng)如p的分支合并相同前綴路徑,構(gòu)成

p條件模式庫(kù)Conditionalpatternbasesitem cond.patternbasec f:3a fc:3b fca:1,f:1,c:1m fca:2,fcab:1p fcam:2,cb:1{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HeaderTableItemfrequencyheadf 4c 4a 3b 3m 3p 3FP-tree:T100{f,c,a,m,p}200 {f,c,a,b,m}300

{f,b}400

{c,b,p}500

{f,c,a,m,p}mineTree(T,X){}c:3HeaderTableItemfrequencyheadc 3Tpfcam:2cb:1以p為例:X=

;生成并輸出頻繁項(xiàng)集X∪{p}=p,support=3生成p的條件模式庫(kù)統(tǒng)計(jì)單項(xiàng)頻率:c:3,f:2,a:2,m:2,

b:1為條件模式庫(kù)構(gòu)建FP-tree:

TpX={p},調(diào)用mineTree(Tp,X)優(yōu)化對(duì)單支前綴路徑特殊處理,減少處理時(shí)間設(shè)minsup=2(出現(xiàn)2次)圖3.2頻繁模式樹T項(xiàng)集頻數(shù)abc2abd2表3.3項(xiàng)e的條件模式庫(kù)優(yōu)化

圖3.3項(xiàng)e的頻繁模式樹Te

圖3.4頻繁模式樹Te的多分支部分Q單支前綴路徑ab:5,生成與e的所有組合,即S={ae:4,be:4,abe:4}將此路徑用一個(gè)空的根節(jié)點(diǎn)替換,生成樹Q,分別對(duì)單項(xiàng)c和d處理,分別生成了1個(gè)項(xiàng)集,ce和de,構(gòu)成集合M={ce:2,de:2}返回S∪M∪(S

M),S

M={ace:2,ade:2,bce:2,bde:2,abce:2,abde:2}挖掘高維度數(shù)據(jù)集中的頻繁項(xiàng)集Carpenter(Pan,etal.@KDD’03)MinedatasetswithsmallrowsbutnumerouscolumnsConstructabottom-uprow-enumerationtreeforefficientminingTD-close(Liu,Han,etal.@ICDE06)MinedatasetswithsmallrowsbutnumerouscolumnsConstructaTop-downrow-enumerationtreeforefficientminingMiningFrequentPatternsfromVeryHighDimensional

Data:ATop-DownRowEnumerationApproach

HongyanLiuTsinghuaUniversityJiaweiHan,DongXin,ZhengShao

UniversityofIllinoisatUrbana-Champaign行枚舉方法riABCD1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d39/4/2024Minsup=2TableTTransposedTableitemsetrowseta11,2,3a24,5b11,2,3,4c11,3c22,4,5d22,3,49/4/2024自上而下的挖掘策略1a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d25a2b2c2d313a1b1c124b1c2d225c234b1d245a2c2351514b123a1b1d2245c2234b1d2134b1124b1123a1b113512514523534512a1b11245134523451234b11235Minsup=3123459/4/2024自上而下、分而治之的遞歸挖掘345134523451234545a2c2245c214512455a2b2c2d325c2351513512523512351a1b1c1d12a1b1c2d23a1b1c1d24a2b1c2d213a1b1c124b1c2d234b1d214b123a1b1d2234b1d2134b1124b1123a1b112a1b11234b1Without5With5w/o4With45w/o3With345w/o2With2345w/o1Divide-and-conquer3.3關(guān)聯(lián)規(guī)則的生成方法生成關(guān)聯(lián)規(guī)則為每個(gè)頻繁項(xiàng)集l,生成非空子集s;若滿足

則輸出規(guī)則:(l-s)

se.g:l=ABCD,s=D,(l-s)=ABCconfidence(ABC

D)=support(ABCD)/support(ABC)生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%

Confidence(B

CE)<80%

Confidence(E

BC)<80%

Confidence(C

BE)<80%

L1L2L3生成關(guān)聯(lián)規(guī)則minconf=80%For{BCE}:Confidence(BE

C)<80%,Confidence(BC

E)>80% Confidence(CE

B)>80%confidence(C

BE):<80%L1L2L3生成關(guān)聯(lián)規(guī)則ForBCE,Confidence(BE

C)<80%,HowaboutB

ECandE

BC?生成關(guān)聯(lián)規(guī)則對(duì)于頻繁項(xiàng)集l=ABCD若BCDA和ACDB

都成立

則CDAB

有可能成立.若CDAB,BDAC,和ADBC都成立,

則DABC

有可能成立3.4關(guān)聯(lián)規(guī)則的其他類型關(guān)聯(lián)規(guī)則的類型多層次關(guān)聯(lián)規(guī)則什么品牌的啤酒和尿片(diapers)有關(guān)聯(lián)?多維關(guān)聯(lián)規(guī)則

負(fù)關(guān)聯(lián)規(guī)則、無(wú)關(guān)規(guī)則(dissociationrule)

playbasketballnoteatcereal[20%,33.3%]結(jié)構(gòu)化數(shù)據(jù)中的關(guān)聯(lián)分析多層次關(guān)聯(lián)規(guī)則項(xiàng)有概念層次性低層的項(xiàng)通常具有較低的支持度將項(xiàng)抽象到一定高的層次產(chǎn)生的規(guī)則更有意義一個(gè)超市的庫(kù)存中至少有10000個(gè)項(xiàng)FoodbreadmilkskimSunsetFraser2%whitewheat

milk→bread[20%,60%].2%milk→wheatbread[6%,50%].多層次關(guān)聯(lián)規(guī)則兩類單層 F→G BC→E多層 FC→ETidItems10A,C,D20B,C,E30A,B,C,E40B,EHGFAEBDC信息管理學(xué)院示例:給定某事務(wù)的任務(wù)相關(guān)數(shù)據(jù)集D,它是計(jì)算機(jī)部的銷售數(shù)據(jù),對(duì)每個(gè)事務(wù)TID給出了購(gòu)買的商品多層關(guān)聯(lián)規(guī)則信息管理學(xué)院商品的概念分層如:計(jì)算機(jī)類商品軟件計(jì)算機(jī)計(jì)算機(jī)輔件打印機(jī)臺(tái)式機(jī)筆記本應(yīng)用系統(tǒng)彩色黑白鼠標(biāo)鍵盤IBM…康柏財(cái)務(wù)操作系統(tǒng)佳能HP雙飛燕康柏多層關(guān)聯(lián)規(guī)則信息管理學(xué)院概念分層定義了由低層概念到更一般的高層概念的映射序列,可以通過(guò)將數(shù)據(jù)內(nèi)的低層概念用概念分層的高層概念替換,對(duì)數(shù)據(jù)概化。例中概念分層為4層,記為0,1,2和3在最低的原始層很難找出有趣的購(gòu)買模式,如{IBM臺(tái)式機(jī),HP激光打印機(jī)}不太可能滿足最小支持度。而{計(jì)算機(jī),打印機(jī)}更容易滿足最小支持度多層關(guān)聯(lián)規(guī)則信息管理學(xué)院?jiǎn)栴}:如何使用概念分層有效挖掘多層關(guān)聯(lián)規(guī)則。考察一些基于支持度-置信度框架的方法對(duì)于所有層使用一致的最小支持度在較低層使用遞減的最小支持度逐層獨(dú)立層交叉單項(xiàng)過(guò)濾層交叉K-項(xiàng)集過(guò)濾挖掘多層關(guān)聯(lián)規(guī)則的方法信息管理學(xué)院2.

挖掘多層關(guān)聯(lián)規(guī)則的方法對(duì)于所有層使用一致的最小支持度:在每一層挖掘時(shí),使用相同的最小支持度閾值。如整個(gè)使用最小支持度閾值5%計(jì)算機(jī)[support=10%]臺(tái)式機(jī)[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=5%信息管理學(xué)院2.

挖掘多層關(guān)聯(lián)規(guī)則的方法在較低層使用遞減的最小支持度:在每個(gè)抽象層有自己的最小支持度閾值。抽象層越低,對(duì)應(yīng)的閾值越小。如層1和層2的最小支持度閾值分別為5%和3%計(jì)算機(jī)[support=10%]臺(tái)式機(jī)[support=4%]筆記本[support=6%]層1min_sup=5%層2min_sup=3%信息管理學(xué)院逐層獨(dú)立:完全的寬度搜索,沒(méi)有頻繁項(xiàng)集的背景知識(shí)用于剪枝??疾烀總€(gè)節(jié)點(diǎn),不管它的父節(jié)點(diǎn)是否是頻繁的。計(jì)算機(jī)[support=10%]臺(tái)式機(jī)[support=4%]筆記本[support=6%]層1min_sup=12%層2min_sup=3%信息管理學(xué)院層交叉單項(xiàng)過(guò)濾:一個(gè)第i層的項(xiàng)被考察,當(dāng)且僅當(dāng)它在第(i-1)層的父節(jié)點(diǎn)是頻繁的。根據(jù)遞減支持度,如果父節(jié)點(diǎn)是頻繁的,它的子女將被考察;否則,它的子孫將由搜索中剪枝。計(jì)算機(jī)[support=10%]臺(tái)式機(jī)(未考察)筆記本(未考察)層1min_sup=12%層2min_sup=3%信息管理學(xué)院層交叉k-項(xiàng)集過(guò)濾:一個(gè)第i層的k-項(xiàng)集被考察,當(dāng)且僅當(dāng)它在第(i-1)層的對(duì)應(yīng)父節(jié)點(diǎn)k-項(xiàng)集是頻繁的。計(jì)算機(jī),打印機(jī)[support=8%]臺(tái)式機(jī),彩色打印機(jī)[support=4%]筆記本,黑白打印機(jī)[support=2%]層1min_sup=5%層2min_sup=3%逐層獨(dú)立策略的條件寬松,而層交叉k-項(xiàng)集過(guò)濾策略的限制太強(qiáng),層交叉單項(xiàng)過(guò)濾策略是一個(gè)折衷。進(jìn)一步改進(jìn)為受控層交叉單項(xiàng)過(guò)濾策略。通過(guò)設(shè)置一個(gè)層傳遞閾值,用于向較低層“傳遞”相對(duì)頻繁的項(xiàng)信息管理學(xué)院受控的層交叉單項(xiàng)過(guò)濾策略:如果滿足層傳遞閾值,則允許考察不滿足最小支持度閾值項(xiàng)的子女計(jì)算機(jī)[suppo

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論