




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析方法——以關(guān)聯(lián)分析為例第1頁,共17頁。目錄大數(shù)據(jù)是什么大數(shù)據(jù)分析五個方面關(guān)聯(lián)分析第2頁,共17頁。大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。截至2012年,單一數(shù)據(jù)集的大小從數(shù)兆字節(jié)(TB)至數(shù)十兆億字節(jié)(PB)不等。經(jīng)濟(jì)的開發(fā)成長促進(jìn)了密集數(shù)據(jù)科技的使用。全世界共有約46億的移動電話用戶,并有10至20億人鏈接互聯(lián)網(wǎng)。自1990年起至2005年間,全世界有超過10億人進(jìn)入中產(chǎn)階級,收入的增加造成了識字率的提升,更進(jìn)而帶動信息量的成長。全世界通過電信網(wǎng)絡(luò)交換信息的容量在1986年為281兆億字節(jié)(PB),1993年為471兆字節(jié),2000年時增長為2.2艾字節(jié)(EB),在2007年則為65艾字節(jié)。根據(jù)預(yù)測,在2013年互聯(lián)網(wǎng)每年的信息流量將會達(dá)到667艾字節(jié)。1.——Wikipedia第3頁,共17頁。大數(shù)據(jù)2.2011年,新生成的和復(fù)制的信息量估計超過了1.8ZB(澤字節(jié));而在2013年,這一數(shù)字估計可達(dá)4ZB.1ZB=1024EB=1024*1024PB=1024*1024*1024TBZB與TB相差的數(shù)量級等于TB與KB之間相差的數(shù)量級.第4頁,共17頁。大數(shù)據(jù)應(yīng)用的威力3.醫(yī)療保險和醫(yī)療補(bǔ)助服務(wù)中心已經(jīng)開始在要求支付前用預(yù)測分析軟件來標(biāo)示看似報銷欺詐的憑據(jù)。欺詐預(yù)防系統(tǒng)有助于實(shí)時甄別高風(fēng)險醫(yī)療保健提供者的欺詐、浪費(fèi)與濫用行為,它已經(jīng)終止、阻止或確認(rèn)了1.15億美元的欺詐性支付,在該程序上頭一年花的每1美元帶來了3美元的成本節(jié)約。在阿富汗戰(zhàn)爭最激烈的那幾年,美國國防高級研究計劃局派遣了數(shù)據(jù)科學(xué)家團(tuán)隊和可視化技術(shù)團(tuán)隊到戰(zhàn)地。在一個名為Nexus7的計劃中,這些團(tuán)隊被直接派進(jìn)作戰(zhàn)部隊,用他們的工具幫助指揮官解決特定的作戰(zhàn)計劃。在其中一個地區(qū),Nexus7的工程師將衛(wèi)星數(shù)據(jù)和監(jiān)測儀數(shù)據(jù)融合,觀察交通工具是如何在道路網(wǎng)中流動,這使其更容易定位并摧毀簡易爆炸裝置。 -------白宮2014“大數(shù)據(jù)”白皮書第5頁,共17頁。大數(shù)據(jù)分析五個方面4.1.預(yù)測性分析能力
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。
2.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。
3.可視化分析
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
4.語義引擎
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。
5.數(shù)據(jù)挖掘算法
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
第6頁,共17頁。關(guān)聯(lián)分析關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。或者說,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系。5.第7頁,共17頁。關(guān)聯(lián)分析關(guān)聯(lián)分析研究的關(guān)系有兩種:簡單關(guān)聯(lián)關(guān)系和序列關(guān)聯(lián)關(guān)系。簡單關(guān)聯(lián)關(guān)系購買面包的顧客中80%會購買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒有共同屬性,但是二者搭配后就是一頓美味早餐。商場購買時,如果你把這兩樣擺在一起時,就會刺激顧客的潛意識聯(lián)系了二者的關(guān)系,并刺激購買。這是一種簡單的關(guān)聯(lián)關(guān)系。6.第8頁,共17頁。關(guān)聯(lián)分析序列關(guān)聯(lián)關(guān)系比如買了iphone手機(jī)的顧客中80%會選擇購買iphone手機(jī)保護(hù)殼,這就是序列關(guān)聯(lián)關(guān)系,一般沒人先去買個保護(hù)殼再去買手機(jī)。這是存在先后的時間上的順序的。7.關(guān)聯(lián)分析研究的關(guān)系有兩種:簡單關(guān)聯(lián)關(guān)系和序列關(guān)聯(lián)關(guān)系。第9頁,共17頁。關(guān)聯(lián)分析8.關(guān)聯(lián)算法的三個概念1.支持度(Support)
就是數(shù)據(jù)集中包含某幾個特定項(xiàng)的概率。比如在1000次的商品交易中同時出現(xiàn)了啤酒和尿布的次數(shù)是50次,那么此關(guān)聯(lián)的支持度為5%。2.置信度(Confidence)
就是在數(shù)據(jù)集中已經(jīng)出現(xiàn)A時,B發(fā)生的概率,置信度的計算公式是:A與B同時出現(xiàn)的概率/A出現(xiàn)的概率。3.提高度(Lift,也稱興趣度)
即商品之間的親密關(guān)系。當(dāng)提高度指標(biāo)大于1時,表明商品之間可能具有真正的關(guān)聯(lián)關(guān)系。提高度數(shù)據(jù)越大,則商品之間的關(guān)聯(lián)意義越大。如果提高度小于1.0時,表明商品之間不可能具有真正的關(guān)聯(lián)關(guān)系。在某些情況下,提高度會出現(xiàn)負(fù)值,此時商品之間很有可能具有相互排斥的關(guān)系,體現(xiàn)在購物籃中,就是這些商品從來不會出現(xiàn)在同一個購物籃中。第10頁,共17頁。關(guān)聯(lián)分析案例-購物籃分析在一家超市中,人們發(fā)現(xiàn)了一個特別有趣的現(xiàn)象:尿布與啤酒這兩種風(fēng)馬牛不相及的商品居然擺在一起。但這一奇怪的舉措居然使尿布和啤酒的銷量大幅增加了。這可不是一個笑話,而是一直被商家所津津樂道的發(fā)生在美國沃爾瑪連鎖超市的真實(shí)案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這個發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧櫋?.第11頁,共17頁。關(guān)聯(lián)分析-關(guān)聯(lián)分析階段10.1.第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(LargeItemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。以一個包含A與B兩個項(xiàng)目的2-itemset為例,我們可以求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時,則{A,B}稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequentk-itemset),一般表示為Largek或Frequentk。算法并從Largek的項(xiàng)目組中再試圖產(chǎn)生長度超過k的項(xiàng)目集Largek+1,直到無法再找到更長的高頻項(xiàng)目組為止。2.第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小可信度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的可信度滿足最小可信度,則稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則,若其可信度大于等于最小可信度,則稱{A,B}為關(guān)聯(lián)規(guī)則。第12頁,共17頁。關(guān)聯(lián)分析-關(guān)聯(lián)分析階段11.就“啤酒+尿布”這個案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的記錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小可信度兩個門檻值,在此假設(shè)最小支持度min-support=5%且最小可信度min-confidence=65%。因此符合需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘所找到的關(guān)聯(lián)規(guī)則{尿布,啤酒}滿足下列條件,將可接受{尿布,啤酒}的關(guān)聯(lián)規(guī)則。用公式可以描述為:Support(尿布,啤酒)≥5%andConfidence(尿布,啤酒)≥65%。其中,Support(尿布,啤酒)≥5%于此應(yīng)用范例中的意義為:在所有的交易記錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時購買的交易行為。Confidence(尿布,啤酒)≥65%于此應(yīng)用范例中的意義為:在所有包含尿布的交易記錄資料中,至少有65%的交易會同時購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,我們將可推薦該消費(fèi)者同時購買啤酒。這個商品推薦的行為則是根據(jù){尿布,啤酒}關(guān)聯(lián)規(guī)則而定,因?yàn)榫瓦^去的交易記錄而言,支持了“大部分購買尿布的交易,會同時購買啤酒”的消費(fèi)行為。第13頁,共17頁。關(guān)聯(lián)分析案例-購物籃分析-數(shù)據(jù)關(guān)聯(lián)的意義1.購物籃大于商品傳統(tǒng)零售業(yè)里考核員工的主要指標(biāo)是商品銷售額。老板會將商品銷售指標(biāo)下發(fā)到個人,每個人都只會關(guān)注自己的“一畝三分地”,賣啤酒的只管悶頭賣啤酒,賣尿布的只管悶頭賣尿布,每個柜臺只管自己的商品是否能進(jìn)入客戶手中的購物籃。賣啤酒的不關(guān)心購物籃中的尿布,賣尿布的也漠視購物籃中的啤酒,只要別漏了自己柜臺的東西,長此以往商店的整體效益當(dāng)然不會好了,效益不好就要裁員,零售店無法擴(kuò)大。反觀沃爾瑪?shù)馁u場管理體系中,購物籃是主要的管理對象,而不僅僅是商品。為什么沃爾瑪會以購物籃為管理重點(diǎn)?沃爾瑪認(rèn)為商品銷售量的沖刺只是短期行為,而零售企業(yè)的生命力取決于購物籃。一個小小的購物籃體現(xiàn)了客戶的真實(shí)消費(fèi)需求和購物行為,每一只購物籃里都蘊(yùn)藏著太多的客戶信息。零售業(yè)的宗旨是服務(wù)客戶,沃爾瑪認(rèn)為商店的管理核心應(yīng)該是以購物籃為中心的顧客經(jīng)營模式,商品排名只能體現(xiàn)商品自身的表現(xiàn),而購物籃可以體現(xiàn)客戶的購買行為及消費(fèi)需求,關(guān)注購物籃可以使門店隨時掌握客戶的消費(fèi)動向,從而使門店始終與客戶保持一致。12.第14頁,共17頁。關(guān)聯(lián)分析案例-購物籃分析-數(shù)據(jù)關(guān)聯(lián)的意義購物籃的表現(xiàn)形式就是我們常說的“客單價”,客單價的高低直接反映了零售企業(yè)的經(jīng)營效益。根據(jù)AC·尼爾森2006年對國內(nèi)零售企業(yè)的調(diào)查發(fā)現(xiàn),從周一到周五正常工作日,同樣一個萬米經(jīng)營面積的大賣場,國內(nèi)賣場的平均客單價是29元,家樂福、沃爾瑪、歐尚等國際零售巨頭賣場的客單價為75元,好又多、大潤發(fā)、樂購等臺資賣場客單價為50元。到了周末(周六、周日)的差距更大,國內(nèi)賣場客單價為35元,臺資賣場客單價為80元,外資賣場可以達(dá)到149元??蛻粼谫徫飼r的心理行為是產(chǎn)生商品之間關(guān)聯(lián)關(guān)系最基本的原因,因此在找到購物籃規(guī)律時,必須要從客戶消費(fèi)心理層面解釋這些關(guān)聯(lián)關(guān)系。2.購物籃方面的差距13.第15頁,共17頁。Thanks!第16頁,共17頁。內(nèi)容梗概大數(shù)據(jù)分析方法——以關(guān)聯(lián)分析為例。全世界通過電信網(wǎng)絡(luò)交換信息的容量在1986年為281兆億字節(jié)(PB),1993年為471兆字節(jié),2000年時增長為2.2艾字節(jié)(EB),在2007年則為65艾字節(jié)。在其中一個地區(qū),Nexus7的工程師將衛(wèi)星數(shù)據(jù)和監(jiān)測儀數(shù)據(jù)融合,觀察交通工具是如何在道路網(wǎng)中流動,這使其更容易定位并摧毀簡易爆炸裝置。不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。我們知道由于非結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣州國際旅游服務(wù)合同樣本
- 商鋪?zhàn)赓U合同樣本:門面租賃全新范本
- 寒假臨時工雇傭合同書樣本
- 游戲品牌代言合同樣本
- 長租公寓租賃合同全文
- 新媒體廣告推廣合同模板
- 辦公室簡單裝修合同范本
- 個人貸款合同電子版模板
- 企業(yè)間的戰(zhàn)略合作框架合同范本
- 課件人物插圖小學(xué)生
- 語文學(xué)習(xí)任務(wù)群的解讀及設(shè)計要領(lǐng)
- 2024年山東省高考生物試卷真題(含答案解析)
- 光伏發(fā)電站項(xiàng)目安全技術(shù)交底資料
- 富血小板血漿(PRP)臨床實(shí)踐與病例分享課件
- 跨文化交際教程 課件 杜平 Unit 1 Cultural Awareness and Intercultural Communication-Unit 3 Nonverbal Communication
- 光伏工程施工組織設(shè)計
- 社保知識競賽考試題及答案
- 華為HCSA-Presales-IT售前認(rèn)證備考試題及答案
- 2024-2030年中國纖維板行業(yè)發(fā)展趨勢與投資戰(zhàn)略研究報告
- 小學(xué)二年級上冊數(shù)學(xué)思維訓(xùn)練題100道及答案解析
- 2024年品酒師職業(yè)技能大賽理論考試題庫及答案
評論
0/150
提交評論