大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)_第1頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)_第2頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)_第3頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)_第4頁
大數(shù)據(jù)分析的案例、方法與挑戰(zhàn)_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 大數(shù)據(jù)分析的案例、方法與挑戰(zhàn) dtcc2012 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 數(shù)據(jù)分析者面臨的問題 n數(shù)據(jù)日趨龐大,無論是入庫和查詢,都出現(xiàn)性能瓶頸n用戶的應(yīng)用和分析結(jié)果呈整合趨勢(shì),對(duì)實(shí)時(shí)性和響應(yīng)時(shí)間要求越來越高n使用的模型越來越復(fù)雜,計(jì)算量指數(shù)級(jí)上升 n傳統(tǒng)技能無法應(yīng)對(duì)大數(shù)據(jù):r、sas、sql 2012.4 dtcc20122中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 場(chǎng)景介紹 n信令監(jiān)測(cè)是做什么的?中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012 體系架構(gòu) n數(shù)據(jù)庫服務(wù)器:hp小型機(jī),128g 2012.4 dtcc2012中山大學(xué)海量數(shù)據(jù)與云計(jì)

2、算研究中心黃志洪 數(shù)據(jù)庫設(shè)計(jì) n物理上采用asm n大表全部按時(shí)間分區(qū),開始時(shí)按小時(shí)分區(qū),但由于數(shù)據(jù)量龐大,后來改成,最后變成每分鐘切換1個(gè)分區(qū) n采用sqlldr方式入庫中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 15分鐘分區(qū) 2012.4 dtcc2012 5 入庫故障描述 n由于數(shù)據(jù)量太大,不得不同時(shí)啟用多個(gè)處理機(jī),產(chǎn)生了多個(gè)入庫節(jié)點(diǎn) n當(dāng)入庫節(jié)點(diǎn)分別增加到2節(jié)點(diǎn)和4節(jié)點(diǎn)以后,sqlldr出現(xiàn)停頓現(xiàn)象 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012awr報(bào)告 n 2012.4dtcc2012中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪awr報(bào)告 n 2012.4 dtcc20

3、12中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪awr報(bào)告 n 2012.4 dtcc2012中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 關(guān)于buffer cache2012.4 中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012latch2012.4dtcc2012中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 尋找buffer busy wait的根源 n sqlldr和oci方式同時(shí)insertn多個(gè)節(jié)點(diǎn)同時(shí)insert n解決辦法 1 放棄使用oci 2 對(duì)sqlldr進(jìn)行垂直切分,盡量避免同時(shí)多進(jìn)程插入同一張表 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 再看awr20

4、12.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪dtcc2012 新的故障現(xiàn)象 n sqlldr依然有停頓,次數(shù)較為頻密而持續(xù)時(shí)間較短n hwm沖突問題 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 關(guān)于hwm2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 針對(duì)hwm沖突的優(yōu)化措施 n對(duì)于無法垂直切分的特大表,按照入庫節(jié)點(diǎn)號(hào)作子分區(qū) 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 再看awr n hwm沖突已經(jīng)被消除 n sqlldr頻密周期性短暫停頓的問題依舊 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc201

5、2 最終問題根源 n awr報(bào)告的提示文件頭部競(jìng)爭(zhēng)n表空間大小與自動(dòng)擴(kuò)展是問題根源 n修正表空間設(shè)置后問題消失 2012.4dtcc201218中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 備選方案犧牲實(shí)時(shí)性換取直接路徑插入 n 直接路徑插入有什么好處? n為什么沒有采用直接路徑插入? 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 19 備選方案交換分區(qū)2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪dtcc2012 20 備選方案外部表2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪dtcc2012 21 使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫遇到的困難 n all in one,并非專

6、門針對(duì)數(shù)據(jù)分析設(shè)計(jì)和優(yōu)化n設(shè)計(jì)復(fù)雜,調(diào)優(yōu)復(fù)雜,數(shù)據(jù)分析師兼任dba n當(dāng)數(shù)據(jù)規(guī)模增加時(shí),需要擴(kuò)展硬件,邊際成本指數(shù)級(jí)上升,存在無法突破的物理瓶頸 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 22 解決方案 n列式數(shù)據(jù)庫,實(shí)時(shí)數(shù)據(jù)庫等新的數(shù)據(jù)庫技術(shù)n分布式集群:hadoop,nosql及其它分布式數(shù)據(jù)庫技術(shù) n混合使用各種專業(yè)分析產(chǎn)品 2012.4 dtcc201223中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 場(chǎng)景:行為指紋識(shí)別 n q q q 2012.4 90中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 25 基于分布式平臺(tái)運(yùn)行海量數(shù)據(jù) 移動(dòng)客戶數(shù)據(jù)量達(dá)到

7、tb級(jí)oracle數(shù)據(jù)庫中sql語句可以得到結(jié)果,但希望進(jìn)一步提高效率 云化 mapreduce方法 希望嘗試多個(gè)相似度計(jì)算結(jié)果 2012.4dtcc2012中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪云計(jì)算網(wǎng)絡(luò)發(fā)展的必然結(jié)果中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012 hadoopn hadoop的主要功能:hdfs和map-reducen hdfs實(shí)現(xiàn)數(shù)據(jù)的分布式存儲(chǔ),并且實(shí)現(xiàn)冗余備份 n map-reduce實(shí)現(xiàn)計(jì)算任務(wù)的分布化,盡量使到某個(gè)節(jié)點(diǎn)的計(jì)算任務(wù)主要面對(duì)存儲(chǔ)在本地的數(shù)據(jù),以減少跨節(jié)點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)傳送 中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtc

8、c2012 28hdfs結(jié)構(gòu)示意圖2012.4 中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 29map-reduce示意圖中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4dtcc2012 30hdfs與map-reduce一起工作中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012 31 hiven基于hadoop的常用數(shù)據(jù)分析工具n可以看成是sql到map-reduce的轉(zhuǎn)換器n hiveql尚未能完全支持sql 92n外部應(yīng)用可以通過hive客戶端、jdbc、odbc等方式訪問hive中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012

9、 32 hbasen列式數(shù)據(jù)庫,特別適合作為數(shù)據(jù)分析的場(chǎng)景,可以減少i/on無真正索引 n自動(dòng)分區(qū) n增加新節(jié)點(diǎn)時(shí)自動(dòng)線性擴(kuò)展n使用hbase命令而非sql n可以通過java,rest,thrift等接口訪問hbase 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 33hadoop體系圖2012.4dtcc201234中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 nosqln nosql = not only sqln high performance, huge storage, high scalability && high availability

10、n nosql面向的場(chǎng)景:事務(wù)性要求不高,實(shí)時(shí)性要求不高,查詢較為簡(jiǎn)單,數(shù)據(jù)海量n可分布化,運(yùn)行在廉價(jià)的pc集群上 n典型的nosql產(chǎn)品,通常某種產(chǎn)品只適合某種特定場(chǎng)景,常要配搭使用中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪2012.4 dtcc2012 35 基于hadoop的用戶指紋識(shí)別算法 n求某個(gè)客戶最相似客戶的mapreduce化(以相關(guān)系數(shù)為例):n map() input:某客戶數(shù)值、所有客戶數(shù)值 將所有客戶隨機(jī)平分到 k臺(tái)機(jī)器 output: k 個(gè)最大相關(guān)系數(shù)(local) emit the k 個(gè)跟某客戶最相似的客戶 n reduce( ) input: key: null;

11、 values: k 個(gè)最大相關(guān)系數(shù)(local) output: 最大相關(guān)系數(shù)(global) emit the 最大相關(guān)系數(shù)、與某客戶最相似客戶 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 36 數(shù)據(jù)分析者期待的解決方案 n完美解決性能瓶頸,在可見未來不容易出現(xiàn)新瓶頸n過去所擁有的技能可以平穩(wěn)過渡。比如sql、r n轉(zhuǎn)移平臺(tái)的成本有多高?平臺(tái)軟硬件成本,再開發(fā)成本,技能再培養(yǎng)成本,維護(hù)成本 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 37 一種新的普適性關(guān)聯(lián)挖掘方法 n海量,不一定是指數(shù)據(jù)記錄多,有時(shí)可能是變量很多n觀察變量之間是否具有聯(lián)

12、系的傳統(tǒng)回歸方法 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 38 傳統(tǒng)回歸模型的困難 n為什么一定是線性?或某種非線性模型?n過分依賴于分析者的經(jīng)驗(yàn) n對(duì)于非連續(xù)的離散數(shù)據(jù)難以處理中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012 39 網(wǎng)格方法 nscience上的文章detecting novel associations in large data setsn方法概要:用網(wǎng)格判斷數(shù)據(jù)的集中程度,集中程度意味著是否有關(guān)聯(lián)關(guān)系 n方法具有一般性,即無論數(shù)據(jù)是怎樣分布的,不限于特定的關(guān)聯(lián)函數(shù)類型,此判斷方法都是有效 n方法具有等效性,計(jì)算的熵值和

13、噪音的程度有關(guān),跟關(guān)聯(lián)的類型無關(guān) n mic:the maximal information coefficient n mine:maximal information-based nonparametric exploration 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 40 mic值計(jì)算n坐標(biāo)平面被劃分為(x,y)網(wǎng)格g(未必等寬),其中xy<n0.6n在g上可以誘導(dǎo)出自然概率密度函數(shù)p(x,y),任何一個(gè)方格(box)內(nèi)的概率密度函數(shù)值為這個(gè)方格所包含的樣本點(diǎn)數(shù)量占全體樣本點(diǎn)的比例 n計(jì)算網(wǎng)格劃分g下的 mutual information值 ig2

14、012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 41 mic值計(jì)算 n構(gòu)造特征矩陣mxy,矩陣的元素mxy=maxig/log minx,y。max取遍所有可能的(x,y)網(wǎng)格g n mic=max mxy。max取遍所有可能的(x,y)對(duì)中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 2012.4 dtcc2012 42mic值計(jì)算n mxy的計(jì)算是個(gè)難點(diǎn),數(shù)據(jù)科學(xué)家構(gòu)造了一個(gè)近似的逼近算法以提高效率 在作者的網(wǎng)站上,可以下載mine計(jì)算mic的程序(java和r)以及測(cè)試用數(shù)據(jù)集 實(shí)驗(yàn):who數(shù)據(jù)集,壘球數(shù)據(jù)集 2012.4 dtcc201243中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 mic的性質(zhì)n如果變量對(duì)x,y存在函數(shù)關(guān)系,則當(dāng)樣本數(shù)增加時(shí),mic必然趨向于1n如果變量對(duì)x,y可以由參數(shù)方程c(t)=x(t),y(t)所表達(dá)的曲線描畫,則當(dāng)樣本數(shù)增加時(shí),mic必然趨于1 n如果變量對(duì)x,y在統(tǒng)計(jì)意義下互相獨(dú)立,則當(dāng)樣本數(shù)增加時(shí),mic趨于0 2012.4中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dtcc2012 44mic觀察2012.4 中山大學(xué)海量數(shù)據(jù)與云計(jì)算研究中心黃志洪 dt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論