![暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第1頁](http://file4.renrendoc.com/view/5dd71e4d2d2fa54f124a1c5b036b03a3/5dd71e4d2d2fa54f124a1c5b036b03a31.gif)
![暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第2頁](http://file4.renrendoc.com/view/5dd71e4d2d2fa54f124a1c5b036b03a3/5dd71e4d2d2fa54f124a1c5b036b03a32.gif)
![暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第3頁](http://file4.renrendoc.com/view/5dd71e4d2d2fa54f124a1c5b036b03a3/5dd71e4d2d2fa54f124a1c5b036b03a33.gif)
![暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第4頁](http://file4.renrendoc.com/view/5dd71e4d2d2fa54f124a1c5b036b03a3/5dd71e4d2d2fa54f124a1c5b036b03a34.gif)
![暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀_第5頁](http://file4.renrendoc.com/view/5dd71e4d2d2fa54f124a1c5b036b03a3/5dd71e4d2d2fa54f124a1c5b036b03a35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
暨南大學(xué)并行計算實(shí)驗(yàn)室MapReduce研究現(xiàn)狀
摘要MapReduce研究調(diào)試、監(jiān)控等優(yōu)化、擴(kuò)展等常用APIHadoop改造數(shù)據(jù)挖掘項(xiàng)目RedpollCanopy,k-meansNaivebayes,SVM調(diào)試標(biāo)準(zhǔn)輸出,標(biāo)準(zhǔn)出錯Web顯示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重現(xiàn):LocalRunnerDistributedCache中放入調(diào)試代碼Profiling
目的:查性能瓶頸,內(nèi)存泄漏,線程死鎖等工具:jmap,jstat,hprof,jconsole,jprofilermat,jstack對JobTracker的Profile對各slave節(jié)點(diǎn)TaskTracker的Profile對各slave節(jié)點(diǎn)某Child進(jìn)程的Profile(可能存在單點(diǎn)執(zhí)行速度過慢)監(jiān)控目的:監(jiān)控集群或單個節(jié)點(diǎn)I/O,內(nèi)存及CPU工具:Ganglia調(diào)優(yōu)點(diǎn)(1)I/OShuffle…調(diào)優(yōu)點(diǎn)(2)數(shù)據(jù)壓縮推測性執(zhí)行(同時執(zhí)行同一Task,殺死運(yùn)行慢的)同一節(jié)點(diǎn)的Child重用jvm重寫Partitioner,使分布到各Reducer的數(shù)據(jù)均勻設(shè)置堆空間大小常用APIMapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker與作業(yè)調(diào)度耦合性太強(qiáng)JobHistory應(yīng)獨(dú)立為一個jvm進(jìn)程,邏輯不應(yīng)與JobTracker耦合太強(qiáng)在HDFS之上整合MPI,統(tǒng)一作業(yè)調(diào)度Shuffle過程只需一次I/O單塊磁盤失效導(dǎo)致整個節(jié)點(diǎn)失效問題(改DFSClient)Hadoop改造文件系統(tǒng)兼容posix使Map的key輸出不排序,只分區(qū)NameNode單點(diǎn)故障問題RPC支持大數(shù)據(jù)(如文件)傳輸集群資源分配權(quán)限管理大規(guī)模數(shù)據(jù)挖掘:Redpoll文本數(shù)據(jù)挖掘分布式分詞分布式向量空間模型距離度量語料搜狗新聞20newsgroupwikipedia前提:假定一個屬性值對分類的影響?yīng)毩⒂谄渌麑傩缘闹怠#悧l件獨(dú)立)樸素貝葉斯分類工作過程每個數(shù)據(jù)樣本用一個n維特征向量表示,分別描述對n個屬性樣本的n個度量假設(shè)有m個類。給定一個未知的數(shù)據(jù)樣本X,分類法將預(yù)測具有最高后驗(yàn)概率(條件X下)的類。即是找最大化的。根據(jù)貝葉斯定理有樸素貝葉斯分類P(X)對所有類為常數(shù),最大化,對的考慮分析:等概率,或類條件獨(dú)立的樸素假定:, (k=1,2,n)可以由訓(xùn)練樣本估值是分類屬性,則根據(jù)樣本估值是連續(xù)值屬性,則通常假定其服從高斯分布,因而樸素貝葉斯分類(續(xù))Canopy大容量,高維數(shù)據(jù)集聚類使用兩步聚類不同的距離度量節(jié)省計算時間適用范圍較廣K-meansEMGAC大規(guī)模支持向量機(jī)解的稀疏性及問題的凸性將大規(guī)模的原問題分解成小規(guī)模的子問題,迭代求解子問題,直到收斂至原問題的解.選塊算法分解算法序列最小最優(yōu)化法(sequentialminimaloptimization,SMO)并行實(shí)現(xiàn)ThinkinginMapReduce
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 快遞區(qū)域承包合同
- 合伙出資成立公司協(xié)議
- 瀝青水穩(wěn)運(yùn)輸合同協(xié)議書
- 辦公桌椅購銷合同協(xié)議
- 裝修工程勞務(wù)分包合同書
- 建筑工程建設(shè)工程合同與索賠
- 浙教版高中信息技術(shù)必修1教學(xué)設(shè)計-3.3 多媒體信息處理
- 19父愛之舟 教學(xué)設(shè)計-2024-2025學(xué)年語文五年級上冊統(tǒng)編版
- 智能接地狀態(tài)在線監(jiān)測儀用在什么場所
- Unit5Fun clubs.SectionA1a-1d教學(xué)設(shè)計設(shè)計2024-2025學(xué)年人教版英語七年級上冊
- GA 814-2009 警用約束帶標(biāo)準(zhǔn)
- 釘釘考勤休假規(guī)定
- 海氏崗位價值評估法應(yīng)用實(shí)踐課件
- 慢性腎病知識講座課件
- 國家自然科學(xué)基金申請經(jīng)驗(yàn)交流課件
- 領(lǐng)子的分類課件
- 農(nóng)產(chǎn)品的互聯(lián)網(wǎng)營銷課件
- 三年級下冊數(shù)學(xué)課件 兩位數(shù)除兩、三位數(shù) 滬教版 (共15張PPT)
- 《六大茶類》講義
- X會計師事務(wù)所的J城投公司發(fā)債審計項(xiàng)目研究
- 中國傳媒大學(xué)全媒體新聞編輯:案例教學(xué)-課件-全媒體新聞編輯:案例教學(xué)-第7講
評論
0/150
提交評論