




已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)傾斜情況下 基于MapReduce的Join算法優(yōu)化,報(bào)告人:蔡珉星 廈大數(shù)據(jù)庫實(shí)驗(yàn)室 2014-08-16,遇到的問題,目錄,優(yōu)化思路 - 改進(jìn)Partition Partition在兩表連接中的改進(jìn) LEEN算法,Part 1,優(yōu)化思路 - 改進(jìn)Partition,MapReduce中的Partition: 在Map端輸出時,需要對key進(jìn)行分區(qū),來決定輸出數(shù)據(jù)傳輸?shù)侥膫€reducer上進(jìn)行處理。 默認(rèn)的partition是通過哈希操作來決定分配到哪個reducer。 哈希Partition的局限 哈希在數(shù)據(jù)均衡的情況下,可以很好的將數(shù)據(jù)平均到各個Reducer上,但在數(shù)據(jù)傾斜情況下,會導(dǎo)致某幾個Key的值大量集聚在單個Reducer上。,Partition,哈希實(shí)際上是一種針對鍵的分組均衡分配,不能保證數(shù)據(jù)量均衡分配,Reduce-side Join: Map-side Join(復(fù)制連接、半連接)對數(shù)據(jù)集要求較高,一般情況下Join操作是采用Reduce-side Join - 重分區(qū)連接:將鍵相同的數(shù)據(jù)分到同一個reducer,再進(jìn)行Join。 優(yōu)化重分區(qū)連接: 區(qū)分大小數(shù)據(jù)集,將小數(shù)據(jù)集讀取到內(nèi)存中,再用小數(shù)據(jù)集來遍歷大數(shù)據(jù)集。 優(yōu)化重分區(qū)連接的精髓就在于Reduce端用小數(shù)據(jù)集遍歷大數(shù)據(jù)集,這部分已經(jīng)沒有什么改進(jìn)空間。哪里還可以再改進(jìn)? Partition: 優(yōu)化重分區(qū)連接采用Hash parition不能保證數(shù)據(jù)量均衡分配。,Join算法優(yōu)化思路,優(yōu)化重分區(qū)連接采用Hash parition,不能保證數(shù)據(jù)量均衡分配,Part 2,Partition在兩表連接中的改進(jìn),兩表連接中的改進(jìn),數(shù)據(jù)實(shí)例: 3個Data節(jié)點(diǎn) 每個節(jié)點(diǎn)輸出75個鍵值,81 - 36% 103 - 46% 41 - 18%,即便可以采用優(yōu)化重分區(qū),但在Partition時已經(jīng)造成了數(shù)據(jù)分配傾斜!,兩表連接中的改進(jìn),均衡Partition 論文LEEN LocalityFairness- Aware Key Partitioning for MapReduce in the Cloud中的算法LEEN給出的Partition:,74 - 33% 74 - 33% 77 - 34%,獲知鍵值的分布,兩表連接中的改進(jìn),獲知鍵值的分布 采樣 在執(zhí)行Reducer-side Join之前,先運(yùn)行一個Job,統(tǒng)計(jì)數(shù)據(jù)分布情況。 采樣開銷應(yīng)盡可能少,同時保證準(zhǔn)確性。 Partition方式: 簡單范圍分區(qū) Map端采樣:每個Mapper隨機(jī)取x個Sample,有n個Mapper。 Reduce端統(tǒng)計(jì)分布:只需要一個Reducer,此時n*x個Sample已是排好序的。,兩表連接中的改進(jìn),Partition方式: 簡單范圍分區(qū)(續(xù)) 若執(zhí)行的Join有N個Reducer,可以根據(jù)步長 n*x/N 獲得一個分區(qū)序列。 例如: Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 8, 9, 9, 10, 10, 5個Reducer,步進(jìn)3 分區(qū)序列: 3, 5, 6, 9 Join Partition: key3 3 鍵為6的有兩個可選Reducer 解決: build relation: 隨機(jī)選擇一個可選Reducer probe relation: 需發(fā)送到每個可選Reducer R join S - R: probe, S: build?,兩表連接中的改進(jìn),傾斜鍵存在大小表的情況 Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 5個Reducer,步進(jìn)3 分區(qū)序列: 3, 5, 6, 6 - 鍵為6的有兩個可選Reducer 3 和 4 R join S,對于鍵6,若 R.6 S.6 可將所有的R.6傳輸?shù)?和4上,然后S.6可以隨機(jī)分配到3或4上,1000個A,兩表連接中的改進(jìn),進(jìn)一步的改進(jìn):虛擬范圍分區(qū) 實(shí)際是N個Reducer,但假定分成 *N 個分區(qū)(為整數(shù))。 例如 Samples: 1, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 5個Reducer Join Partition: 1,3,4,4, 5,5,6,6, 6,6,6,6, 9,10,10,11,11,11, 15,16 = 2,則分成2*5=10個分區(qū) Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 10個Reducer Join Partition: 1,3,3, 4, 5,5, 6,6, 6,6, 6,6, 9,10,10, 11, 11,11, 15,16 采用虛擬范圍分區(qū),數(shù)據(jù)分配更加均衡 處理方式: 輪叫調(diào)度 或 當(dāng)某一節(jié)點(diǎn)完成時,將下一剩余任務(wù)分配給該節(jié)點(diǎn) 論文的實(shí)驗(yàn)結(jié)果表明虛擬范圍分區(qū)優(yōu)于簡單范圍分區(qū),還有什么地方可以再優(yōu)化?,Reduce階段須在數(shù)據(jù)傳輸、合并完成后才能開始 能否減少網(wǎng)絡(luò)傳輸?,Part 2,LEEN算法,LEEN算法,針對Copy Phase的一些考慮,map和reduce任務(wù)可在同一個節(jié)點(diǎn)上,copy階段,節(jié)點(diǎn)fetch的數(shù)據(jù)包括自身節(jié)點(diǎn)上的數(shù)據(jù)(不需要網(wǎng)絡(luò)傳輸)和其他節(jié)點(diǎn)上的數(shù)據(jù)(需要網(wǎng)絡(luò)傳輸)。 若為了降低網(wǎng)絡(luò)傳輸,應(yīng)盡量fetch自身節(jié)點(diǎn)的數(shù)據(jù)。但以自身數(shù)據(jù)量作為Partition依據(jù),可能導(dǎo)致reduce端數(shù)據(jù)分配不均,如何平衡?,LEEN算法,數(shù)據(jù)實(shí)例: 3個Data節(jié)點(diǎn) 每個節(jié)點(diǎn)輸出75個鍵值,22 - 29% 30 - 40% 17 - 22%,Partition后,本地?cái)?shù)據(jù)所占的比例,81 - 36% 103 - 46% 41 - 18%,網(wǎng)絡(luò)共需要傳輸?shù)臄?shù)據(jù)量: Total Map output (1 -Locality) 81*(1-29%) + 103*(1-40%) + 41*(1-22%) = 151 151/225 = 67%,LEEN算法,LEEN:異步map和reduce模式 Hadoop中的計(jì)算和數(shù)據(jù)傳輸是會重疊的(如一個節(jié)點(diǎn)上運(yùn)行多個map任務(wù),一個map任務(wù)結(jié)束后,就會進(jìn)行數(shù)據(jù)傳輸)。 LEEN為了獲知所有中間數(shù)值的分布情況,采用了異步map和reduce模式(先全部執(zhí)行完map再執(zhí)行reduce)。 map階段對每個中間鍵的結(jié)果進(jìn)行緩存,而不是直接發(fā)送到相應(yīng)的reducer。 這樣當(dāng)map結(jié)束時,就有了所有的鍵分布信息(出現(xiàn)次數(shù)等),這些鍵將根據(jù)LEEN算法來進(jìn)行分配(到reducer)。,LEEN算法,LEEN算法:平衡Locality和Fairness Fairness(0): 各個reduce分配的數(shù)據(jù)量的差異,越小越好; Locality(1): 各個reduce分配的數(shù)據(jù)中,來自本地節(jié)點(diǎn)的數(shù)據(jù),越大越好; LEEN算法 - 啟發(fā)式算法,目標(biāo):(Fairness/Locality)的最小值。 其他思路: 因素: Fairness、Locality哪個對Job結(jié)果影響更大?(0.2/0.4與0.4/0.8哪個更優(yōu)?) 體現(xiàn): 集群的計(jì)算能力與網(wǎng)絡(luò)能力。 通用表達(dá)式: T = DATA*diff_time_per_data*Fairness + DATA*trans_time_per_data*(1-Locality) 目標(biāo): diff_time_per_dat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼河油田施工合同
- 短期翻譯服務(wù)合同
- 有關(guān)私了賠償協(xié)議書
- 餐飲業(yè)食品安全及服務(wù)質(zhì)量保障合同
- 幼兒園接送免責(zé)協(xié)議書
- 采購預(yù)付款合同
- 高端機(jī)械裝備研發(fā)項(xiàng)目合作框架協(xié)議
- 中央空調(diào)安裝施工合同
- 企業(yè)采購智能化設(shè)備合同
- 合格供應(yīng)商框架協(xié)議
- 2024年湖南汽車工程職業(yè)學(xué)院單招職業(yè)技能測試題庫標(biāo)準(zhǔn)卷
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評價導(dǎo)則
- 二級公立醫(yī)院績效考核三級手術(shù)目錄(2020版)
- 公共關(guān)系學(xué)完整教學(xué)課件
- 高中化學(xué)競賽培訓(xùn)計(jì)劃
- NUDD新獨(dú)難異失效模式預(yù)防檢查表
- 研發(fā)向善課程----綻放生命異彩
- Z3050型 搖臂鉆床使用說明書
- 加油站數(shù)質(zhì)量管理考核辦法版.doc
- 華文版四年級下冊全冊書法教案
- 最新整理自動化儀表專業(yè)英語詞匯只是分享
評論
0/150
提交評論