大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)_第1頁
大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)_第2頁
大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)_第3頁
大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)_第4頁
大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、百度大數(shù)據(jù)離線計算平臺流式Shuffle服務(wù)目錄背景架構(gòu)關(guān)鍵技術(shù)收益與總結(jié)下一步計劃背景-百度私有云FPGAGPU整機柜Machine Management環(huán)境 初始化機器故障 自動化機器 自動流轉(zhuǎn)Container仲裁器StateManagement調(diào)度算法隊列/優(yōu)先級資源位移MetaServerNameSpaceStateCenterIterativeRealTimeBatchNFSTableOjbect搜索金融糯米AI開放云ADU服 務(wù) 托 管研 發(fā) 效 率 相 關(guān) 工 具預(yù) 算交 付 管 理結(jié) 算高精硬件集群/機器管理集群操作系統(tǒng)-Matrix統(tǒng)一資源調(diào)度-Normandy分布式文件系

2、統(tǒng)-AFS分布式計算分布式存儲產(chǎn)品生態(tài)背景-百度大數(shù)據(jù)計算平臺C+PythonJavaSimplified Unified APITMDStreamDCE(MR/DAG)MPI/ELFSparkNormandyMatrixIDC計算引擎資源調(diào)度資源管理機器資源API層20142007百度DAG引擎上線20062004MapReduce論文發(fā)表Hadoop開源百度MR上線基于Hadoop 0.15.12011百度MR單集群規(guī)模 超過5000臺2013百度MR單集群規(guī)模13000臺2015內(nèi)存流式Shuffle上線2014百度統(tǒng)一計算表 示層發(fā)布背景-百度大數(shù)據(jù)離線計算平臺發(fā)展歷程背景-DAG引擎

3、背景-一般的Shuffle模式MapperMapperReducerMapperReducer目錄背景架構(gòu)關(guān)鍵技術(shù)收益與總結(jié)下一步計劃架構(gòu)架構(gòu) JobMasterMap WorkerMap WorkerMap Worker ShuffleMasterShufflerShufflerShuffler Reduce WorkerReduce WorkerReduce Worker HDFS7. map push to shufflerHDFSHDFS1. create shuffle sessionControl messageData Flow架構(gòu)-基本概念ShuffleMasterShuffl

4、er(Shuffle Worker)WriterReaderSessionShard目錄背景架構(gòu)關(guān)鍵技術(shù)收益與總結(jié)下一步計劃關(guān)鍵技術(shù)-ShuffleMaster智能調(diào)度全局視圖異常檢測負載均衡負載均衡ShufflerShardSessionManagerJobMasterRpcServerCreateSession DeleteSessionShufflerWriterShufflerShufflerWriterWriterHeartBeatSessionUpdatespushShuffleWorkerInfopushSessionUpdateDataPusherRpcClientAssgnI

5、nfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoSession AShard0Shard1Shard2Shard3Shard4Shard5writer決定 primary 和 backup 的切換HeartBeatpushMapperInfoDataCollectorRpcServerWriter上報ShufflerExceptionShuffler上報負載情況增量更新MapperInfoMapperIDAddressSessonIDUpdateInfoShuffle Worker InfoSWIDAddres

6、sStatusLoadAssignment InfoAssginIdShardIDSWIDPrimarySession InfoShuffle Master關(guān)鍵技術(shù)-Writer數(shù)據(jù)緩存與異步發(fā)送異常處理MapProcessWriterSession ASession BWriterBufferDataSenderShuffler分配信息Shuffler分配信息WriterBufferDataSenderSession更新ShuffleMasterShufflersK VrpcK Vrpcrpc狀態(tài)匯報Shuffler狀態(tài)關(guān)鍵技術(shù)-Writer異常處理wriRPC回調(diào)返回Successter發(fā)

7、送buffer發(fā)送RPC給某個 ShufflerShuffler掛了超時也沒有回調(diào)重試其他Shuffler所有RPC不再嘗試此Shuffler 此Buffer重試其他Shuffler返回給Writer數(shù)據(jù)發(fā)送成功Cancle此Buffer對其他Shuffler的RPCShuffer太忙此Buffer的發(fā)送暫時回避這個ShufflerBusy關(guān)鍵技術(shù)-Shuffler內(nèi)存聚合流控Sort&FlushShuffler相同Partition的數(shù)據(jù)交給一個active Sorter每個Sorter限制一定的內(nèi)存大小,滿內(nèi)存后交給排序線程Sorter等待過長時間后,也交給排序線程所有Sorter使用內(nèi)存

8、不超過閾值Rpc with dataRpc with dataRpc with dataRpc with ackSortflushandackSessionHandlerShardHandlerSH.SHSorter.SorterSorterSessionHandlerShardHandlerSH.SHSorterSorterRpc with ackSortflushandackSortflushandackN個排序線程,排序之后寫入DFS,并Ack相應(yīng)數(shù)據(jù)塊待排序的Sorter個數(shù)多于排序線程數(shù)時,部分Sorter等待RPC ServerCreateSession DeleteSession

9、WritersShuffleMaster關(guān)鍵技術(shù)-Reader所有Map完成后,調(diào)度Reduce直接讀取DFS排好序的數(shù)據(jù)去重&數(shù)據(jù)驗證多路歸并排序關(guān)鍵技術(shù)-Map PipelineMap端Writer,要等Shuffler將數(shù)據(jù)持久化到DFS后,才能將發(fā) 送的rpc buffer釋放所有發(fā)送的數(shù)據(jù)被Shuffler持久化后,Map才能安全退出MapperMapperMapperWaitingFor FlushMapper關(guān)鍵技術(shù)-MIMO無MIMO時:Vetex3和vertex4 收到vertex2的全 部兩路數(shù)據(jù)再做filter。此業(yè)務(wù)作業(yè)多shuffle近10T 數(shù)據(jù)關(guān)鍵技術(shù)-MIMO方

10、案不同邊可對應(yīng)不同 session不同session對應(yīng)不同的dfs結(jié)果目錄vertex0vertex1vertex3vertex2broadcastmimonormal shufflebroadcast關(guān)鍵技術(shù)-Runtime PartitionSplit1Split2Split3Task1Task2Task3ShuffleAppMa sterSplit1Split2Split3Task1ShuffleAppMa ster目錄背景架構(gòu)關(guān)鍵技術(shù)收益與總結(jié)下一步計劃收益與總結(jié)收益流式shuffle:減少舊shuffle mapmerge、reduce pull時間消耗內(nèi)存Push:map端不落盤

11、Shuffler內(nèi)存聚合:聚合度高,減少 map端seek,減少reduce端merge路 數(shù),減少IOPipeline:大大提高中小作業(yè)map端 運行速度中間數(shù)據(jù)持久化:避免重算(對dag 作業(yè)尤為重要)收益與總結(jié)流式Shuffle服務(wù)push instead of pullShuffle過程交給能拿到更多全局信息、更專業(yè)的shuffler來做Map、Shuffler、Reduce,每個都做自己最適合做且擅長做的事情Shuffle與Reduce解耦,簡化Reduce,也為解決分桶不均問題提供可能Pipeline。無縫的流線,減少無謂的等待問題更多的網(wǎng)絡(luò)io(萬兆網(wǎng)卡,網(wǎng)絡(luò)不是瓶頸)Shuffler資源共享,作業(yè)間可能互相影響(讓Shuffler資源非瓶頸)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論