




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第
7
章
數(shù)
據(jù)
處
理
與
并
行
編
程1、
概
念數(shù)據(jù)密集型計算(DataIntensiveComputing)
是采用數(shù)據(jù)并行方
法實現(xiàn)大數(shù)據(jù)量并行計算的應用,計算數(shù)據(jù)量級為TB或PB級,
因此
也被稱為是大數(shù)據(jù)的核心支撐技術。特點如下:>支持應用與系統(tǒng)之間的交互,簡化應用的并行程序設計;>支持從簡單查詢到復雜計算的各種任務,
系統(tǒng)具有較強的交互能力;
>采用數(shù)據(jù)復制、
自動選擇計算資源等容錯機制來減小故障發(fā)生概率。第
1
節(jié)
數(shù)
據(jù)
密
集
型
計
算數(shù)
據(jù)
本
地
性
在數(shù)據(jù)密集型計算中充分利用數(shù)據(jù)本地性可以提高系統(tǒng)的吞吐量。其主要思想如下:>將任務放置在離輸入數(shù)據(jù)最近的節(jié)點運行;>網(wǎng)絡帶寬遠遠低于計算節(jié)點本地磁盤的帶寬總和;>機架內兩個節(jié)點之間的帶寬遠大于跨機架的兩個節(jié)點之間的帶寬,
將任務調度到同一個機架內的節(jié)點是次優(yōu)選擇;>
在調度任務時移動代價很小的計算而不是移動代價昂貴的數(shù)據(jù),避免有限
的網(wǎng)絡帶寬處于飽和狀態(tài)?!せ?/p>
因工程領域美國國國家生物技術創(chuàng)新中心(NCBI)維護的核苷酸序列信息的GenBank數(shù)
據(jù)庫,
其數(shù)據(jù)量以每10個月兩倍的速度遞增,
用傳統(tǒng)的方式對這些數(shù)據(jù)進
行處理和計算是十分困難的?!ぬ煳挠嬎泐I域美國射電望遠鏡陣列系統(tǒng)平方公里陣列SKA
大約每秒產生200GB的數(shù)據(jù)量,
并且需要以千萬億次/每秒的計算速度來處理這些數(shù)據(jù)以獲得宇宙的射線圖
譜
?!ど虡I(yè)計算領域Google
公司每天要接收近30億次的搜索請求,百度公司在每次搜索過程中要
處理三千億左右的中文網(wǎng)頁,數(shù)據(jù)量達到10-50PB。2、
數(shù)
據(jù)
密
集
型
計
算
的
應
用1、含義>分散的選擇方案就是分布式數(shù)據(jù)處理
(DDP)方案。分布式數(shù)據(jù)
處理不僅是一種技術上的概念,
也是一種結構上的概念。分布式數(shù)
據(jù)處理的概念是建立在集中和分散這兩種信息服務都能實現(xiàn)的原則
基礎上的。>集中/分散的問題歸結起來就是建立綜合的信息系統(tǒng)(集中)和對
用戶服務(分散)這兩者結合的問題。第
2
節(jié)
分
布
式
數(shù)
據(jù)
處
理>
輸入/輸出>
處
理>
數(shù)據(jù)存儲>個人信息或管理部門的信息>
檢查和控制>
規(guī)
劃2、
分
布
式
數(shù)
據(jù)
處
理
的
范
圍為了保持公司數(shù)據(jù)庫的兼容性、
一致性和信息處理的綜合性,集中的信息服務部門通常應負責下列工作:>
評價和選擇硬件>
制定標準、方法和文件>制定近期和長期信息服務規(guī)劃>補充或雇傭信息服務人員>運行公司的數(shù)據(jù)庫(包括提供數(shù)據(jù)庫所需的數(shù)據(jù))>建立公司范圍內的信息服務優(yōu)先權>采用當前可用的技術>提供信息服務和用戶培訓計劃3、
分
布
式
數(shù)
據(jù)
處
理
的
控
制>成立信息中心的出發(fā)點是使用戶能獲得一個不必請求信息服務部
門就能自己幫助自己的場所。>信息中心的任務是向用戶提供一個機會使其成為進行信息服務的
直接參加者。>信息中心的業(yè)務管理一般就是公司信息服務的職責。信息中心能
提供便利的場所。信息服務人員在信息中心回答問題、提供指導和幫助。決不應該要求他們參加生產性工作。4、
信
息
中
心>集中式計算機網(wǎng)絡由一個大型的中央系統(tǒng),其終端是客戶機,
數(shù)
據(jù)全部存儲在中央系統(tǒng),
由數(shù)據(jù)庫管理系統(tǒng)進行管理,所有的處理
都由該大型系統(tǒng)完成,
終端只是用來輸入和輸出。終端自己不作任
何處理,所有任務都在主機上進行處理。>集中式數(shù)據(jù)存儲的主要特點是能把所有數(shù)據(jù)保存在一個地方,
各地辦公室的遠程終端通過電纜同中央計算機(主機)相聯(lián),
保證了
每個終端使用的都是同一信息。>這類網(wǎng)絡不利的一面是來自所有終端的計算都由主機完成,
這類
網(wǎng)絡處理速度可能有些慢。另外,
如果用戶有各種不同的需要,在
集中式計算機網(wǎng)絡上滿足這些需要可能是十分困難的。5、
集
中
式
數(shù)
據(jù)
處
理
與
分
布
式
數(shù)
據(jù)
處
理
比
較分
布
式
數(shù)
據(jù)
處
理
分布式計算的優(yōu)點是可以快速訪問、多用戶使用。分布式計算的缺點:>
對病毒比較敏感;>
備份困難;>為了運行程序要求性能更好的PC
機;>要求使用適當?shù)某绦颍?gt;不同計算機的文件數(shù)據(jù)需要復制;>對某些PC機要求有足夠的存儲容量,形成不必要的存儲成本;→管理和維護比較復雜;>設備必須要互相兼容。>協(xié)作式數(shù)據(jù)處理系統(tǒng)內的計算機能夠聯(lián)合處理數(shù)據(jù),
處理既可集
中實施,也可分區(qū)實施。>協(xié)作式計算允許各個客戶計算機合作處理一項共同的任務,
采用
這種方法,任務完成的速度要快于僅在一個客戶計算機運行。協(xié)作
式計算允許計算機在整個網(wǎng)絡內共享處理能力,可以使用其它計算
機上的處理能力完成任務。>除了具有在多個計算機系統(tǒng)上處理任務的能力,
該類型的網(wǎng)絡在
共享資源方面類似于分布式計算。協(xié)
作
式
數(shù)
據(jù)
處
理>數(shù)據(jù)并行編程模型的編程級別比較高,
編程相對簡單,但它僅適
用于數(shù)據(jù)并行問題;>消息傳遞編程模型的編程級別相對較低,
但消息傳編程模型可以有更廣泛的應用范圍。第
3
節(jié)
并
行
編
程
模
型對比內容數(shù)據(jù)并行消息傳遞編程級別高低適
用
的
并
行
機
類
型SIMD/SPMDSIMD/MIMD/SPMS/MPMD執(zhí)行效率依賴于編譯器高地址空間單一多個存儲類型共享內存分布式或共享內存通
信
的
實
現(xiàn)編譯器負責程
序
員
負
責問題類數(shù)據(jù)并行類問題數(shù)據(jù)并行
、
任務并行目前狀況缺乏高校的編譯器支持使用廣泛并
行
編
程
模
式
比
較第4節(jié)
MapReduce 1、簡介MapReduce是能并發(fā)處理海量數(shù)據(jù)的并行編程模型,其特點是
簡單易學、適用廣泛,
能夠降低并行編程難度,讓程序員從繁雜的并行編程工作中解脫出來,
輕松地編寫簡單、高效的并行程序。2
、MapReduce
總
體
研
究
狀
況
>
編程模型改進方面典型研究成果有Barrier-lessMapReduce
、MapReduceMerge
、Oivos
、Kahn>
模型針對不同平臺的實現(xiàn)典型研究成果包括Hadoop
、Phoenix
、Mars
、CellMapReduce
、Misco和Ussop。
由于底層硬件比較復雜,造成編程難度較大,
增加了用戶編程的負擔。>運行時支持庫(包括任務調度、負載均衡和容錯)常用的任務調度策略是任務竊取,但該策略有時會加大通信開銷。目前,運行時支持庫中針對一致性管理和資源分配等方面的研究相對較少processnetworks等。但這些模型均僅針對MapReduce某方面的不足,研究片面,
并且都沒有得到廣泛應用,部分模型也不成熟;2、MapReduce
總
體
研
究
狀
況
主>
研能
在析全與虛優(yōu)擬化環(huán)境下MapReduce性能分析,提出了名為
R
nacphR的e
u
眼于性能,結合運行時支持庫,>
安全性和節(jié)能安全性方面典型研究成果是SecureMR模型。
目前國內外在安全性和
節(jié)能方面的研究成果相對較少,但是這方面研究的重要性已經得到了越來越多的重視。>
實
際
應
用應用范圍廣泛,Google
公司等諸多公司都在使用MapReduce
來加速
或者簡化各自公司的業(yè)務。國內針對MapReduce
的研究起步稍晚,絕
大
部
分
研
究
集
中
在
應
用
方
面
。;著ce能>逐步形成完善的MapReduce
并行編程模型規(guī)范>
性能
問題>MapReduce
并行編程模型的大規(guī)模底層基礎設施建設>針對不同的實驗平臺實現(xiàn)MapReduce并行編程模型實際應用
>MapReduce
并行編程模型的應用領域將進一步擴大3
、
未
來
的
發(fā)
展
趨
勢>Spark
是UC
Berkeley
AMP
lab所開源的類Hadoop
MapReduce的通用
并行框架,
Spark擁有Hadoop
MapReduce所具有的優(yōu)點,但不同于
MapReduce
的是Job中間輸出結果可以保存在內存中的,從而不再需
要讀寫HDFS,
因此Spark
能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce
的算法。>Spark
生態(tài)系統(tǒng)由如下兩部分組成:□
Shark口
SparkR第
5
節(jié)
云
處
理
技
術Spark1、
概
述Hadoop
是一個由Apache
基金會所開發(fā)的分布式系統(tǒng)基礎架構。
用戶可以在不了解分布式底層細節(jié)的情況下,
開發(fā)分布式程序。充
分利用集群的威力進行高速運算和存儲。優(yōu)點如下:>
高可靠性>
高擴展性>
高效性>
高容錯性>
低
成
本第6節(jié)
MapReduce
的開源實
現(xiàn)
—Hadoop2
、Hadoop核心架構
>
DFS名,
等就等像。一但個是傳H
、節(jié)點構建的,
這是由它自身的特點決定的。NameNode
S控實制例外中部的客單戶獨機的器訪上問運。行的軟件。它負責管理文件>DataNode一個通常在HDFS
實例中的單獨機器上運行的軟件。Hadoop
集群包含一個NameNode
和大量DataNode
。DataNode
通常以機架的形式組織,
機架通過一個交換機將所有系統(tǒng)連接起來。間和HDF系一DFS統(tǒng)的文件HDFS2、Hadoop
核
心架
構
>
文
件
操
作口如果客戶機想將文件寫到HDFS上,首先需要將該文件緩存到本地的臨時存儲。如果緩存的數(shù)據(jù)大于所需的HDFS
塊大小,
創(chuàng)建文件
的請求將發(fā)送給
NameNode。NameNode
將以DataNode
標識和目標
塊響應客戶機??谕ㄖ獙⒁4嫖募K副本的DataNode
。
當客戶機開始將臨時文件發(fā)送給第一個DataNode
時,將立即通過管道方式將塊內容轉發(fā)給副
本DataNode。
在最后的文件塊發(fā)送之后,NameNode將文件創(chuàng)建提
交到它的持久化元數(shù)據(jù)存儲(在EditLog和FsImage文件)。>
Linux
集
群通過集群拓撲知識決定如何在整個集群中分配作業(yè)和文件。>
高
性
能
計
算
和網(wǎng)
格
計
算
主
要
采
用
消
息
傳
遞
接口(MessagePassingInterface,MPI)
提供的API來
處
理
大
數(shù)
據(jù)
。
這
種
設
計
比
較
適
合
計
算
密
集
型
作
業(yè)
。
當
需
要
訪
問
像PB
級
別
的
數(shù)
據(jù)
的
時
候
,由
于
存
儲
設
備
網(wǎng)
絡帶寬的限制,
很多集群計算節(jié)點只能空閑等待數(shù)據(jù)。>Hadoop
使
用
專門
為
分
布
式
計
算
設
計的
文
件
系
統(tǒng)HDFS,計算的時候只需
要
將
計
算
代
碼
推
送
到
存
儲
節(jié)點
上,
即
可
在
存
儲
節(jié)
點
上
完
成
數(shù)
據(jù)
本
地
化
計
算,Hadoop
中的
集
群
存
儲
節(jié)點
也
是
計
算
節(jié)
點
。3
、Ha
doop和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外建筑史知到課后答案智慧樹章節(jié)測試答案2025年春吉林電子信息職業(yè)技術學院
- 中西醫(yī)結合耳鼻咽喉科學知到課后答案智慧樹章節(jié)測試答案2025年春湖南中醫(yī)藥大學
- 2017-2018學年高中化學必修2課時訓練第二章第一節(jié)化學能與熱能
- 2017-2018學年人教A版高中數(shù)學選修2-2課后提升訓練二十二321復數(shù)代數(shù)形式的加減運算及其幾何意義
- 2025年拖拉機及農林牧漁用掛車項目發(fā)展計劃
- 2017-2018學年人教A版高中數(shù)學選修2-3檢測第三章統(tǒng)計案例能力深化提升
- 2025年原油降凝降粘劑項目合作計劃書
- 天線近場測試儀系統(tǒng)總控軟件2
- 乙方提供材料合同范例
- 板模板施工方案
- 安全生產責任體系重點崗位履職清單
- 四川省成都市2024年中考道德與法治真題試卷(含答案)
- 大學物理實驗(緒論)學習通超星期末考試答案章節(jié)答案2024年
- 不合格產品處置管理制度
- 《現(xiàn)代家政導論》電子教案 2.2模塊二項目二家庭制度認知
- 商務禮儀課件教學課件
- 2024年資格考試-良好農業(yè)規(guī)范認證檢查員考試近5年真題集錦(頻考類試題)帶答案
- 2024年普通高等學校招生全國統(tǒng)一考試·新課標卷(生物)附試卷分析
- 2024中國軟件供應鏈安全分析報告-2024.08-56正式版
- 優(yōu)化熱處理工藝的機器學習
- 2024年1月時政熱點題庫及答案
評論
0/150
提交評論