版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)分布式計(jì)算框架簡(jiǎn)介2/1/20231各種名詞云平臺(tái)數(shù)據(jù)中心集群超級(jí)計(jì)算機(jī)分布式計(jì)算并行計(jì)算云計(jì)算集群計(jì)算高性能計(jì)算超級(jí)計(jì)算網(wǎng)格計(jì)算分布式系統(tǒng)并行系統(tǒng)2/1/20232不一定準(zhǔn)確的理解互聯(lián)網(wǎng)連接的計(jì)算機(jī)低速互聯(lián)網(wǎng)絡(luò),通用硬件,分布分散服務(wù)器的集合高速互聯(lián)網(wǎng)絡(luò),通用硬件,分布集中超級(jí)計(jì)算機(jī)超高速互聯(lián)網(wǎng)絡(luò),專門定制的硬件,分布集中云平臺(tái)數(shù)據(jù)中心集群超級(jí)計(jì)算機(jī)分布式計(jì)算并行計(jì)算云計(jì)算集群計(jì)算高性能計(jì)算超級(jí)計(jì)算網(wǎng)格計(jì)算分布式系統(tǒng)并行系統(tǒng)以上名詞都可以對(duì)應(yīng)到左邊三類系統(tǒng)上2/1/20233各種名詞在線處理,離線處理流處理(流式處理),批處理(批量處理)實(shí)時(shí)處理,流數(shù)據(jù),批量數(shù)據(jù)2/1/20234數(shù)據(jù)存儲(chǔ)技術(shù)數(shù)據(jù)處理技術(shù)數(shù)據(jù)存儲(chǔ)通信統(tǒng)計(jì)分析機(jī)器學(xué)習(xí)Hadoop起源DougCutting
LuceneHadoop這個(gè)名字不是一個(gè)縮寫,而是一個(gè)虛構(gòu)的名字,是Doug的孩子給一個(gè)棕黃色的大象玩具的命名GoogleLab的三篇論文GFS,MapReduce,BigTable——HDFS,MapReduce,HBase商業(yè)公司Cloudera,MapR,Hortonworks開發(fā)語(yǔ)言Java2/1/20235Hadoop2/1/20236Hadoop2/1/20237HadoopHadoop框架中最核心設(shè)計(jì)是HDFS和MapReduce。HDFS,即為分布式文件系統(tǒng),提供了對(duì)大規(guī)模數(shù)據(jù)的存儲(chǔ);MapReduce則提供了對(duì)數(shù)據(jù)的分布式計(jì)算。2/1/202382/1/20239MahoutMahout是Apache旗下的一個(gè)開源項(xiàng)目,是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具及分布式機(jī)器學(xué)習(xí)算法的集合,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含的算法實(shí)現(xiàn)主要有:推薦(Recommendation),聚類(Clustering),分類(Classification),頻繁子項(xiàng)挖掘等。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問(wèn)題。這里說(shuō)的“解決”是一個(gè)初步的概念,很多算法由于各種原因是無(wú)法用map-reduce并行實(shí)現(xiàn)的。2/1/202310SparkBerkeleyDataAnalyticsStack(BDAS)BDAS是UCBerkeleyAMPLab開源的通用并行計(jì)算框架開發(fā)語(yǔ)言ScalaScala是一種函數(shù)式面向?qū)ο笳Z(yǔ)言,它融匯了許多前所未有的特性,而同時(shí)又運(yùn)行于JVM之上。Scala運(yùn)行于Java平臺(tái)(Java虛擬機(jī)),并兼容現(xiàn)有的Java程序。它也能運(yùn)行于JavaME,CLDC(JavaPlatform,MicroEditionConnectedLimitedDeviceConfiguration)上。還有另一.NET平臺(tái)的實(shí)現(xiàn),不過(guò)該版本更新有些滯后。商業(yè)公司Databricks2/1/202311Spark2/1/202312MLBaseMLBase是Spark生態(tài)圈的一部分,專注于機(jī)器學(xué)習(xí),包含三個(gè)組件:MLlib、MLI、MLOptimizer。MLlib是Spark的分布式機(jī)器學(xué)習(xí)庫(kù)。MLI提供特征提取和算法開發(fā)的API,引入更高層次的機(jī)器學(xué)習(xí)編程抽象。MLOptimizer致力于實(shí)現(xiàn)機(jī)器學(xué)習(xí)流水線建立任務(wù)的自動(dòng)化。優(yōu)化器解決了對(duì)包含在MLI和MLlib中的特征提取和機(jī)器學(xué)習(xí)算法的搜索問(wèn)題。目前,MLOptimizer正在積極的開發(fā)過(guò)程中。2/1/202313SparkRSparkR是AMPLab發(fā)布的一個(gè)R開發(fā)包,為ApacheSpark提供了輕量的前端。SparkR提供了Spark中彈性分布式數(shù)據(jù)集(RDD)的API,用戶可以在集群上通過(guò)Rshell交互性的運(yùn)行job。SparkR應(yīng)該被看作是R版Spark的輕量級(jí)前端,這意味著它不會(huì)擁有像Scala或Java那樣廣泛的API,但它還是能夠在R里運(yùn)行Spark任務(wù)和操作數(shù)據(jù)。除了常見的RDD函數(shù)式算子reduce、reduceByKey、groupByKey和collect之外,SparkR也支持利用lapplyWithPartition對(duì)每個(gè)RDD的分區(qū)進(jìn)行操作。AMPLab團(tuán)隊(duì)已經(jīng)表現(xiàn)出了今后在SparkR中集成Spark
MLlib機(jī)器學(xué)習(xí)類庫(kù)的濃厚興趣,這樣一來(lái),算法可以無(wú)縫地并行運(yùn)行而無(wú)需特別手動(dòng)設(shè)定哪一部分的算法可以并行運(yùn)行2/1/202314Storm起源Storm是Twitter開源的一個(gè)的實(shí)時(shí)數(shù)據(jù)處理框架,它原來(lái)是由BackType開發(fā),后BackType被Twitter收購(gòu),將Storm作為Twitter的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)。開發(fā)語(yǔ)言Clojure。Clojure是Lisp語(yǔ)言的一種現(xiàn)代方言。類似于Lisp,Clojure支持一種功能性編程風(fēng)格,但Clojure還引入了一些特性來(lái)簡(jiǎn)化多線程編程(一種對(duì)創(chuàng)建Storm很有用的特性)。Clojure是一種基于虛擬機(jī)(VM)的語(yǔ)言,在Java虛擬機(jī)上運(yùn)行。2/1/202315StormDAG計(jì)算模型Tuple:數(shù)據(jù)處理單元,一個(gè)Tuple由多個(gè)Field組成Stream:持續(xù)的Tuple流Spout:從外部獲取數(shù)據(jù),輸出原始TupleBolt:接收Spout/Bolt輸出的Tuple,處理,輸出新Tuple2/1/202316一個(gè)普通的Storm拓?fù)浣Y(jié)構(gòu)的概念性架構(gòu)MapReduce功能的簡(jiǎn)單Storm拓?fù)浣Y(jié)構(gòu)GraphLab起源GraphLab是一個(gè)基于圖像處理模型的開源圖計(jì)算框架,由卡內(nèi)基梅隆大學(xué)的Select實(shí)驗(yàn)室在2010年提出的。2015年1月8日GraphLab籌得1850萬(wàn)美金,并改名為Dato,以顯示在大數(shù)據(jù)時(shí)代,該計(jì)算框架不僅可以建立圖表模型,還能夠分析和處理數(shù)據(jù)。GraphLab提供了一個(gè)完整的平臺(tái),讓機(jī)構(gòu)能使用可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行大數(shù)據(jù)分析,該平臺(tái)客戶包括Zillow、Adobe、Zynga、Pandora等,它們從其它應(yīng)用程序中抓取數(shù)據(jù),通過(guò)推薦系統(tǒng)、情感及社交網(wǎng)絡(luò)分析系統(tǒng)等將大數(shù)據(jù)理念轉(zhuǎn)換為可以使用的預(yù)測(cè)應(yīng)用程序。開發(fā)語(yǔ)言C++2/1/202317GraphLab2/1/202318Petuum起源卡內(nèi)基梅隆大學(xué)ICML2014程序主席邢波開發(fā)語(yǔ)言C++2/1/202319PetuumEricXing指出,一方面,很多機(jī)器學(xué)習(xí)學(xué)者由于本身訓(xùn)練局限或者習(xí)慣思維的緣故,對(duì)系統(tǒng)知識(shí)通常并不了解,他們看到一百臺(tái)機(jī)器跟一臺(tái)機(jī)器的差別只不過(guò)乘了一百,中間的代價(jià)或者機(jī)器的失效幾率他們可以都不太考慮,所以他們的算法主要是針對(duì)數(shù)學(xué)上的正確性或者是迭代算法迭代次數(shù)的減少性,但是他們不會(huì)鉆研算法到底在一個(gè)真實(shí)的機(jī)器群上怎么運(yùn)作。另一方面,系統(tǒng)工程師對(duì)機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)學(xué)習(xí)原理、技術(shù)并不見得非常精通,他們所需要實(shí)現(xiàn)的目標(biāo)是盡可能實(shí)現(xiàn)極高的迭代輸出,修正由于機(jī)器造成的一些損耗,所以他們會(huì)發(fā)展一些非??煽俊⒎浅8咄ǖ募夹g(shù),而忽視了機(jī)器學(xué)習(xí)的特點(diǎn)。2/1/202320Petuum這里用容錯(cuò)性對(duì)機(jī)器學(xué)習(xí)程序與普通程序的區(qū)別做一個(gè)比較。我們對(duì)一組數(shù)進(jìn)行排序,這個(gè)過(guò)程是不能容錯(cuò)的,必須精密到按步驟進(jìn)行實(shí)現(xiàn),一步都不能錯(cuò)。這是傳統(tǒng)計(jì)算機(jī)程序的普遍特點(diǎn)。機(jī)器學(xué)習(xí)不是精密實(shí)現(xiàn)設(shè)定好的計(jì)劃,而是通常實(shí)現(xiàn)一個(gè)數(shù)學(xué)優(yōu)化問(wèn)題。這如同爬山,可以從這條路爬,也可以從那條路爬,所以有一種容錯(cuò)性,有容錯(cuò)性就給了新的機(jī)會(huì)。走錯(cuò)了以后也不一定要走回去重走。2/1/202321Petuum設(shè)計(jì)可以有兩種極端,一端是同步協(xié)議,Hadoop和Spark都是這樣做的,這在數(shù)學(xué)上可證明是對(duì)的,但也會(huì)造成效率的損失。另一端是完全不同步,這對(duì)程序的收斂性和正確性沒(méi)有任何保障。在這兩端往往可以做一個(gè)權(quán)衡。Petuum采取中間路線,使用一種半同步的技術(shù),讓機(jī)器在有限的窗口里做局部運(yùn)算,用參數(shù)值的局部版本做運(yùn)算,不與其他節(jié)點(diǎn)通信。當(dāng)這個(gè)窗口被突破的時(shí)候,就必須停下來(lái)等待同步。每一個(gè)線程到達(dá)窗口邊界的時(shí)間是隨機(jī)的,所以最后結(jié)果是所有線程都可以在最大程度上使用窗口做運(yùn)算。2/1/202322Petuum對(duì)數(shù)據(jù)和模型的并行計(jì)算進(jìn)行區(qū)別對(duì)待對(duì)于系統(tǒng)工程師,數(shù)據(jù)和模型并沒(méi)有什么區(qū)別,它都是在內(nèi)存中的一些數(shù)字而已當(dāng)數(shù)據(jù)被并行時(shí),它們之間是不相關(guān)的,所以不需要在它們之間進(jìn)行協(xié)調(diào);而當(dāng)模型被并行的時(shí)候,中間結(jié)果實(shí)際是相關(guān)的,所以不在過(guò)程中進(jìn)行協(xié)調(diào),最后結(jié)果就會(huì)出錯(cuò)。這種情況下我們會(huì)發(fā)現(xiàn),對(duì)數(shù)據(jù)和模型的并行需要做不同的通訊和系統(tǒng)設(shè)計(jì)。2/1/202323PDMiner中國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)了基于Hadoop的并行分布式數(shù)據(jù)挖掘平臺(tái)PDMiner,這是一個(gè)集成各種并行算法的數(shù)據(jù)挖掘工具平臺(tái),包括數(shù)據(jù)預(yù)處理(ETL)、數(shù)據(jù)挖掘算法、結(jié)果展示等功能。并行ETL算法達(dá)到了線性加速比;可實(shí)現(xiàn)TB級(jí)海量數(shù)據(jù)的預(yù)處理及之后的并行挖掘分析處理,且挖掘算法隨節(jié)點(diǎn)數(shù)線性增加,加速比隨之增加。其中的并行計(jì)算模式不僅包括算法之間的并行,而且包括算法內(nèi)部的并行。該系統(tǒng)具有運(yùn)行穩(wěn)定,容錯(cuò)能力強(qiáng),擴(kuò)展性好等特點(diǎn)。目前已用于中國(guó)移動(dòng)通信企業(yè)TB級(jí)實(shí)際數(shù)據(jù)的挖掘2/1/202324小結(jié)Hadoop Apache Yahoo!MahoutRHdoopSpar
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上教版九年級(jí)地理上冊(cè)月考試卷
- 2025年人教新起點(diǎn)九年級(jí)歷史上冊(cè)月考試卷含答案
- 2025年度產(chǎn)業(yè)園企業(yè)入駐節(jié)能減排技術(shù)應(yīng)用合同4篇
- 二零二五版港口碼頭堆場(chǎng)租賃及貨物跟蹤信息服務(wù)協(xié)議4篇
- 2025年浙教版九年級(jí)地理上冊(cè)月考試卷含答案
- 2025年滬教版九年級(jí)地理上冊(cè)月考試卷含答案
- 專業(yè)牛肉貿(mào)易協(xié)議范例(2024修訂版)版
- 網(wǎng)絡(luò)安全教育與培訓(xùn)模式-洞察分析
- 2025年度健康養(yǎng)生產(chǎn)品全國(guó)總經(jīng)銷合作協(xié)議4篇
- 2025年滬教版七年級(jí)化學(xué)下冊(cè)階段測(cè)試試卷含答案
- 高二物理競(jìng)賽霍爾效應(yīng) 課件
- 金融數(shù)學(xué)-(南京大學(xué))
- 基于核心素養(yǎng)下的英語(yǔ)寫作能力的培養(yǎng)策略
- 現(xiàn)場(chǎng)安全文明施工考核評(píng)分表
- 亞什蘭版膠衣操作指南
- 四年級(jí)上冊(cè)數(shù)學(xué)教案 6.1口算除法 人教版
- DB32-T 3129-2016適合機(jī)械化作業(yè)的單體鋼架塑料大棚 技術(shù)規(guī)范-(高清現(xiàn)行)
- 6.農(nóng)業(yè)產(chǎn)值與增加值核算統(tǒng)計(jì)報(bào)表制度(2020年)
- 人工挖孔樁施工監(jiān)測(cè)監(jiān)控措施
- 供應(yīng)商物料質(zhì)量問(wèn)題賠償協(xié)議(終端)
- 物理人教版(2019)必修第二冊(cè)5.2運(yùn)動(dòng)的合成與分解(共19張ppt)
評(píng)論
0/150
提交評(píng)論