大數(shù)據(jù)技術的發(fā)展史_第1頁
大數(shù)據(jù)技術的發(fā)展史_第2頁
大數(shù)據(jù)技術的發(fā)展史_第3頁
大數(shù)據(jù)技術的發(fā)展史_第4頁
大數(shù)據(jù)技術的發(fā)展史_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)技術的發(fā)展史演講人2020-11-02起源01Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”分布式文件系統(tǒng)GFS大數(shù)據(jù)分布式計算框架MapReduceNoSQL數(shù)據(jù)庫系統(tǒng)BigTable搜索引擎主要就做兩件事情一個是網(wǎng)頁抓取,一個是索引構建這兩件事情,涉及到大量數(shù)據(jù)的存儲和計算而“三駕馬車”其實就是用來解決這個問題的,一個文件系統(tǒng)、一個計算框架、一個數(shù)據(jù)庫系統(tǒng)起源Hadoop誕生02Hadoop誕生01040203當時的天才程序員,也是Lucene開源項目的創(chuàng)始人DougCutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實現(xiàn)了類似GFS和MapReduce的功能2006年,DougCutting將這些大數(shù)據(jù)相關的功能從Nutch中分離了出來,然后啟動了一個獨立的項目專門開發(fā)維護大數(shù)據(jù)技術,這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計算引擎MapReduceHadoop是使用Java編寫的Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進行大數(shù)據(jù)存儲與計算。Hadoop誕生No.12008年,Hadoop正式成為Apache的頂級項目,后來DougCutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟件開發(fā)領域的一顆明星冉冉升起。No.2同年,專門運營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進一步的商業(yè)支持。Pig誕生03Yahoo的一些人覺得用MapReduce進行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進行的操作,Pig經(jīng)過編譯后會生成MapReduce程序,然后在Hadoop上運行。Pig誕生Hive誕生04Hive誕生編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學習新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進行大數(shù)據(jù)計算,比如說你可以寫個Select語句進行數(shù)據(jù)查詢,然后Hive會把SQL語句轉(zhuǎn)化成MapReduce的計算程序。這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時候,F(xiàn)acebook大數(shù)據(jù)平臺上運行的作業(yè)90%都來源于Hive。Sqoop誕生05專門將關系數(shù)據(jù)庫中的數(shù)據(jù)導入導出到Hadoop平臺Sqoop誕生Flume誕生06針對大規(guī)模日志進行分布式收集、聚合和傳輸Flume誕生Oozie誕生07MapReduce工作流調(diào)度引擎Oozie誕生Yarn誕生08在Hadoop早期,MapReduce既是一個執(zhí)行引擎,又是一個資源調(diào)度框架,服務器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復用,也使得MapReduce非常臃腫。于是一個新項目啟動了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個獨立的項目開始運營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。Yarn誕生Spark誕生092012年,UC伯克利AMP實驗室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當時AMP實驗室的馬鐵博士發(fā)現(xiàn)使用MapReduce進行機器學習計算的時候性能非常差,因為機器學習算法通常需要進行很多次的迭代計算,而MapReduce每執(zhí)行一次Map和Reduce計算都需要重新啟動一次作業(yè),帶來大量的無謂消耗。還有一點就是MapReduce主要使用磁盤作為存儲介質(zhì),而2012年的時候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應用中的地位。Spark誕生兩類計算10兩類計算大數(shù)據(jù)實時計算/大數(shù)據(jù)流計算大數(shù)據(jù)離線計算/批處理計算一般說來,像MapReduce、Spark這類計算框架處理的業(yè)務場景都被稱作批處理計算,因為它們通常針對以“天”為單位產(chǎn)生的數(shù)據(jù)進行一次計算,然后得到需要的結果,這中間計算需要花費的時間大概是幾十分鐘甚至更長的時間。因為計算的數(shù)據(jù)是非在線得到的實時數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計算也被稱為大數(shù)據(jù)離線計算。另外一類應用場景,它們需要對實時產(chǎn)生的大量數(shù)據(jù)進行即時計算,比如對于遍布城市的監(jiān)控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數(shù)據(jù)流計算,相應地,有Storm、Flink、SparkStreaming等流計算框架來滿足此類大數(shù)據(jù)應用的場景。流式計算要處理的數(shù)據(jù)是實時在線產(chǎn)生的數(shù)據(jù),所以這類計算也被稱為大數(shù)據(jù)實時計算。在典型的大數(shù)據(jù)的業(yè)務場景下,數(shù)據(jù)業(yè)務最通用的做法是,采用批處理的技術處理歷史全量數(shù)據(jù),采用流式計算處理實時新增數(shù)據(jù)。而像Flink這樣的計算引擎,可以同時支持流式計算和批處理計算。

兩類計算NoSQL系統(tǒng)11NoSQL系統(tǒng)No.1NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論