




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Hadoop大數(shù)據(jù)項目開發(fā)——Hadoop簡介目錄content0201Hadoop簡介Hadoop特點Hadoop簡介Hadoop是一個Apache軟件基金會旗下的開源軟件Hadoop簡介Hadoop具有旺盛的生命力免費極大的降低使用的復(fù)雜旺盛的生命力它對普通用戶屏蔽了技術(shù)底層實現(xiàn)的細節(jié),只要按照它提供的接口做一些簡單的操作,后臺所有的工作全部有它整個系統(tǒng)技術(shù)自己去實現(xiàn)。Hadoop簡介Hadoop是用Java開發(fā),但支持多種編程語言開發(fā)Hadoop是使用Java語言開發(fā),但不是只能用Java語言去寫Hadoop的應(yīng)用,在Hadoop平臺上開發(fā)它的應(yīng)用可以使用任意語言。Hadoop簡介--兩大核心大數(shù)據(jù)項目的集合體,一整套解決方案的統(tǒng)稱分布式并行編程框架MapReduce海量數(shù)據(jù)的分布式計算分布式文件系統(tǒng)HDFS:海量數(shù)據(jù)的分布式存儲Hadoop簡介--解決兩大關(guān)鍵問題HDFS:海量數(shù)據(jù)的分布式存儲解決怎么用成百上千乃至上萬臺機器存儲PB乃至EB規(guī)模的數(shù)據(jù)。Hadoop解決了大數(shù)據(jù)時代最關(guān)鍵的兩個難題:MapReduce:海量數(shù)據(jù)的分布式處理解決上千臺服務(wù)器同時完成一個任務(wù)的分布式并行處理。Hadoop在各個領(lǐng)域得到了非常廣泛的應(yīng)用,滿足了許多企業(yè)實際的需求,也成為各大知名公司的寵兒。。Hadoop簡介--應(yīng)用國內(nèi)點擊添加標題內(nèi)容添加關(guān)鍵字Hadoop起源Hadoop平臺的兩大核心組件均來自于谷歌2008年1月,Hadoop正式成為Apache頂級項目;2008年4月,Hadoop用910個節(jié)點構(gòu)成集群,對1TB的數(shù)據(jù)進行排序,僅用了209秒,一戰(zhàn)成名,Hadoop由此名聲大震。Hadoop最早是為了構(gòu)建一個大型全網(wǎng)搜索引擎。谷歌2004年發(fā)布了并行編程框架MapReduce。2005年,Hadoop平臺把它作為自己的MapReduce的開源實現(xiàn)。谷歌2003年發(fā)布了分布式文件系統(tǒng)GFS,2004年,Hadoop把GFS應(yīng)用到自己的平臺,即HDFS是GFS的開源實現(xiàn)。Hadoop簡介Hadoop的名字不是單詞的首字母縮寫Hadoop不是版本號最高就代表最新這是因為對于任何一個Apache開源項目,當需要開發(fā)某個特性時,會專門從主代碼線中延伸出一個分支。由于多個分支可能會同時進行研發(fā),因此版本高的分支有時候會先于版本低的分支發(fā)布。Hadoop項目負責人曾經(jīng)這樣描述過這個名字:“這是我的孩子給他的黃色毛絨小象玩具起得名字,簡短易于讀寫,沒有具體意義且沒有被別人使用過,這就是我對于項目命名的原則”。Hadoop特點低成本高效性高容錯性高可靠性支持多種編程語言高擴展性Hadoop特點高可靠性Hadoop采用冗余副本機制;當部分機器發(fā)生故障時,其他機器也可以保證集群正常對外提供服務(wù)。集群中的一臺機器有問題,其余機器繼續(xù)提供服務(wù)Hadoop特點高效性Hadoop以并行的方式工作,非常高效的處理海量數(shù)據(jù)。成百上千臺機器一起計算Hadoop特點高擴展性Hadoop實現(xiàn)了線性擴展,可以從單個服務(wù)器擴展到數(shù)千臺計算機,并且每臺計算機都提供了數(shù)據(jù)存儲功能和計算功能。Hadoop特點高容錯性Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配,當其中一個副本出現(xiàn)故障時,不影響集群的整體運行。Hadoop特點低成本Hadoop使用廉價計算機搭建集群,從而降低了硬件成本,普通用戶也可以使用自己的個人計算機搭建和運行Hadoop。個人計算機搭建大數(shù)據(jù)集群Hadoop特點123支持多種編程語言支持多種編程語言完成Hadoop平臺的應(yīng)用程序開發(fā)。
具有很好的跨平臺特性;Hadoop是用Java語言開發(fā)的。本節(jié)小結(jié)Hadoop自誕生以來,改變了對數(shù)據(jù)存儲、處理和分析的過程,加速了大數(shù)據(jù)技術(shù)的快速發(fā)展,得到了非常廣泛的應(yīng)用。Hadoop大數(shù)據(jù)項目開發(fā)——Hadoop生態(tài)系統(tǒng)目錄content02MapRedcue01HDFS03YARN04ZooKeeper05Hive07Sqoop06HBase08Kafka09FlumeHadoop生態(tài)系統(tǒng)簡介Hadoop生態(tài)系統(tǒng)圖HDFS:分布式文件系統(tǒng)成百上千臺服務(wù)器完成海量數(shù)據(jù)存儲和管理??梢赃\行在廉價的個人計算機集群上。HDFS負責整個分布式文件的存儲YARN:資源調(diào)度YARN負責資源的管理和調(diào)度例如內(nèi)存,CPU,帶寬等需要YARN統(tǒng)一調(diào)度。海量數(shù)據(jù)在HDFS存儲后,需要進行相關(guān)的處理,但是處理之前,需要一個計算的框架去調(diào)度資源,底層那么多資源,需要YARN框架進行調(diào)度。MapReduce:分布式文件計算不是實時計算,是負責離線,批處理計算的。用戶只需實現(xiàn)Map和Reduce兩個函數(shù)就可以完成分布式計算任務(wù)。MapReduce解決海量數(shù)據(jù)的計算問題Hive:數(shù)據(jù)倉庫Hive是Hadoop的數(shù)據(jù)倉庫。用于離線分析用于企業(yè)的決策分析ZooKeeper:協(xié)調(diào)服務(wù)用于統(tǒng)一維護配置信息、域名,提供分布式同步、組服務(wù)等可以用來搭建高可用集群。Hive是分布式應(yīng)用程序協(xié)調(diào)服務(wù)。HBase:非結(jié)構(gòu)化數(shù)據(jù)庫面向列的分布式開源數(shù)據(jù)庫。隨機讀寫,支持實時應(yīng)用。HBase是非關(guān)系型數(shù)據(jù)庫。HBase是Hadoop的非結(jié)構(gòu)化數(shù)據(jù)庫。Flume:日志收集訪問阿里巴巴、淘寶時的數(shù)據(jù)流都是實時生成的,需要進行實時分析,必須有一套工具把它收集過來,F(xiàn)lume就是幫助進行日志收集的。Flume負責日志收集Sqoop:數(shù)據(jù)導入導出Sqoop專門用于把關(guān)系型數(shù)據(jù)庫中的相關(guān)產(chǎn)品導入到Hadoop平臺上的HDFS、HBASE、HIVE數(shù)據(jù)庫;反之,用Sqoop把Hadoop平臺上的HDFS、HBASE、HIVE中的數(shù)據(jù)導出到關(guān)系型數(shù)據(jù)庫中。Sqoop負責數(shù)據(jù)的導入導出Kafka:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省菏澤一中八一路校區(qū)2024-2025學年全國高三沖刺考(四)全國I卷物理試題含解析
- 2024-2025學年四川省眉山市車城中學第二學期高三期末統(tǒng)一考試英語試題含解析
- 秦皇島職業(yè)技術(shù)學院《鐵路站場及樞紐》2023-2024學年第二學期期末試卷
- 廣州國道施工方案
- 馬路磚施工方案
- 關(guān)于嬰兒背帶包的調(diào)查問卷
- 2025年食品行業(yè)資訊:全國居民消費價格指數(shù)同比下降0.7%
- 【2025年汽車產(chǎn)業(yè)布局成效初顯:12月汽車產(chǎn)銷同比增長超13%】
- 湖南省長沙市雨花區(qū)2024-2025學年高一(上)期末語文試卷
- 北京市西城區(qū)2024-2025學年高一(上)期末生物試卷(含解析)
- 2024年黑龍江農(nóng)業(yè)工程職業(yè)學院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- (完整版)高考英語詞匯3500詞(精校版)
- 2024年常州機電職業(yè)技術(shù)學院高職單招語文歷年參考題庫含答案解析
- 湘教版七年級數(shù)學下冊第二章實數(shù)教學課件
- 電工基礎(chǔ)知識培訓課件
- 2024年全國職業(yè)院校技能大賽高職組(智慧物流賽項)考試題庫(含答案)
- 2025年中天合創(chuàng)公司招聘筆試參考題庫含答案解析
- 《海洋平臺的腐蝕及》課件
- 精神病個案管理
- 《S市某辦公樓供配電系統(tǒng)設(shè)計》11000字(論文)
- 信托產(chǎn)品風險控制策略-洞察分析
評論
0/150
提交評論