《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項(xiàng)目5 搭建HDFS分布式集群_第1頁(yè)
《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項(xiàng)目5 搭建HDFS分布式集群_第2頁(yè)
《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項(xiàng)目5 搭建HDFS分布式集群_第3頁(yè)
《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項(xiàng)目5 搭建HDFS分布式集群_第4頁(yè)
《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》 課件 項(xiàng)目5 搭建HDFS分布式集群_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop大數(shù)據(jù)技術(shù)——搭建HDFS分布式集群湖南軟件職業(yè)技術(shù)大學(xué)HDFS架構(gòu)設(shè)計(jì)與工作原理HDFS是什么

HDFS源于Google在2003年10月份發(fā)表的GFS(GoogleFileSystem)論文。它其實(shí)就是GFS的一個(gè)克隆版本。湖南軟件職業(yè)技術(shù)大學(xué)HDFS(HadoopDistributedFileSystem)是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪問(wèn)和處理超大文件的需求而開(kāi)發(fā)的,可以運(yùn)行于廉價(jià)的商用服務(wù)器上。《TheGoogleFileSystem》2003年HDFS產(chǎn)生背景

隨著數(shù)據(jù)量的不斷增大,最終會(huì)導(dǎo)致數(shù)據(jù)在一個(gè)操作系統(tǒng)的磁盤(pán)中存儲(chǔ)不下。那么為了存儲(chǔ)這些大規(guī)模數(shù)據(jù),就需要將數(shù)據(jù)分配到更多操作系統(tǒng)管理的磁盤(pán)中進(jìn)行存儲(chǔ),但是這樣會(huì)導(dǎo)致數(shù)據(jù)的管理和維護(hù)非常不方便,所以就迫切需要一種系統(tǒng)來(lái)管理和維護(hù)多臺(tái)機(jī)器上的數(shù)據(jù)文件,實(shí)際上這種系統(tǒng)就是分布式文件系統(tǒng),而HDFS只是分布式文件系統(tǒng)中的一種。湖南軟件職業(yè)技術(shù)大學(xué)HDFS的設(shè)計(jì)理念來(lái)源于非常樸素的思想:理念

即當(dāng)數(shù)據(jù)文件的大小超過(guò)單臺(tái)計(jì)算機(jī)的存儲(chǔ)能力時(shí),就有必要將數(shù)據(jù)文件切分并存儲(chǔ)到由若干臺(tái)計(jì)算機(jī)組成的集群中,這些計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)進(jìn)行連接。集群HDFS集群

HDFS作為一個(gè)抽象層架構(gòu)在集群網(wǎng)絡(luò)之上,對(duì)外提供統(tǒng)一的文件管理功能,對(duì)于用戶(hù)來(lái)說(shuō)就感覺(jué)像在操作一臺(tái)計(jì)算機(jī)一樣,根本感受不到HDFS底層的多臺(tái)計(jì)算機(jī),而且HDFS還能夠很好地容忍節(jié)點(diǎn)故障且不丟失任何數(shù)據(jù)。HDFS設(shè)計(jì)理念湖南軟件職業(yè)技術(shù)大學(xué)03010402簡(jiǎn)單的一致性模型在HDFS文件系統(tǒng)中,一個(gè)文件一旦經(jīng)過(guò)創(chuàng)建、寫(xiě)入、關(guān)閉之后,一般就不需要再進(jìn)行修改,這樣就可以簡(jiǎn)單地保證數(shù)據(jù)的一致性。硬件故障的檢測(cè)和快速應(yīng)對(duì)通過(guò)大量普通硬件構(gòu)成的集群中,硬件出現(xiàn)故障是常見(jiàn)的問(wèn)題。HDFS文件系統(tǒng)一般是由數(shù)十臺(tái)甚至成百上千臺(tái)服務(wù)器組成,這么多服務(wù)器就意味著高故障率,但是HDFS在設(shè)計(jì)之初已經(jīng)充分考慮到這些問(wèn)題,認(rèn)為硬件故障是常態(tài)而不是異常,所以如何進(jìn)行故障的檢測(cè)和快速自動(dòng)恢復(fù)也是HDFS的重要設(shè)計(jì)目標(biāo)之一。流式數(shù)據(jù)訪問(wèn)流式數(shù)據(jù)訪問(wèn)是HDFS選擇的最高效的數(shù)據(jù)訪問(wèn)方式。流式數(shù)據(jù)訪問(wèn)可以理解為:讀取數(shù)據(jù)文件就像打開(kāi)水龍頭一樣,可以不停地讀取。支持超大文件存儲(chǔ)支持超大文件存儲(chǔ)是HDFS最基本的職責(zé)所在。HDFS核心設(shè)計(jì)目標(biāo)HDFS設(shè)計(jì)目標(biāo)湖南軟件職業(yè)技術(shù)大學(xué)HDFS系統(tǒng)架構(gòu)湖南軟件職業(yè)技術(shù)大學(xué)HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群包含一個(gè)單獨(dú)的NameNode和多個(gè)DataNodeHDFS系統(tǒng)架構(gòu)湖南軟件職業(yè)技術(shù)大學(xué)FSImage和Editlog合并的詳細(xì)步驟如下:HDFS優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

高容錯(cuò)性

數(shù)據(jù)自動(dòng)保存多個(gè)副本,HDFS通過(guò)增加多個(gè)副本的形式,提高HDFS文件系統(tǒng)的容錯(cuò)性,某一個(gè)副本丟失以后可以自動(dòng)恢復(fù)。缺點(diǎn)

適合大數(shù)據(jù)處理

能夠處理GB、TB、甚至PB級(jí)別的數(shù)據(jù)規(guī)模;能夠處理百萬(wàn)規(guī)模以上的文件數(shù)量;能夠達(dá)到10000個(gè)節(jié)點(diǎn)以上的集群規(guī)模。

流式文件訪問(wèn)

數(shù)據(jù)文件只能一次寫(xiě)入,多次讀取,只能追加,不能修改;HDFS能保證數(shù)據(jù)的簡(jiǎn)單一致性。

可構(gòu)建在廉價(jià)的機(jī)器上

HDFS提供了容錯(cuò)和恢復(fù)機(jī)制,比如某一個(gè)副本丟失了可以通過(guò)其他副本來(lái)恢復(fù),從而保證了數(shù)據(jù)的安全性和系統(tǒng)的可靠性。

不適合低延時(shí)數(shù)據(jù)訪問(wèn)

比如毫秒級(jí)別的數(shù)據(jù)響應(yīng)時(shí)間,這種場(chǎng)景HDFS是很難做到的。HDFS更適合高吞吐率的場(chǎng)景,就是在某一時(shí)間內(nèi)寫(xiě)入大量的數(shù)據(jù)。

不適合大量小文件的存儲(chǔ)

如果有大量小文件需要存儲(chǔ),這些小文件的元數(shù)據(jù)信息會(huì)占用NameNode大量的內(nèi)存空間。這樣是不可取的,因?yàn)镹ameNode的內(nèi)存總是有限的。如果讀取小文件的尋道時(shí)間超過(guò)文件數(shù)據(jù)的讀取時(shí)間,它就違反了HDFS大數(shù)據(jù)塊的設(shè)計(jì)目標(biāo)。

不適合并發(fā)寫(xiě)入、文件隨機(jī)修改

一個(gè)文件只能有一個(gè)寫(xiě)操作,不允許多個(gè)線(xiàn)程同時(shí)進(jìn)行寫(xiě)操作;僅支持?jǐn)?shù)據(jù)的append(追加)操作,不支持文件的隨機(jī)修改。湖南軟件職業(yè)技術(shù)大學(xué)HDFS讀數(shù)據(jù)流程湖南軟件職業(yè)技術(shù)大學(xué)HDFS讀取數(shù)據(jù)的主要步驟如圖所示:HDFS寫(xiě)數(shù)據(jù)的主要步驟如圖所示:HDFS寫(xiě)數(shù)據(jù)流程湖南軟件職業(yè)技術(shù)大學(xué)湖南軟件職業(yè)技術(shù)大學(xué)HDFS高可用(HA)湖南軟件職業(yè)技術(shù)大學(xué)

高可用(HighAvailability

,簡(jiǎn)稱(chēng)HA)為了整個(gè)系統(tǒng)的可靠性,我們通常會(huì)在系統(tǒng)中部署兩臺(tái)或多臺(tái)主節(jié)點(diǎn),多臺(tái)主節(jié)點(diǎn)形成主備的關(guān)系,但是某一時(shí)刻只有一個(gè)主節(jié)點(diǎn)能夠?qū)ν馓峁┓?wù),當(dāng)某一時(shí)刻檢測(cè)到對(duì)外提供服務(wù)的主節(jié)點(diǎn)“掛”掉之后,備用主節(jié)點(diǎn)能夠立刻接替已掛掉的主節(jié)點(diǎn)對(duì)外提供服務(wù),而用戶(hù)感覺(jué)不到明顯的系統(tǒng)中斷。這樣對(duì)用戶(hù)來(lái)說(shuō)整個(gè)系統(tǒng)就更加的可靠和高效。HA機(jī)制產(chǎn)生的背景二是計(jì)劃內(nèi)的NameNode節(jié)點(diǎn)軟件或硬件升級(jí),導(dǎo)致集群在短時(shí)間內(nèi)不可用。一是NameNode機(jī)器宕機(jī),將導(dǎo)致集群不可用,重啟NameNode之后才可使用;

HA機(jī)制產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論