大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop

上傳人：2*** IP屬地：湖北上傳時(shí)間：2023-02-01 格式：PPT 頁數(shù)：53 大?。?.20MB 積分：28 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop_第2頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop_第3頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop_第4頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop_第5頁

已閱讀5頁，還剩48頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章大數(shù)據(jù)處理架構(gòu)Hadoop提綱2.1概述2.2Hadoop項(xiàng)目結(jié)構(gòu)2.3Hadoop的安裝與使用2.4Hadoop集群的部署與使用2.1概述2.1.1 Hadoop簡(jiǎn)介2.1.2 Hadoop發(fā)展簡(jiǎn)史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀Hadoop的標(biāo)志2.1.1Hadoop簡(jiǎn)介

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語言開發(fā)的，具有很好的跨平臺(tái)特性，并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS（HadoopDistributedFileSystem）和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件，在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù)，如谷歌、雅虎、微軟、思科、淘寶等，都支持Hadoop2.1.2Hadoop發(fā)展簡(jiǎn)史

Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分

在2004年，Nutch項(xiàng)目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS（NutchDistributedFileSystem），也就是HDFS的前身2004年，谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文，闡述了MapReduce分布式編程思想2005年，Nutch開源實(shí)現(xiàn)了谷歌的MapReduce2.1.2Hadoop發(fā)展簡(jiǎn)史

到了2006年2月，Nutch中的NDFS和MapReduce開始獨(dú)立出來，成為Lucene項(xiàng)目的一個(gè)子項(xiàng)目，稱為Hadoop，同時(shí)，DougCutting加盟雅虎2008年1月，Hadoop正式成為Apache頂級(jí)項(xiàng)目，Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月，Hadoop打破世界紀(jì)錄，成為最快排序1TB數(shù)據(jù)的系統(tǒng)，它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算，排序時(shí)間只用了209秒在2009年5月，Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震，迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開源分布式開發(fā)平臺(tái)，并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)2.1.3Hadoop的特性

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架，并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的，它具有以下幾個(gè)方面的特性：

高可靠性

高效性

高可擴(kuò)展性

高容錯(cuò)性

成本低

運(yùn)行在Linux平臺(tái)上

支持多種編程語言2.1.3Hadoop的應(yīng)用現(xiàn)狀

Hadoop憑借其突出的優(yōu)勢(shì)，已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用，而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年，雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站，Hadoop是非常理想的選擇，F(xiàn)acebook主要將Hadoop平臺(tái)用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面

國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動(dòng)等，其中，淘寶的Hadoop集群比較大2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用架構(gòu)2.1.4ApacheHadoop版本演變ApacheHadoop版本分為兩代，我們將第一代Hadoop稱為Hadoop1.0，第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個(gè)大版本，分別是0.20.x，0.21.x和0.22.x，其中，0.20.x最后演化成1.0.x，變成了穩(wěn)定版，而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個(gè)版本，分別是0.23.x和2.x，它們完全不同于Hadoop1.0，是一套全新的架構(gòu)，均包含HDFSFederation和YARN兩個(gè)系統(tǒng)，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility兩個(gè)重大特性2.1.4ApacheHadoop版本演變ApacheHadoopHortonworksCloudera（CDH：ClouderaDistributionHadoop）MapR……2.1.5Hadoop各種版本選擇Hadoop版本的考慮因素：是否開源（即是否免費(fèi)）是否有穩(wěn)定版是否經(jīng)實(shí)踐檢驗(yàn)是否有強(qiáng)大的社區(qū)支持2.1.5Hadoop各種版本2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)展，已經(jīng)形成一個(gè)豐富的Hadoop生態(tài)系統(tǒng)2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)MapReduce分布式并行編程模型YARN資源管理和調(diào)度器Tez運(yùn)行在YARN之上的下一代Hadoop查詢處理框架HiveHadoop上的數(shù)據(jù)倉庫HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)，提供類似SQL的查詢語言PigLatinSqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞OozieHadoop上的工作流管理系統(tǒng)Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)Storm流計(jì)算框架Flume一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)AmbariHadoop快速部署工具，支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Kafka一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)Spark類似于HadoopMapReduce的通用并行框架2.3 Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)2.3.2安裝Linux虛擬機(jī)2.3.3安裝雙操作系統(tǒng)2.3.4詳解Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)（一）Linux的選擇（1）選擇哪個(gè)Linux發(fā)行版？在Linux系統(tǒng)各個(gè)發(fā)行版中，CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高，網(wǎng)絡(luò)上資料最是齊全，所以建議使用CentOS或Ubuntu在學(xué)習(xí)Hadoop方面，雖然兩個(gè)系統(tǒng)沒有多大區(qū)別，但是推薦使用Ubuntu操作系統(tǒng)（2）選擇32位還是64位？如果電腦比較老或者內(nèi)存小于2G，那么建議選擇32位系統(tǒng)版本的Linux如果內(nèi)存大于4G，那么建議選擇64位系統(tǒng)版本的Linux2.3.1Hadoop安裝之前的預(yù)備知識(shí)（二）系統(tǒng)安裝方式：選擇虛擬機(jī)安裝還是雙系統(tǒng)安裝建議電腦比較新或者配置內(nèi)存4G以上的電腦可以選擇虛擬機(jī)安裝電腦較舊或配置內(nèi)存小于等于4G的電腦強(qiáng)烈建議選擇雙系統(tǒng)安裝，否則，在配置較低的計(jì)算機(jī)上運(yùn)行LInux虛擬機(jī)，系統(tǒng)運(yùn)行速度會(huì)非常慢鑒于目前教師和學(xué)生的計(jì)算機(jī)硬件配置一般不高，建議在實(shí)踐教學(xué)中采用雙系統(tǒng)安裝，確保系統(tǒng)運(yùn)行速度2.3.1Hadoop安裝之前的預(yù)備知識(shí)（三）關(guān)于Linux的一些基礎(chǔ)知識(shí)Shell是指“提供使用者使用界面”的軟件（命令解析器），類似于DOS下的command和后來的cmd.exe。它接收用戶命令，然后調(diào)用相應(yīng)的應(yīng)用程序sudo命令sudo是ubuntu中一種權(quán)限管理機(jī)制，管理員可以授權(quán)給一些普通用戶去執(zhí)行一些需要root權(quán)限執(zhí)行的操作。當(dāng)使用sudo命令時(shí)，就需要輸入您當(dāng)前用戶的密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼在Linux的終端中輸入密碼，終端是不會(huì)顯示任何你當(dāng)前輸入的密碼，也不會(huì)提示你已經(jīng)輸入了多少字符密碼，讀者不要誤以為鍵盤沒有響應(yīng)輸入法中英文切換linux中英文的切換方式是使用鍵盤“shift”鍵來切換，也可以點(diǎn)擊頂部菜單的輸入法按鈕進(jìn)行切換。Ubuntu自帶的Sunpinyin中文輸入法已經(jīng)足夠讀者使用Ubuntu終端復(fù)制粘貼快捷鍵在Ubuntu終端窗口中，復(fù)制粘貼的快捷鍵需要加上shift，即粘貼是ctrl+shift+v2.3.1Hadoop安裝之前的預(yù)備知識(shí)（四）Hadoop安裝方式單機(jī)模式：Hadoop默認(rèn)模式為非分布式模式（本地模式），無需進(jìn)行其他配置即可運(yùn)行。非分布式即單Java進(jìn)程，方便進(jìn)行調(diào)試偽分布式模式：Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行，Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行，節(jié)點(diǎn)既作為NameNode也作為DataNode，同時(shí)，讀取的是HDFS中的文件分布式模式：使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行Hadoop2.3.2安裝Linux虛擬機(jī)一、材料和工具1、下載VirtualBox虛擬機(jī)軟件2.下載UbuntuLTS14.04ISO映像文件二、步驟（一）確認(rèn)系統(tǒng)版本如果選擇的系統(tǒng)是64位Ubuntu系統(tǒng)，那么在安裝虛擬機(jī)前，我們還要進(jìn)入BIOS開啟CPU的虛擬化2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開VirtualBox，點(diǎn)擊“創(chuàng)建”按鈕，創(chuàng)建一個(gè)虛擬機(jī)2.給虛擬機(jī)命名，選擇操作系統(tǒng)，版本3.選擇內(nèi)存大小，這里設(shè)置的1024M4.創(chuàng)建虛擬硬盤5.選擇虛擬硬盤文件類型VDI6.虛擬硬盤選擇動(dòng)態(tài)分配7.選擇文件存儲(chǔ)的位置和容量大小8.點(diǎn)擊創(chuàng)建2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.3安裝雙操作系統(tǒng)第一步：制作安裝U盤具體可參考百度經(jīng)驗(yàn)文章/article/59703552e0a6e18fc007409f.html第二步：雙系統(tǒng)安裝具體可參考百度經(jīng)驗(yàn)文章/article/dca1fa6fa3b905f1a44052bd.html安裝后Window和Ubuntu14.04都可以用，默認(rèn)windows優(yōu)先啟動(dòng)可以在電腦啟動(dòng)時(shí)，選擇進(jìn)入U(xiǎn)buntu系統(tǒng)而不是Windows系統(tǒng)2.3.4Hadoop的安裝與使用（單機(jī)/偽分布式）Hadoop基本安裝配置主要包括以下幾個(gè)步驟：創(chuàng)建Hadoop用戶SSH登錄權(quán)限設(shè)置安裝Java環(huán)境單機(jī)安裝配置偽分布式安裝配置創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的“hadoop”用戶，那么需要增加一個(gè)名為hadoop的用戶首先按

ctrl+alt+t

打開終端窗口，輸入如下命令創(chuàng)建新用戶:$sudouseradd–mhadoop–s/bin/bash上面這條命令創(chuàng)建了可以登陸的hadoop用戶，并使用/bin/bash作為shell創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼，可簡(jiǎn)單設(shè)置為hadoop，按提示輸入兩次密碼：$sudopasswdhadoop可為hadoop用戶增加管理員權(quán)限，方便部署，避免一些對(duì)新手來說比較棘手的權(quán)限問題：$sudoadduserhadoopsudoSSH登錄權(quán)限設(shè)置SSH是什么？SSH

為

SecureShell

的縮寫，是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議。SSH是目前較可靠、專為遠(yuǎn)程登錄會(huì)話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠(yuǎn)程管理過程中的信息泄露問題。SSH最初是UNIX系統(tǒng)上的一個(gè)程序，后來又迅速擴(kuò)展到其他操作平臺(tái)。SSH是由客戶端和服務(wù)端的軟件組成，服務(wù)端是一個(gè)守護(hù)進(jìn)程(daemon)，它在后臺(tái)運(yùn)行并響應(yīng)來自客戶端的連接請(qǐng)求，客戶端包含ssh程序以及像scp（遠(yuǎn)程拷貝）、slogin（遠(yuǎn)程登陸）、sftp（安全文件傳輸）等其他的應(yīng)用程序SSH登錄權(quán)限設(shè)置配置SSH的原因：Hadoop名稱節(jié)點(diǎn)（NameNode）需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程，這個(gè)過程需要通過SSH登錄來實(shí)現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式，因此，為了能夠順利登錄每臺(tái)機(jī)器，需要將所有機(jī)器配置為名稱節(jié)點(diǎn)可以無密碼登錄它們安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK，或是OpenJDK可以在Ubuntu中直接通過命令安裝OpenJDK7$sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk還需要配置一下JAVA_HOME環(huán)境變量

具體請(qǐng)參考網(wǎng)絡(luò)教程：/blog/install-hadoop/單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載，需要下載

hadoop-2.x.y.tar.gz

這個(gè)格式的文件，這是編譯好的，另一個(gè)包含src的則是Hadoop源代碼，需要進(jìn)行編譯才可使用Hadoop2安裝文件的下載如果讀者是使用虛擬機(jī)方式安裝Ubuntu系統(tǒng)的用戶，請(qǐng)用虛擬機(jī)中的Ubuntu自帶firefox瀏覽器訪問本指南，再點(diǎn)擊下載地址，才能把hadoop文件下載虛擬機(jī)ubuntu中。請(qǐng)不要使用Windows系統(tǒng)下的瀏覽器下載，文件會(huì)被下載到Windows系統(tǒng)中，虛擬機(jī)中的Ubuntu無法訪問外部Windows系統(tǒng)的文件，造成不必要的麻煩。如果讀者是使用雙系統(tǒng)方式安裝Ubuntu系統(tǒng)的用戶，請(qǐng)進(jìn)去Ubuntu系統(tǒng)，在Ubuntu系統(tǒng)打開firefox瀏覽器，再點(diǎn)擊下載單機(jī)安裝配置選擇將Hadoop安裝至/usr/local/中$sudotar-zxf~/下載/hadoop-2.6.0.tar.gz-C/usr/local#解壓到/usr/local中$cd/usr/local/$sudomv./hadoop-2.6.0/./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限Hadoop解壓后即可使用。輸入如下命令來檢查Hadoop是否可用，成功則會(huì)顯示Hadoop版本信息：$cd/usr/local/hadoop$./bin/hadoopversionHadoop默認(rèn)模式為非分布式模式（本地模式），無需進(jìn)行其他配置即可運(yùn)行。偽分布式安裝配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行，Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行，節(jié)點(diǎn)既作為NameNode也作為DataNode，同時(shí)，讀取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，偽分布式需要修改2個(gè)配置文件

core-site.xml

和

hdfs-site.xml

Hadoop的配置文件是xml格式，每個(gè)配置以聲明property的name和value的方式來實(shí)現(xiàn)偽分布式安裝配置實(shí)驗(yàn)步驟：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動(dòng)所有進(jìn)程start-all.sh訪問web界面，查看Hadoop信息運(yùn)行實(shí)例偽分布式安裝配置修改配置文件

偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表示副本的數(shù)量，偽分布式要設(shè)置為1.dir表示本地磁盤目錄，是存儲(chǔ)fsimage文件的地方dfs.datanode.data.dir表示本地磁盤目錄，HDFS數(shù)據(jù)存放block的地方偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別：1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs適用于任何不同的文件系統(tǒng)，比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoopdfs只能適用于HDFS文件系統(tǒng)hdfsdfs跟hadoopdfs的命令作用一樣，也只能適用于HDFS文件系統(tǒng)2.4.1集群節(jié)點(diǎn)類型2.4.2集群規(guī)模2.4.3集群硬件配置2.4.4集群網(wǎng)絡(luò)拓?fù)?.4.5集群的建立與安裝2.4.6集群基準(zhǔn)測(cè)試2.4.7在云計(jì)算環(huán)境中使用Hadoop2.4Hadoop集群的部署與使用2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架中最核心的設(shè)計(jì)是為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對(duì)數(shù)據(jù)進(jìn)行計(jì)算的MapReduceMapReduce的作業(yè)主要包括：（1）從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù)，即IO密集工作；（2）計(jì)算數(shù)據(jù)，即CPU密集工作Hadoop集群的整體性能取決于CPU、內(nèi)存、網(wǎng)絡(luò)以及存儲(chǔ)之間的性能平衡。因此運(yùn)營團(tuán)隊(duì)在選擇機(jī)器配置時(shí)要針對(duì)不同的工作節(jié)點(diǎn)選擇合適硬件類型一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要有NameNode：負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)DataNode：存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker：協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker：負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode：幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息2.4.2集群硬件配置在集群中，大部分的機(jī)器設(shè)備是作為Datanode和TaskTracker工作的Datanode/TaskTracker的硬件規(guī)格可以采用以下方案：4個(gè)磁盤驅(qū)動(dòng)器（單盤1-2T），支持JBOD(JustaBunchOfDisks，磁盤簇)2個(gè)4核CPU,至少2-2.5GHz16-24GB內(nèi)存千兆以太網(wǎng)2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)，因此需要更多的RAM，與集群中的數(shù)據(jù)塊數(shù)量相對(duì)應(yīng)，并且需要優(yōu)化RAM的內(nèi)存通道帶寬，采用雙通道或三通道以上內(nèi)存。硬件規(guī)格可以采用以下方案：8-12個(gè)磁盤驅(qū)動(dòng)器（單盤1-2T）2個(gè)4核/8核CPU16-72GB內(nèi)存千兆/萬兆以太網(wǎng)2.4.2集群硬件配置SecondaryNameNode在小型集群中可以和NameNode共用一臺(tái)機(jī)器，較大的群集可以采用與NameNode相同的硬件2.4.3集群規(guī)模要多大Hadoop集群規(guī)?？纱罂尚?，初始時(shí)，可以從一個(gè)較小規(guī)模的集群開始，比如包含10個(gè)節(jié)點(diǎn)，然后，規(guī)模隨著存儲(chǔ)器和計(jì)算需求的擴(kuò)大而擴(kuò)大如果數(shù)據(jù)每周增大1TB，并且有三個(gè)HDFS副本，然后每周需要一個(gè)額外的3TB作為原始數(shù)據(jù)存儲(chǔ)。要允許一些中間文件和日志（假定30%）的空間，由此，可以算出每周大約需要增加一臺(tái)新機(jī)器。存儲(chǔ)兩年數(shù)據(jù)的集群，大約需要100臺(tái)機(jī)器對(duì)于一個(gè)小的集群，名稱節(jié)點(diǎn)（NameNode）和JobTracker運(yùn)行在單個(gè)節(jié)點(diǎn)上，通常是可以接受的。但是，隨著集群和存儲(chǔ)在HDFS中的文件數(shù)量的增加，名稱節(jié)點(diǎn)需要更多的主存，這時(shí)，名稱節(jié)點(diǎn)和JobTracker就需要運(yùn)行在不同的節(jié)點(diǎn)上第二名稱節(jié)點(diǎn)（SecondaryNameNode）會(huì)和名稱節(jié)點(diǎn)可以運(yùn)行在相同的機(jī)器上，但是，由于第二名稱節(jié)點(diǎn)和名稱節(jié)點(diǎn)幾乎具有相同的主存需求，因此，二者最好運(yùn)行在不同節(jié)點(diǎn)上2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階網(wǎng)絡(luò)構(gòu)成每個(gè)機(jī)架（Rack）有30-40個(gè)服務(wù)器，配置一個(gè)1GB的交換機(jī)，并向上傳輸?shù)揭粋€(gè)核心交換機(jī)或者路由器（1GB或以上）在相同的機(jī)架中的節(jié)點(diǎn)間的帶寬的總和，要大于不同機(jī)架間的節(jié)點(diǎn)間的帶寬總和2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后，就可以把硬件裝入機(jī)架，安裝并運(yùn)行Hadoop安裝Hadoop有多種方法：（1）手動(dòng)安裝（2）自動(dòng)化安裝為了緩解安裝和維護(hù)每個(gè)節(jié)點(diǎn)上相同的軟件的負(fù)擔(dān)，可以使用一個(gè)自動(dòng)化方法

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)技術(shù)原理與應(yīng)用第二章大數(shù)據(jù)處理架構(gòu)Hadoop