大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop_第1頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop_第2頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop_第3頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop_第4頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用 第二章 大數(shù)據(jù)處理架構(gòu)Hadoop_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章大數(shù)據(jù)處理架構(gòu)Hadoop提綱2.1概述2.2Hadoop項(xiàng)目結(jié)構(gòu)2.3Hadoop的安裝與使用2.4Hadoop集群的部署與使用2.1概述2.1.1 Hadoop簡(jiǎn)介2.1.2 Hadoop發(fā)展簡(jiǎn)史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀Hadoop的標(biāo)志2.1.1Hadoop簡(jiǎn)介

Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺(tái)特性,并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.2Hadoop發(fā)展簡(jiǎn)史

Hadoop最初是由ApacheLucene項(xiàng)目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch項(xiàng)目——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene項(xiàng)目的一部分

在2004年,Nutch項(xiàng)目也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS(NutchDistributedFileSystem),也就是HDFS的前身2004年,谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文,闡述了MapReduce分布式編程思想2005年,Nutch開源實(shí)現(xiàn)了谷歌的MapReduce2.1.2Hadoop發(fā)展簡(jiǎn)史

到了2006年2月,Nutch中的NDFS和MapReduce開始獨(dú)立出來,成為L(zhǎng)ucene項(xiàng)目的一個(gè)子項(xiàng)目,稱為Hadoop,同時(shí),DougCutting加盟雅虎2008年1月,Hadoop正式成為Apache頂級(jí)項(xiàng)目,Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界紀(jì)錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算,排序時(shí)間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震,迅速發(fā)展成為大數(shù)據(jù)時(shí)代最具影響力的開源分布式開發(fā)平臺(tái),并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)2.1.3Hadoop的特性

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的,它具有以下幾個(gè)方面的特性:

高可靠性

高效性

高可擴(kuò)展性

高容錯(cuò)性

成本低

運(yùn)行在Linux平臺(tái)上

支持多種編程語言2.1.3Hadoop的應(yīng)用現(xiàn)狀

Hadoop憑借其突出的優(yōu)勢(shì),已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年,雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站,Hadoop是非常理想的選擇,F(xiàn)acebook主要將Hadoop平臺(tái)用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面

國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動(dòng)等,其中,淘寶的Hadoop集群比較大2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop在企業(yè)中的應(yīng)用架構(gòu)2.1.4ApacheHadoop版本演變ApacheHadoop版本分為兩代,我們將第一代Hadoop稱為Hadoop1.0,第二代Hadoop稱為Hadoop2.0第一代Hadoop包含三個(gè)大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩(wěn)定版,而0.21.x和0.22.x則增加了NameNodeHA等新的重大特性第二代Hadoop包含兩個(gè)版本,分別是0.23.x和2.x,它們完全不同于Hadoop1.0,是一套全新的架構(gòu),均包含HDFSFederation和YARN兩個(gè)系統(tǒng),相比于0.23.x,2.x增加了NameNodeHA和Wire-compatibility兩個(gè)重大特性2.1.4ApacheHadoop版本演變ApacheHadoopHortonworksCloudera(CDH:ClouderaDistributionHadoop)MapR……2.1.5Hadoop各種版本選擇Hadoop版本的考慮因素:是否開源(即是否免費(fèi))是否有穩(wěn)定版是否經(jīng)實(shí)踐檢驗(yàn)是否有強(qiáng)大的社區(qū)支持2.1.5Hadoop各種版本2.2Hadoop項(xiàng)目結(jié)構(gòu)Hadoop的項(xiàng)目結(jié)構(gòu)不斷豐富發(fā)展,已經(jīng)形成一個(gè)豐富的Hadoop生態(tài)系統(tǒng)2.2Hadoop項(xiàng)目結(jié)構(gòu)組件功能HDFS分布式文件系統(tǒng)MapReduce分布式并行編程模型YARN資源管理和調(diào)度器Tez運(yùn)行在YARN之上的下一代Hadoop查詢處理框架HiveHadoop上的數(shù)據(jù)倉庫HBaseHadoop上的非關(guān)系型的分布式數(shù)據(jù)庫Pig一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),提供類似SQL的查詢語言PigLatinSqoop用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)傳遞OozieHadoop上的工作流管理系統(tǒng)Zookeeper提供分布式協(xié)調(diào)一致性服務(wù)Storm流計(jì)算框架Flume一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)AmbariHadoop快速部署工具,支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控Kafka一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)Spark類似于HadoopMapReduce的通用并行框架2.3 Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)2.3.2安裝Linux虛擬機(jī)2.3.3安裝雙操作系統(tǒng)2.3.4詳解Hadoop的安裝與使用2.3.1Hadoop安裝之前的預(yù)備知識(shí)(一)Linux的選擇(1)選擇哪個(gè)Linux發(fā)行版?在Linux系統(tǒng)各個(gè)發(fā)行版中,CentOS系統(tǒng)和Ubuntu系統(tǒng)在服務(wù)端和桌面端使用占比最高,網(wǎng)絡(luò)上資料最是齊全,所以建議使用CentOS或Ubuntu在學(xué)習(xí)Hadoop方面,雖然兩個(gè)系統(tǒng)沒有多大區(qū)別,但是推薦使用Ubuntu操作系統(tǒng)(2)選擇32位還是64位?如果電腦比較老或者內(nèi)存小于2G,那么建議選擇32位系統(tǒng)版本的Linux如果內(nèi)存大于4G,那么建議選擇64位系統(tǒng)版本的Linux2.3.1Hadoop安裝之前的預(yù)備知識(shí)(二)系統(tǒng)安裝方式:選擇虛擬機(jī)安裝還是雙系統(tǒng)安裝建議電腦比較新或者配置內(nèi)存4G以上的電腦可以選擇虛擬機(jī)安裝電腦較舊或配置內(nèi)存小于等于4G的電腦強(qiáng)烈建議選擇雙系統(tǒng)安裝,否則,在配置較低的計(jì)算機(jī)上運(yùn)行LInux虛擬機(jī),系統(tǒng)運(yùn)行速度會(huì)非常慢鑒于目前教師和學(xué)生的計(jì)算機(jī)硬件配置一般不高,建議在實(shí)踐教學(xué)中采用雙系統(tǒng)安裝,確保系統(tǒng)運(yùn)行速度2.3.1Hadoop安裝之前的預(yù)備知識(shí)(三)關(guān)于Linux的一些基礎(chǔ)知識(shí)Shell是指“提供使用者使用界面”的軟件(命令解析器),類似于DOS下的command和后來的cmd.exe。它接收用戶命令,然后調(diào)用相應(yīng)的應(yīng)用程序sudo命令sudo是ubuntu中一種權(quán)限管理機(jī)制,管理員可以授權(quán)給一些普通用戶去執(zhí)行一些需要root權(quán)限執(zhí)行的操作。當(dāng)使用sudo命令時(shí),就需要輸入您當(dāng)前用戶的密碼2.3.1Hadoop安裝之前的預(yù)備知識(shí)輸入密碼在Linux的終端中輸入密碼,終端是不會(huì)顯示任何你當(dāng)前輸入的密碼,也不會(huì)提示你已經(jīng)輸入了多少字符密碼,讀者不要誤以為鍵盤沒有響應(yīng)輸入法中英文切換linux中英文的切換方式是使用鍵盤“shift”鍵來切換,也可以點(diǎn)擊頂部菜單的輸入法按鈕進(jìn)行切換。Ubuntu自帶的Sunpinyin中文輸入法已經(jīng)足夠讀者使用Ubuntu終端復(fù)制粘貼快捷鍵在Ubuntu終端窗口中,復(fù)制粘貼的快捷鍵需要加上shift,即粘貼是ctrl+shift+v2.3.1Hadoop安裝之前的預(yù)備知識(shí)(四)Hadoop安裝方式單機(jī)模式:Hadoop默認(rèn)模式為非分布式模式(本地模式),無需進(jìn)行其他配置即可運(yùn)行。非分布式即單Java進(jìn)程,方便進(jìn)行調(diào)試偽分布式模式:Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行,節(jié)點(diǎn)既作為NameNode也作為DataNode,同時(shí),讀取的是HDFS中的文件分布式模式:使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行Hadoop2.3.2安裝Linux虛擬機(jī)一、材料和工具1、下載VirtualBox虛擬機(jī)軟件2.下載UbuntuLTS14.04ISO映像文件二、步驟(一)確認(rèn)系統(tǒng)版本如果選擇的系統(tǒng)是64位Ubuntu系統(tǒng),那么在安裝虛擬機(jī)前,我們還要進(jìn)入BIOS開啟CPU的虛擬化2.3.2安裝Linux虛擬機(jī)2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備1.打開VirtualBox,點(diǎn)擊“創(chuàng)建”按鈕,創(chuàng)建一個(gè)虛擬機(jī)2.給虛擬機(jī)命名,選擇操作系統(tǒng),版本3.選擇內(nèi)存大小,這里設(shè)置的1024M4.創(chuàng)建虛擬硬盤5.選擇虛擬硬盤文件類型VDI6.虛擬硬盤選擇動(dòng)態(tài)分配7.選擇文件存儲(chǔ)的位置和容量大小8.點(diǎn)擊創(chuàng)建2.3.2安裝Linux虛擬機(jī)(二)安裝前的準(zhǔn)備2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.2安裝Linux虛擬機(jī)(三)安裝Ubuntu2.3.3安裝雙操作系統(tǒng)第一步:制作安裝U盤具體可參考百度經(jīng)驗(yàn)文章/article/59703552e0a6e18fc007409f.html第二步:雙系統(tǒng)安裝具體可參考百度經(jīng)驗(yàn)文章/article/dca1fa6fa3b905f1a44052bd.html安裝后Window和Ubuntu14.04都可以用,默認(rèn)windows優(yōu)先啟動(dòng)可以在電腦啟動(dòng)時(shí),選擇進(jìn)入U(xiǎn)buntu系統(tǒng)而不是Windows系統(tǒng)2.3.4Hadoop的安裝與使用(單機(jī)/偽分布式)Hadoop基本安裝配置主要包括以下幾個(gè)步驟:創(chuàng)建Hadoop用戶SSH登錄權(quán)限設(shè)置安裝Java環(huán)境單機(jī)安裝配置偽分布式安裝配置創(chuàng)建Hadoop用戶如果安裝Ubuntu的時(shí)候不是用的“hadoop”用戶,那么需要增加一個(gè)名為hadoop的用戶首先按

ctrl+alt+t

打開終端窗口,輸入如下命令創(chuàng)建新用戶:$sudouseradd–mhadoop–s/bin/bash上面這條命令創(chuàng)建了可以登陸的hadoop用戶,并使用/bin/bash作為shell創(chuàng)建Hadoop用戶接著使用如下命令設(shè)置密碼,可簡(jiǎn)單設(shè)置為hadoop,按提示輸入兩次密碼:$sudopasswdhadoop可為hadoop用戶增加管理員權(quán)限,方便部署,避免一些對(duì)新手來說比較棘手的權(quán)限問題:$sudoadduserhadoopsudoSSH登錄權(quán)限設(shè)置SSH是什么?SSH

SecureShell

的縮寫,是建立在應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議。SSH是目前較可靠、專為遠(yuǎn)程登錄會(huì)話和其他網(wǎng)絡(luò)服務(wù)提供安全性的協(xié)議。利用SSH協(xié)議可以有效防止遠(yuǎn)程管理過程中的信息泄露問題。SSH最初是UNIX系統(tǒng)上的一個(gè)程序,后來又迅速擴(kuò)展到其他操作平臺(tái)。SSH是由客戶端和服務(wù)端的軟件組成,服務(wù)端是一個(gè)守護(hù)進(jìn)程(daemon),它在后臺(tái)運(yùn)行并響應(yīng)來自客戶端的連接請(qǐng)求,客戶端包含ssh程序以及像scp(遠(yuǎn)程拷貝)、slogin(遠(yuǎn)程登陸)、sftp(安全文件傳輸)等其他的應(yīng)用程序SSH登錄權(quán)限設(shè)置配置SSH的原因:Hadoop名稱節(jié)點(diǎn)(NameNode)需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程,這個(gè)過程需要通過SSH登錄來實(shí)現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺(tái)機(jī)器,需要將所有機(jī)器配置為名稱節(jié)點(diǎn)可以無密碼登錄它們安裝Java環(huán)境Java環(huán)境可選擇Oracle的JDK,或是OpenJDK可以在Ubuntu中直接通過命令安裝OpenJDK7$sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk還需要配置一下JAVA_HOME環(huán)境變量

具體請(qǐng)參考網(wǎng)絡(luò)教程:/blog/install-hadoop/單機(jī)安裝配置Hadoop2可以到官網(wǎng)下載,需要下載

hadoop-2.x.y.tar.gz

這個(gè)格式的文件,這是編譯好的,另一個(gè)包含src的則是Hadoop源代碼,需要進(jìn)行編譯才可使用Hadoop2安裝文件的下載如果讀者是使用虛擬機(jī)方式安裝Ubuntu系統(tǒng)的用戶,請(qǐng)用虛擬機(jī)中的Ubuntu自帶firefox瀏覽器訪問本指南,再點(diǎn)擊下載地址,才能把hadoop文件下載虛擬機(jī)ubuntu中。請(qǐng)不要使用Windows系統(tǒng)下的瀏覽器下載,文件會(huì)被下載到Windows系統(tǒng)中,虛擬機(jī)中的Ubuntu無法訪問外部Windows系統(tǒng)的文件,造成不必要的麻煩。如果讀者是使用雙系統(tǒng)方式安裝Ubuntu系統(tǒng)的用戶,請(qǐng)進(jìn)去Ubuntu系統(tǒng),在Ubuntu系統(tǒng)打開firefox瀏覽器,再點(diǎn)擊下載單機(jī)安裝配置選擇將Hadoop安裝至/usr/local/中$sudotar-zxf~/下載/hadoop-2.6.0.tar.gz-C/usr/local#解壓到/usr/local中$cd/usr/local/$sudomv./hadoop-2.6.0/./hadoop#將文件夾名改為hadoop$sudochown-Rhadoop:hadoop./hadoop#修改文件權(quán)限Hadoop解壓后即可使用。輸入如下命令來檢查Hadoop是否可用,成功則會(huì)顯示Hadoop版本信息:$cd/usr/local/hadoop$./bin/hadoopversionHadoop默認(rèn)模式為非分布式模式(本地模式),無需進(jìn)行其他配置即可運(yùn)行。偽分布式安裝配置Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,Hadoop進(jìn)程以分離的Java進(jìn)程來運(yùn)行,節(jié)點(diǎn)既作為NameNode也作為DataNode,同時(shí),讀取的是HDFS中的文件Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中,偽分布式需要修改2個(gè)配置文件

core-site.xml

hdfs-site.xml

Hadoop的配置文件是xml格式,每個(gè)配置以聲明property的name和value的方式來實(shí)現(xiàn)偽分布式安裝配置實(shí)驗(yàn)步驟:修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動(dòng)所有進(jìn)程start-all.sh訪問web界面,查看Hadoop信息運(yùn)行實(shí)例偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>偽分布式安裝配置name為fs.defaultFS的值,表示hdfs路徑的邏輯名稱hadoop.tmp.dir表示存放臨時(shí)數(shù)據(jù)的目錄,即包括NameNode的數(shù)據(jù),也包括DataNode的數(shù)據(jù)。該路徑任意指定,只要實(shí)際存在該文件夾即可

偽分布式安裝配置修改配置文件

hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>dfs.replication表示副本的數(shù)量,偽分布式要設(shè)置為1.dir表示本地磁盤目錄,是存儲(chǔ)fsimage文件的地方dfs.datanode.data.dir表示本地磁盤目錄,HDFS數(shù)據(jù)存放block的地方偽分布式安裝配置關(guān)于三種Shell命令方式的區(qū)別:1.hadoopfs2.hadoopdfs3.hdfsdfshadoopfs適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)hadoopdfs只能適用于HDFS文件系統(tǒng)hdfsdfs跟hadoopdfs的命令作用一樣,也只能適用于HDFS文件系統(tǒng)2.4.1集群節(jié)點(diǎn)類型2.4.2集群規(guī)模2.4.3集群硬件配置2.4.4集群網(wǎng)絡(luò)拓?fù)?.4.5集群的建立與安裝2.4.6集群基準(zhǔn)測(cè)試2.4.7在云計(jì)算環(huán)境中使用Hadoop2.4Hadoop集群的部署與使用2.4.1Hadoop集群中有哪些節(jié)點(diǎn)類型Hadoop框架中最核心的設(shè)計(jì)是為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對(duì)數(shù)據(jù)進(jìn)行計(jì)算的MapReduceMapReduce的作業(yè)主要包括:(1)從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù),即IO密集工作;(2)計(jì)算數(shù)據(jù),即CPU密集工作Hadoop集群的整體性能取決于CPU、內(nèi)存、網(wǎng)絡(luò)以及存儲(chǔ)之間的性能平衡。因此運(yùn)營(yíng)團(tuán)隊(duì)在選擇機(jī)器配置時(shí)要針對(duì)不同的工作節(jié)點(diǎn)選擇合適硬件類型一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要有NameNode:負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)DataNode:存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker:協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker:負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode:幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息2.4.2集群硬件配置在集群中,大部分的機(jī)器設(shè)備是作為Datanode和TaskTracker工作的Datanode/TaskTracker的硬件規(guī)格可以采用以下方案:4個(gè)磁盤驅(qū)動(dòng)器(單盤1-2T),支持JBOD(JustaBunchOfDisks,磁盤簇)2個(gè)4核CPU,至少2-2.5GHz16-24GB內(nèi)存千兆以太網(wǎng)2.4.2集群硬件配置NameNode提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù),因此需要更多的RAM,與集群中的數(shù)據(jù)塊數(shù)量相對(duì)應(yīng),并且需要優(yōu)化RAM的內(nèi)存通道帶寬,采用雙通道或三通道以上內(nèi)存。硬件規(guī)格可以采用以下方案:8-12個(gè)磁盤驅(qū)動(dòng)器(單盤1-2T)2個(gè)4核/8核CPU16-72GB內(nèi)存千兆/萬兆以太網(wǎng)2.4.2集群硬件配置SecondaryNameNode在小型集群中可以和NameNode共用一臺(tái)機(jī)器,較大的群集可以采用與NameNode相同的硬件2.4.3集群規(guī)模要多大Hadoop集群規(guī)??纱罂尚?,初始時(shí),可以從一個(gè)較小規(guī)模的集群開始,比如包含10個(gè)節(jié)點(diǎn),然后,規(guī)模隨著存儲(chǔ)器和計(jì)算需求的擴(kuò)大而擴(kuò)大如果數(shù)據(jù)每周增大1TB,并且有三個(gè)HDFS副本,然后每周需要一個(gè)額外的3TB作為原始數(shù)據(jù)存儲(chǔ)。要允許一些中間文件和日志(假定30%)的空間,由此,可以算出每周大約需要增加一臺(tái)新機(jī)器。存儲(chǔ)兩年數(shù)據(jù)的集群,大約需要100臺(tái)機(jī)器對(duì)于一個(gè)小的集群,名稱節(jié)點(diǎn)(NameNode)和JobTracker運(yùn)行在單個(gè)節(jié)點(diǎn)上,通常是可以接受的。但是,隨著集群和存儲(chǔ)在HDFS中的文件數(shù)量的增加,名稱節(jié)點(diǎn)需要更多的主存,這時(shí),名稱節(jié)點(diǎn)和JobTracker就需要運(yùn)行在不同的節(jié)點(diǎn)上第二名稱節(jié)點(diǎn)(SecondaryNameNode)會(huì)和名稱節(jié)點(diǎn)可以運(yùn)行在相同的機(jī)器上,但是,由于第二名稱節(jié)點(diǎn)和名稱節(jié)點(diǎn)幾乎具有相同的主存需求,因此,二者最好運(yùn)行在不同節(jié)點(diǎn)上2.4.4集群網(wǎng)絡(luò)拓?fù)淦胀ǖ腍adoop集群結(jié)構(gòu)由一個(gè)兩階網(wǎng)絡(luò)構(gòu)成每個(gè)機(jī)架(Rack)有30-40個(gè)服務(wù)器,配置一個(gè)1GB的交換機(jī),并向上傳輸?shù)揭粋€(gè)核心交換機(jī)或者路由器(1GB或以上)在相同的機(jī)架中的節(jié)點(diǎn)間的帶寬的總和,要大于不同機(jī)架間的節(jié)點(diǎn)間的帶寬總和2.4.5集群的建立與安裝采購好相關(guān)的硬件設(shè)備后,就可以把硬件裝入機(jī)架,安裝并運(yùn)行Hadoop安裝Hadoop有多種方法:(1)手動(dòng)安裝(2)自動(dòng)化安裝為了緩解安裝和維護(hù)每個(gè)節(jié)點(diǎn)上相同的軟件的負(fù)擔(dān),可以使用一個(gè)自動(dòng)化方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論