




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)技術(shù)之 Hadoop 大數(shù)據(jù)概論預(yù)科內(nèi)容二從Hadoop 框架討論大數(shù)據(jù)n 名字起源u 該項目的創(chuàng)建者,Doug Cutting 解釋 Hadoop 的得名:“這個名字是我孩子給一個棕黃色的大象玩具命名的un 項目起源u Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作為Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 Map/Reduce 和 Google File System(GFS) 的啟發(fā)n Google 是 Hadoop 的思想之源(Google 在大數(shù)據(jù)方面的三篇)u GFS=
2、>HDFSu Map-Reduce =>MRu BigTable=>HBaseØ Hadoop 的優(yōu)勢n 高可靠性:因為 Hadoop 假設(shè)計算元素和會出現(xiàn)故障,因為它維護多個工作數(shù)據(jù)副本,在出現(xiàn)故障時可以對失敗的節(jié)點重新分布處理。n 高擴展性:在集群間分配任務(wù)數(shù)據(jù),可方便的擴展數(shù)以千計的節(jié)點。n 高效性:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任務(wù)處理速度。n 高容錯性:自動保存多份副本數(shù)據(jù),并且能夠自動將失敗的任務(wù)重新分配。Ø Hadoop 組成Hadoop HDFS:nn一個高可靠、高吞吐量的分布式文件系統(tǒng)。Hadoop
3、MapReduce:nn一個分布式的離線并行計算框架。Hadoop YARN:nn作業(yè)調(diào)度與集群資源管理的框架。Hadoop Common:nn支持其他模塊的工具模塊(Configuration、RPC、序列化機制、日志操作)。HDFS 架構(gòu)概述ØYARN 架構(gòu)概述ØResourceManager(rm):n處理客戶端請求、啟動/ApplicationMaster、NodeManager、資源分配與調(diào)度NodeManager(nm):n單 個 節(jié) 點 上 的 資 源 管 理 、 處 理 來 自 ResourceManager令 、 處 理 來 自ApplicationMas
4、ter令n ApplicationMaster:數(shù)據(jù)切分、為應(yīng)用程序申請資源,并分配給內(nèi)部任務(wù)、任務(wù)與容錯n Container:對任務(wù)運行環(huán)境的抽象,封裝了 CPU、內(nèi)存等資源以及環(huán)境變量、啟動命令等任務(wù)運行相關(guān)的Ø MapReduce 架構(gòu)概述Ø MapReduce 將計算過程分為兩個階段:Map 和 Reducen Map 階段并行處理輸入數(shù)據(jù)n Reduce 階段對 Map 結(jié)果進行匯總?cè)?Hadoop 運行環(huán)境搭建環(huán)境配置Ø 關(guān)閉n 關(guān)閉:systemctl stop firewalld.servicen 禁用:systemctl disable fir
5、ewalld.servicen 查看:systemctl status firewalld.servicen 關(guān)閉 Selinux:vi /etc/selinux /config將 SELINUX=enforcing 改為 SELINUX=disabledn修改 IPØ善用 Tab 鍵nvi /etc/sysconfig/network-scripts/ifcfg-ens33nl BOOTPROTO=staticl ONBOOT=yesll IPADDR=192.168.X.51l GATEWAY=192.168.X.2l DNS1=l DNS2=l NE
6、TMASK=vi /etc/resolv.confnl nameserver l nameserver 重啟網(wǎng)卡:servie network restartØ 修改主機名n hostnamectl set-hostname 主機名Ø IP 和主機名n vi /etc/hosts1 bigdata1112 bigdata1123 bigdata113n 在 windows 的 C:WindowsSystem32driversetc 路徑下找到 hosts
7、并添加1 bigdata1112 bigdata1123 bigdata113Ø 連接 Secure CRT & Xshell輸入 IP、用戶名和Ø 在 opt 目錄下創(chuàng)建文件(此步可選)n 創(chuàng)建 itstar 用戶l adduser itstarl passwd itstarn 設(shè)置 itstar 用戶具有 root 權(quán)限l vi /etc/sudoers 92 行 找到 rootALL=(ALL)ALL一行:itstar ALL=(ALL)ALLlØ 安裝 jdkn 卸載現(xiàn)有 jdk(1
8、)是否安裝 java:rpm -qa|grep java(2)如果安裝的版本低于 1.7,卸載該 jdk:rpm -e包名字在/opt 目錄下創(chuàng)建兩個子文件nmkdir /opt/module /opt/software解壓 jdk 到/opt/module 目錄下ntar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/配置 jdk 環(huán)境變量nvi /etc/profileexport JAVA_HOME=/opt/module/jdk1.8.0_144export PATH=$PATH:$JAVA_HOME/binsource /etc/pr
9、ofile測試 jdk 安裝nl java -versionl java version "1.8.0_144"四 Hadoop 運行模式偽/完全分布式部署Hadoopn SSH 無登錄n 生成公鑰和私鑰:ssh-key gen -t rsa然后敲(三個回車),就會生成兩個文件 id_rsa(私鑰)、id_rsa.pub(公鑰)n 將公鑰拷貝到要免密登錄的目標(biāo)機器上u ssh-copy-id主機名 1u ssh-copy-id主機名 2u ssh-copy-id主機名 3注:在另外兩臺機器上分別執(zhí)行,共執(zhí)行 9 遍n .ssh 文件夾下的文件功能解釋(1)/.ssown_h
10、osts :ssh過計算機的公鑰(public key)(2)id_rsa :生成的私鑰(3)id_rsa.pub :生成的公鑰(4)authorized_keys:存放過得無秘登錄服務(wù)器公鑰n 配置集群(表格版)1) 集群部署規(guī)劃:bigdata111bigdata112bigdata113HDFSNameNode2) 配置文件:文件配置core-site.xml<!- 指定 HDFS 中 NameNode 的地址 -><property><name>fs.defaultFS</name><value>hdfs:/主機名 1:900
11、0</value></property><!- 指定 hadoop 運行時產(chǎn)生文件的目錄 -><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-2.X.X/data/tmp</value></property>hdfs-site.xml<!-數(shù)據(jù)冗余數(shù)-><property><name>dfs.replication</name><value>3<
12、/value>SecondaryNameNodeDataNodeDataNodeDataNodeYARNResourceManagerNodeManagerNodeManagerNodeManager</property><!-secondary 的地址-><property><name>node.secondary.http-address</name><value>主機名 1:50090</value></property><!-關(guān)閉權(quán)限-><proper
13、ty><name>dfs.permissions</name><value>false</value></property>yarn-site.xml<!- reducer 獲取數(shù)據(jù)的方式 -><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!- 指定 YARN 的 ResourceManager
14、的地址 -><property><name>yarn.resourcemanager.hostname</name><value>主機名 1</value></property><!- 日志聚集功能使能 -><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-留時間設(shè)置 7 天(秒) -><propert
15、y><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>mapred-site.xml<!- 指定 mr 運行在 yarn 上-><property><name></name><value>yarn</value></property><!-歷史服務(wù)器的地址-><proper
16、ty><name>mapreduce.jobhistory.address</name><value>主機名 1:10020</value></property>n 格式化 Namenode:hdfs namenode -formatn 啟動集群得命令:Namenode 的主節(jié)點:sbin/start-dfs.shYarn 的主節(jié)點:sbin/stop-yarn.sh注意:Namenode 和 ResourceManger 如果不是同一臺機器,不能在 NameNode 上啟動yarn,應(yīng)該在 ResouceManager 所在的
17、機器上啟動 yarn。n scp 文件傳輸實現(xiàn)兩臺機器之間的文件傳輸(bigdata112 主機文件拷貝到 bigdata113 主機上)scp -r 文件 用戶主機名:絕對路徑<!-歷史服務(wù)器頁面的地址-><property><name>mapreduce.jobhistory.webapp.address</name><value>主機名 1:19888</value></property>hadoop-env.sh、yarn-env.sh、mapred-env.sh(分別在這些的文件中添加下面的路徑)ex
18、port JAVA_HOME=/opt/module/jdk1.8.0_144(注:是安裝的路徑)slavesbigdata111、bigdata112、bigdata113(設(shè)置的主機名)注:偽分布式是一臺、完全分布是三臺n 完全分布式步驟:1)克隆 2 臺客戶機(關(guān)閉、靜態(tài) ip、主機名稱)2)安裝 jdk3)配置環(huán)境變量4)安裝 hadoop5)配置環(huán)境變量6)安裝 ssh7)配置集群8)啟動測試集群注:此配置直接使用虛擬機克隆偽分布式兩臺即可Ø 自帶官方 wordcount 案例n 隨意上傳一個文本文件l 上傳命令:hadoop fs -put 文件名 /l 執(zhí)行命令:hadoopjarshaadoop/mapreduce/hadoop-mapreduce-examples-2.X.X.jarwordcount /入 /出n 命令:hadoop jar 路徑的 jar 包 全類名 輸入路徑 輸出路徑n 查看結(jié)果:hadoop fs -cat 路徑Hadoop 啟動和停止命令:以下命令都在$HADOOP_HOME/sbin 下,如果直接使用,記得配置環(huán)境變量啟動/停止歷史服務(wù)器mr-jobhistory-daemon.sh start|stop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 洞子噴漿掛網(wǎng)施工方案
- 三農(nóng)村公共服務(wù)設(shè)施市場化運營與管理方案
- 農(nóng)業(yè)生產(chǎn)農(nóng)業(yè)水資源節(jié)約利用手冊
- 信息技術(shù)行業(yè)網(wǎng)絡(luò)規(guī)劃與實施指南
- 電桿臨時拉線施工方案
- 活動腳手架施工方案
- 中型水庫的施工方案
- 索道運輸施工方案
- 井口保溫盒施工方案
- 鋼大門安裝施工方案
- 2023年中央廣播電視總臺校園招聘筆試參考題庫附帶答案詳解
- 2023年青島港灣職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)模擬試題及答案解析
- 消防栓定期檢查記錄表
- 員工面試登記表通用模板
- 新人教版小學(xué)五年級數(shù)學(xué)下冊全冊同步課堂練習(xí)題
- DB63T 2105-2023 蒸發(fā)量觀測 全自動水面蒸發(fā)器比測規(guī)程
- 單位(個人或集體)約談表
- 在戲劇家協(xié)會會員大會上的講話
- 體育賽事管理
- A類業(yè)余無線電操作技術(shù)能力驗證題目題庫1
- 兒行千里母擔(dān)憂(京劇)課件
評論
0/150
提交評論