![Hadoop2.5.2,偽分布式安裝_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/47872a8c-dc60-489b-ba61-3ae33268e46e/47872a8c-dc60-489b-ba61-3ae33268e46e1.gif)
![Hadoop2.5.2,偽分布式安裝_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/47872a8c-dc60-489b-ba61-3ae33268e46e/47872a8c-dc60-489b-ba61-3ae33268e46e2.gif)
![Hadoop2.5.2,偽分布式安裝_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/47872a8c-dc60-489b-ba61-3ae33268e46e/47872a8c-dc60-489b-ba61-3ae33268e46e3.gif)
![Hadoop2.5.2,偽分布式安裝_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/47872a8c-dc60-489b-ba61-3ae33268e46e/47872a8c-dc60-489b-ba61-3ae33268e46e4.gif)
![Hadoop2.5.2,偽分布式安裝_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/47872a8c-dc60-489b-ba61-3ae33268e46e/47872a8c-dc60-489b-ba61-3ae33268e46e5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一、Hadoop概述1.1什么是Hadoop一個開源、高可靠、可擴展的分布式計算框架解決的問題:海量數據的存儲(HDFS)海量數據的分析(MapReduce)分布式資源調度(Yarn)產生背景:受Google三篇論文的啟發(fā)(GFS、MapReduce、BigTable)擴容能力:能可靠地存儲和處理千兆字節(jié)(PB)數據。成本低:可以通過普通機器組成的服務器群來分發(fā)以及處理數據。這些服務器群總計可達數千個節(jié)點。高效率:通過分發(fā)數據,Hadoop可以在數據所在的節(jié)點上并行地處理它們,這使得處理非常的快速??煽啃裕篐adoop能自動維護數據的多份副本,并且在任務失敗后能自動重新部署。1.2 Hadoo
2、p應用場景日志分析基于海量數據的在線應用推薦系統(tǒng)計算廣告復雜算法網盤搜索引擎.1.3 Hadoop生態(tài)圈1.4 Hadoop核心Hadoop項目主要包括以下四個模塊Hadoop Common: 為其他Hadoop模塊提供基礎設施Hadoop HDFS:一個高可靠、高吞吐量的分布式文件系統(tǒng)Hadoop MapReduce:一個分布式的離線并行計算框架Hadoop YARN:一個新的MapReduce框架,任務調度與資源管理分布式離線計算框架 - MapReduceMap任務處理 讀取輸入文件內容,解析成key、value對 重寫map方法,編寫業(yè)務邏輯輸出新的key、value對 對輸出的key
3、、value進行分區(qū)。(Partitioner類)對數據按照key進行排序、分組。相同key的value放到一個集合中。Reduce任務處理 對多個map任務的輸出,按照不同的分區(qū),通過網絡copy到不同的reduce節(jié)點。 對多個map任務的輸出進行合并、排序。寫reduce函數自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。 把reduce的輸出保存到文件中。二、Hadoop前置環(huán)境安裝Linux環(huán)境準備JDK安裝材料:VMwarelinuxhttp:/mirrors.yun-CentOS-6.8-x86_64-bin-DVD1.isoJdk1.7jdk-7u
4、67-linux-x64.tar.gz2.1虛擬機搭建安裝完成,重新啟動2.2設置虛擬機網絡環(huán)境鏈接網絡,根據你本機網絡環(huán)境,設置虛擬機服務器中網絡環(huán)境查看你本地網絡環(huán)境檢查你win環(huán)境能否ping通虛擬機使用 SecureCRT.exe 即可遠程連接上服務器2.3關閉防火墻永久關閉:chkconfig iptables off 暫時關閉,重啟后失效:service iptables stop roothadoop02 # chkconfig iptables off2.4修改主機名roothadoop02 # vim /etc/sysconfig/network2.5配置網絡映射2.6重啟機
5、器roothadoop02 # rebootd2.7設置ssh免密碼登錄roothadoop02 # ssh 16需要密碼首先生成秘鑰:roothadoop02 # ssh-keygen -t rsa 之后四個回車生成完成,復制秘鑰到本機roothadoop02 # ssh-copy-id 16測試是否無需免密碼登錄roothadoop02 # ssh 162.8設置java環(huán)境,安裝JDK檢查是否已經安裝了JDK,可根據情況卸載本機jdk,重新安裝自己的JDKroothadoop02 # rpm -qa|grep
6、jdkroothadoop02 # rpm -qa|grep java先卸載本機的jdkroothadoop02 # rpm -e -nodeps java-1.6.0-openjdk-8-.el6.x86_64roothadoop02 # rpm -e -nodeps java-1.7.0-openjdk-9-.el6.x86_64roothadoop02 # rpm -qa|grep jdkroothadoop02 # rpm -qa|grep java上傳你的JDK,可以使用RZ命令上傳,也可以用ftp工具進行上傳如果你的虛擬機
7、能夠鏈接網絡,那么可以用yum 命令進行軟件的安裝,首先安裝RZ命令軟件,否則可以到網上下載其安裝包進行命令的安裝a、roothadoop02 tools# rpm ivh lrzsz-0.12.20-27.1.el6.x86_64.rpm或者b、roothadoop02 tools# yum install -y lrzsz在 home目錄下建立tools 目錄,存放安裝軟件roothadoop02 # mkdir /home/toolsroothadoop02 # cd /home/tools/roothadoop02 tools# rz將jdk解壓到 /usr/java目錄roothad
8、oop02 tools# mkdir /usr/javaroothadoop02 tools# tar -zxf jdk-7u67-linux-x64.tar.gz -C /usr/java/roothadoop02 tools# cd /usr/java/設置jdk環(huán)境變量roothadoop02 jdk1.7.0_67# vim /etc/profile在文件最低端添加以下參數export JAVA_HOME=/usr/java/jdk1.7.0_67export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexpor
9、t PATH=$JAVA_HOME/bin:$PATH設置文件生效roothadoop02 jdk1.7.0_67# source /etc/profile校驗jdk是否配置完成roothadoop02 jdk1.7.0_67# java三、Hadoop偽分布式安裝3.1 Hadoop運行模式本地模式所有Hadoop的守護進程運行在一個JVM中偽分布式所有Hadoop的守護進程各自運行在自己的JVM中(一臺機器)集群模式多臺機器來搭建分布式集群,每個進程運行在獨立的JVM中,并對Namenode和ResourceManager做Ha配置3.2 下載 hadoop-2.5.2.tar.gz jd
10、k64編譯Make 安裝 ,并安裝其他依賴包yum -y install autoconf automake libtool cmake ncurses-devel openssl-devel lzo-devel zlib-devel vel gcc gcc-c+3.2.1解壓 hadoop-2.5.2.tar.gztar -zxf hadoop-2.5.2.tar.gz3.2.2設置環(huán)境變量roothadoop02 hadoop-2.5.2# vi /etc/profileroothadoop02 hadoop-2.5.2# source /etc/profile3.2.3修改配置文件1、h
11、adoop-env.sh# The java implementation to use.export JAVA_HOME= /usr/java/jdk1.7.0_672、core-site.xmlNamenote通訊地址 臨時文件<property> <name>fs.defaultFS</name> <value>hdfs:/ip:9000</value> </property><property> <name>hadoop.tmp.dir</name> <value>/
12、home/hadoop/hp_data/tmp</value> </property>3、hdfs-site.xml 設置備份數,默認3份<property> <name>dfs.replication</name> <value>1</value></property><property> <name>dfs.permissions</name> <value>false</value> </property>4、格式化hdf
13、sroothadoop02 bin# ./hdfs namenode -format5、啟動文件系統(tǒng),文件系統(tǒng)包括兩個進程roothadoop02 sbin# ./start-dfs.sh6、查看進程roothadoop02 sbin# jps7、管理界面07:500708、安裝yarn ,資源調度mapred-site.xml <property> <name></name> <value>yarn</value> </property>y
14、arn-site.xml<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property>9、啟動yarnroothadoop02 sbin# ./start-yarn.sh10、yarn管理控制臺07:8088/測試:計算字符出現的次數mkdir /home/datacd /home/datavi wordshello ahello b上傳至HDFScd /us
15、r/hadoop/hadoop-2.5.2/bin./hadoop fs -put /home/data/words /words運行詞頻統(tǒng)計./hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar wordcount /words /out最后兩個,一個是源文件路徑,一個是輸出文件目錄查看輸入結果hadoop fs -ls /roothadoop02 bin# hadoop fs -ls /outroothadoop02 bin# hadoop fs -cat /out/part-r-000003.3M
16、apReduce概述MapReduce是一種分布式計算模型,由Google提出,主要用于搜索領域,解決海量數據的計算問題MR由兩個階段組成:Map和Reduce,用戶只需要實現map()和reduce()兩個函數,即可實現分布式計算,非常簡單這兩個函數的形參是key、value對,表示函數的輸入信息MR特點 高容錯 高擴展 編程簡單 適合大數據離線批量處理3.3.1map任務處理1、讀取輸入文件內容,解析成key、value對。對輸入文件的每一行,解析成key、value對。每一個鍵值對調用一次map函數。2 、寫自己的邏輯,處理輸入的key、value,轉換成新的key、value輸出。3
17、、對輸出的key、value進行分區(qū)。4 、對不同分區(qū)的數據,按照key進行排序、分組。相同key的value放到一個集合中。5 、 (可選)分組后的數據進行歸約。3.3.2reduce任務處理1、對多個map任務的輸出,按照不同的分區(qū),通過網絡copy到不同的reduce節(jié)點。2 、對多個map任務的輸出進行合并、排序。寫reduce函數自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。3 、把reduce的輸出保存到文件中。map、reduce鍵值對格式3.3.4MR過程各個角色的作用jobClient:提交作業(yè)JobTracker:初始化作業(yè),分配作業(yè),TaskTracker與其進行通信,協(xié)調監(jiān)控整個作業(yè)TaskTracker:定期與JobTracker通信,執(zhí)行Map和Reduce任務HDFS:保存作業(yè)的數據、配置、jar包、結果3.3.5 eclipse開發(fā)hadoop項目1、安裝hadoop插件將hadoop-eclipse-plugin-2.5.2.jar 放至ecl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025池塘清淤工程的施工合同
- 9 知法守法 依法維權 依法維權有途徑(說課稿)-部編版道德與法治六年級上冊
- 21 淡水資源 說課稿-2024-2025學年科學三年級上冊青島版
- 2025法律法規(guī)工傷員工續(xù)簽合同問題 管理資料
- 6將相和(第一課時)說課稿-2024-2025學年五年級上冊語文統(tǒng)編版
- 農村荒山承包合同范本
- 2023二年級數學下冊 四 認識萬以內的數第8課時 近似數說課稿 蘇教版001
- Unit 1 Making friends PartA Let's talk(說課稿)-2024-2025學年人教PEP版(2024)英語三年級上冊
- 2023二年級數學下冊 四 認識圖形(七巧板)說課稿 西師大版
- 《8 花卉栽培》(說課稿)-2023-2024學年六年級上冊綜合實踐活動皖教版
- 閩教版(2020)小學信息技術三年級上冊第2課《人工智能在身邊》說課稿及反思
- 語文-百師聯(lián)盟2025屆高三一輪復習聯(lián)考(五)試題和答案
- 地理-山東省濰坊市、臨沂市2024-2025學年度2025屆高三上學期期末質量檢測試題和答案
- 正面上手發(fā)球技術 說課稿-2023-2024學年高一上學期體育與健康人教版必修第一冊
- 佛山市普通高中2025屆高三下學期一模考試數學試題含解析
- 事故隱患排查治理情況月統(tǒng)計分析表
- 永磁直流(汽車)電機計算程序
- 國家電網招聘2025-企業(yè)文化復習試題含答案
- 頸部瘢痕攣縮畸形治療
- 貴州省貴陽市2023-2024學年五年級上學期語文期末試卷(含答案)
- 醫(yī)院物業(yè)服務組織機構及人員的配備、培訓管理方案
評論
0/150
提交評論