Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目2 Spark大數(shù)據(jù)環(huán)境安裝搭建-項(xiàng)目實(shí)施V1.0_第1頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目2 Spark大數(shù)據(jù)環(huán)境安裝搭建-項(xiàng)目實(shí)施V1.0_第2頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目2 Spark大數(shù)據(jù)環(huán)境安裝搭建-項(xiàng)目實(shí)施V1.0_第3頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目2 Spark大數(shù)據(jù)環(huán)境安裝搭建-項(xiàng)目實(shí)施V1.0_第4頁
Spark大數(shù)據(jù)分析實(shí)務(wù) 課件 項(xiàng)目2 Spark大數(shù)據(jù)環(huán)境安裝搭建-項(xiàng)目實(shí)施V1.0_第5頁
已閱讀5頁,還剩114頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Spark大數(shù)據(jù)環(huán)境安裝搭建項(xiàng)目實(shí)施安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建Hadoop集群Hadoop的安裝搭建方式有3種,如下表。方式說明單機(jī)模式Hadoop默認(rèn)模式為非分布式模式(本地模式),無須進(jìn)行其他配置即可運(yùn)行。訪問的是本地磁盤,而不是HDFS偽分布式模式Hadoop可以在單節(jié)點(diǎn)上以偽分布式的方式運(yùn)行,節(jié)點(diǎn)既作為NameNode也作為DataNode,同時(shí),讀取的是HDFS中的文件完全分布式模式使用多個(gè)節(jié)點(diǎn)構(gòu)成集群環(huán)境來運(yùn)行Hadoop安裝搭建Hadoop集群為貼近真實(shí)的生產(chǎn)環(huán)境,建議搭建完全分布式模式的Hadoop集群環(huán)境。因此,本章將介紹在個(gè)人計(jì)算機(jī)上安裝配置虛擬機(jī),在虛擬機(jī)中搭建Hadoop完全分布式環(huán)境的完整過程。為了保證能夠順暢地運(yùn)行Hadoop集群,并能夠進(jìn)行基本的大數(shù)據(jù)開發(fā)調(diào)試,建議個(gè)人計(jì)算機(jī)硬件的配置如下。內(nèi)存至少8GB。硬盤可用容量至少100GB。CPU為Inteli5以上的多核(建議八核及以上)處理器。安裝搭建Hadoop集群在搭建Hadoop完全分布式集群前,需提前準(zhǔn)備好必要的軟件安裝包。軟件安裝包及其版本說明如下表。軟件版本安裝包名稱備注LinuxOSCentOS7.8CentOS-7-x86_64-DVD-2003.iso64位JDK1.8+jdk-8u281-linux-x64.rpm64位VMware16VMware-workstation-full-16.1.0-17198959.exe虛擬機(jī)軟件Hadoop3.1.4hadoop-3.1.4.tar.gz已編譯好的安裝包SSH連接工具7Xftp-7.0.0111p.exe、Xshell-7.0.0113p.exe遠(yuǎn)程連接虛擬機(jī)安裝搭建Hadoop集群Hadoop完全分布式集群是主從架構(gòu),一般需要使用多臺(tái)服務(wù)器組建。本書中使用的Hadoop集群拓?fù)浣Y(jié)構(gòu)如下圖。需注意各個(gè)服務(wù)器的IP與名稱,在后續(xù)的集群配置過程中將會(huì)經(jīng)常被使用。創(chuàng)建Linux虛擬機(jī)VMwareWorkstation(簡稱VMware)是一款功能強(qiáng)大的虛擬機(jī)軟件,在不影響本機(jī)操作系統(tǒng)的情況下,用戶可以在虛擬機(jī)中同時(shí)運(yùn)行不同版本的操作系統(tǒng)。從VMware官網(wǎng)中下載VMware安裝包,安裝包名稱為VMware-workstation-full-16.1.0-17198959.exe。安裝VMwareWorkstation的過程比較簡單,雙擊下載的VMware安裝包,選擇安裝的目錄,再單擊“下一步”按鈕,繼續(xù)安裝,之后輸入產(chǎn)品序列號(hào),即可成功安裝VMware軟件。創(chuàng)建Linux虛擬機(jī)打開VMware軟件,在VMware上安裝CentOS7.8版本的Linux操作系統(tǒng),基本流程如下圖。創(chuàng)建Linux虛擬機(jī)創(chuàng)建Linux虛擬機(jī)具體安裝步驟如下。創(chuàng)建新的虛擬機(jī)。打開安裝好的VMware軟件,進(jìn)入VMware主界面,選擇“創(chuàng)建新的虛擬機(jī)”選項(xiàng),如下圖。創(chuàng)建Linux虛擬機(jī)選擇虛擬機(jī)的配置類型。彈出“新建虛擬機(jī)向?qū)А睂?duì)話框,選擇“典型”模式,如右圖,再單擊“下一步”按鈕。創(chuàng)建Linux虛擬機(jī)選擇安裝客戶機(jī)操作系統(tǒng)的來源。安裝客戶機(jī)操作系統(tǒng),選擇“稍后安裝操作系統(tǒng)”按鈕,如右圖,單擊“下一步”按鈕。創(chuàng)建Linux虛擬機(jī)選擇客戶機(jī)操作系統(tǒng)??蛻魴C(jī)操作系統(tǒng),選擇“Linux”按鈕,版本是CentOS764位,如右圖,選擇好之后直接單擊“下一步”按鈕。創(chuàng)建Linux虛擬機(jī)命名虛擬機(jī)并選擇位置。虛擬機(jī)的名稱命名為“master”。在D盤創(chuàng)建一個(gè)以VMware命名的文件夾,并在該文件夾下建立一個(gè)文件命名為master。本文選擇的安裝位置為“D:\VMware\master”,如右圖,單擊“下一步”按鈕。注意,虛擬機(jī)的位置讀者可根據(jù)個(gè)人計(jì)算機(jī)的硬盤資源情況進(jìn)行調(diào)整。創(chuàng)建Linux虛擬機(jī)指定磁盤容量。指定最大磁盤大小為20GB,選擇“將虛擬磁盤拆分成多個(gè)文件”按鈕,單擊“下一步”按鈕,如右圖。創(chuàng)建Linux虛擬機(jī)準(zhǔn)備創(chuàng)建虛擬機(jī)。單擊“自定義硬件”按鈕,如右圖。創(chuàng)建Linux虛擬機(jī)選擇鏡像文件。進(jìn)入“硬件”對(duì)話框,單擊“新CD/DVD(IDE)”選項(xiàng)所在的行,在右側(cè)的“連接”組中選擇“使用ISO映像文件”按鈕,并單擊“瀏覽…”按鈕,指定CentOS-7-x86_64-DVD-2003.iso鏡像文件的位置,如右圖,最后單擊“關(guān)閉”按鈕,返回上圖所示界面,單擊“完成”按鈕。創(chuàng)建Linux虛擬機(jī)啟動(dòng)虛擬機(jī)。打開虛擬機(jī),選擇虛擬機(jī)“master”,單擊“開啟此虛擬機(jī)”選項(xiàng),如下圖。創(chuàng)建Linux虛擬機(jī)安裝CentOS7。開啟虛擬機(jī)后,將出現(xiàn)CentOS7的安裝界面,選擇“InstallCentOS7”選項(xiàng),如下圖。創(chuàng)建Linux虛擬機(jī)選擇系統(tǒng)語言。進(jìn)入語言選擇頁面,左側(cè)列表框選擇“English”選項(xiàng),右側(cè)列表框選擇“English(UnitedStates)”選項(xiàng),單擊“Continue”按鈕。選擇地區(qū)和時(shí)區(qū)。單擊“LOCALIZATION”組中的“DATE&TIME”選項(xiàng),如下左圖。進(jìn)入地區(qū)和時(shí)間選擇界面,選擇“Asia”和“Shanghai”,如下右圖,完成后單擊“Done”按鈕。創(chuàng)建Linux虛擬機(jī)選擇磁盤分區(qū)。單擊“SYSTEM”組中的“INSTALLATIONDESTINATION”選項(xiàng),如下左圖。進(jìn)入分區(qū)配置界面,默認(rèn)選擇自動(dòng)分盤,不需要改變,如下右圖,單擊“Done”按鈕即可。創(chuàng)建Linux虛擬機(jī)開始安裝系統(tǒng)。完成以上設(shè)置后,返回圖218所示的界面,單擊“BeginInstallation”按鈕,如下圖。創(chuàng)建Linux虛擬機(jī)配置root密碼。進(jìn)入root密碼設(shè)置界面,單擊“USERSETTINGS”組中的“ROOTPASSWORD”選項(xiàng),如下左圖。設(shè)置密碼為123456,需要輸入兩次,如下右圖,設(shè)置完畢后單擊“Done”按鈕,因?yàn)槊艽a過于簡單,所以需要連續(xù)單擊兩次。創(chuàng)建Linux虛擬機(jī)重啟虛擬機(jī)。安裝完成,單擊“Reboot”按鈕,重啟虛擬機(jī),如下圖。創(chuàng)建Linux虛擬機(jī)登錄Linux系統(tǒng)。進(jìn)入Linux系統(tǒng),輸入用戶名“root”以及密碼“123456”,如下圖,如果出現(xiàn)“[root@master~]#”的提示,那么表示成功登錄并進(jìn)入了Linux系統(tǒng)。設(shè)置固定IP本書使用的Hadoop集群為完全分布式集群,有3個(gè)節(jié)點(diǎn),因此需要安裝3臺(tái)虛擬機(jī)。每臺(tái)虛擬機(jī)均使用NAT模式接入網(wǎng)絡(luò),需要為每臺(tái)虛擬機(jī)分配IP,并保證每臺(tái)虛擬機(jī)的IP處于同一子網(wǎng)內(nèi)。為每臺(tái)虛擬機(jī)配置固定IP,以虛擬機(jī)master為例,虛擬機(jī)固定IP的基本流程如下圖。設(shè)置固定IP在VMware軟件中進(jìn)行虛擬機(jī)固定IP的步驟,具體操作步驟如下。重啟網(wǎng)卡服務(wù)。使用“servicenetworkrestart”命令重啟網(wǎng)卡服務(wù),如下圖。設(shè)置固定IP查看/etc/sysconfig/network-scripts/ifcfg-ens33配置文件的內(nèi)容。不同于Windows系統(tǒng)采用菜單方式修改網(wǎng)絡(luò)配置,Linux系統(tǒng)的網(wǎng)絡(luò)配置參數(shù)是寫在配置文件里的,ifcfg-ens33是CentOS7.8版本的Linux系統(tǒng)中的網(wǎng)絡(luò)配置文件,可以設(shè)置IP地址、子網(wǎng)掩碼等網(wǎng)絡(luò)配置信息。使用“vi/etc/sysconfig/network-scripts/ifcfg-ens33”命令,打開ifcfg-ens33文件。設(shè)置固定IP修改/etc/sysconfig/network-scripts/ifcfg-ens33配置文件。單擊“I”鍵進(jìn)入編輯模式,將該文件中ONBOOT的值修改為“yes”,將BOOTPROTO的值修改為“static”,并添加IP地址IPADDR、子網(wǎng)掩碼NETMASK、網(wǎng)關(guān)GATEWAY以及域名解析服務(wù)器DNS1的網(wǎng)絡(luò)配置信息,單擊“Esc”鍵,輸入“:wq”命令,單擊“Enter”鍵保存文件并退出。設(shè)置固定IP重啟網(wǎng)卡服務(wù)并查看IP。使用“servicenetworkrestart”命令再次重啟網(wǎng)卡服務(wù),并使用“ipaddr”命令查看IP,結(jié)果如下圖。從下圖中可以看出,IP地址已經(jīng)設(shè)置為30,說明該虛擬機(jī)的IP地址固定已設(shè)置成功。遠(yuǎn)程連接虛擬機(jī)在VMware軟件中操作Linux系統(tǒng)十分麻煩,如無法進(jìn)行命令的復(fù)制和粘貼,因此推薦使用Xmanager工具通過遠(yuǎn)程連接的方式操作Linux系統(tǒng)。Xmanager是應(yīng)用于Windows系統(tǒng)的Xserver服務(wù)器軟件。通過Xmanager,用戶可以將遠(yuǎn)程的Linux桌面無縫導(dǎo)入Windows系統(tǒng)中。在Linux和Windows網(wǎng)絡(luò)環(huán)境中,Xmanager是非常合適的系統(tǒng)連通解決方案之一。在Xmanager官網(wǎng),選擇“所有下載”選項(xiàng)卡下的“家庭/學(xué)校免費(fèi)”選項(xiàng)下載Xshell、Xftp安裝包,安裝包名稱分別為Xshell-7.0.0113p.exe、Xftp-7.0.0111p.exe。下載安裝包后,雙擊Xshell-7.0.0113p.exe、Xftp-7.0.0111p.exe,按照系統(tǒng)提示即可完成Xshell、Xftp的安裝。遠(yuǎn)程連接虛擬機(jī)使用Xshell、Xftp遠(yuǎn)程連接Linux系統(tǒng)的方式一樣,此處以Xshell為例,通過Xshell遠(yuǎn)程連接Linux系統(tǒng)基本流程如下圖。遠(yuǎn)程連接虛擬機(jī)遠(yuǎn)程連接虛擬機(jī)的操作步驟如下。打開虛擬網(wǎng)絡(luò)編輯器。使用Xshell連接虛擬機(jī)前,需要先設(shè)置VMwareWorkstation的虛擬網(wǎng)絡(luò)。在VMware的“編輯”菜單中單擊“虛擬網(wǎng)絡(luò)編輯器”選項(xiàng),如下圖。遠(yuǎn)程連接虛擬機(jī)修改子網(wǎng)IP。進(jìn)入“虛擬網(wǎng)絡(luò)編輯器”對(duì)話框后,需要管理員權(quán)限才能修改網(wǎng)絡(luò)配置。如果沒有管理員權(quán)限,那么單擊“更改設(shè)置”按鈕,授予管理員權(quán)限即可。選擇“VMnet8”選項(xiàng)所在行,再將“子網(wǎng)IP”修改為“”,如右圖,單擊“確定”按鈕關(guān)閉該對(duì)話框。遠(yuǎn)程連接虛擬機(jī)打開Xshell。設(shè)置VMware的虛擬網(wǎng)絡(luò)后,即可開始使用Xshell工具遠(yuǎn)程連接虛擬機(jī)。在個(gè)人計(jì)算機(jī)的開始菜單找到程序圖標(biāo)Xshell7,如下圖,雙擊打開Xshell。遠(yuǎn)程連接虛擬機(jī)新建會(huì)話。單擊“文件”菜單,在出現(xiàn)的菜單欄中選擇“新建…”選項(xiàng),建立會(huì)話,如下圖。遠(yuǎn)程連接虛擬機(jī)配置新建會(huì)話。在彈出的“新建會(huì)話屬性”對(duì)話框中,在“常規(guī)”組的“名稱”對(duì)應(yīng)的文本框中輸入“master”。該會(huì)話名稱是由用戶自行指定的,建議與要連接的虛擬機(jī)服務(wù)器名稱保持一致。“主機(jī)”對(duì)應(yīng)的文本框中輸入“30”,表示master虛擬機(jī)的IP地址,其中“端口號(hào)”選項(xiàng)默認(rèn)設(shè)置為“22”,如右圖。遠(yuǎn)程連接虛擬機(jī)再單擊左側(cè)的“用戶身份驗(yàn)證”選項(xiàng),在右側(cè)輸入用戶名“root”和密碼“123456”,其中“方法”選項(xiàng)默認(rèn)勾選“Password”,如右圖,單擊“確定”按鈕,創(chuàng)建會(huì)話完成。遠(yuǎn)程連接虛擬機(jī)連接虛擬機(jī)。在Xshell頁面中的“會(huì)話管理器”窗口,雙擊會(huì)話“master”,將彈出SSH安全警告,如右圖,單擊“接受并保存”按鈕即可成功連接master虛擬機(jī)。后續(xù)操作,如無特別說明,均是在Xshell或Xftp上進(jìn)行。配置本地yum源及安裝常用軟件yum源安裝軟件包方法可以徹底解決RPM安裝軟件包時(shí)的包關(guān)聯(lián)與依賴問題。yum是杜克大學(xué)為了提高RPM軟件包的安裝性而開發(fā)的一個(gè)軟件包管理器,能夠在線從指定的服務(wù)器中自動(dòng)下載RPM包并且安裝,可以自動(dòng)處理依賴性關(guān)系,并且一次安裝所有依賴的軟件包,無須煩瑣地一次次下載、安裝。yum提供了查找、安裝、刪除某一個(gè)、一組甚至全部軟件包的命令,而且命令簡潔、易記。配置本地yum源及安裝常用軟件yum命令的語法參數(shù)說明如下表。參數(shù)說明[options]可選參數(shù),用于配置yum的行為,具體可使用“yum--help”命令進(jìn)行查看[command]可選參數(shù),指定用戶想要執(zhí)行的操作,如“install”安裝一個(gè)或多個(gè)軟件包[package...]可選參數(shù),指定用戶想要執(zhí)行操作的軟件包。如果用戶沒有指定軟件包,yum會(huì)對(duì)所有可用的軟件包執(zhí)行指定的操作配置本地yum源及安裝常用軟件配置本地yum源的基本流程如下圖。配置本地yum源及安裝常用軟件進(jìn)入yum源的配置文件夾。使用“cd/etc/yum.repos.d”命令,進(jìn)入/etc/yum.repos.d目錄。查看yum源并禁用部分yum源的操作如下。查看yum源。使用“l(fā)l”命令查看yum.repos.d目錄下的文件,如圖239所示,發(fā)現(xiàn)目錄下存在CentOS-Base.repo、CentOS-CR.repo、CentOS-Debuginfo.repo、CentOS-fasttrack.repo、CentOS-Media.repo、CentOS-Sources.repo、CentOS-Vault.repo、CentOS-x86_64-kernel.repo8個(gè)文件,其中CentOS-Media.repo是yum本地源的配置文件。配置本地yum源及安裝常用軟件禁用yum源。配置本地yum源,需要禁用除yum本地源以外的其他yum源,即將其他yum源文件重命名添加后綴“.bak”,如下圖。配置本地yum源及安裝常用軟件打開CentOS-Media.repo文件。使用“viCentOS-Media.repo”命令,打開并查看CentOS-Media.repo文件內(nèi)容,如下圖。配置本地yum源及安裝常用軟件修改CentOS-Media.repo文件內(nèi)容。將baseurl的值修改為“file:///media/”,將gpgcheck的值改為“0”,將enabled的值改為“1”,修改后的內(nèi)容如下圖,編寫好后單擊鍵盤“Esc”鍵,輸入“:wq”命令,再單擊“Enter”鍵保存退出。配置本地yum源及安裝常用軟件掛載本地yum源。使用“mount/dev/sr0/media”命令掛載本地yum源。如果返回“mount:youmustspecifythefilesystemtype”的信息提示,那么說明掛載沒有成功,如下圖。配置本地yum源及安裝常用軟件解決方案為:在VMware軟件中右鍵單擊master虛擬機(jī),在彈出的快捷菜單中選擇“設(shè)置”命令,彈出“虛擬機(jī)設(shè)置”對(duì)話框,然后在“硬件”選項(xiàng)卡中選擇“CD/DVD(IDE)”所在行,并在右側(cè)的“設(shè)備狀態(tài)”組中選擇“已連接”復(fù)選框,如右圖。配置本地yum源及安裝常用軟件再次執(zhí)行掛載本地yum源命令,返回“mount:/dev/sr0iswrite-protected,mountingread-only”信息提示,說明掛載成功,如下圖。配置本地yum源及安裝常用軟件更新yum源。使用“yumcleanall”命令,出現(xiàn)下圖的信息,說明更新yum源成功。配置本地yum源及安裝常用軟件使用yum安裝軟件。以安裝vim、zip、openssh-server、openssh-clients為例,每個(gè)軟件的說明如下表。軟件說明vim類似于vi的文本編輯器zip壓縮文件命令openssh-server主要是作為一個(gè)服務(wù)運(yùn)行在后臺(tái),如果這個(gè)服務(wù)開啟,那么人們即可用一些遠(yuǎn)程連接工具連接CentOSopenssh-clients類似于Xshell,可以作為一個(gè)客戶端連接openssh-server配置本地yum源及安裝常用軟件使用“yuminstall-yvimzipopenssh-serveropenssh-clients”命令安裝軟件,安裝過程中會(huì)自動(dòng)搜索目標(biāo)軟件以及所必需的依賴包,如下圖。配置本地yum源及安裝常用軟件安裝完成后會(huì)顯示所有已安裝的相關(guān)軟件,如下圖。在Linux系統(tǒng)下安裝Java由于Hadoop是基于Java語言開發(fā)的,所以Hadoop集群的使用依賴于Java環(huán)境。因此,在安裝Hadoop集群前,需要先安裝Java,本書使用的Java開發(fā)工具包的版本為JDK1.8。在Linux系統(tǒng)下安裝Java的基本流程如下圖。在Linux系統(tǒng)下安裝Java在Linux系統(tǒng)下安裝Java的操作步驟如下。上傳安裝包。上傳JDK安裝包至虛擬機(jī)master,在鍵盤上按“Ctrl+Alt+F”組合鍵,進(jìn)入文件傳輸對(duì)話框,左側(cè)為個(gè)人計(jì)算機(jī)的文件系統(tǒng),右側(cè)為Linux虛擬機(jī)的文件系統(tǒng)。在左側(cè)的文件系統(tǒng)中查找到j(luò)dk-8u281-linux-x64.rpm安裝包,雙擊鼠標(biāo)左鍵上傳至Linux的/opt目錄下,如下圖。在Linux系統(tǒng)下安裝Java安裝JDK。切換至/opt目錄并使用“rpm-ivhjdk-8u281-linux-x64.rpm”命令安裝JDK,如下圖。在Linux系統(tǒng)下安裝Java驗(yàn)證JDK是否配置成功。使用“java-version”命令查看Java版本,結(jié)果如下圖,說明JDK配置成功。此外,由于Hadoop集群有3個(gè)節(jié)點(diǎn),為方便辨別,使用“hostnamectlset-hostnamemaster”將虛擬機(jī)的服務(wù)器名修改為“master”,系統(tǒng)重啟后將使用新的服務(wù)器名。修改配置文件創(chuàng)建及配置了虛擬機(jī)master后,Hadoop集群的相關(guān)配置即可在虛擬機(jī)master上進(jìn)行操作,通過修改配置文件內(nèi)容進(jìn)行設(shè)置。首先需要將Hadoop安裝包hadoop-3.1.4.tar.gz上傳至虛擬機(jī)master的/opt目錄下,然后使用“tar-zxfhadoop-3.1.4.tar.gz-C/usr/local”命令,將Hadoop安裝包解壓至master的/usr/local目錄下。進(jìn)入/usr/local/hadoop-3.1.4/etc/hadoop目錄,并修改9份配置文件的內(nèi)容,基本流程如下圖。修改配置文件修改配置文件的具體操作步驟如下。修改core-site.xml文件。core-site.xml是Hadoop的核心配置文件,用于配置兩個(gè)屬性,即fs.defaultFS和hadoop.tmp.dir。fs.defaultFS配置了Hadoop的HDFS文件系統(tǒng)的NameNode端口。注意:若NameNode所在的虛擬機(jī)名稱不是“master”,則需要將“hdfs://master:8020”中的“master”替換為NameNode所在的虛擬機(jī)名稱。hadoop.tmp.dir配置了Hadoop的臨時(shí)文件的目錄。修改配置文件修改hadoop-env.sh文件。hadoop-env.sh文件設(shè)置了Hadoop運(yùn)行基本環(huán)境的配置,需要修改JDK所在目錄。因此,在該文件中,將JAVA_HOME的值修改為JDK在Linux系統(tǒng)中的安裝目錄。修改yarn-env.sh文件。yarn-env.sh文件設(shè)置了YARN框架運(yùn)行環(huán)境的配置,同樣需要添加JDK所在目錄。修改配置文件修改mapred-site.xml文件。mapred-site.xml設(shè)置了MapReduce框架的相關(guān)配置,由于Hadoop3.x使用了YARN框架,所以必須指定配置項(xiàng)的值為“yarn”。mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是JobHistoryserver的相關(guān)配置,mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是配置運(yùn)行MapReduce任務(wù)的日志相關(guān)服務(wù)端口。修改配置文件修改yarn-site.xml文件。yarn-site.xml文件設(shè)置了YARN框架的相關(guān)配置,文件中命名了一個(gè)yarn.resourcemanager.hostname的變量,在YARN的相關(guān)配置中可以直接引用該變量,其他配置保持不變即可。修改workers文件。workers文件保存的是子節(jié)點(diǎn)(slave節(jié)點(diǎn))的信息,在workers文件中添加的內(nèi)容。該文件中原有“l(fā)ocalhost”內(nèi)容,可以刪掉“l(fā)ocalhost”這行,讓master節(jié)點(diǎn)作為名稱節(jié)點(diǎn)使用。修改配置文件修改hdfs-site.xml文件。hdfs-site.xml設(shè)置了與HDFS相關(guān)的配置,例如.dir和dfs.datanode.data.dir分別指定了NameNode元數(shù)據(jù)和DataNode數(shù)據(jù)存儲(chǔ)位置。node.secondary.http-address配置了SecondaryNameNode的地址。dfs.replication配置了文件塊的副本數(shù),默認(rèn)為3個(gè)副本,不作修改。修改配置文件修改啟動(dòng)和關(guān)閉服務(wù)的文件。為了防止Hadoop集群啟動(dòng)失敗,需要修改Hadoop集群啟動(dòng)和關(guān)閉服務(wù)的文件。啟動(dòng)和關(guān)閉服務(wù)的文件在/usr/local/hadoop-3.1.4/sbin/目錄下,需要修改的文件分別是start-dfs.sh、stop-dfs.sh、start-yarn.sh和stop-yarn.sh,修改操作如下。修改start-dfs.sh和stop-dfs.sh。修改start-yarn.sh和stop-yarn.sh。修改配置文件除此之外,還需要修改/etc/hosts文件。/etc/hosts文件配置的是服務(wù)器名與IP地址的映射。設(shè)置服務(wù)器名與IP地址映射后,各服務(wù)器之間通過服務(wù)器名即可進(jìn)行通信和訪問,簡化并方便了訪問操作。本書搭建的Hadoop集群共有3個(gè)節(jié)點(diǎn),集群的節(jié)點(diǎn)服務(wù)器名及IP地址,因此可使用vim命令在/etc/hosts文件的末尾添加相關(guān)配置。克隆虛擬機(jī)在虛擬機(jī)master上配置完成Hadoop集群相關(guān)配置后,需要通過克隆虛擬機(jī)master,生成2個(gè)新的虛擬機(jī)slave1、slave2。在虛擬機(jī)master的安裝目錄D:\VMware下建立2個(gè)文件:slave1、slave2。以克隆master生成虛擬機(jī)slave1為例,克隆虛擬機(jī)的基本流程如下圖??寺√摂M機(jī)虛擬機(jī)克隆步驟如下??寺√摂M機(jī)。右鍵單擊關(guān)機(jī)后的虛擬機(jī)master,依次選擇“管理”→“克隆”命令,如右圖。克隆虛擬機(jī)進(jìn)入歡迎使用克隆虛擬機(jī)向?qū)У慕缑?,如右圖,直接單擊“下一頁”按鈕。克隆虛擬機(jī)選擇克隆源。選擇“虛擬機(jī)中的當(dāng)前狀態(tài)”按鈕,如右圖,單擊“下一頁”按鈕??寺√摂M機(jī)選擇克隆方法。選擇“創(chuàng)建完整克隆”按鈕,如右圖,單擊“下一步”按鈕。克隆虛擬機(jī)設(shè)置新虛擬機(jī)的名稱。新虛擬機(jī)名稱為“slave1”,選擇該虛擬機(jī)的安裝位置為“D:\VMware\slave1”,如右圖??寺√摂M機(jī)單擊“完成”按鈕,虛擬機(jī)開始克隆,最后單擊“關(guān)閉”按鈕,如右圖,完成虛擬機(jī)的克隆??寺√摂M機(jī)開啟slave1虛擬機(jī)并修改相關(guān)配置。因?yàn)閟lave1虛擬機(jī)是由master虛擬機(jī)克隆產(chǎn)生的,即虛擬機(jī)配置與虛擬機(jī)master一致,所以需要修改slave1的相關(guān)配置,修改相關(guān)配置的過程如下。修改IP。修改/etc/sysconfig/network-scripts/ifcfg-ens33文件,將IPADDR的值修改為“31”,修改好后保存退出。驗(yàn)證IP是否修改成功。重啟網(wǎng)絡(luò)服務(wù)并查看IP是否修改成功,運(yùn)行結(jié)果如下圖??寺√摂M機(jī)修改服務(wù)器名。因?yàn)閟lave1是master的克隆虛擬機(jī),所以需要修改服務(wù)器名稱為slave1。重啟虛擬機(jī)。使用“reboot”命令重新啟動(dòng)虛擬機(jī)。驗(yàn)證slave1是否配置成功。在master節(jié)點(diǎn)中,使用“pingslave1”命令,如下圖,說明slave1配置成功。克隆虛擬機(jī)生成slave2。重復(fù)步驟(1)~(5),繼續(xù)克隆master虛擬機(jī)生成slave2虛擬機(jī),并修改slave2虛擬機(jī)的相關(guān)配置。配置SSH免密登錄SSH(SecureShell)是建立在TCP/TP協(xié)議的應(yīng)用層和傳輸層基礎(chǔ)上的安全協(xié)議。SSH保障了遠(yuǎn)程登錄和網(wǎng)絡(luò)傳輸服務(wù)的安全性,起到了防止信息泄露等作用。SSH可以對(duì)文件進(jìn)行加密處理,也可以運(yùn)行于多平臺(tái)。配置SSH無密碼登錄的步驟如下,步驟均是在master虛擬機(jī)上進(jìn)行操作。配置SSH免密登錄生產(chǎn)公鑰與私鑰對(duì)。密鑰分為公有密鑰和私有密鑰,ssh-keygen命令可以生成RSA類型的公鑰與私鑰對(duì)。使用“ssh-keygen-trsa”命令,參數(shù)-t用于指定要?jiǎng)?chuàng)建的SSH密鑰的類型為RSA,接著按3次“Enter”鍵,如下圖,結(jié)果將生成私有密鑰id_rsa和公有密鑰id_rsa.pub兩個(gè)文件。配置SSH免密登錄將公鑰復(fù)制到遠(yuǎn)程機(jī)器中。使用ssh-copy-id命令將公鑰復(fù)制至遠(yuǎn)程機(jī)器中。驗(yàn)證SSH是否能夠無密鑰登錄。在master主節(jié)點(diǎn)下分別輸入“sshslave1”“sshslave2”,結(jié)果如下圖,說明配置SSH免密碼登錄成功。配置時(shí)間同步服務(wù)NTP是使計(jì)算機(jī)時(shí)間同步化的一種協(xié)議,可以使計(jì)算機(jī)對(duì)其服務(wù)器或時(shí)鐘源進(jìn)行同步化,提供高精準(zhǔn)度的時(shí)間校正。Hadoop集群對(duì)時(shí)間要求很高,主節(jié)點(diǎn)與各子節(jié)點(diǎn)的時(shí)間都必須同步。配置時(shí)間同步服務(wù)主要是為了進(jìn)行集群間的時(shí)間同步。Hadoop集群配置時(shí)間同步服務(wù)基本流程如下圖。配置時(shí)間同步服務(wù)Hadoop集群配置時(shí)間同步服務(wù)基本流程的步驟如下。安裝NTP服務(wù)。在任務(wù)一的第(四)步驟中已經(jīng)配置了本地yum源,可以直接使用yum安裝NTP服務(wù),在各節(jié)點(diǎn)使用“yuminstall-yntp”命令即可。若出現(xiàn)了“Complete”信息,則說明安裝NTP服務(wù)成功。若安裝出現(xiàn)問題,則需要重新掛載本地yum源操作,使用“mount/dev/sr0/media”命令。配置時(shí)間同步服務(wù)設(shè)置master節(jié)點(diǎn)為NTP服務(wù)主節(jié)點(diǎn)。使用“vim/etc/ntp.conf”命令打開/etc/ntp.conf文件,注釋掉以server開頭的行,如下圖。配置時(shí)間同步服務(wù)子節(jié)點(diǎn)配置NTP服務(wù)。分別在slave1、slave2中配置NTP服務(wù),同樣修改/etc/ntp.conf文件,注釋掉server開頭的行,添加的內(nèi)容如下圖。(4)關(guān)閉防火墻并禁止開機(jī)自動(dòng)啟動(dòng)防火墻。使用“systemctlstopfirewalld”和“systemctldisablefirewalld”命令關(guān)閉防火墻并禁止開機(jī)自動(dòng)啟動(dòng)防火墻。注意,主節(jié)點(diǎn)和子節(jié)點(diǎn)均需要關(guān)閉。配置時(shí)間同步服務(wù)啟動(dòng)NTP服務(wù)。NTP服務(wù)安裝完成后即可開始啟動(dòng)NTP服務(wù),啟動(dòng)操作如下。主節(jié)點(diǎn)啟動(dòng)NTP服務(wù)。在master節(jié)點(diǎn)使用“systemctlstartntpd”和“systemctlenablentpd”命令,再使用“systemctlstatusntpd”命令查看NTP服務(wù)狀態(tài),如下圖,出現(xiàn)“active(running)”信息,說明NTP服務(wù)啟動(dòng)成功。配置時(shí)間同步服務(wù)分別在slave1、slave2節(jié)點(diǎn)上使用“ntpdatemaster”命令,即可同步時(shí)間,以slave1節(jié)點(diǎn)為例,運(yùn)行結(jié)果如下圖。配置時(shí)間同步服務(wù)子節(jié)點(diǎn)啟動(dòng)NTP服務(wù)。分別在slave1、slave2節(jié)點(diǎn)上分別使用“systemctlstartntpd”和“systemctlenablentpd”命令,即可永久啟動(dòng)NTP服務(wù)。使用“systemctlstatusntpd”命令查看NTP服務(wù)狀態(tài),以slave1節(jié)點(diǎn)為例,運(yùn)行結(jié)果如下圖,出現(xiàn)“active(running)”信息,說明該子節(jié)點(diǎn)的NTP服務(wù)也啟動(dòng)成功。添加地址映射為了后續(xù)代碼開發(fā),Windows本機(jī)能夠識(shí)別虛擬機(jī)集群,需要在Windows系統(tǒng)中對(duì)虛擬機(jī)集群的IP地址添加映射。在Windows桌面使用“Win+R”鍵打開“運(yùn)行”對(duì)話框,輸入“drivers”后確定。在drivers文件夾中找到etc文件夾并打開,如下圖。編輯etc文件夾中的hosts文件,在文件末尾添加地址映射規(guī)則。啟動(dòng)關(guān)閉集群完成Hadoop的所有配置后,即可執(zhí)行格式化NameNode操作。通過格式化NameNode,可以確保Hadoop集群的文件系統(tǒng)處于一致的狀態(tài),并且可以避免潛在的沖突和錯(cuò)誤。此外,格式化NameNode還會(huì)生成新的命名空間ID和集群ID,用于標(biāo)識(shí)Hadoop集群的唯一性。該操作會(huì)在NameNode所在機(jī)器初始化一些HDFS的相關(guān)配置,并且在集群搭建過程中只需執(zhí)行一次,執(zhí)行格式化之前可以先配置環(huán)境變量。配置環(huán)境變量是在master、slave1、slave2節(jié)點(diǎn)上修改/etc/profile文件,文件修改完保存退出,使用“source/etc/profile”命令使配置生效。啟動(dòng)關(guān)閉集群格式化只需使用“hdfsnamenode-format”命令,若出現(xiàn)“Storagedirectory/data/hadoop/hdfs/namehasbeensuccessfullyformatted”提示,則表示格式化NameNode成功,如下圖。啟動(dòng)關(guān)閉集群格式化完成后即可啟動(dòng)Hadoop集群,啟動(dòng)Hadoop集群只需要在master節(jié)點(diǎn)直接進(jìn)入Hadoop安裝目錄。集群啟動(dòng)之后,在主節(jié)點(diǎn)master,子節(jié)點(diǎn)slave1、slave2分別使用jps命令,出現(xiàn)下圖的信息,說明集群啟動(dòng)成功。啟動(dòng)關(guān)閉集群啟動(dòng)成功后可通過瀏覽器,登錄HDFS的WebUI系統(tǒng),登錄網(wǎng)址為“30:9870”,如右圖。同理,關(guān)閉集群也只需要在master節(jié)點(diǎn)直接進(jìn)入Hadoop安裝目錄,關(guān)閉集群。安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建HiveHive客戶端有3種安裝模式,即內(nèi)嵌模式、本地模式和遠(yuǎn)程模式,模式介紹如下。內(nèi)嵌模式:元數(shù)據(jù)保持在內(nèi)嵌的Derby模式,只允許一個(gè)會(huì)話連接。本地獨(dú)立模式:在本地安裝MySQL,把元數(shù)據(jù)放到MySQL內(nèi)。遠(yuǎn)程模式:元數(shù)據(jù)放置在遠(yuǎn)程的MySQL數(shù)據(jù)庫。安裝搭建Hive不同模式適用于不同的場景需求,應(yīng)具體問題具體分析,在多種解決方案中評(píng)估出適用的方案。本文將以本地模式為例,因此安裝Hive之前,需要先安裝MySQL數(shù)據(jù)庫。在正式安裝前還需提前確定好安裝MySQL與Hive的版本,還有MySQL的驅(qū)動(dòng)組件,具體說明如下表。組件/軟件版本安裝包備注說明MySQL8.0.21mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar安裝在master節(jié)點(diǎn)上MySQL驅(qū)動(dòng)包8.0.21mysql-connector-java-8.0.21.jarHive3.1.2apache-hive-3.1.2-bin.tar.gz安裝在master節(jié)點(diǎn)上安裝MySQL安裝MySQL前,為避免可能引發(fā)的沖突或不兼容問題,需將系統(tǒng)自帶的MySQL卸載,檢查并刪除系統(tǒng)自帶的MySQL,運(yùn)行結(jié)果如下圖。安裝MySQL1.下載MySQL安裝包清除系統(tǒng)中的MySQL后即可下載MySQL安裝包,下載方式分為離線下載和在線下載,操作如下。離線下載MySQL安裝包。瀏覽器登錄MySQL官網(wǎng),選擇操作系統(tǒng)為“RedHatEnterpriseLinux7/OracleLinux7(x86,64-bit)”的8.0.21版本MySQL,下載RPMBundle文件,安裝包名稱為“mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar”,如下圖。也可將安裝包按需下載,下載需要的4個(gè)MySQL組件,分別是server、client、common、libs。此處以下載RPMBundle文件為例,下載完成后,將mysql-8.0.21-1.el7.x86_64.rpm-bundle.tar上傳至master虛擬機(jī)的/opt目錄下。安裝MySQL安裝MySQL在線下載MySQL安裝包。由于要使用到wget命令下載MySQL,因此要先下載wget。wget是Linux中一個(gè)下載文件的工具,用來從指定的url下載文件,工具體積小但功能完善,支持?jǐn)帱c(diǎn)下載功能,同時(shí)支持FTP和HTTP下載方式,支持代理服務(wù)器和設(shè)置起來方便簡單,wget有下載穩(wěn)定,對(duì)帶寬具有很強(qiáng)的適應(yīng)性等特點(diǎn)。wget下載成功如右圖。安裝MySQLwget命令下載成功后,即可下載MySQL8.0.21版本的安裝包,如代碼226所示,運(yùn)行結(jié)果如下圖。安裝MySQL2.安裝MySQL安裝包以離線下載的安裝包為例,解壓下載好的MySQL安裝包,運(yùn)行結(jié)果如下圖。安裝MySQL使用rpm命令按照依賴關(guān)系依次安裝rpm包,依賴關(guān)系依次為client→common→libs→server,運(yùn)行結(jié)果如下圖。安裝MySQL3.修改MySQL初始密碼新版本的MySQL會(huì)為root用戶創(chuàng)建一個(gè)初始密碼,需要進(jìn)行更改。查詢MySQL初始密碼,結(jié)果如下圖,查詢到的密碼為“4X*g6Pux4,SZ”。安裝MySQL將查詢所得初始密碼登錄MySQL數(shù)據(jù)庫,登錄成功如下圖。安裝MySQLMySQL初始化后的root用戶、新創(chuàng)建的用戶,初次登錄后需要修改密碼。設(shè)置的自定義密碼為“123456”,但不符合MySQL的密碼規(guī)則,則需要修改MySQL8.0密碼規(guī)則,運(yùn)行結(jié)果如下圖。安裝MySQL4.授權(quán)遠(yuǎn)程連接默認(rèn)的MySQL賬號(hào)是不允許從遠(yuǎn)程登錄,授權(quán)遠(yuǎn)程連接只需登錄MySQL后,更改數(shù)據(jù)庫里的“user”表里的“host”項(xiàng),從“l(fā)ocalhost”改成“%”表示任意IP,最后刷新權(quán)限即可,運(yùn)行結(jié)果如下圖。下載和安裝Hive從Hive的官網(wǎng)中下載Hive安裝包。將安裝包apache-hive-3.1.2-bin.tar.gz和MySQL驅(qū)動(dòng)mysql-connector-java-8.0.21.jar上傳到/opt/目錄下。解壓安裝包到/usr/local/目錄下,為了日后方便操作,將安裝目錄重命名為hive。修改Hive配置文件進(jìn)入到Hive的安裝目錄的conf目錄下,重命名hive-env.sh.template文件名為hive-env.sh,并在hive-env.sh文件末尾添加相關(guān)配置內(nèi)容,然后按“Esc”鍵,輸入“:wq”,按“Enter”鍵保存退出。將hive-site.xml配置文件,上傳到/usr/local/hive/conf目錄下,hive-site.xml配置文件設(shè)置了Hive作業(yè)的HDFS根目錄位置;HDFS上Hive數(shù)據(jù)存放位置;修改Hive內(nèi)置數(shù)據(jù)庫的derby驅(qū)動(dòng),使用MySQL的Driver驅(qū)動(dòng)作為Hive內(nèi)置數(shù)據(jù)庫的Derby驅(qū)動(dòng)。修改Hive配置文件復(fù)制MySQL驅(qū)動(dòng)包至Hive的lib目錄下。將Hadoop的guava包復(fù)制至Hive的lib目錄下,再將Hive的lib目錄下版本較低的guava包刪除。注意如果Hive中的guava包不一致,啟動(dòng)Hive時(shí)會(huì)報(bào)錯(cuò),因此要?jiǎng)h除版本較低的包。設(shè)置環(huán)境變量設(shè)置環(huán)境變量,在/etc/profile文件末尾添加Hive的環(huán)境變量。保存退出后,運(yùn)行“source/etc/profile”命令使環(huán)境變量生效。初始化元數(shù)據(jù)庫與啟動(dòng)Hive第一次啟動(dòng)Hive前,需要進(jìn)入Hive的bin目錄下先初始化元數(shù)據(jù)庫。運(yùn)行結(jié)果顯示“completed”表示初始化成功,如下圖。初始化元數(shù)據(jù)庫與啟動(dòng)Hive啟動(dòng)之前需要先把Hadoop集群開啟,然后開啟元數(shù)據(jù)服務(wù)和Hive。Hive啟動(dòng)成功如下圖。安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群安裝搭建Spark集群Spark集群的環(huán)境可分為單機(jī)版環(huán)境、單機(jī)偽分布式環(huán)境和完全分布式環(huán)境。本節(jié)將介紹如何搭建完全分布式環(huán)境的Spark集群,并查看Spark的服務(wù)監(jiān)控。讀者可從官網(wǎng)下載Spark安裝包,本書使用的Spark安裝包是spark-3.2.1-bin-ha

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論