




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
練習題一
任務一:Hadoop平臺及組件的部署管理(15分)
一、Hadoop全分布部署
本環(huán)節(jié)需要使用root用戶完成相關配置,安裝hadoop需要配置前置環(huán)境,
具體部署要求如下:
1、解壓JDK安裝包到“/usr/local/src”路徑,并配置環(huán)境變量;
2、在指定目錄下安裝ssh服務,查看ssh進程并截圖(安裝包統(tǒng)一在“/
h3cu/”);
3、創(chuàng)建ssh密鑰,實現(xiàn)主節(jié)點與從節(jié)點的無密碼登錄;截取主節(jié)點登錄其中
一個從節(jié)點的結果;
4、根據要求修改每臺主機host主機名;
5、修改每臺主機host文件配置IP與主機名映射關系;
6、根據要求修改Hadoop環(huán)境變量;
7、根據要求修改Hadoop相關文件,并初始化Hadoop;
8、啟動Hadoop,使用相關命令查看所有節(jié)點Hadoop進程并截圖。
二、Flume組件部署
1、解壓Flume安裝包到“/usr/local/src”路徑;
2、修改解壓后文件夾名為flume;
3、設置Flume環(huán)境變量,并使環(huán)境變量只對當前root用戶生效;
4、修改Flume相應文件;
1
5、修改并配置flume-env.sh文件。
任務二:數(shù)據采集(15分)
(自行搭建網站,參考源數(shù)據)
網站數(shù)據文件路徑:/h3cu/mysql.excl
1、網站解析,利用chrome查看網頁源碼,分析招聘網站網頁結構。
1)打開酒店網站,在網頁中右鍵點擊檢查,或者F12快捷鍵,查看元素
頁面;
2)檢查網站:瀏覽網站源碼查看所需內容
2、從酒店網站中爬取需要數(shù)據,按照要求使用Java或Python語言編寫并
完善爬蟲代碼,爬取指定數(shù)據項,有效數(shù)據項包括但不限于:城市、商
圈、星級、評分、評論數(shù)等多項字段。并將代碼文件與代碼截圖保存。
具體步驟如下:
1)創(chuàng)建爬蟲項目\H3CU_hotel\
2)構建爬蟲請求
3)按要求定義相關字段
4)獲取有效數(shù)據
5)將爬取到的數(shù)據保存到指定位置
至此已從酒店網站中爬取了所需數(shù)據,下一步我們要將爬取結果進一步進行相
關數(shù)據操作,請將操作命令截圖并保存。
創(chuàng)建scrapy項目ScrapyHotel。本任務要求從酒店網站中抓取數(shù)據,提取全部
有效數(shù)據項。將爬取到的數(shù)據寫入Mysql數(shù)據庫中。
根據任務二題目要求,完成以下內容:
2
1、通過對網站結構分析,編寫并完成下表:
內容標簽
酒店編號
酒店星級
業(yè)務部門
酒店評分
2、根據爬取字段,在Mysql數(shù)據庫中自行創(chuàng)建數(shù)據表。
3、運行爬蟲代碼。
4、查詢Mysql數(shù)據庫的爬取結果數(shù)據表。
任務三:數(shù)據清洗與分析(30分)
本階段的任務:任務二數(shù)據采集階段中完成的酒店網站數(shù)據集,其中包含來
自不同城市中多家酒店的銷售信息,你的小組通過編寫代碼或腳本完成對文件
中酒店銷售管理數(shù)據的清洗和整理,并完成數(shù)據計算和分析任務。綜合利用
MapReduce、Spark、Storm、分布式存儲系統(tǒng)、數(shù)據倉庫Hive、數(shù)據推送工具
等技術,使用Java、Python等開發(fā)語言,完成本階段數(shù)據清洗、存儲、轉化、
分析及數(shù)據推送等任務。通過多個維度分析酒店的銷售信息,并以此評價酒店
銷售業(yè)績、區(qū)域的游客接納能力、接納質量等指標。
爬取后的數(shù)據文件路徑:/h3cu/mysql.csv
3.1數(shù)據清洗
數(shù)據集中不可避免地存在一些臟數(shù)據,即源數(shù)據不在給定的范圍內或對于
實際業(yè)務毫無意義,或是數(shù)據格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和
含糊的業(yè)務邏輯。請分析數(shù)據集,根據題目規(guī)定要求實現(xiàn)數(shù)據清洗。
步驟一、酒店銷售數(shù)據涉及到多個平臺及數(shù)據庫對接,個別信息由于人為操作
3
失誤或計算機故障等原因產生了數(shù)據缺失值。缺失值是一種常見的臟數(shù)據情況,
由于粗糙數(shù)據中缺少信息而造成的數(shù)據刪失或截斷?,F(xiàn)有數(shù)據集中某個或某些
屬性的值是不完全的。對于缺失值的處理,從總體上來說分為刪除存在缺失值
的個案和缺失值插補。當缺失值過多時,信息條目本身的價值也會隨之降低,
此時如果對缺失值進行填補則將產生結果的人為干預。結合行業(yè)數(shù)據本身特點
及上述考慮,請你根據題目具體參數(shù)要求實現(xiàn)以下功能:將缺失值大于n個的
數(shù)據條目剔除原始數(shù)據集,并輸出剔除的條目數(shù)量,截圖并保存結果。
請編寫Spark程序,按照如下要求實現(xiàn)對數(shù)據的清洗,并將結果輸出至
hdfs文件系統(tǒng)中//master:9000/hotelsparktask1:
解析該文件
按照題目要求剔除缺失數(shù)據信息(n=3),并以打印語句輸出刪除條
目數(shù)
程序打包并在hadoop平臺運行,結果輸出至hdfs文件系統(tǒng)中//
master:9000/hotelsparktask1
根據步驟一要求,完成以下內容:
1)運行代碼,刪除數(shù)據源中缺失值大于3個字段的數(shù)據,打印輸出刪
除條目數(shù)。
2)查看清洗后輸出的結果文件總行數(shù)/master:9000/
hotelsparktask1)。
步驟二、對于數(shù)據集字段缺失情況,通??梢圆捎锰畛淠J值、均值、眾數(shù)、
KNN填充、以及把缺失值作為新的label等方式處理。同時,不當?shù)奶畛淇赡軙?/p>
令后續(xù)的分析結果出現(xiàn)導向性偏差,當缺失信息較少時可采用刪除的方式來進
4
行處理。下面請根據題目具體參數(shù)要求處理關鍵字段缺失。
請編寫Spark程序,按照如下要求實現(xiàn)對數(shù)據的清洗,并將結果輸出至
hdfs文件系統(tǒng)中//master:9000/hotelsparktask2:
將任意關鍵字段為空的條目剔除,關鍵字段定義為{星級、評論數(shù)、
評分},并以打印語句輸出刪除條目數(shù)
程序打包并在hadoop平臺運行,結果輸出至hdfs文件系統(tǒng)中//
master:9000/hotelsparktask2
根據步驟二要求,完成以下內容:
1)運行代碼,將字段{星級、評論數(shù)、評分}中任意字段為空的數(shù)據刪
除,并打印輸出刪除條目數(shù)。
2)查看清洗后輸出的結果文件(master:9000/hotelsparktask2)總行
數(shù)。
3.2數(shù)據分析
步驟一、城市游客接納能力是城市規(guī)劃建設中的重要指標,其中城市的酒店數(shù)
量和房間數(shù)量是城市游客接納能力的關鍵要素。請編寫程序或腳本根據酒店管
理網站中的數(shù)據統(tǒng)計各城市的相關信息,并寫入指定的數(shù)據庫或數(shù)據文件,截
圖并保存結果。
請根據數(shù)據清洗的輸出數(shù)據集,編寫Mapreduce程序統(tǒng)計各城市的酒店數(shù)量和
房間數(shù)量,以城市房間數(shù)量降序排列并輸出前10條統(tǒng)計結果,同時創(chuàng)建并寫入
數(shù)據表table3_1。要求輸出字段包含:省份、城市、酒店數(shù)量、房間數(shù)量。
數(shù)據定義如下:
5
數(shù)據項字段名備注
省份province-
城市city-
酒店數(shù)量hotel_num-
房間數(shù)量room_num-
數(shù)據樣式如下:
provincecityhotel_numroom_num
貴州貴陽1234123456.0
根據步驟一要求,完成以下內容:
1)運行代碼,統(tǒng)計各城市的酒店數(shù)量和房間數(shù)量,以城市房間數(shù)量降序排列,
并打印輸出前10條統(tǒng)計結果。
2)創(chuàng)建表table3_1。
3)將統(tǒng)計結果寫入表table3_1中。
4)查看表table3_1前5行數(shù)據。
步驟二、OTA,全稱為OnlineTravelAgency,中文譯為“在線旅行社”,是
旅游電子商務行業(yè)的專業(yè)詞語。指“旅游消費者通過網絡向旅游服務提供商預
定旅游產品或服務,并通過網上支付或者線下付費,即各酒店通過網絡進行產
品營銷或產品銷售”。OTA平臺是酒店營銷的主要途徑之一,不僅降低銷售成
本,同時也提高了顧客體驗滿意度。當顧客通過OTA平臺進行酒店預訂時,酒
店就擁有了用戶的相關數(shù)據。通過這些數(shù)據,能夠更好地收集用戶需求,從而
可以提供更有針對性和個性化的服務,最終能夠產生更多的忠誠會員并帶來更
多訂單。但OTA平臺銷售也存在用戶拒單等情況,拒單原因有很多:例如,平
臺信息不同步,信息更新不及時;分銷層次過多,導致無法及時查證訂單;酒
6
店違反OTA規(guī)則擅自以低價讓客戶取消訂單,這種情況又叫做“切單”。OTA平
臺需要統(tǒng)計用戶訂單的分布情況,以此發(fā)現(xiàn)平臺缺陷及用戶、商家的行為模式,
OTA平臺據此調整營銷策略。根據現(xiàn)有數(shù)據及給定參數(shù)完成訂單數(shù)據統(tǒng)計,并
寫入指定的數(shù)據庫或數(shù)據文件,截圖并保存結果。
請根據數(shù)據清洗的輸出數(shù)據集,編寫Mapreduce程序統(tǒng)計各省直銷拒單率,以
直銷拒單率升序排列并輸出前10條統(tǒng)計結果,同時創(chuàng)建并寫入數(shù)據表
table3_2。
要求輸出字段包含:省份、直銷拒單率。
數(shù)據定義如下:
數(shù)據項字段名備注
省份province-
直銷拒單率norate要求保留6位小
數(shù)
數(shù)據樣式如下:
provincenorate
貴州0.123456
根據步驟二要求,完成以下內容:
1)創(chuàng)建表table3_2。
2)統(tǒng)計各省拒單率,將統(tǒng)計的拒單率升序排列并將前10條統(tǒng)計結果寫入數(shù)據
表table3_2中。
7
任務四、數(shù)據可視化(20分)
請根據任務三數(shù)據分析的結果,使用flask框架,結合echarts完成下列題
目??梢暬募窂剑?h3cu/mysql.csv
1、出租率是反映酒店經營狀況的一項重要指標,它是已出租的客房數(shù)與酒店
可以提供租用的房間總數(shù)的百分比。酒店出租率的情況可以在一定程度上
反應出該酒店的整體運營的情況,為了更好的分析指定酒店的入住情況,
請根據相關表中數(shù)據完成出租率分析,通過指定圖例進行呈現(xiàn)。
1)請編寫代碼,提取出租率前10的城市,并降序排列。
2)主標題為城市出租率(字體顏色:紅色,加粗),副標題為出租率前十
的城市(字體顏色:黑色),縱坐標為出租率,橫坐標為城市名稱(字
體顏色:黑色)。
3)輸出柱狀圖。
2、連鎖酒店一般都具有全國統(tǒng)一的品牌形象識別系統(tǒng)、全國統(tǒng)一的會員體系
和營銷體系、價格相比較很有優(yōu)勢符合大眾化消費。連鎖酒店無論在裝修、
服務還是信譽上都有較大的競爭優(yōu)勢,所以連鎖酒店是出差、旅游住宿的
好選擇。但是由于三線城市會員流動差、高素質管理人員相對短缺、營銷
環(huán)境與消費特點的差異等問題,一些已經成熟酒店管理模式在三線城市可
能并不受用,甚至會出現(xiàn)水土不服的現(xiàn)象。請根據現(xiàn)有數(shù)據及給定參數(shù),
統(tǒng)計指定連鎖酒店的經營狀況,并以指定圖例進行呈現(xiàn)。
請根據以大區(qū)劃分,統(tǒng)計各地7天酒店的出租率(保留6位小數(shù)),并以折
線圖呈現(xiàn)。
8
我國劃分大區(qū)共有六個:為東北、華北、華東、中南、西北、西南,大區(qū)
中的省份分布參照下表:
地區(qū)省份
華東地區(qū)山東、江蘇、安徽、浙江、江西、福建、上海
華南地區(qū)廣東、廣西、海南
華中地區(qū)湖北、湖南、河南
華北地區(qū)北京、天津、河北、山西、內蒙古
西北地區(qū)寧夏、新疆、青海、陜西、甘肅
西南地區(qū)四川、云南、貴州、西藏、重慶
東北地區(qū)遼寧、吉林、黑龍江
臺港澳地區(qū)臺灣、香港、澳門
根據要求完成以下內容:
1)請編寫代碼,提取各地7天酒店的出租率。
2)主標題為全國各地酒店的出租率(字體顏色:紅色,加粗),副標題為
7天酒店的出租率(自定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024人力資源管理師考前復習試題及答案
- Photoshop數(shù)字影像處理案例教程 習題及答案匯 第1-16章 商業(yè)圖像處理基礎-外拍寫真圖像處理
- 海洋與內陸地區(qū)的經濟差異試題及答案
- 2025年二月太赫茲器件CAD波導設計技術員傳輸損耗優(yōu)化協(xié)議
- 2025年河南省建筑安全員知識題庫
- 投資咨詢工程師重點復習試題及答案總結
- 公關活動中的傳播效果評估試題及答案
- 價值投資與成長投資的比較試題及答案
- 2024年計算機二級真題匯編試題及答案
- 提高工程機械轉向可靠性方法
- 截流式合流制管道系統(tǒng)的特點與使用條件課件
- (站表2-1)施工單位工程項目主要管理人員備案表
- 中班美術《我心中的太陽》繪畫課件幼兒園優(yōu)質課公開課
- 應急管理工作檢查記錄表
- 《雷鋒叔叔你在哪里》教學案例
- DB32-T 2798-2015高性能瀝青路面施工技術規(guī)范-(高清現(xiàn)行)
- 《機械設計基礎》課程思政教學案例(一等獎)
- 譯林版五年級英語下冊 Unit 6 第4課時 教學課件PPT小學公開課
- API-620 大型焊接低壓儲罐設計與建造
- 年產300噸蓮子蛋白粉工廠的設計
- 箱變施工安全文明保證措施
評論
0/150
提交評論