2020年山東省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書(B卷)_第1頁
2020年山東省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書(B卷)_第2頁
2020年山東省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書(B卷)_第3頁
2020年山東省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書(B卷)_第4頁
2020年山東省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術(shù)與應(yīng)用”賽項(xiàng)任務(wù)書(B卷)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

項(xiàng)目背景餐飲行業(yè)歷史悠久,伴隨著互聯(lián)網(wǎng)的興起,餐飲行業(yè)不得不從“酒香不怕巷子深”轉(zhuǎn)變?yōu)榉?wù)至上、用戶體驗(yàn)至上的運(yùn)營模式。外賣行業(yè)更是直接把傳統(tǒng)的餐飲行業(yè)拉進(jìn)了互聯(lián)網(wǎng)時代,無論是對外尋找精準(zhǔn)客戶群,還是對內(nèi)進(jìn)銷存管理,都需要根據(jù)數(shù)據(jù)分析調(diào)整運(yùn)營策略。越來越多的餐飲廣告出現(xiàn)在視頻廣告,交通工具和城市大街小巷,然而也從來沒有哪個時代的餐飲業(yè)像今天這樣競爭激烈、快進(jìn)快出,餐飲競爭的加劇使得餐飲品類在持續(xù)分化。大數(shù)據(jù)在這種變化中起到了至關(guān)重要的作用,如今的餐飲行業(yè)很多都會在搶購熱潮來臨之前,使用大數(shù)據(jù)來分析消費(fèi)趨勢,以此在美食熱潮中獲得更多收益。隨著社會經(jīng)濟(jì)的快速發(fā)展,消費(fèi)者的需求和偏好一直在改變。餐飲行業(yè)需要對地域、受眾人群、流行趨勢進(jìn)行總體分析,通過不同類型店鋪的地理分布、店鋪經(jīng)營主類與受眾人群相契合、把握美食流行趨勢對顧客的消費(fèi)數(shù)據(jù)做出分析,設(shè)定未來市場經(jīng)營策略,以便獲得更好的發(fā)展。為完成該項(xiàng)任務(wù),你所在的小組計(jì)劃選用在業(yè)界廣泛應(yīng)用的Python和JAVA語言,作為整個項(xiàng)目的基礎(chǔ)語言,并綜合利用scrapy框架、MapReduce、MySQL、Flask框架(Jinja2模板引擎)、ECharts組件等技術(shù),提高開發(fā)效率并實(shí)現(xiàn)項(xiàng)目要求,通過在離線網(wǎng)站上爬取到的相關(guān)信息,使用Python等手段對數(shù)據(jù)進(jìn)行爬取、清洗、整理、計(jì)算、表達(dá)、分析,力求實(shí)現(xiàn)對未來餐飲重點(diǎn)戰(zhàn)略方向提出建議。作為該小組的技術(shù)人員,你們是這次技術(shù)方案的核心成員,請按照下面步驟完成本次技術(shù)展示任務(wù),并進(jìn)行綜合分析。祝你們成功!環(huán)境參考信息:編號任務(wù)類型用戶密碼1Hadoop平臺部署master主節(jié)點(diǎn)rootpasswd2slave1從節(jié)點(diǎn)rootpasswd3slave2從節(jié)點(diǎn)rootpasswd4數(shù)據(jù)采集網(wǎng)站5數(shù)據(jù)清洗分析節(jié)點(diǎn)hadooppasswd6數(shù)據(jù)可視化節(jié)點(diǎn)restaurantrestaurant相關(guān)軟件安裝包在/h3cu目錄下。任務(wù)中涉及的所有命令請均使用絕對路徑。相關(guān)提交報(bào)告模板在桌面文件夾“競賽提交文檔”下,文件名為“2020年山東省大數(shù)據(jù)技術(shù)與應(yīng)用省賽提交結(jié)果文檔--工位XX.docx”,根據(jù)實(shí)際工位號修改文件名中的“XX”,另存為PDF格式提交。任務(wù)一環(huán)境搭建(15分)HadoopHA部署本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境,具體部署要求如下:1.在master節(jié)點(diǎn)將/h3cu下的JDK包解壓到/usr/local/src,將執(zhí)行命令復(fù)制粘貼至提交結(jié)果文檔。2.設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效;將環(huán)境變量配置內(nèi)容復(fù)制粘貼至提交結(jié)果文檔。3.從master節(jié)點(diǎn)復(fù)制JDK環(huán)境變量文件.bash_profile到slave1、slave2節(jié)點(diǎn),命令和結(jié)果復(fù)制粘貼至提交結(jié)果文檔。4.配置SSH密鑰登錄,實(shí)現(xiàn)從master節(jié)點(diǎn)登錄到slave1節(jié)點(diǎn),配置完成后,使用SSH免密登陸slave1節(jié)點(diǎn)的命令和結(jié)果復(fù)制粘貼至提交結(jié)果文檔。5.Zookeeper配置完畢后,啟動Zookeeper,在slave2節(jié)點(diǎn)啟動Zookeeper,查看Zookeeper狀態(tài),將命令和結(jié)果復(fù)制粘貼至提交結(jié)果文檔。6.在Zookeeper、HadoopHA配置完畢后,在master節(jié)點(diǎn)啟動(同時啟動datanode節(jié)點(diǎn))并查看進(jìn)程狀態(tài),將命令和結(jié)果復(fù)制粘貼至提交結(jié)果文檔。7.HadoopHA配置完畢后,在slave1節(jié)點(diǎn)查看進(jìn)程(slave1節(jié)點(diǎn)作為namenodestandby節(jié)點(diǎn)),將命令及結(jié)果復(fù)制粘貼至提交結(jié)果文檔。二、Sqoop部署說明:master節(jié)點(diǎn)MySQL數(shù)據(jù)庫用戶名/密碼:root/Password123$1.解壓/h3cu路徑下的Sqoop安裝包到“/usr/local/src”路徑下,并使用相關(guān)命令,修改解壓后文件夾名為sqoop,進(jìn)入sqoop文件夾,查看文件夾內(nèi)容,并將查看命令及結(jié)果復(fù)制粘貼至提交結(jié)果文檔;2.修改只對當(dāng)前root生效的環(huán)境變量,將環(huán)境變量配置內(nèi)容復(fù)制粘貼至提交結(jié)果文檔;3.修改并配置sqoop-env.sh文件,編輯配置文件命令及配置文件內(nèi)容,將配置文件內(nèi)容復(fù)制粘貼至提交結(jié)果文檔;4.測試Sqoop連接MySQL數(shù)據(jù)庫是否成功。使用sqoop命令連接MySQL數(shù)據(jù)庫,查詢MySQL中所有數(shù)據(jù)庫名稱,將命令和結(jié)果復(fù)制粘貼至提交結(jié)果文檔。任務(wù)二數(shù)據(jù)采集(20分)1.網(wǎng)站解析,利用chrome查看網(wǎng)頁源碼,分析餐飲網(wǎng)站網(wǎng)頁結(jié)構(gòu)。打開餐飲網(wǎng)站,在網(wǎng)頁中右鍵點(diǎn)擊檢查,或者F12快捷鍵,查看元素頁面;檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。2.從餐飲網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Java或Python語言編寫并完善爬蟲代碼,爬取指定數(shù)據(jù)項(xiàng),并將代碼復(fù)制粘貼至提交結(jié)果文檔。具體步驟如下:創(chuàng)建爬蟲項(xiàng)目;構(gòu)建爬蟲請求;按要求定義相關(guān)字段;獲取有效數(shù)據(jù);將爬取到的數(shù)據(jù)保存到指定位置。至此已從餐飲網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將爬取結(jié)果進(jìn)一步進(jìn)行相關(guān)數(shù)據(jù)操作。詳細(xì)數(shù)據(jù)描述:已創(chuàng)建scrapy項(xiàng)目CateringScrapy(路徑:C:\catering_crawl)。本任務(wù)要求從餐飲網(wǎng)站(網(wǎng)站地址在競賽平臺任務(wù)二中給出)中抓取數(shù)據(jù),提取有效數(shù)據(jù)項(xiàng)包括實(shí)現(xiàn)所屬年月、商家名稱、主營類型、特色菜、累計(jì)評論數(shù)、累計(jì)銷售人次、店鋪評分、本月銷量、本月銷售額、城市、商家地址、電話字段。每條信息請以單獨(dú)一行保存,信息存儲格式為key:value。將相關(guān)內(nèi)容復(fù)制并粘貼至提交結(jié)果文檔。任務(wù)三數(shù)據(jù)清洗與分析(25分)現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,為保障商戶隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在不違反系統(tǒng)規(guī)則條件下,對涉及客戶安全或商業(yè)敏感的真實(shí)數(shù)據(jù)進(jìn)行改造并提供測試使用,如身份證號、手機(jī)號等個人敏感信息都需要進(jìn)行數(shù)據(jù)脫敏。本任務(wù)已將脫敏后的數(shù)據(jù)存放于/h3cu。工程所需配置文件pom.xml存放于“C:\任務(wù)三程序配置文件”。數(shù)據(jù)清洗步驟一餐飲行業(yè)中銷量是對經(jīng)營狀況最直觀的體現(xiàn),商家的成本會隨著銷量的上升而上升,但一些隱性成本會有所下降,例如人工成本、基礎(chǔ)物料成本,所以在利潤增加的狀況下,成本比例將會下降。增加利潤、降低成本是商家的普遍追求,同時銷量能夠反饋經(jīng)營策略的有效性、商家在當(dāng)前形勢下的競爭力。因此密切關(guān)注訂單銷量能夠使商家對當(dāng)前經(jīng)營狀況明確定位,在銷量下滑時及時分析原因調(diào)整經(jīng)營策略,在銷量上升時加強(qiáng)優(yōu)勢傾斜,乘勝追擊。請根據(jù)任務(wù)要求實(shí)現(xiàn)對給定源數(shù)據(jù)中銷售數(shù)據(jù)進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,將相關(guān)內(nèi)容復(fù)制并粘貼至提交結(jié)果文檔。詳細(xì)描述:數(shù)據(jù)源文件存放于平臺/h3cu/data.csv。請編寫spark程序,按照如下要求實(shí)現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果輸出至hdfs文件系統(tǒng)中/foodsparktask1,將結(jié)果復(fù)制并粘貼至提交結(jié)果文檔。解析數(shù)據(jù)源文件剔除“本月銷量”為空值或0,且“本月銷售額”不為空值或0的記錄剔除字符串首尾的雙引號程序打包并在spark平臺上運(yùn)行,結(jié)果輸出至hdfs文件系統(tǒng)中/foodsparktask1步驟二店鋪評分是綜合計(jì)算商戶名下的用戶評分得到商戶基礎(chǔ)評分。來自不同渠道、不同業(yè)務(wù)、不同時間的用戶評分,可能享有各不相同的計(jì)算權(quán)重。用戶的滿意度是影響商家綜合評分的重要因素,用戶滿意才會給出較高的評價(jià)分?jǐn)?shù),為了提高用戶的滿意度,可以從提高店鋪餐品服務(wù)和及時解決用戶問題兩方面入手。同時商家可以安排專人負(fù)責(zé)店鋪的評價(jià)管理,發(fā)現(xiàn)用戶給了較低分?jǐn)?shù),及時溝通采取方法進(jìn)行補(bǔ)救,從根本上提高店鋪評分。同時,積極引導(dǎo)客戶留下滿意的評價(jià),提升店鋪的好評率。請根據(jù)任務(wù)要求實(shí)現(xiàn)對評分?jǐn)?shù)據(jù)進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,并保存結(jié)果至提交結(jié)果文檔。詳細(xì)描述:請編寫spark程序,按照如下要求實(shí)現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果輸出至hdfs文件系統(tǒng)中/foodsparktask2,將結(jié)果復(fù)制并粘貼至提交結(jié)果文檔。解析數(shù)據(jù)源文件剔除“店鋪評分”為非數(shù)字及空值的記錄程序打包并在spark平臺上運(yùn)行,結(jié)果輸出至hdfs文件系統(tǒng)中/foodsparktask2數(shù)據(jù)分析步驟一店鋪評分是綜合計(jì)算商戶名下的用戶評分得到商戶基礎(chǔ)評分。來自不同渠道、不同業(yè)務(wù)、不同時間的用戶評分,可能享有各不相同的計(jì)算權(quán)重。用戶的滿意度是影響商家綜合評分的重要因素,用戶滿意才會給出較高的評價(jià)分?jǐn)?shù),為了提高用戶的滿意度,可以從提高店鋪餐品服務(wù)和及時解決用戶問題兩方面入手。同時商家可以安排專人負(fù)責(zé)店鋪的評價(jià)管理,發(fā)現(xiàn)用戶給了較低分?jǐn)?shù),及時溝通采取方法進(jìn)行補(bǔ)救,從根本上提高店鋪評分。同時,積極引導(dǎo)客戶留下滿意的評價(jià),提升店鋪的好評率。請根據(jù)相關(guān)數(shù)據(jù)集完成分析任務(wù),并保存結(jié)果至提交結(jié)果文檔。詳細(xì)描述:請根據(jù)數(shù)據(jù)清洗結(jié)果數(shù)據(jù)集,使用HIVE自定義函數(shù)及HQL語句,按要求匯總數(shù)據(jù)集中的本月銷量,銷售人次,本月銷售額,并將數(shù)據(jù)存入表table1中。將相關(guān)內(nèi)容復(fù)制并粘貼至提交結(jié)果文檔。步驟二餐飲商鋪密度反映了地區(qū)美食行業(yè)的繁榮程度。特定區(qū)域內(nèi)商鋪數(shù)量多,一方面說明該區(qū)域?qū)Σ惋嬒M(fèi)需求量大,可能是車站等交通樞紐,也可能是公司密集的高新區(qū)域,另一方面商鋪數(shù)量眾多既是機(jī)遇、也是挑戰(zhàn),需求帶動的高商鋪密度很可能已經(jīng)造成商戶飽和,新興店鋪難以生存。餐飲行業(yè)有著自己的行業(yè)特色和要求,不同地段的特征對餐飲業(yè)的要求不同。請根據(jù)相關(guān)數(shù)據(jù)集完成任務(wù)具體要求,并保存結(jié)果至提交結(jié)果文檔。詳細(xì)描述:請根據(jù)分析步驟一的結(jié)果數(shù)據(jù)集,使用HIVE自定義函數(shù)及HQL語句,匯總數(shù)據(jù)集中不同城市中各區(qū)的店鋪數(shù)量,并將數(shù)據(jù)存入表table2中。將命令及結(jié)果復(fù)制并粘貼至提交結(jié)果文檔。任務(wù)四數(shù)據(jù)可視化(20分)請根據(jù)Mysql數(shù)據(jù)庫中相關(guān)數(shù)據(jù)表格,使用flask框架,結(jié)合echarts完成下列任務(wù)。數(shù)據(jù)庫賬號:restaurant密碼:restaurant代碼路徑:C:\restaurant_visual注意:代碼中臨時循環(huán)變量請使用r表示。1.城市餐飲消費(fèi)情況一定程度上反映了該地區(qū)的當(dāng)下的經(jīng)濟(jì)狀況、就業(yè)形勢和發(fā)展?jié)摿Ατ诓惋嬓袠I(yè)來說,主動貼合客戶需求、迎合地方口味,因地制宜地定位店鋪經(jīng)營方向及消費(fèi)層次至關(guān)重要。按任務(wù)要求,輸出相關(guān)圖例說明不同城市的餐飲銷售情況。詳細(xì)描述:MySQL數(shù)據(jù)庫中的數(shù)據(jù)集city_sale_apri,city_sale_may分別為各城市4月份、5月份的餐飲銷量,包含id、城市、區(qū)、銷量4個字段,請根據(jù)相關(guān)數(shù)據(jù)各城市餐飲銷售表現(xiàn),并以雙柱圖例呈現(xiàn)。將結(jié)果截圖并粘貼至提交結(jié)果文檔。2.店鋪評分是綜合計(jì)算商戶名下的用戶評分得到商戶基礎(chǔ)評分,是顧客對商家出品及服務(wù)態(tài)度等因素綜合滿意度的體現(xiàn),在用戶進(jìn)行消費(fèi)選擇時起到非常重要的作用。按任務(wù)要求,輸出相關(guān)圖例,說明不同評分的商鋪占比情況。詳細(xì)描述:MySQL數(shù)據(jù)庫中的數(shù)據(jù)集restaurant_score_num包含序號id、店鋪評分、店鋪數(shù)量3個字段,請根據(jù)相關(guān)數(shù)據(jù)展現(xiàn)不同評分區(qū)間店鋪的數(shù)量對比,并以餅圖例呈現(xiàn)。將結(jié)果截圖并粘貼至提交結(jié)果文檔。3.餐飲商鋪數(shù)量反映了地區(qū)美食行業(yè)的繁榮程度。區(qū)域內(nèi)商鋪數(shù)量多,說明該區(qū)域?qū)Σ惋嬒M(fèi)需求量大,但商鋪數(shù)量眾多既是機(jī)遇、也是挑戰(zhàn),需求帶動的高商鋪密度很可能已經(jīng)造成商戶飽和,新興店鋪難以生存。按任務(wù)要求,輸出相關(guān)圖例對比說明不同地區(qū)的商鋪存在數(shù)量。詳細(xì)描述:MySQL數(shù)據(jù)庫中的數(shù)據(jù)集city_restaurant_num包含序號id、城市、店鋪數(shù)量3個字段,請根據(jù)相關(guān)數(shù)據(jù)展現(xiàn)不同地區(qū)的店鋪數(shù)量對比,并以柱狀圖例呈現(xiàn)。將結(jié)果截圖并粘貼至提交結(jié)果文檔。4.餐飲行業(yè)需要對地域、受眾人群、流行趨勢進(jìn)行總體分析,通過不同類型店鋪的地理分布、店鋪經(jīng)營主類與受眾人群相契合、把握美食流行趨勢對顧客的消費(fèi)數(shù)據(jù)做出分析,設(shè)定未來市場經(jīng)營策略,以便獲得更好的發(fā)展。按任務(wù)要求,輸出相關(guān)圖例說明不同主營類型的餐飲銷售情況。詳細(xì)描述:MySQL數(shù)據(jù)庫中的數(shù)據(jù)集restaurant_type_count為各城市中包含的不同餐飲主營類型的店鋪數(shù)量,包含序號城市、主營類型、數(shù)量3個字段,請根據(jù)相關(guān)數(shù)據(jù)展現(xiàn)各種類型餐飲占比情況,并以雷達(dá)圖例呈現(xiàn)。將結(jié)果截圖并粘貼至提交結(jié)果文檔。任務(wù)五綜合分析(15分)通過以上任務(wù)的完成,至此我們已經(jīng)清晰地了解了餐飲行業(yè)的業(yè)務(wù)背景,得到了相關(guān)數(shù)據(jù)?,F(xiàn)在需要在綜合理解餐飲行業(yè)數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論