河北省高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽-樣題_第1頁
河北省高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽-樣題_第2頁
河北省高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽-樣題_第3頁
河北省高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽-樣題_第4頁
河北省高等職業(yè)院校大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽-樣題_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

河北省高等職業(yè)院校

大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽

零售大數(shù)據(jù)分析(樣題)

務(wù)

參賽隊編號___________

第一部分競賽須知

一、競賽注意事項

1、參賽選手應(yīng)嚴(yán)格遵守賽場規(guī)章、操作流程和工藝準(zhǔn)則,保證人身及設(shè)備安全,

接受裁判員的監(jiān)督和警示,文明競賽;

2、競賽所需的硬件、軟件和輔助工具由組委會統(tǒng)一布置,選手不得私自攜帶任

何電子設(shè)備或其他資料、用品等進入賽場;

3、比賽完成后,軟件和賽題請保留在座位上,禁止將比賽所用的所有物品(包

括試卷和草紙)帶離賽場;

4、裁判以各參賽隊提交的競賽結(jié)果文檔為主要評分依據(jù)。所有提交的文檔必須

按照賽題所規(guī)定的命名規(guī)則命名,不得以任何形式體現(xiàn)參賽院校、姓名、參

賽證編號、賽位號等信息,否則取消競賽成績;

5、本次比賽采用統(tǒng)一網(wǎng)絡(luò)環(huán)境比賽,請不要隨意更改客戶端和競賽環(huán)境的網(wǎng)絡(luò)

地址信息,對于更改客戶端信息造成的問題,由參賽選手自行承擔(dān)比賽損失;

6、請不要惡意破壞競賽環(huán)境(如修改競賽環(huán)境密碼、刪除文件),對于惡意

破壞競賽環(huán)境的參賽者,組委會根據(jù)其行為予以處罰直至取消比賽資格;

7、比賽中出現(xiàn)各種問題及時向現(xiàn)場裁判舉手示意,不要影響其他參賽隊比

賽;

二、競賽選手須知

1、任務(wù)書如出現(xiàn)缺頁、字跡不清等問題,請及時向現(xiàn)場裁判示意,并由現(xiàn)場裁

判進行更換;

2、賽項競賽時長4小時;

3、參賽選手應(yīng)嚴(yán)格遵守賽場規(guī)章、操作規(guī)程和工藝準(zhǔn)則,保證人身及設(shè)備安全,

接受裁判員的監(jiān)督和警示,文明競賽;

4、參賽選手在收到開賽信號前不得啟動操作。在競賽過程中,確因計算機軟件

或硬件故障,致使操作無法繼續(xù)的,經(jīng)項目裁判長確認(rèn),予以啟用備用計算

機;

5、參賽選手需及時保存工作記錄。對于參賽選手自身原因造成的數(shù)據(jù)丟失,

由參賽選手自行負(fù)責(zé);

6、在比賽中如遇非人為因素造成的設(shè)備故障,經(jīng)裁判確認(rèn)后,可向裁判長申請

補足排除故障的時間;

7、競賽時間結(jié)束,選手應(yīng)全體起立,停止操作。將資料和工具整齊擺放在操作

平臺上,經(jīng)工作人員清點后可離開賽場,離開賽場時不得帶走任何資料;

8、競賽操作結(jié)束后,參賽隊要確認(rèn)成功提交競賽要求的文件,裁判員在比賽結(jié)

果的規(guī)定位置做標(biāo)記,并與參賽隊一起簽字確認(rèn);

9、符合下列情形之一的參賽選手,經(jīng)裁判組裁定后中止其競賽:

1)不服從裁判員/監(jiān)考員管理、擾亂賽場秩序、干擾其他參賽選手比賽,裁

判員應(yīng)提出警告,二次警告后無效,或情節(jié)特別嚴(yán)重,造成競賽中止的,經(jīng)裁判

長確認(rèn),中止比賽,并取消競賽資格和競賽成績;

2)競賽過程中,由于選手人為造成計算機、儀器設(shè)備及工具等嚴(yán)重?fù)p壞,

負(fù)責(zé)賠償其損失,并由裁判組裁定其競賽結(jié)束與否、是否保留競賽資格、是否累

計其有效競賽成績;

3)競賽過程中,產(chǎn)生重大安全事故或有產(chǎn)生重大安全事故隱患,經(jīng)裁判員

提示沒有采取措施的,裁判員可暫停其競賽,由裁判組裁定其競賽結(jié)束,保留競

賽資格和有效競賽成績;

第二部分競賽環(huán)境及注意事項

一、競賽環(huán)境

每組競賽選手使用三臺計算機和一套大數(shù)據(jù)競賽環(huán)境,競賽選手依照本競

賽項目的任務(wù)內(nèi)容,完成任務(wù)書要求的相關(guān)操作與開發(fā)任務(wù)。

二、競賽結(jié)果文件提交

1、所有競賽結(jié)果提交文件夾存放在計算機桌面“競賽文檔”文件夾下,競賽任

務(wù)結(jié)果截圖和文件存放在答案模板下。

2、請務(wù)必按照任務(wù)書說明文檔題目要求內(nèi)容截取答案/結(jié)果(可分段截取),并

按順序粘貼至答案模板中;在計算機桌面創(chuàng)建“競賽文檔”文件夾,并在

該目錄中創(chuàng)建word文件,用于存放答案截圖,文件格式為:“XXX-02.docx

(XXX代表賽位號、02代表任務(wù)二)”。答案文檔需學(xué)生自行創(chuàng)建并按照習(xí)

題順序自行排版。

3、競賽結(jié)果需提交Word文件。

4、將任務(wù)成果Word文件壓縮為一個XXX.zip(XXX代表賽位號)文件,并上傳

至競賽平臺。

三、注意事項

1、檢查計算機設(shè)備、大數(shù)據(jù)競賽環(huán)境是否能正常使用。檢查競賽所需的各項

設(shè)備、軟件和競賽材料等;

2、競賽過程中請嚴(yán)格按照競賽任務(wù)中的描述,對大數(shù)據(jù)競賽環(huán)境進行安裝配

置、操作使用,對于競賽前大數(shù)據(jù)競賽環(huán)境內(nèi)的配置,與競賽任務(wù)有關(guān),

請勿修改、刪除;

3、競賽任務(wù)完成后,不要關(guān)閉任何設(shè)備,不要對計算機設(shè)備或大數(shù)據(jù)競賽環(huán)

境進行加密;

第三部分競賽任務(wù)

背景描述

當(dāng)今社會,中國零售業(yè)所面臨的最大挑戰(zhàn)就是顧客和市場需求復(fù)雜多變,比

起人的經(jīng)驗主義來做決策,只有實時的數(shù)據(jù)分析和反饋才能適應(yīng)更快的變化。零

售的本質(zhì)離不開人、貨、場這三個核心,圍繞這三個核心提升運營的效率,也就

是線上線下的成功融合。

為了對零售業(yè)中經(jīng)營模式、管理風(fēng)格、重視程度、資金投入等做出正確的決

策,對其進行數(shù)據(jù)分析必不可少。現(xiàn)選用在業(yè)界廣泛使用的“Hadoop”工具,

來對該零售行業(yè)數(shù)據(jù)進行分析處理。并綜合利用MySQL、MapReduce、Hive、

Sqoop、Spark、Echarts等技術(shù)和Java、Python語言對數(shù)據(jù)進行提取、清洗、整

理、計算、表達、分析和可視化處理。

作為分析該零售行業(yè)的主要技術(shù)人員,你們是這次技術(shù)方案展示的核心成

員,請按照下面步驟完成本次技術(shù)展示任務(wù),并提交技術(shù)報告,祝你們成功。

任務(wù)一:Hadoop相關(guān)組件安裝部署(15分)

一、HadoopHA部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)

境,具體部署要求如下:

1、解壓安裝JDK到路徑/usr/local/src,并配置環(huán)境變量;截取環(huán)境變量配置文

件截圖保存。

2、創(chuàng)建ssh密鑰對,實現(xiàn)主節(jié)點與從節(jié)點的無密碼登錄;截取主節(jié)點登錄其

中一個從節(jié)點的結(jié)果。

3、將Zookeeper組件安裝到/usr/local/zookeeper路徑,zookeeper的數(shù)據(jù)目錄

和日志目錄分別為/usr/local/zookeeper/data和/usr/local/zookeeper/log。

4、啟動節(jié)點action-1和action-2的Hadoop的NameNode和ResourceManager。

二、Hive組件部署

本環(huán)節(jié)需要完成MySQL服務(wù)的啟動和Hive的安裝、配置和驗證。已安裝

Hadoop及需要配置前置環(huán)境。具體部署要求如下:

1、啟動MySQL數(shù)據(jù)庫,創(chuàng)建MySQL數(shù)據(jù)庫用戶,用戶名/密碼:root/root123。

把啟動命令和結(jié)果截圖。

2、進入MySQL控制臺,創(chuàng)建hive數(shù)據(jù)庫,并創(chuàng)建hive用戶可訪問該庫的

所有表的所有權(quán)限,hive用戶的密碼為hive,把執(zhí)行語句和結(jié)果截圖。

3、解壓安裝Hive到路徑/usr/local/hive,把執(zhí)行命令和結(jié)果截圖。

4、修改/etc/profile文件,配置Hive環(huán)境變量,并使之生效,將環(huán)境變量配置

內(nèi)容截圖。

5、把MySQL驅(qū)動mysql-connector-java-5.1.26-bin.jar復(fù)制到hive安裝路徑

的lib目錄下,把執(zhí)行命令和結(jié)果截圖。

6、修改hive-site.xml文件,以使用上面在MySQL里創(chuàng)建的hive數(shù)據(jù)庫保存

hive元數(shù)據(jù),把修改后的文件內(nèi)容截圖。

7、初始化Hive元數(shù)據(jù),把執(zhí)行命令和結(jié)果截圖。

8、啟動hive,并驗證Hive是否安裝成功,將運行結(jié)果截圖。

三、Spark組件部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置

環(huán)境,安裝spark具體部署要求如下:

1、下載、安裝并配置spark。

2、配置spark環(huán)境變量。

3、啟動sparkshell,驗證安裝完的spark是否可用。

四、Sqoop組件部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置

環(huán)境,具體部署要求如下:

1、下載、安裝并配置Sqoop,將其安裝到/usr/local/sqoop路徑下,安裝完成

后進行截圖保存。

2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效。

3、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,截圖并保存結(jié)果。

任務(wù)二:數(shù)據(jù)采集(20分)

1、分析網(wǎng)站,利用chrome查看網(wǎng)頁源碼,分析零售網(wǎng)站網(wǎng)頁結(jié)構(gòu)。打開

零售網(wǎng)站(網(wǎng)址見附錄或見資料文件夾),在網(wǎng)頁中檢查網(wǎng)站,瀏覽網(wǎng)站源碼查

看所需內(nèi)容。

2、從零售網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Python語言編寫并編寫爬蟲

代碼,爬取指定數(shù)據(jù)項,有效數(shù)據(jù)項包括但不限于:卡號、商品ID、品牌、產(chǎn)

品名稱、最小可用單位、SRP、毛重、凈重、是否環(huán)保包裝、是否低脂、子產(chǎn)品、

產(chǎn)品類別、產(chǎn)品部、產(chǎn)品族等字段等多項字段。并將代碼文件與代碼截圖保存。

具體步驟如下:

1)創(chuàng)建爬蟲項目

2)構(gòu)建爬蟲請求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將爬取到的數(shù)據(jù)保存到指定位置

3、至此已從零售網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將爬取結(jié)果進一步進行

相關(guān)數(shù)據(jù)操作,請將操作命令截圖并保存。

任務(wù)三:數(shù)據(jù)清洗與分析(25分)

現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,在不涉及客戶安全數(shù)據(jù)或者一些

商業(yè)性敏感數(shù)據(jù)的情況、不違反系統(tǒng)規(guī)則條件下,對真實數(shù)據(jù)進行改造并提供測

試使用。

以product.csv文件為例,該文件中包含了有關(guān)產(chǎn)品信息的數(shù)據(jù),但原始數(shù)

據(jù)經(jīng)過多次采集匯總,數(shù)據(jù)集中不可避免地存在一些數(shù)據(jù)缺失、冗余、重復(fù)等現(xiàn)

象。你的小組需要通過編寫代碼或腳本完成對文件product.csv中產(chǎn)品信息數(shù)據(jù)

的清洗和整理,并完成數(shù)據(jù)計算和分析任務(wù)。

1、缺失值處理

缺失值是一種常見的臟數(shù)據(jù)情況,現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完

全的。對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補。當(dāng)缺失

值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填補則將

產(chǎn)生結(jié)果的人為干預(yù)。請使用Java語言編寫MapReduce程序刪除product.csv文

件中缺失值(空字符串)大于n(3)個字段的數(shù)據(jù)條目剔除原始數(shù)據(jù)集并將其

輸出結(jié)果文件重命名為clean_data1.csv,并在控制臺輸出剔除的條目數(shù)量,截

圖并保存結(jié)果。

2、重復(fù)數(shù)據(jù)處理

原始數(shù)據(jù)集來自于多個平臺及網(wǎng)站,且為多次采集匯總,因此數(shù)據(jù)集中的某

些字段有可能會出現(xiàn)一些重復(fù)或非法格式,例如多次采集過程中產(chǎn)生的重復(fù)信

息,或來自于某網(wǎng)站的不合規(guī)數(shù)據(jù)。這些信息的存在既無實際的業(yè)務(wù)分析意義,

甚至還會影響最終分析結(jié)果。請使用Spark程序刪除clean_data1.csv文件中的

非法數(shù)據(jù)和重復(fù)數(shù)據(jù),將其輸出至HDFS文件系統(tǒng)中,截圖并保存結(jié)果。

3、導(dǎo)入數(shù)據(jù)

啟動Hive。在Hive中創(chuàng)建數(shù)據(jù)庫db1_hive,在該數(shù)據(jù)庫上創(chuàng)建表sales、表

retail、表product、表custom。其表結(jié)構(gòu)與sales.csv、retail.csv、product.csv、

custom.csv相同,編寫命令行查看各個表結(jié)構(gòu),將運行結(jié)果截圖并保存。在Hive

端使用命令將文件sales.csv、retail.csv、product.csv、custom.csv對應(yīng)導(dǎo)入到數(shù)據(jù)

庫db1_hive的sales表、retail表、product表、custom表中。分別驗證查看數(shù)據(jù)

庫表總記錄數(shù)量,將運行結(jié)果截圖并保存。

4、工作類型分析

在銷售行業(yè)中,有這樣一句話——“顧客就是上帝”。對在零售網(wǎng)站中注冊

的客戶進行有效的分析,顯得尤為重要。在客戶數(shù)據(jù)集中,記錄了客戶的賬號、

姓名、卡片等級、地域、工作類型、孩子數(shù)量等情況。請使用Spark程序根據(jù)

custom.csv文件中的數(shù)據(jù),分析零售網(wǎng)站中客戶的工作類型所對應(yīng)的客戶數(shù)量,

將結(jié)果輸出至HDFS文件系統(tǒng)中,將運行結(jié)果截圖并保存。

5、客戶等級分析

在零售網(wǎng)站中,客戶的等級代表了客戶的購買能力,而客戶的購買能力與諸

多因素有關(guān),例如年收入越多,購買能力越強;家中有小孩的客戶,需要消耗更

多的商品等等。請使用Spark程序根據(jù)custom.csv文件中的數(shù)據(jù),查詢零售網(wǎng)站

中年收入在$30K-$50K之間、在家孩子數(shù)量大于0的客人的信息,將結(jié)果輸出至

HDFS文件系統(tǒng)中,將運行結(jié)果截圖并保存。

6、媒體推廣形式分析

促銷是通過向市場和消費者傳播信息,以促進銷售、提高業(yè)績。零售商品網(wǎng)

站也會在不同時期,不同區(qū)域,通過不同的媒介,采用不同的促銷方式進行促銷

活動。請使用Spark程序根據(jù)custom.csv文件中的數(shù)據(jù),統(tǒng)計零售網(wǎng)站中不同媒

體推廣形式對應(yīng)的總成本和總天數(shù)的情況,將結(jié)果輸出至HDFS文件系統(tǒng)中,將

運行結(jié)果截圖并保存。

使用Hive系統(tǒng)中的sales表中的數(shù)據(jù)作為數(shù)據(jù)源,使用Hive命令,統(tǒng)計每種

媒體推廣形式的總成本、總天數(shù),同時將數(shù)據(jù)寫入數(shù)據(jù)表中,將命令與執(zhí)行結(jié)果

截圖并保存。

7、客戶家庭信息分析

若要根據(jù)客戶的特定信息了解客戶在網(wǎng)站的消費情況,需要對客戶數(shù)據(jù)及零

售記錄進行分析。請以custom表、retail表、product表中的數(shù)據(jù)作為數(shù)據(jù)源

(custom表中的id列對應(yīng)product表中的Product_ID列;custom表中的id列對

應(yīng)retail表中的Customer),使用Hive命令,查詢零售網(wǎng)站中卡號、卡片等級、

年收入、在家孩子數(shù)量、有車數(shù)量、產(chǎn)品名稱、購買產(chǎn)品數(shù)量、總金額等信息,

同時將數(shù)據(jù)寫入數(shù)據(jù)表中,將語句及輸出結(jié)果截圖并保存。

8、客戶類型分析結(jié)果遷移

在Hive中創(chuàng)建數(shù)據(jù)庫db2_hive,并在該庫中創(chuàng)建表job_type_hive,包含兩

個字段:工作類型及客戶數(shù)量,將任務(wù)三中客戶類型分析結(jié)果遷移到

job_type_hive表。在MySQL中創(chuàng)建數(shù)據(jù)庫DB,并在該庫中創(chuàng)建表job_type_sql,

用于存儲db2_hive中的job_type_hive表的數(shù)據(jù),二者表結(jié)構(gòu)相同。使用sqoop

命令將Hive中的db2_hive庫的job_type_hive表中數(shù)據(jù)導(dǎo)入到MySQL的DB庫中

的job_type_sql表,將該命令截圖并保存。查看job_type_sql表的數(shù)據(jù),將該命

令和結(jié)果截圖并保存。

9、媒體推廣形式分析結(jié)果遷移

在Hive中的數(shù)據(jù)庫db2_hive創(chuàng)建表media_type_hive,包含兩個字段:媒體

推廣類型及促銷數(shù)量。將任務(wù)三中媒體推廣形式分析結(jié)果遷移到

media_type_hive表。在MySQL中創(chuàng)建數(shù)據(jù)庫DB,并在該庫中創(chuàng)建

media_type_hive表,用于存儲db2_hive中的media_type_hive表的數(shù)據(jù),二者表

結(jié)構(gòu)相同。使用sqoop命令將Hive中的db2_hive庫的media_type_hive表中數(shù)據(jù)

導(dǎo)入到MySQL的DB庫中的media_type_sql表。將該命令截圖并保存。查看

media_type_sql表的數(shù)據(jù),查看命令和結(jié)果截圖并保存。

10、在家孩子數(shù)量與消費分析結(jié)果遷移

在Hive中的數(shù)據(jù)庫db2_hive創(chuàng)建表child_num_hive,包含兩個字段:在家

孩子的數(shù)量和購買產(chǎn)品的總金額。將任務(wù)三中客戶家庭信息中的在家孩子的數(shù)量

和購買產(chǎn)品的總金額的分析結(jié)果插入到child_num_hive表。在MySQL中創(chuàng)建數(shù)

據(jù)庫DB,并在該庫中創(chuàng)建child_num_sql表,用于存儲db2_hive中的

child_num_hive表的數(shù)據(jù),二者表結(jié)構(gòu)相同。使用sqoop命令將Hive中的db2_hive

庫的child_num_hive表中數(shù)據(jù)導(dǎo)入到MySQL的DB庫中的child_num_s

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論