版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
河北省高等職業(yè)院校
大數(shù)據(jù)技術(shù)與應(yīng)用技能大賽
零售大數(shù)據(jù)分析(樣題)
任
務(wù)
書
參賽隊編號___________
第一部分競賽須知
一、競賽注意事項
1、參賽選手應(yīng)嚴(yán)格遵守賽場規(guī)章、操作流程和工藝準(zhǔn)則,保證人身及設(shè)備安全,
接受裁判員的監(jiān)督和警示,文明競賽;
2、競賽所需的硬件、軟件和輔助工具由組委會統(tǒng)一布置,選手不得私自攜帶任
何電子設(shè)備或其他資料、用品等進入賽場;
3、比賽完成后,軟件和賽題請保留在座位上,禁止將比賽所用的所有物品(包
括試卷和草紙)帶離賽場;
4、裁判以各參賽隊提交的競賽結(jié)果文檔為主要評分依據(jù)。所有提交的文檔必須
按照賽題所規(guī)定的命名規(guī)則命名,不得以任何形式體現(xiàn)參賽院校、姓名、參
賽證編號、賽位號等信息,否則取消競賽成績;
5、本次比賽采用統(tǒng)一網(wǎng)絡(luò)環(huán)境比賽,請不要隨意更改客戶端和競賽環(huán)境的網(wǎng)絡(luò)
地址信息,對于更改客戶端信息造成的問題,由參賽選手自行承擔(dān)比賽損失;
6、請不要惡意破壞競賽環(huán)境(如修改競賽環(huán)境密碼、刪除文件),對于惡意
破壞競賽環(huán)境的參賽者,組委會根據(jù)其行為予以處罰直至取消比賽資格;
7、比賽中出現(xiàn)各種問題及時向現(xiàn)場裁判舉手示意,不要影響其他參賽隊比
賽;
二、競賽選手須知
1、任務(wù)書如出現(xiàn)缺頁、字跡不清等問題,請及時向現(xiàn)場裁判示意,并由現(xiàn)場裁
判進行更換;
2、賽項競賽時長4小時;
3、參賽選手應(yīng)嚴(yán)格遵守賽場規(guī)章、操作規(guī)程和工藝準(zhǔn)則,保證人身及設(shè)備安全,
接受裁判員的監(jiān)督和警示,文明競賽;
4、參賽選手在收到開賽信號前不得啟動操作。在競賽過程中,確因計算機軟件
或硬件故障,致使操作無法繼續(xù)的,經(jīng)項目裁判長確認(rèn),予以啟用備用計算
機;
5、參賽選手需及時保存工作記錄。對于參賽選手自身原因造成的數(shù)據(jù)丟失,
由參賽選手自行負(fù)責(zé);
6、在比賽中如遇非人為因素造成的設(shè)備故障,經(jīng)裁判確認(rèn)后,可向裁判長申請
補足排除故障的時間;
7、競賽時間結(jié)束,選手應(yīng)全體起立,停止操作。將資料和工具整齊擺放在操作
平臺上,經(jīng)工作人員清點后可離開賽場,離開賽場時不得帶走任何資料;
8、競賽操作結(jié)束后,參賽隊要確認(rèn)成功提交競賽要求的文件,裁判員在比賽結(jié)
果的規(guī)定位置做標(biāo)記,并與參賽隊一起簽字確認(rèn);
9、符合下列情形之一的參賽選手,經(jīng)裁判組裁定后中止其競賽:
1)不服從裁判員/監(jiān)考員管理、擾亂賽場秩序、干擾其他參賽選手比賽,裁
判員應(yīng)提出警告,二次警告后無效,或情節(jié)特別嚴(yán)重,造成競賽中止的,經(jīng)裁判
長確認(rèn),中止比賽,并取消競賽資格和競賽成績;
2)競賽過程中,由于選手人為造成計算機、儀器設(shè)備及工具等嚴(yán)重?fù)p壞,
負(fù)責(zé)賠償其損失,并由裁判組裁定其競賽結(jié)束與否、是否保留競賽資格、是否累
計其有效競賽成績;
3)競賽過程中,產(chǎn)生重大安全事故或有產(chǎn)生重大安全事故隱患,經(jīng)裁判員
提示沒有采取措施的,裁判員可暫停其競賽,由裁判組裁定其競賽結(jié)束,保留競
賽資格和有效競賽成績;
第二部分競賽環(huán)境及注意事項
一、競賽環(huán)境
每組競賽選手使用三臺計算機和一套大數(shù)據(jù)競賽環(huán)境,競賽選手依照本競
賽項目的任務(wù)內(nèi)容,完成任務(wù)書要求的相關(guān)操作與開發(fā)任務(wù)。
二、競賽結(jié)果文件提交
1、所有競賽結(jié)果提交文件夾存放在計算機桌面“競賽文檔”文件夾下,競賽任
務(wù)結(jié)果截圖和文件存放在答案模板下。
2、請務(wù)必按照任務(wù)書說明文檔題目要求內(nèi)容截取答案/結(jié)果(可分段截取),并
按順序粘貼至答案模板中;在計算機桌面創(chuàng)建“競賽文檔”文件夾,并在
該目錄中創(chuàng)建word文件,用于存放答案截圖,文件格式為:“XXX-02.docx
(XXX代表賽位號、02代表任務(wù)二)”。答案文檔需學(xué)生自行創(chuàng)建并按照習(xí)
題順序自行排版。
3、競賽結(jié)果需提交Word文件。
4、將任務(wù)成果Word文件壓縮為一個XXX.zip(XXX代表賽位號)文件,并上傳
至競賽平臺。
三、注意事項
1、檢查計算機設(shè)備、大數(shù)據(jù)競賽環(huán)境是否能正常使用。檢查競賽所需的各項
設(shè)備、軟件和競賽材料等;
2、競賽過程中請嚴(yán)格按照競賽任務(wù)中的描述,對大數(shù)據(jù)競賽環(huán)境進行安裝配
置、操作使用,對于競賽前大數(shù)據(jù)競賽環(huán)境內(nèi)的配置,與競賽任務(wù)有關(guān),
請勿修改、刪除;
3、競賽任務(wù)完成后,不要關(guān)閉任何設(shè)備,不要對計算機設(shè)備或大數(shù)據(jù)競賽環(huán)
境進行加密;
第三部分競賽任務(wù)
背景描述
當(dāng)今社會,中國零售業(yè)所面臨的最大挑戰(zhàn)就是顧客和市場需求復(fù)雜多變,比
起人的經(jīng)驗主義來做決策,只有實時的數(shù)據(jù)分析和反饋才能適應(yīng)更快的變化。零
售的本質(zhì)離不開人、貨、場這三個核心,圍繞這三個核心提升運營的效率,也就
是線上線下的成功融合。
為了對零售業(yè)中經(jīng)營模式、管理風(fēng)格、重視程度、資金投入等做出正確的決
策,對其進行數(shù)據(jù)分析必不可少。現(xiàn)選用在業(yè)界廣泛使用的“Hadoop”工具,
來對該零售行業(yè)數(shù)據(jù)進行分析處理。并綜合利用MySQL、MapReduce、Hive、
Sqoop、Spark、Echarts等技術(shù)和Java、Python語言對數(shù)據(jù)進行提取、清洗、整
理、計算、表達、分析和可視化處理。
作為分析該零售行業(yè)的主要技術(shù)人員,你們是這次技術(shù)方案展示的核心成
員,請按照下面步驟完成本次技術(shù)展示任務(wù),并提交技術(shù)報告,祝你們成功。
任務(wù)一:Hadoop相關(guān)組件安裝部署(15分)
一、HadoopHA部署
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)
境,具體部署要求如下:
1、解壓安裝JDK到路徑/usr/local/src,并配置環(huán)境變量;截取環(huán)境變量配置文
件截圖保存。
2、創(chuàng)建ssh密鑰對,實現(xiàn)主節(jié)點與從節(jié)點的無密碼登錄;截取主節(jié)點登錄其
中一個從節(jié)點的結(jié)果。
3、將Zookeeper組件安裝到/usr/local/zookeeper路徑,zookeeper的數(shù)據(jù)目錄
和日志目錄分別為/usr/local/zookeeper/data和/usr/local/zookeeper/log。
4、啟動節(jié)點action-1和action-2的Hadoop的NameNode和ResourceManager。
二、Hive組件部署
本環(huán)節(jié)需要完成MySQL服務(wù)的啟動和Hive的安裝、配置和驗證。已安裝
Hadoop及需要配置前置環(huán)境。具體部署要求如下:
1、啟動MySQL數(shù)據(jù)庫,創(chuàng)建MySQL數(shù)據(jù)庫用戶,用戶名/密碼:root/root123。
把啟動命令和結(jié)果截圖。
2、進入MySQL控制臺,創(chuàng)建hive數(shù)據(jù)庫,并創(chuàng)建hive用戶可訪問該庫的
所有表的所有權(quán)限,hive用戶的密碼為hive,把執(zhí)行語句和結(jié)果截圖。
3、解壓安裝Hive到路徑/usr/local/hive,把執(zhí)行命令和結(jié)果截圖。
4、修改/etc/profile文件,配置Hive環(huán)境變量,并使之生效,將環(huán)境變量配置
內(nèi)容截圖。
5、把MySQL驅(qū)動mysql-connector-java-5.1.26-bin.jar復(fù)制到hive安裝路徑
的lib目錄下,把執(zhí)行命令和結(jié)果截圖。
6、修改hive-site.xml文件,以使用上面在MySQL里創(chuàng)建的hive數(shù)據(jù)庫保存
hive元數(shù)據(jù),把修改后的文件內(nèi)容截圖。
7、初始化Hive元數(shù)據(jù),把執(zhí)行命令和結(jié)果截圖。
8、啟動hive,并驗證Hive是否安裝成功,將運行結(jié)果截圖。
三、Spark組件部署
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置
環(huán)境,安裝spark具體部署要求如下:
1、下載、安裝并配置spark。
2、配置spark環(huán)境變量。
3、啟動sparkshell,驗證安裝完的spark是否可用。
四、Sqoop組件部署
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置
環(huán)境,具體部署要求如下:
1、下載、安裝并配置Sqoop,將其安裝到/usr/local/sqoop路徑下,安裝完成
后進行截圖保存。
2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效。
3、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,截圖并保存結(jié)果。
任務(wù)二:數(shù)據(jù)采集(20分)
1、分析網(wǎng)站,利用chrome查看網(wǎng)頁源碼,分析零售網(wǎng)站網(wǎng)頁結(jié)構(gòu)。打開
零售網(wǎng)站(網(wǎng)址見附錄或見資料文件夾),在網(wǎng)頁中檢查網(wǎng)站,瀏覽網(wǎng)站源碼查
看所需內(nèi)容。
2、從零售網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Python語言編寫并編寫爬蟲
代碼,爬取指定數(shù)據(jù)項,有效數(shù)據(jù)項包括但不限于:卡號、商品ID、品牌、產(chǎn)
品名稱、最小可用單位、SRP、毛重、凈重、是否環(huán)保包裝、是否低脂、子產(chǎn)品、
產(chǎn)品類別、產(chǎn)品部、產(chǎn)品族等字段等多項字段。并將代碼文件與代碼截圖保存。
具體步驟如下:
1)創(chuàng)建爬蟲項目
2)構(gòu)建爬蟲請求
3)按要求定義相關(guān)字段
4)獲取有效數(shù)據(jù)
5)將爬取到的數(shù)據(jù)保存到指定位置
3、至此已從零售網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將爬取結(jié)果進一步進行
相關(guān)數(shù)據(jù)操作,請將操作命令截圖并保存。
任務(wù)三:數(shù)據(jù)清洗與分析(25分)
現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,在不涉及客戶安全數(shù)據(jù)或者一些
商業(yè)性敏感數(shù)據(jù)的情況、不違反系統(tǒng)規(guī)則條件下,對真實數(shù)據(jù)進行改造并提供測
試使用。
以product.csv文件為例,該文件中包含了有關(guān)產(chǎn)品信息的數(shù)據(jù),但原始數(shù)
據(jù)經(jīng)過多次采集匯總,數(shù)據(jù)集中不可避免地存在一些數(shù)據(jù)缺失、冗余、重復(fù)等現(xiàn)
象。你的小組需要通過編寫代碼或腳本完成對文件product.csv中產(chǎn)品信息數(shù)據(jù)
的清洗和整理,并完成數(shù)據(jù)計算和分析任務(wù)。
1、缺失值處理
缺失值是一種常見的臟數(shù)據(jù)情況,現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完
全的。對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補。當(dāng)缺失
值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填補則將
產(chǎn)生結(jié)果的人為干預(yù)。請使用Java語言編寫MapReduce程序刪除product.csv文
件中缺失值(空字符串)大于n(3)個字段的數(shù)據(jù)條目剔除原始數(shù)據(jù)集并將其
輸出結(jié)果文件重命名為clean_data1.csv,并在控制臺輸出剔除的條目數(shù)量,截
圖并保存結(jié)果。
2、重復(fù)數(shù)據(jù)處理
原始數(shù)據(jù)集來自于多個平臺及網(wǎng)站,且為多次采集匯總,因此數(shù)據(jù)集中的某
些字段有可能會出現(xiàn)一些重復(fù)或非法格式,例如多次采集過程中產(chǎn)生的重復(fù)信
息,或來自于某網(wǎng)站的不合規(guī)數(shù)據(jù)。這些信息的存在既無實際的業(yè)務(wù)分析意義,
甚至還會影響最終分析結(jié)果。請使用Spark程序刪除clean_data1.csv文件中的
非法數(shù)據(jù)和重復(fù)數(shù)據(jù),將其輸出至HDFS文件系統(tǒng)中,截圖并保存結(jié)果。
3、導(dǎo)入數(shù)據(jù)
啟動Hive。在Hive中創(chuàng)建數(shù)據(jù)庫db1_hive,在該數(shù)據(jù)庫上創(chuàng)建表sales、表
retail、表product、表custom。其表結(jié)構(gòu)與sales.csv、retail.csv、product.csv、
custom.csv相同,編寫命令行查看各個表結(jié)構(gòu),將運行結(jié)果截圖并保存。在Hive
端使用命令將文件sales.csv、retail.csv、product.csv、custom.csv對應(yīng)導(dǎo)入到數(shù)據(jù)
庫db1_hive的sales表、retail表、product表、custom表中。分別驗證查看數(shù)據(jù)
庫表總記錄數(shù)量,將運行結(jié)果截圖并保存。
4、工作類型分析
在銷售行業(yè)中,有這樣一句話——“顧客就是上帝”。對在零售網(wǎng)站中注冊
的客戶進行有效的分析,顯得尤為重要。在客戶數(shù)據(jù)集中,記錄了客戶的賬號、
姓名、卡片等級、地域、工作類型、孩子數(shù)量等情況。請使用Spark程序根據(jù)
custom.csv文件中的數(shù)據(jù),分析零售網(wǎng)站中客戶的工作類型所對應(yīng)的客戶數(shù)量,
將結(jié)果輸出至HDFS文件系統(tǒng)中,將運行結(jié)果截圖并保存。
5、客戶等級分析
在零售網(wǎng)站中,客戶的等級代表了客戶的購買能力,而客戶的購買能力與諸
多因素有關(guān),例如年收入越多,購買能力越強;家中有小孩的客戶,需要消耗更
多的商品等等。請使用Spark程序根據(jù)custom.csv文件中的數(shù)據(jù),查詢零售網(wǎng)站
中年收入在$30K-$50K之間、在家孩子數(shù)量大于0的客人的信息,將結(jié)果輸出至
HDFS文件系統(tǒng)中,將運行結(jié)果截圖并保存。
6、媒體推廣形式分析
促銷是通過向市場和消費者傳播信息,以促進銷售、提高業(yè)績。零售商品網(wǎng)
站也會在不同時期,不同區(qū)域,通過不同的媒介,采用不同的促銷方式進行促銷
活動。請使用Spark程序根據(jù)custom.csv文件中的數(shù)據(jù),統(tǒng)計零售網(wǎng)站中不同媒
體推廣形式對應(yīng)的總成本和總天數(shù)的情況,將結(jié)果輸出至HDFS文件系統(tǒng)中,將
運行結(jié)果截圖并保存。
使用Hive系統(tǒng)中的sales表中的數(shù)據(jù)作為數(shù)據(jù)源,使用Hive命令,統(tǒng)計每種
媒體推廣形式的總成本、總天數(shù),同時將數(shù)據(jù)寫入數(shù)據(jù)表中,將命令與執(zhí)行結(jié)果
截圖并保存。
7、客戶家庭信息分析
若要根據(jù)客戶的特定信息了解客戶在網(wǎng)站的消費情況,需要對客戶數(shù)據(jù)及零
售記錄進行分析。請以custom表、retail表、product表中的數(shù)據(jù)作為數(shù)據(jù)源
(custom表中的id列對應(yīng)product表中的Product_ID列;custom表中的id列對
應(yīng)retail表中的Customer),使用Hive命令,查詢零售網(wǎng)站中卡號、卡片等級、
年收入、在家孩子數(shù)量、有車數(shù)量、產(chǎn)品名稱、購買產(chǎn)品數(shù)量、總金額等信息,
同時將數(shù)據(jù)寫入數(shù)據(jù)表中,將語句及輸出結(jié)果截圖并保存。
8、客戶類型分析結(jié)果遷移
在Hive中創(chuàng)建數(shù)據(jù)庫db2_hive,并在該庫中創(chuàng)建表job_type_hive,包含兩
個字段:工作類型及客戶數(shù)量,將任務(wù)三中客戶類型分析結(jié)果遷移到
job_type_hive表。在MySQL中創(chuàng)建數(shù)據(jù)庫DB,并在該庫中創(chuàng)建表job_type_sql,
用于存儲db2_hive中的job_type_hive表的數(shù)據(jù),二者表結(jié)構(gòu)相同。使用sqoop
命令將Hive中的db2_hive庫的job_type_hive表中數(shù)據(jù)導(dǎo)入到MySQL的DB庫中
的job_type_sql表,將該命令截圖并保存。查看job_type_sql表的數(shù)據(jù),將該命
令和結(jié)果截圖并保存。
9、媒體推廣形式分析結(jié)果遷移
在Hive中的數(shù)據(jù)庫db2_hive創(chuàng)建表media_type_hive,包含兩個字段:媒體
推廣類型及促銷數(shù)量。將任務(wù)三中媒體推廣形式分析結(jié)果遷移到
media_type_hive表。在MySQL中創(chuàng)建數(shù)據(jù)庫DB,并在該庫中創(chuàng)建
media_type_hive表,用于存儲db2_hive中的media_type_hive表的數(shù)據(jù),二者表
結(jié)構(gòu)相同。使用sqoop命令將Hive中的db2_hive庫的media_type_hive表中數(shù)據(jù)
導(dǎo)入到MySQL的DB庫中的media_type_sql表。將該命令截圖并保存。查看
media_type_sql表的數(shù)據(jù),查看命令和結(jié)果截圖并保存。
10、在家孩子數(shù)量與消費分析結(jié)果遷移
在Hive中的數(shù)據(jù)庫db2_hive創(chuàng)建表child_num_hive,包含兩個字段:在家
孩子的數(shù)量和購買產(chǎn)品的總金額。將任務(wù)三中客戶家庭信息中的在家孩子的數(shù)量
和購買產(chǎn)品的總金額的分析結(jié)果插入到child_num_hive表。在MySQL中創(chuàng)建數(shù)
據(jù)庫DB,并在該庫中創(chuàng)建child_num_sql表,用于存儲db2_hive中的
child_num_hive表的數(shù)據(jù),二者表結(jié)構(gòu)相同。使用sqoop命令將Hive中的db2_hive
庫的child_num_hive表中數(shù)據(jù)導(dǎo)入到MySQL的DB庫中的child_num_s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國金融押運行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國人才尋獵(獵頭)行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國旅行社行業(yè)營銷創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國電子熱管理產(chǎn)品行業(yè)全國市場開拓戰(zhàn)略制定與實施研究報告
- 新形勢下知識產(chǎn)權(quán)保護行業(yè)快速做大市場規(guī)模戰(zhàn)略制定與實施研究報告
- 2025-2030年中國在線招聘行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 自動扶梯運行管理制度
- 織金縣教育局2013年學(xué)前教育宣傳月活動方案
- 建設(shè)局年度工作計劃
- 2025年碳素銅絲項目可行性研究報告
- 河北省唐山市2023-2024學(xué)年高一上學(xué)期1月期末考試物理試題(含答案解析)
- 大學(xué)宣傳部工作總結(jié)學(xué)生會
- 2024年永州職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 藥物分離與純化技術(shù)
- 餐廳各類食材原材料供貨驗收標(biāo)準(zhǔn)
- 物理實驗:測量電容器的電容和電荷量
- 免疫相關(guān)不良反應(yīng)的預(yù)防和處理
- 【區(qū)域開發(fā)戰(zhàn)略中環(huán)境保護政策的現(xiàn)存問題及優(yōu)化建議分析6800字(論文)】
- 新型農(nóng)村集體經(jīng)濟研究綜述
- 人教版數(shù)學(xué)八年級上冊第十一章 三角形 作業(yè)設(shè)計 教案(含答案)
- 管理人履職工作報告
評論
0/150
提交評論