2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書3(賽項賽題)_第1頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書3(賽項賽題)_第2頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書3(賽項賽題)_第3頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書3(賽項賽題)_第4頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書3(賽項賽題)_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

2021年全國職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應(yīng)用”

賽項賽卷(GZ-xxxxxxx-X卷)

務(wù)

參賽隊編號:

背景描述

據(jù)央視財經(jīng)報道,2020年我國020市場規(guī)模突破萬億元,020市

場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,

并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過

171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達到8352億元,

同比增長14.8%o我國外賣用戶規(guī)模已接近5億人,其中80后、90

后是餐飲外賣服務(wù)的中堅消費力量,消費者使用餐飲外賣服務(wù)也不再

局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費者的外賣新寵。

為把握這一商業(yè)機遇,ChinaSkills公司計劃進駐外賣平臺市場,現(xiàn)

需對大規(guī)模成熟外賣平臺進行詳細(xì)評估調(diào)研,采集多方多維度數(shù)據(jù),

尋找行業(yè)痛點,摸清市場需求,以技術(shù)為手段為投資保駕護航。

為完成該項工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python、

Java、Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺綜合利

用MapReduce>Spark,MySQL、Scrapy、Flask>ECharts等,對數(shù)據(jù)

進行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司

未來的重點戰(zhàn)略方向提出建議。

你們作為該小組的技術(shù)人員,請按照下面任務(wù)完成本次工作,并

編制綜合報告。

模塊A:Hadoop平臺及組件的部署管理(15分)

環(huán)境說明:

編號主機名類型用戶密碼

1master主節(jié)點rootpasswd

2slavel從節(jié)點rootpasswd

3slave2從節(jié)點rootpasswd

補充說明:主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Passwordl23$

相關(guān)軟件安裝包在/chinaskiHs目錄下

所有模塊中應(yīng)用命令必須采用絕對路徑

任務(wù)一:Hadoop全分布部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)

境。命令中要求使用絕對路徑,具體部署要求如下:

1、將/chinaskills下的JDK包解壓到/usr/local/src路徑,將完整命令復(fù)制

粘貼到對應(yīng)報告中;

2、修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當(dāng)

前root用戶生效將環(huán)境變量配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

3、從master復(fù)制上面步驟配置的JDK環(huán)境變量文件到slavel、slave2節(jié)

點,命令和結(jié)果復(fù)制粘貼在對應(yīng)報告中;

4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel,將登錄命令和結(jié)果復(fù)制

粘貼在對應(yīng)報告中;

5、將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;

6、將配置文件core-site,xml變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;

7、初始化Hadoop環(huán)境namenode,將命令及結(jié)果復(fù)制粘貼在對應(yīng)報告中;

8、查看master及slavel節(jié)點jps進程,將其命令及結(jié)果復(fù)制粘貼至對應(yīng)報

告中。

任務(wù)二:Sqoop部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置

環(huán)境,具體部署要求如下:

1、解壓/h3cu路徑下的Sqoop安裝包到/usr/local/src路徑下,并使用相關(guān)

命令,修改解壓后文件夾名為sqoop,進入sqoop文件夾,并將查看內(nèi)容復(fù)

制粘貼至對應(yīng)報告中;

2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效,將環(huán)境變量

配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

3、修改并配置sqoop-env.sh文件,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;

4、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報

告中。具體任務(wù)要求:使用sqoop命令連接MySQL數(shù)據(jù)庫,查詢MySQL中

所有數(shù)據(jù)庫名稱,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)三:Spark組件部署管理

1、解壓scala安裝包到"/usr/local/src”路徑下,并更名為scala,命令及

結(jié)果復(fù)制粘貼至對應(yīng)報告中;

2、設(shè)置scala環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置文件內(nèi)容復(fù)

制粘貼至對應(yīng)報告中;

3、進入scala命令行界面,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;

4、解壓Spark安裝包到"usr/local/src”路徑下,并更名為spark,將命令

及結(jié)果復(fù)制粘貼至對應(yīng)報告中;

5、設(shè)置Spark相關(guān)環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置Spark

的master節(jié)點主機名、端口、worker結(jié)點的核數(shù)、內(nèi)存,將命令復(fù)制粘貼

至對應(yīng)報告中;

6、啟動Sparkshell,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。

模塊B:數(shù)據(jù)采集與處理(20分)

項目背景說明

1、查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結(jié)構(gòu)。

1)打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看

源碼頁面;

2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。

2、從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言

編寫代碼工程,獲取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進行必要的數(shù)

據(jù)處理。請將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對應(yīng)報告中。

具體步驟如下:

1)創(chuàng)建工程工程項目:C:\food_delivery

2)構(gòu)建采集請求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將獲取到的數(shù)據(jù)保存到指定位置

6)對數(shù)據(jù)集進行基礎(chǔ)的數(shù)據(jù)處理

至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基

礎(chǔ)的數(shù)據(jù)處理。

3、自行創(chuàng)建Scrapy工程項目food_delivery,路徑為C:\

food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計平臺中獲取數(shù)據(jù)。

提取“商戶數(shù)據(jù)”頁面相關(guān)字段(包括平臺餐廳ID、餐廳名稱、

城市等全部有效數(shù)據(jù)項),保存至文件restaurant_data.json;再

提取“配送平臺灰度維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)(包括餐廳名稱、

城市、營業(yè)時長等全部字段)保存至文件grey_test.json。

4、每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:

valueo文件保存路徑為:C:\outputo

示例:

{firrest._i,dj:n*.*.*.n,irrest._namen:ir*,*,*,ir,...)],

{fIIrest,_i,dJH:IF*..*.*IF,IFrest._nameII:It*.*,*,!l,....]),

5、任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中?!?,

粘貼到對應(yīng)報告中的內(nèi)容示例如下:

配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:100

灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:100

任務(wù)一:爬取“POI數(shù)據(jù)”頁面

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“P0I數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過

爬蟲代碼分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制粘

貼至對應(yīng)報告中。

示例格式:

P0I數(shù)據(jù)頁數(shù)為:

任務(wù)二:爬取配送平臺灰測數(shù)據(jù)

編寫爬蟲代碼,爬取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過爬蟲代

碼分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制粘貼至對

應(yīng)報告中。

示例格式:

灰測維度相關(guān)數(shù)據(jù)頁數(shù)為:

任務(wù)三:爬取指定文件

運行代碼,爬取網(wǎng)頁數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄條數(shù),

并將答案復(fù)制粘貼至對應(yīng)報告中。

示例格式:

POI.json行數(shù)為:

grey_test.json行數(shù)為:

任務(wù)四:各商家“30天銷量”數(shù)據(jù)處理

POLjson文件中,''商家id”字段值重復(fù)的樣本,請以多條樣本記錄的“30

天銷量”屬性均值作為該屬性的值,并刪除多余樣本。請在PyCharm控制臺打印

輸出刪除的樣本條數(shù),并將打印語句復(fù)制粘貼至對應(yīng)報告中。

示例格式:

===因重復(fù)樣本記錄,刪除樣本條數(shù)為***條===

任務(wù)五:greyjest缺失值統(tǒng)計

針對爬取的grey_test數(shù)據(jù),利用missingno庫方法探索數(shù)據(jù)集各字段數(shù)據(jù)

缺失情況,將可視化圖片復(fù)制粘貼至對應(yīng)報告中。

任務(wù)六:屬性缺失統(tǒng)計

根據(jù)可視化輸出,grey_test數(shù)據(jù)中那一個屬性缺失值最多?請將正確答案

復(fù)制粘貼至對應(yīng)報告中。

示例格式:

缺失值最多的屬性為:

屬性缺失的樣本數(shù)為:

模塊C:數(shù)據(jù)清洗與挖掘分析(25分)

項目背景說明

餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商

家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費者和商家兩

個群體的活躍度。消費者會參考平臺展示的內(nèi)容選擇商家,商家也會

以消費者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用

戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶

體驗的角度,吸引更多的用戶參與,進而帶動商家不斷入駐。由此,

商家、消費者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助

消費者更好的做出消費決策,同時促進商家提高服務(wù)質(zhì)量。而平臺通

過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升

網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進而形成規(guī)模效

應(yīng)一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。

為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從平臺獲取到

了原始數(shù)據(jù)集,包含“餐廳id,retailer_id,餐廳名稱,城市,商

戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投

訴率,異常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)

取消數(shù),配送取消異常數(shù),整體時長,接單時長,到店時長,取餐時

長,送達時長,商戶投訴數(shù),用戶投訴數(shù),差評數(shù),好評數(shù),評價數(shù),

最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時效,該訂單到店時效,

該訂單取餐時效,該訂單送達時效,該訂單評價”字段。為保障用戶

隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信

息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在

涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實數(shù)據(jù)進行

改造并提供測試使用,如身份證號、手機號等個人敏感信息都需要進

行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于“c:\數(shù)據(jù)源”。

任務(wù)一:數(shù)據(jù)清洗

子任務(wù)1

任務(wù)背景:

數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源

數(shù)據(jù)時可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導(dǎo)致的屬性列矛盾等情況。請根據(jù)任務(wù)具

體參數(shù)要求,針對原始數(shù)據(jù)集中不符合業(yè)務(wù)邏輯的屬性列進行清洗,并寫入指定

的數(shù)據(jù)庫或數(shù)據(jù)文件,復(fù)制并保存結(jié)果。

任務(wù)描述:

數(shù)據(jù)源文件存放于平臺"c:\數(shù)據(jù)源”,其中屬性“推單數(shù)”是指外賣平臺通

過顧客點單向商家推送的訂單數(shù)量,“接單數(shù)”為商家根據(jù)自身情況,最終選擇

接受訂單的數(shù)量。一般來說,商家對于平臺推送的訂單,排除自身原因,例如原

材料耗盡、用戶下單時店鋪已經(jīng)打洋等特殊情況,都會選擇接單。請按照如下要

求編寫Python程序?qū)?shù)據(jù)進行清洗,結(jié)果文件保存至路徑”C:\輸出結(jié)果”文件

夾中,并命名為diliveryoutputl.csv。

1)分析“C:\數(shù)據(jù)源”中數(shù)據(jù)文件

2)針對屬性列“推單數(shù)”、“接單數(shù)”,排查并刪除異常數(shù)據(jù)條目。

3)運行Python程序,結(jié)果文件保存至路徑”C:\輸出結(jié)果”,并命名為

diliveryoutputl.csvo

具體任務(wù)要求:

1、讀取“C:\數(shù)據(jù)源”中相關(guān)數(shù)據(jù)源文件,在PyCharm控制臺打印輸出數(shù)據(jù)集樣

本條數(shù),將打印語句復(fù)制粘貼至對應(yīng)報告中。編寫Python程序,剔除屬性列”推

單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條目,并在程序中以打印語句輸出異常條數(shù)。

將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。

示例格式:

===數(shù)據(jù)集初始樣本條數(shù)為***條===

==="推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條數(shù)為***條===

2、運行Python程序,將剔除異常數(shù)據(jù)后的結(jié)果數(shù)據(jù)集保存至路徑"C:\輸出結(jié)

果“,并命名為diliveryoutputl.csv。查看結(jié)果數(shù)據(jù)集前10行數(shù)據(jù)記錄,將查

看結(jié)果復(fù)制粘貼至對應(yīng)報告中。

子任務(wù)2

任務(wù)背景:

客單價是指客戶在該商鋪下一單的平均支付價格。根據(jù)商家定位不同,可以

分為高客單價和低客單價。高客單價,單量一般表現(xiàn)平平;低單價則通常會獲得

更高的單量。不同的定價針對的消費人群不同、選擇的位置不同、營業(yè)的時間也

不同。高客單價的品類偏向于白領(lǐng)人群,一般說來辦公樓覆蓋越多的位置越好,

但是辦公樓并不一定都是白領(lǐng)人群,所以辦公樓也要區(qū)分區(qū)域性,客戶行業(yè)越是

前沿的,具備消費能力越高,但晚上和周末的單量一般較少。低客單價的品類偏

向于大眾化,選址優(yōu)先辦公/大學(xué)區(qū)/小區(qū)綜合覆蓋區(qū)域,滿足低消費與一般消費

能力用戶群。當(dāng)前數(shù)據(jù)源因涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于人為操

作失誤或計算機故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一種常見的臟數(shù)據(jù)情況。

對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補兩種處理方式。

當(dāng)缺失值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填

補,則數(shù)據(jù)分析結(jié)果可能會受到干擾,有失客觀性。結(jié)合行業(yè)數(shù)據(jù)本身特點及上

述考慮,對于數(shù)據(jù)集中數(shù)值字段缺失的情況,通??梢圆捎锰畛涔潭ㄖ?、均值、

中位數(shù)、KNN填充、以及把缺失值作為新的label等方式處理。同時,不當(dāng)?shù)?/p>

填充可能會令后續(xù)的分析結(jié)果出現(xiàn)導(dǎo)向性偏差,當(dāng)缺失信息的記錄數(shù)較少時可采

用刪除的方式來進行處理。下面請根據(jù)任務(wù)具體參數(shù)要求處理關(guān)鍵字段缺失。

任務(wù)描述:

請以上述1、(任務(wù)數(shù)字編號)任務(wù)結(jié)果數(shù)據(jù)集“C:\數(shù)據(jù)源

\diliveryoutputl.csv”作為數(shù)據(jù)源,編寫Python程序,按照如下要求實現(xiàn)對

數(shù)據(jù)的清洗,并將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出結(jié)果“中,并命名為

diliveryoutput2.csv0

1)解析文件diliveryoutputl.csv;

2)針對數(shù)據(jù)集“客單價”屬性,審查缺失值數(shù)量

3)當(dāng)缺失值比例小于5%時,對包含缺失值數(shù)據(jù)的樣本進行刪除;

當(dāng)缺失值比例大于5%時,對缺失值字段進行中位數(shù)填充。

4)運行Python程序,將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出結(jié)果“中,并命

名為diliveryoutput2.csv0

具體任務(wù)要求:

1、根據(jù)任務(wù)要求,編寫Python程序,針對數(shù)據(jù)集“客單價”屬性,審查缺失值

數(shù)量,并打印輸出,將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。

示例格式:==="客單價"屬性缺失記錄為***條,缺失比例**%===

2、缺失值處理

a)當(dāng)缺失比例小于5%時,對含缺失值數(shù)據(jù)記錄進行刪除,同時在對應(yīng)答案報

告中粘貼如下內(nèi)容:==="客單價”缺失記錄已刪除===

b)當(dāng)缺失比例大于5%時,利用“客單價”屬性中位數(shù)對缺失值進行填充,并

將中位數(shù)打印輸出,將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。

示例格式:==="客單價"屬性中位數(shù)為***天===

c)清洗后的數(shù)據(jù)集,保存至路徑”C:\輸出結(jié)果''中,并命名為

diliveryoutput2.csv,并查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘

貼至對應(yīng)報告中。

任務(wù)二:數(shù)據(jù)挖掘分析

任務(wù)背景:

聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)

據(jù)挖掘的一個重要算法。聚類分析是由若干模式組成的。通常,模式是一個度量

的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎(chǔ),同一個聚類簇

中的模式之間具有相似性,不同聚類簇之間具有相異性。

在商業(yè)上,聚類可以幫助平臺市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,

并提取每一類商家的經(jīng)營模式。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單

獨的工具以發(fā)現(xiàn)數(shù)據(jù)中的深層的信息,并且提取出每一類樣本的特點,或者把注

意力放在某一個特定的類上以作進一步的分析;同時,聚類分析也可以作為數(shù)據(jù)

挖掘算法中其他分析算法的一個預(yù)處理步驟。本題數(shù)據(jù)請采用數(shù)據(jù)清洗的輸出文

件“C:\輸出結(jié)果\diliveryoutput2.csv”。

選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要對外賣

平臺入駐商家進行聚類劃分,有側(cè)重地分類評估商家對平臺的價值,首先需要針

對商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除量綱對

聚類結(jié)果的影響,首先應(yīng)對數(shù)據(jù)進行歸一化或標(biāo)準(zhǔn)化處理,再進行數(shù)據(jù)建模。

任務(wù)描述:

請以數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集“C:\輸出結(jié)果\diliveryoutput2.csv”作為

輸入數(shù)據(jù)源,按照如下要求編寫Python程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并將結(jié)果保存

至路徑“C:\輸出結(jié)果”中,并命名為diliveryoutput3.csv。

1)解析文件diliveryoutput2.csv。

2)提取商家數(shù)據(jù)核心屬性。

3)針對商家核心屬性進行預(yù)處理。

4)利用處理過的核心屬性集完成商家聚類。

具體任務(wù)要求:

1、針對相關(guān)數(shù)據(jù)集抽取北京地區(qū)相關(guān)數(shù)據(jù)記錄,并計算商家好評比,將“好評

比”作為新屬性添加至屬性“評價數(shù)”后。將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出

結(jié)果“中,并命名為diliveryoutput3.csv,并查看輸出文件前10行,將查看

命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。

【好評比計算公式:好評比=好評數(shù)/評價數(shù)】

2、根據(jù)結(jié)果數(shù)據(jù)集diliveryoutput3.csv,篩選4項核心屬性集:''商戶業(yè)務(wù)包”,

“接單數(shù)”,“客單價”,“好評比”,數(shù)據(jù)記錄以接單數(shù)降序排列。將結(jié)果數(shù)據(jù)集

保存至路徑”C:\輸出結(jié)果“中,并命名為diliveryoutput4.csv,并查看結(jié)果數(shù)

據(jù)集前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。

3、由于核心數(shù)據(jù)集中“商戶業(yè)務(wù)包”為分類屬性,請將該屬性設(shè)置為啞變量;

同時對屬性“接單數(shù)”,“客單價”進行max-min歸一化,以實現(xiàn)對核心屬性的預(yù)

處理。將處理后的結(jié)果數(shù)據(jù)集以接單數(shù)降序排列,輸出至/diliveryoutput5,并

查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。

【歸一化公式:x'=(x-X_min)/(X_max-X_min)]

4、以上屬性對商家進行k-means聚類,聚類數(shù)設(shè)為4,迭代次數(shù)為2000次,請

以打印語句輸出聚類中心,及每個類的商家數(shù)。

示例格式:

==cluster0:聚類中心為[****]=商家數(shù)為***個===

==cluster1:聚類中心為[****]=商家數(shù)為***個===

模塊D:數(shù)據(jù)可視化(20分)

MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、地點、商家id、網(wǎng)格

id、餐品種類、標(biāo)品屬性等多項基礎(chǔ)信息字段。請使用Flask框

架,結(jié)合Echarts完成下列任務(wù)。

數(shù)據(jù)庫賬號:takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為C:\food_dilivery

每個可視化圖中需要添加圖片作為背景水印。

任務(wù)一:條形圖呈現(xiàn)“Top10城市商家數(shù)量”

任務(wù)背景:

近年來,我國外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場規(guī)模逐漸擴大,外賣

平臺已覆蓋全國所有省份。2019全年外賣交易超7274億元,截至2020年3月,

我國網(wǎng)上外賣及手機網(wǎng)上外賣用戶滲透率已達44虬2020年底,全國外賣總體訂

單量已超過171.2億單。為了解外賣平臺發(fā)展較為領(lǐng)先的城市范圍,請根據(jù)相關(guān)

數(shù)據(jù)集,按任務(wù)指定要求,輸出分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計不同城市商家數(shù)量,并條形圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格中“id,Request_id,Walle_id,Retailer_id,retailer_name,

retailer_address,etailer_location,City_id,City_name,Grid_id,

Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,first_auditor_name,

second_auditor_role,second_auditor_candidate_ids,second_auditor_id,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,created_at,

updated_at,申請時間,創(chuàng)建時間”等字段,統(tǒng)計不同城市商家數(shù)量。請在PyCharm

控制臺打印輸出商家數(shù)量最高的前10個城市名稱及商家數(shù)量,并以商家數(shù)量降

序排列。

示例格式:

二1.城市:***,商家***個二二二

二2.城市:***,商家***個==

2、使用Flask框架,結(jié)合Echarts,條形圖輸出。標(biāo)題為“城市商家數(shù)量ToplO”,

橫坐標(biāo)為商家數(shù)量,縱坐標(biāo)為城市名稱。將可視化結(jié)果截圖并保存(截圖需包含

瀏覽器地址欄)。

任務(wù)二:柱狀圖呈現(xiàn)審核效率

任務(wù)背景:

外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實

際情況向平臺申請修改配送范圍。在申請配送范圍修改時,審核員將考慮實際道

路限制、綜合運力成本、顧客等待時長等因素,對配送范圍變更的申請進行考量,

最終做出通過/拒絕/駁回的結(jié)果判定。一級審核員通常為該地區(qū)的渠道經(jīng)理,針

對運力等綜合因素對審核記錄進行考量;二級審核員為外賣平臺專職審核人員,

將綜合考慮配送范圍的合理性及更改后的用戶體驗??己藛T的審核具有一定的時

效要求,審核效率直接影響合作商家平臺活躍性以及商家的合作體驗。請根據(jù)相

關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出審核效率相關(guān)的分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格,參考數(shù)據(jù)字段同可視化1、(數(shù)字任務(wù)編號),統(tǒng)計審核效

率最高的十位明星審核員,并以柱狀圖表達。

具體任務(wù)要求:

1、根據(jù)可視化1中提到的相關(guān)字段,匯總各二級審核人審批的申請數(shù)量。在

PyCharm控制臺打印輸出審核記錄數(shù)最多的10位審核人id,審批總數(shù)。

示例格式:

==1.二級審核人id:***,審批數(shù)量:***條===

==2.二級審核人id:***,審批數(shù)量:***條===

2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。要求標(biāo)題為"ToplO明星

審核員”,橫坐標(biāo)為審核人姓名,縱坐標(biāo)為審核記錄數(shù),以審批記錄數(shù)降序排列。

將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

任務(wù)三:雙餅圖呈現(xiàn)業(yè)務(wù)包屬性占比

任務(wù)背景:

外賣平臺在不同城市進行推廣時應(yīng)具有不同的側(cè)重方面,城市具有不同的人

口數(shù)量及特點,例如居住人口數(shù)量、工作人口數(shù)量、過往人口數(shù)量、居民戶數(shù)和

企事業(yè)單位數(shù),及相應(yīng)人口年齡、性別、職業(yè)和收入水平構(gòu)成等。商戶業(yè)務(wù)包是

指該商戶在經(jīng)營定位時所確定的主要消費群體。不同城市消費群占比不同,大致

可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個商業(yè)業(yè)務(wù)包。請根據(jù)

相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出城市商戶業(yè)務(wù)包相關(guān)的分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)數(shù)據(jù)庫表格中“餐廳id,retailer_id,餐廳名稱,城市,商戶

業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,

欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),

整體時長,接單時長,到店時長,取餐時長,送達時長,商戶投訴數(shù),用戶投訴

數(shù),差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時

效,該訂單到店時效,該訂單取餐時效,該訂單送達時效,該訂單評價”等字段,

統(tǒng)計不同城市的商業(yè)業(yè)務(wù)包組成,并以雙餅圖表達。

程序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義,中文釋義對應(yīng)關(guān)系如

表1所示。

字母縮寫中文釋義

GKA大客戶

BL白領(lǐng)

S1G小客戶

GX高效

FML家庭

OTH其他

表1商戶業(yè)務(wù)包中文釋義

具體任務(wù)要求:

1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,分析北京與深圳兩座城市在商戶業(yè)務(wù)包屬性占比

方面的差異。在PyCharm控制臺打印輸出兩座城市不同商戶業(yè)務(wù)包屬性的商家數(shù)

量,以商家數(shù)量降序排列。

示例格式:

==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===

==北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===

==深圳:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===

==深圳:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===

2、使用Flask框架,結(jié)合Echarts,完成雙餅圖輸出。要求標(biāo)題分別為“北京商

戶業(yè)務(wù)包屬性占比”(左)、“深圳商戶業(yè)務(wù)包屬性占比”(右),順時針顯示次序

與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

任務(wù)四:玫瑰圖呈現(xiàn)投訴占比

任務(wù)背景:

投訴是顧客對平臺管理和服務(wù)不滿的表達方式,也是企業(yè)有價值的信息來源,

它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖

定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。請根據(jù)相關(guān)

數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出投訴相關(guān)的分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)數(shù)據(jù)庫表格,參考數(shù)據(jù)字段同可視化3、(數(shù)字任務(wù)編號),統(tǒng)計

北京地區(qū),不同“商戶業(yè)務(wù)包”的投訴數(shù)量,并以玫瑰圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,統(tǒng)計北京地區(qū)不同商戶業(yè)務(wù)包投訴數(shù)量。在

PyCharm控制臺打印輸出不同商戶業(yè)務(wù)包的投訴數(shù)量,以投訴數(shù)降序排列。

示例格式:

==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===

==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===

2、使用Flask框架,結(jié)合Echarts,完成玫瑰圖輸出。要求標(biāo)題為“北京商戶業(yè)

務(wù)包投訴占比“,順時針顯示次序與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保

存(截圖需包含瀏覽器地址欄)。

任務(wù)五:柱狀堆疊圖呈現(xiàn)審核結(jié)果比例

任務(wù)背景:

外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實

際情況向平臺申請修改配送范圍。通常配送范圍并不是毫無棱角的圓形,因為這

種劃分并沒有因地制宜,是不合理的。最大配送距離指的是配送范圍中距離商家

最遠(yuǎn)的直線距離,最小配送距離則是配送范圍中距離商家最近的直線距離。在申

請配送范圍修改時,審核員將考慮實際道路限制、綜合運力成本、顧客等待時長

等因素,對配送范圍變更的申請進行考量,最終做出通過/拒絕/駁回的結(jié)果判定。

請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出范圍審核相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)數(shù)據(jù)庫相關(guān)表格數(shù)據(jù),統(tǒng)計審核通過與拒絕的范圍申請記錄數(shù)量,并

以柱狀堆疊圖表達。

具體任務(wù)要求:

1>根據(jù)相關(guān)表格中“id,Request_id,Walle_id,Retailer_id,retailer_name,

retailer_address,etailer_location,City_id,City_name,Grid_id,

Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,first_auditor_name,

second_auditor_role,second_auditor_candidate_ids,second_auditor_id,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,created_at,

updated_at,申請時間,創(chuàng)建時間”等字段,匯總各二級審核人審批的申請數(shù)量,

并統(tǒng)計其中通過與拒絕的條數(shù)。在PyCharm控制臺打印輸出審核記錄數(shù)最多的

10位審核人id,審批總數(shù),以及其中通過與拒絕的條數(shù),按審批總數(shù)降序排列。

示例格式:

二1.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條

二2.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條

2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。要求標(biāo)題為“審

核通過與拒絕對比“,橫坐標(biāo)為審核人id,縱坐標(biāo)為審核記錄數(shù)。畫出審核數(shù)量

最多的10位二級審核人記錄審批情況,通過記錄數(shù)藍(藍色表示)上方疊加拒

絕和駁回記錄數(shù)(紅色表示),以審批總數(shù)降序排列。將可視化結(jié)果截圖并保存

(截圖需包含瀏覽器地址欄)。

任務(wù)六:散點地圖呈現(xiàn)各城市商家數(shù)量分布

任務(wù)背景:

近年來,我國外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場規(guī)模逐漸擴大,外賣

平臺已覆蓋全國所有省份。2019全年外賣交易超7274億元,截至2020年3月,

我國網(wǎng)上外賣及手機網(wǎng)上外賣用戶滲透率已達44虬2020年底,全國外賣總體訂

單量已超過171.2億單。為縱觀全國范圍內(nèi)外賣平臺簽約商家分布情況,請根據(jù)

相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出相關(guān)分析圖例。

任務(wù)描述:

請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計不同城市商家數(shù)量,并散點地圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考字段同可視化3、(任務(wù)數(shù)字編號),統(tǒng)計不同城市商家數(shù)

量。請在PyCharm控制臺以商家數(shù)量降序打印輸出城市名稱,商家數(shù)量。

示例格式:

==1.城市:***,商家***個===

==2.城市:***,商家***個===

2、使用Flask框架,結(jié)合Echarts,完成散點地圖輸出。標(biāo)題為“各城市商家數(shù)

量散點地圖”。將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

模塊E:綜合分析(20分)

通過模塊B的網(wǎng)站分析及數(shù)據(jù)爬取、模塊C的數(shù)據(jù)清洗與分析及

模塊D的可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺業(yè)務(wù)背景

及相關(guān)數(shù)據(jù),在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進行

分析,并編寫分析報告。

請根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報告。分別從商家

價值聚類、推單差值等維度對外賣平臺推廣情況與網(wǎng)格銷售表現(xiàn)進行

分析,并平臺經(jīng)營提出幾點建議。

分析報告要求:

任務(wù)一:商家聚類分析

結(jié)合平臺相關(guān)數(shù)據(jù)文件,以雷達圖表示4類商家在核心屬性集上的聚類表現(xiàn)。

說明商家聚類對平臺發(fā)展的用途及經(jīng)營策略影響。分別以文字描述和圖例進行說

明。

任務(wù)二:各地區(qū)商戶業(yè)務(wù)包分析

結(jié)合模塊D可視化分析中對不同地區(qū)商戶業(yè)務(wù)包的統(tǒng)計結(jié)果,說明圖表有哪

些差異?說明了什么問題?分別以文字描述和圖例進行說明。

任務(wù)三:平臺規(guī)劃建議

請結(jié)合平臺業(yè)務(wù)背景及相關(guān)分析結(jié)論,對平臺未來規(guī)劃提出建議(不少于3

條建議)。

附錄:補充說明

數(shù)據(jù)集中涉及字段及中文說明:

poi:pointofinterest興趣點

數(shù)據(jù)表字段中文釋義:

原字段中文釋義

city_name城市

location商圈

latitude緯度

longtitude經(jīng)度

rest_type商家所屬平臺

platform_A_restid商家id(A平臺)

A_rst_name店鋪名稱(A平臺)

A_day_30_cnt30天銷量(A平臺)

platform_B_restid商家id(B平臺)

B_rst_name店鋪名稱(B平臺)

B_day_30_cnt30天銷量(B平臺)

籍單薪-9推單數(shù)(9日)

有效完成率-9有效完成率(9日)

超時率-9超時率(9日)

推單數(shù)-8推單數(shù)(8日)

有效完成率-8有效完成率(8日)

超時率-8超時率(8日)

灰度餐廳灰度餐廳

id標(biāo)識id

Request_id請求id

Walle_id(平臺)商鋪id

Retailer_id(配送系統(tǒng))商鋪id

retailer_name商鋪名稱

retailer_address商鋪地址

retailer_location位置P0I編碼

City_id城市id

City_name城市名稱

Grid_id網(wǎng)格id

Carrier_id渠道經(jīng)理

Team_id渠道小組

Applicant_id申請人id

Applicant_name申請人

first_auditor_ro1e一級審批角色

first_auditor_candidate_ids候選審批人id

first_auditor_id審核人id

first_auditor_name審批人名

second_auditorrole二級審批角色

second_auditor_candidate_ids審核小組成員

second_auditor_id二級審核人id

second_auditor_name二級審核人名

status申請狀態(tài)

max_distance_before_edit申請前最大配送距離

min_distance_before_edit申請前最小配送距離

max_distance_after_edit申請后最大配送距離

min_distanceafter_edit申請后最小配送距離

area_before_edit申請前配送面積

area_after_edit申請前配送面積

created_at申請遞交時間

updated_at審核完成

申請時間申請時間

創(chuàng)建時間創(chuàng)建時間

餐廳id餐廳id

餐廳名稱餐廳名稱

所屬城市所屬城市

營業(yè)時長營業(yè)時長

餐廳狀杰餐廳狀杰

是否托管是否托管

總單量總單量

總單量增長率總單量增長率

有效訂單量有效訂單量

有效訂單增長率有效訂單增長率

訂單配送成功率訂單配送成功率

超時訂單率超時訂單率

無效訂單率無效訂單率

平均預(yù)計送達時長平均預(yù)計送達時長

平均實際配送時長平均實際配送時長

當(dāng)前配送面積當(dāng)前配送面積

面積變更值面積變更值

網(wǎng)格id

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論