




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2021年全國職業(yè)院校技能大賽
高職組
“大數(shù)據(jù)技術(shù)與應(yīng)用”
賽項賽卷(GZ-xxxxxxx-X卷)
任
務(wù)
書
參賽隊編號:
背景描述
據(jù)央視財經(jīng)報道,2020年我國020市場規(guī)模突破萬億元,020市
場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,
并且業(yè)務(wù)增長迅速。截至2020年底,全國外賣總體訂單量已超過
171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達到8352億元,
同比增長14.8%o我國外賣用戶規(guī)模已接近5億人,其中80后、90
后是餐飲外賣服務(wù)的中堅消費力量,消費者使用餐飲外賣服務(wù)也不再
局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費者的外賣新寵。
為把握這一商業(yè)機遇,ChinaSkills公司計劃進駐外賣平臺市場,現(xiàn)
需對大規(guī)模成熟外賣平臺進行詳細(xì)評估調(diào)研,采集多方多維度數(shù)據(jù),
尋找行業(yè)痛點,摸清市場需求,以技術(shù)為手段為投資保駕護航。
為完成該項工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python、
Java、Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)據(jù)平臺綜合利
用MapReduce>Spark,MySQL、Scrapy、Flask>ECharts等,對數(shù)據(jù)
進行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司
未來的重點戰(zhàn)略方向提出建議。
你們作為該小組的技術(shù)人員,請按照下面任務(wù)完成本次工作,并
編制綜合報告。
模塊A:Hadoop平臺及組件的部署管理(15分)
環(huán)境說明:
編號主機名類型用戶密碼
1master主節(jié)點rootpasswd
2slavel從節(jié)點rootpasswd
3slave2從節(jié)點rootpasswd
補充說明:主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Passwordl23$
相關(guān)軟件安裝包在/chinaskiHs目錄下
所有模塊中應(yīng)用命令必須采用絕對路徑
任務(wù)一:Hadoop全分布部署管理
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)
境。命令中要求使用絕對路徑,具體部署要求如下:
1、將/chinaskills下的JDK包解壓到/usr/local/src路徑,將完整命令復(fù)制
粘貼到對應(yīng)報告中;
2、修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對當(dāng)
前root用戶生效將環(huán)境變量配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;
3、從master復(fù)制上面步驟配置的JDK環(huán)境變量文件到slavel、slave2節(jié)
點,命令和結(jié)果復(fù)制粘貼在對應(yīng)報告中;
4、配置SSH密鑰登錄,實現(xiàn)從master登錄到slavel,將登錄命令和結(jié)果復(fù)制
粘貼在對應(yīng)報告中;
5、將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;
6、將配置文件core-site,xml變更內(nèi)容復(fù)制粘貼在對應(yīng)報告中;
7、初始化Hadoop環(huán)境namenode,將命令及結(jié)果復(fù)制粘貼在對應(yīng)報告中;
8、查看master及slavel節(jié)點jps進程,將其命令及結(jié)果復(fù)制粘貼至對應(yīng)報
告中。
任務(wù)二:Sqoop部署管理
本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置
環(huán)境,具體部署要求如下:
1、解壓/h3cu路徑下的Sqoop安裝包到/usr/local/src路徑下,并使用相關(guān)
命令,修改解壓后文件夾名為sqoop,進入sqoop文件夾,并將查看內(nèi)容復(fù)
制粘貼至對應(yīng)報告中;
2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對當(dāng)前root用戶生效,將環(huán)境變量
配置內(nèi)容復(fù)制粘貼至對應(yīng)報告中;
3、修改并配置sqoop-env.sh文件,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;
4、測試Sqoop連接MySQL數(shù)據(jù)庫是否成功,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報
告中。具體任務(wù)要求:使用sqoop命令連接MySQL數(shù)據(jù)庫,查詢MySQL中
所有數(shù)據(jù)庫名稱,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。
任務(wù)三:Spark組件部署管理
1、解壓scala安裝包到"/usr/local/src”路徑下,并更名為scala,命令及
結(jié)果復(fù)制粘貼至對應(yīng)報告中;
2、設(shè)置scala環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置文件內(nèi)容復(fù)
制粘貼至對應(yīng)報告中;
3、進入scala命令行界面,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中;
4、解壓Spark安裝包到"usr/local/src”路徑下,并更名為spark,將命令
及結(jié)果復(fù)制粘貼至對應(yīng)報告中;
5、設(shè)置Spark相關(guān)環(huán)境變量,并使環(huán)境變量只對root用戶生效,配置Spark
的master節(jié)點主機名、端口、worker結(jié)點的核數(shù)、內(nèi)存,將命令復(fù)制粘貼
至對應(yīng)報告中;
6、啟動Sparkshell,將命令及結(jié)果復(fù)制粘貼至對應(yīng)報告中。
模塊B:數(shù)據(jù)采集與處理(20分)
項目背景說明
1、查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結(jié)構(gòu)。
1)打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看
源碼頁面;
2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。
2、從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言
編寫代碼工程,獲取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進行必要的數(shù)
據(jù)處理。請將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對應(yīng)報告中。
具體步驟如下:
1)創(chuàng)建工程工程項目:C:\food_delivery
2)構(gòu)建采集請求
3)按要求定義相關(guān)字段
4)獲取有效數(shù)據(jù)
5)將獲取到的數(shù)據(jù)保存到指定位置
6)對數(shù)據(jù)集進行基礎(chǔ)的數(shù)據(jù)處理
至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基
礎(chǔ)的數(shù)據(jù)處理。
3、自行創(chuàng)建Scrapy工程項目food_delivery,路徑為C:\
food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計平臺中獲取數(shù)據(jù)。
提取“商戶數(shù)據(jù)”頁面相關(guān)字段(包括平臺餐廳ID、餐廳名稱、
城市等全部有效數(shù)據(jù)項),保存至文件restaurant_data.json;再
提取“配送平臺灰度維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù)(包括餐廳名稱、
城市、營業(yè)時長等全部字段)保存至文件grey_test.json。
4、每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:
valueo文件保存路徑為:C:\outputo
示例:
{firrest._i,dj:n*.*.*.n,irrest._namen:ir*,*,*,ir,...)],
{fIIrest,_i,dJH:IF*..*.*IF,IFrest._nameII:It*.*,*,!l,....]),
5、任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中?!?,
粘貼到對應(yīng)報告中的內(nèi)容示例如下:
配送范圍審核相關(guān)數(shù)據(jù)頁數(shù)為:100
灰度數(shù)據(jù)對比相關(guān)數(shù)據(jù)頁數(shù)為:100
任務(wù)一:爬取“POI數(shù)據(jù)”頁面
自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“P0I數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過
爬蟲代碼分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制粘
貼至對應(yīng)報告中。
示例格式:
P0I數(shù)據(jù)頁數(shù)為:
任務(wù)二:爬取配送平臺灰測數(shù)據(jù)
編寫爬蟲代碼,爬取“配送平臺灰測維度數(shù)據(jù)”頁面相關(guān)數(shù)據(jù),通過爬蟲代
碼分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將答案復(fù)制粘貼至對
應(yīng)報告中。
示例格式:
灰測維度相關(guān)數(shù)據(jù)頁數(shù)為:
任務(wù)三:爬取指定文件
運行代碼,爬取網(wǎng)頁數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄條數(shù),
并將答案復(fù)制粘貼至對應(yīng)報告中。
示例格式:
POI.json行數(shù)為:
grey_test.json行數(shù)為:
任務(wù)四:各商家“30天銷量”數(shù)據(jù)處理
POLjson文件中,''商家id”字段值重復(fù)的樣本,請以多條樣本記錄的“30
天銷量”屬性均值作為該屬性的值,并刪除多余樣本。請在PyCharm控制臺打印
輸出刪除的樣本條數(shù),并將打印語句復(fù)制粘貼至對應(yīng)報告中。
示例格式:
===因重復(fù)樣本記錄,刪除樣本條數(shù)為***條===
任務(wù)五:greyjest缺失值統(tǒng)計
針對爬取的grey_test數(shù)據(jù),利用missingno庫方法探索數(shù)據(jù)集各字段數(shù)據(jù)
缺失情況,將可視化圖片復(fù)制粘貼至對應(yīng)報告中。
任務(wù)六:屬性缺失統(tǒng)計
根據(jù)可視化輸出,grey_test數(shù)據(jù)中那一個屬性缺失值最多?請將正確答案
復(fù)制粘貼至對應(yīng)報告中。
示例格式:
缺失值最多的屬性為:
屬性缺失的樣本數(shù)為:
模塊C:數(shù)據(jù)清洗與挖掘分析(25分)
項目背景說明
餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商
家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費者和商家兩
個群體的活躍度。消費者會參考平臺展示的內(nèi)容選擇商家,商家也會
以消費者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用
戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶
體驗的角度,吸引更多的用戶參與,進而帶動商家不斷入駐。由此,
商家、消費者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助
消費者更好的做出消費決策,同時促進商家提高服務(wù)質(zhì)量。而平臺通
過數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升
網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進而形成規(guī)模效
應(yīng)一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。
為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從平臺獲取到
了原始數(shù)據(jù)集,包含“餐廳id,retailer_id,餐廳名稱,城市,商
戶業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投
訴率,異常率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)
取消數(shù),配送取消異常數(shù),整體時長,接單時長,到店時長,取餐時
長,送達時長,商戶投訴數(shù),用戶投訴數(shù),差評數(shù),好評數(shù),評價數(shù),
最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時效,該訂單到店時效,
該訂單取餐時效,該訂單送達時效,該訂單評價”字段。為保障用戶
隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信
息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在
涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實數(shù)據(jù)進行
改造并提供測試使用,如身份證號、手機號等個人敏感信息都需要進
行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于“c:\數(shù)據(jù)源”。
任務(wù)一:數(shù)據(jù)清洗
子任務(wù)1
任務(wù)背景:
數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來源
數(shù)據(jù)時可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導(dǎo)致的屬性列矛盾等情況。請根據(jù)任務(wù)具
體參數(shù)要求,針對原始數(shù)據(jù)集中不符合業(yè)務(wù)邏輯的屬性列進行清洗,并寫入指定
的數(shù)據(jù)庫或數(shù)據(jù)文件,復(fù)制并保存結(jié)果。
任務(wù)描述:
數(shù)據(jù)源文件存放于平臺"c:\數(shù)據(jù)源”,其中屬性“推單數(shù)”是指外賣平臺通
過顧客點單向商家推送的訂單數(shù)量,“接單數(shù)”為商家根據(jù)自身情況,最終選擇
接受訂單的數(shù)量。一般來說,商家對于平臺推送的訂單,排除自身原因,例如原
材料耗盡、用戶下單時店鋪已經(jīng)打洋等特殊情況,都會選擇接單。請按照如下要
求編寫Python程序?qū)?shù)據(jù)進行清洗,結(jié)果文件保存至路徑”C:\輸出結(jié)果”文件
夾中,并命名為diliveryoutputl.csv。
1)分析“C:\數(shù)據(jù)源”中數(shù)據(jù)文件
2)針對屬性列“推單數(shù)”、“接單數(shù)”,排查并刪除異常數(shù)據(jù)條目。
3)運行Python程序,結(jié)果文件保存至路徑”C:\輸出結(jié)果”,并命名為
diliveryoutputl.csvo
具體任務(wù)要求:
1、讀取“C:\數(shù)據(jù)源”中相關(guān)數(shù)據(jù)源文件,在PyCharm控制臺打印輸出數(shù)據(jù)集樣
本條數(shù),將打印語句復(fù)制粘貼至對應(yīng)報告中。編寫Python程序,剔除屬性列”推
單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條目,并在程序中以打印語句輸出異常條數(shù)。
將打印輸出結(jié)果復(fù)制并保存至對應(yīng)報告中。
示例格式:
===數(shù)據(jù)集初始樣本條數(shù)為***條===
==="推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條數(shù)為***條===
2、運行Python程序,將剔除異常數(shù)據(jù)后的結(jié)果數(shù)據(jù)集保存至路徑"C:\輸出結(jié)
果“,并命名為diliveryoutputl.csv。查看結(jié)果數(shù)據(jù)集前10行數(shù)據(jù)記錄,將查
看結(jié)果復(fù)制粘貼至對應(yīng)報告中。
子任務(wù)2
任務(wù)背景:
客單價是指客戶在該商鋪下一單的平均支付價格。根據(jù)商家定位不同,可以
分為高客單價和低客單價。高客單價,單量一般表現(xiàn)平平;低單價則通常會獲得
更高的單量。不同的定價針對的消費人群不同、選擇的位置不同、營業(yè)的時間也
不同。高客單價的品類偏向于白領(lǐng)人群,一般說來辦公樓覆蓋越多的位置越好,
但是辦公樓并不一定都是白領(lǐng)人群,所以辦公樓也要區(qū)分區(qū)域性,客戶行業(yè)越是
前沿的,具備消費能力越高,但晚上和周末的單量一般較少。低客單價的品類偏
向于大眾化,選址優(yōu)先辦公/大學(xué)區(qū)/小區(qū)綜合覆蓋區(qū)域,滿足低消費與一般消費
能力用戶群。當(dāng)前數(shù)據(jù)源因涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于人為操
作失誤或計算機故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一種常見的臟數(shù)據(jù)情況。
對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補兩種處理方式。
當(dāng)缺失值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填
補,則數(shù)據(jù)分析結(jié)果可能會受到干擾,有失客觀性。結(jié)合行業(yè)數(shù)據(jù)本身特點及上
述考慮,對于數(shù)據(jù)集中數(shù)值字段缺失的情況,通??梢圆捎锰畛涔潭ㄖ?、均值、
中位數(shù)、KNN填充、以及把缺失值作為新的label等方式處理。同時,不當(dāng)?shù)?/p>
填充可能會令后續(xù)的分析結(jié)果出現(xiàn)導(dǎo)向性偏差,當(dāng)缺失信息的記錄數(shù)較少時可采
用刪除的方式來進行處理。下面請根據(jù)任務(wù)具體參數(shù)要求處理關(guān)鍵字段缺失。
任務(wù)描述:
請以上述1、(任務(wù)數(shù)字編號)任務(wù)結(jié)果數(shù)據(jù)集“C:\數(shù)據(jù)源
\diliveryoutputl.csv”作為數(shù)據(jù)源,編寫Python程序,按照如下要求實現(xiàn)對
數(shù)據(jù)的清洗,并將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出結(jié)果“中,并命名為
diliveryoutput2.csv0
1)解析文件diliveryoutputl.csv;
2)針對數(shù)據(jù)集“客單價”屬性,審查缺失值數(shù)量
3)當(dāng)缺失值比例小于5%時,對包含缺失值數(shù)據(jù)的樣本進行刪除;
當(dāng)缺失值比例大于5%時,對缺失值字段進行中位數(shù)填充。
4)運行Python程序,將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出結(jié)果“中,并命
名為diliveryoutput2.csv0
具體任務(wù)要求:
1、根據(jù)任務(wù)要求,編寫Python程序,針對數(shù)據(jù)集“客單價”屬性,審查缺失值
數(shù)量,并打印輸出,將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。
示例格式:==="客單價"屬性缺失記錄為***條,缺失比例**%===
2、缺失值處理
a)當(dāng)缺失比例小于5%時,對含缺失值數(shù)據(jù)記錄進行刪除,同時在對應(yīng)答案報
告中粘貼如下內(nèi)容:==="客單價”缺失記錄已刪除===
b)當(dāng)缺失比例大于5%時,利用“客單價”屬性中位數(shù)對缺失值進行填充,并
將中位數(shù)打印輸出,將打印輸出結(jié)果復(fù)制并粘貼至對應(yīng)報告中。
示例格式:==="客單價"屬性中位數(shù)為***天===
c)清洗后的數(shù)據(jù)集,保存至路徑”C:\輸出結(jié)果''中,并命名為
diliveryoutput2.csv,并查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘
貼至對應(yīng)報告中。
任務(wù)二:數(shù)據(jù)挖掘分析
任務(wù)背景:
聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)
據(jù)挖掘的一個重要算法。聚類分析是由若干模式組成的。通常,模式是一個度量
的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎(chǔ),同一個聚類簇
中的模式之間具有相似性,不同聚類簇之間具有相異性。
在商業(yè)上,聚類可以幫助平臺市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,
并提取每一類商家的經(jīng)營模式。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單
獨的工具以發(fā)現(xiàn)數(shù)據(jù)中的深層的信息,并且提取出每一類樣本的特點,或者把注
意力放在某一個特定的類上以作進一步的分析;同時,聚類分析也可以作為數(shù)據(jù)
挖掘算法中其他分析算法的一個預(yù)處理步驟。本題數(shù)據(jù)請采用數(shù)據(jù)清洗的輸出文
件“C:\輸出結(jié)果\diliveryoutput2.csv”。
選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要對外賣
平臺入駐商家進行聚類劃分,有側(cè)重地分類評估商家對平臺的價值,首先需要針
對商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除量綱對
聚類結(jié)果的影響,首先應(yīng)對數(shù)據(jù)進行歸一化或標(biāo)準(zhǔn)化處理,再進行數(shù)據(jù)建模。
任務(wù)描述:
請以數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集“C:\輸出結(jié)果\diliveryoutput2.csv”作為
輸入數(shù)據(jù)源,按照如下要求編寫Python程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并將結(jié)果保存
至路徑“C:\輸出結(jié)果”中,并命名為diliveryoutput3.csv。
1)解析文件diliveryoutput2.csv。
2)提取商家數(shù)據(jù)核心屬性。
3)針對商家核心屬性進行預(yù)處理。
4)利用處理過的核心屬性集完成商家聚類。
具體任務(wù)要求:
1、針對相關(guān)數(shù)據(jù)集抽取北京地區(qū)相關(guān)數(shù)據(jù)記錄,并計算商家好評比,將“好評
比”作為新屬性添加至屬性“評價數(shù)”后。將結(jié)果數(shù)據(jù)集保存至路徑”C:\輸出
結(jié)果“中,并命名為diliveryoutput3.csv,并查看輸出文件前10行,將查看
命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。
【好評比計算公式:好評比=好評數(shù)/評價數(shù)】
2、根據(jù)結(jié)果數(shù)據(jù)集diliveryoutput3.csv,篩選4項核心屬性集:''商戶業(yè)務(wù)包”,
“接單數(shù)”,“客單價”,“好評比”,數(shù)據(jù)記錄以接單數(shù)降序排列。將結(jié)果數(shù)據(jù)集
保存至路徑”C:\輸出結(jié)果“中,并命名為diliveryoutput4.csv,并查看結(jié)果數(shù)
據(jù)集前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。
3、由于核心數(shù)據(jù)集中“商戶業(yè)務(wù)包”為分類屬性,請將該屬性設(shè)置為啞變量;
同時對屬性“接單數(shù)”,“客單價”進行max-min歸一化,以實現(xiàn)對核心屬性的預(yù)
處理。將處理后的結(jié)果數(shù)據(jù)集以接單數(shù)降序排列,輸出至/diliveryoutput5,并
查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。
【歸一化公式:x'=(x-X_min)/(X_max-X_min)]
4、以上屬性對商家進行k-means聚類,聚類數(shù)設(shè)為4,迭代次數(shù)為2000次,請
以打印語句輸出聚類中心,及每個類的商家數(shù)。
示例格式:
==cluster0:聚類中心為[****]=商家數(shù)為***個===
==cluster1:聚類中心為[****]=商家數(shù)為***個===
模塊D:數(shù)據(jù)可視化(20分)
MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、地點、商家id、網(wǎng)格
id、餐品種類、標(biāo)品屬性等多項基礎(chǔ)信息字段。請使用Flask框
架,結(jié)合Echarts完成下列任務(wù)。
數(shù)據(jù)庫賬號:takeout密碼:takeout
自行創(chuàng)建代碼工程路徑為C:\food_dilivery
每個可視化圖中需要添加圖片作為背景水印。
任務(wù)一:條形圖呈現(xiàn)“Top10城市商家數(shù)量”
任務(wù)背景:
近年來,我國外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場規(guī)模逐漸擴大,外賣
平臺已覆蓋全國所有省份。2019全年外賣交易超7274億元,截至2020年3月,
我國網(wǎng)上外賣及手機網(wǎng)上外賣用戶滲透率已達44虬2020年底,全國外賣總體訂
單量已超過171.2億單。為了解外賣平臺發(fā)展較為領(lǐng)先的城市范圍,請根據(jù)相關(guān)
數(shù)據(jù)集,按任務(wù)指定要求,輸出分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計不同城市商家數(shù)量,并條形圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)表格中“id,Request_id,Walle_id,Retailer_id,retailer_name,
retailer_address,etailer_location,City_id,City_name,Grid_id,
Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,
first_auditor_candidate_ids,first_auditor_id,first_auditor_name,
second_auditor_role,second_auditor_candidate_ids,second_auditor_id,
second_auditor_name,status,max_distance_before_edit,
min_distance_before_edit,max_distance_after_edit,
min_distance_after_edit,area_before_edit,area_after_edit,created_at,
updated_at,申請時間,創(chuàng)建時間”等字段,統(tǒng)計不同城市商家數(shù)量。請在PyCharm
控制臺打印輸出商家數(shù)量最高的前10個城市名稱及商家數(shù)量,并以商家數(shù)量降
序排列。
示例格式:
二1.城市:***,商家***個二二二
二2.城市:***,商家***個==
2、使用Flask框架,結(jié)合Echarts,條形圖輸出。標(biāo)題為“城市商家數(shù)量ToplO”,
橫坐標(biāo)為商家數(shù)量,縱坐標(biāo)為城市名稱。將可視化結(jié)果截圖并保存(截圖需包含
瀏覽器地址欄)。
任務(wù)二:柱狀圖呈現(xiàn)審核效率
任務(wù)背景:
外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實
際情況向平臺申請修改配送范圍。在申請配送范圍修改時,審核員將考慮實際道
路限制、綜合運力成本、顧客等待時長等因素,對配送范圍變更的申請進行考量,
最終做出通過/拒絕/駁回的結(jié)果判定。一級審核員通常為該地區(qū)的渠道經(jīng)理,針
對運力等綜合因素對審核記錄進行考量;二級審核員為外賣平臺專職審核人員,
將綜合考慮配送范圍的合理性及更改后的用戶體驗??己藛T的審核具有一定的時
效要求,審核效率直接影響合作商家平臺活躍性以及商家的合作體驗。請根據(jù)相
關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出審核效率相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格,參考數(shù)據(jù)字段同可視化1、(數(shù)字任務(wù)編號),統(tǒng)計審核效
率最高的十位明星審核員,并以柱狀圖表達。
具體任務(wù)要求:
1、根據(jù)可視化1中提到的相關(guān)字段,匯總各二級審核人審批的申請數(shù)量。在
PyCharm控制臺打印輸出審核記錄數(shù)最多的10位審核人id,審批總數(shù)。
示例格式:
==1.二級審核人id:***,審批數(shù)量:***條===
==2.二級審核人id:***,審批數(shù)量:***條===
2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。要求標(biāo)題為"ToplO明星
審核員”,橫坐標(biāo)為審核人姓名,縱坐標(biāo)為審核記錄數(shù),以審批記錄數(shù)降序排列。
將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
任務(wù)三:雙餅圖呈現(xiàn)業(yè)務(wù)包屬性占比
任務(wù)背景:
外賣平臺在不同城市進行推廣時應(yīng)具有不同的側(cè)重方面,城市具有不同的人
口數(shù)量及特點,例如居住人口數(shù)量、工作人口數(shù)量、過往人口數(shù)量、居民戶數(shù)和
企事業(yè)單位數(shù),及相應(yīng)人口年齡、性別、職業(yè)和收入水平構(gòu)成等。商戶業(yè)務(wù)包是
指該商戶在經(jīng)營定位時所確定的主要消費群體。不同城市消費群占比不同,大致
可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個商業(yè)業(yè)務(wù)包。請根據(jù)
相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出城市商戶業(yè)務(wù)包相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)數(shù)據(jù)庫表格中“餐廳id,retailer_id,餐廳名稱,城市,商戶
業(yè)務(wù)包,配送范圍,客單價,推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,
欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),
整體時長,接單時長,到店時長,取餐時長,送達時長,商戶投訴數(shù),用戶投訴
數(shù),差評數(shù),好評數(shù),評價數(shù),最遠(yuǎn)訂單距離,該訂單整體時效,該訂單接單時
效,該訂單到店時效,該訂單取餐時效,該訂單送達時效,該訂單評價”等字段,
統(tǒng)計不同城市的商業(yè)業(yè)務(wù)包組成,并以雙餅圖表達。
程序輸出及可視化輸出時請使用商戶業(yè)務(wù)包中文釋義,中文釋義對應(yīng)關(guān)系如
表1所示。
字母縮寫中文釋義
GKA大客戶
BL白領(lǐng)
S1G小客戶
GX高效
FML家庭
OTH其他
表1商戶業(yè)務(wù)包中文釋義
具體任務(wù)要求:
1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,分析北京與深圳兩座城市在商戶業(yè)務(wù)包屬性占比
方面的差異。在PyCharm控制臺打印輸出兩座城市不同商戶業(yè)務(wù)包屬性的商家數(shù)
量,以商家數(shù)量降序排列。
示例格式:
==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==深圳:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
==深圳:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家===
2、使用Flask框架,結(jié)合Echarts,完成雙餅圖輸出。要求標(biāo)題分別為“北京商
戶業(yè)務(wù)包屬性占比”(左)、“深圳商戶業(yè)務(wù)包屬性占比”(右),順時針顯示次序
與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
任務(wù)四:玫瑰圖呈現(xiàn)投訴占比
任務(wù)背景:
投訴是顧客對平臺管理和服務(wù)不滿的表達方式,也是企業(yè)有價值的信息來源,
它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖
定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。請根據(jù)相關(guān)
數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計并輸出投訴相關(guān)的分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)數(shù)據(jù)庫表格,參考數(shù)據(jù)字段同可視化3、(數(shù)字任務(wù)編號),統(tǒng)計
北京地區(qū),不同“商戶業(yè)務(wù)包”的投訴數(shù)量,并以玫瑰圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)數(shù)據(jù)庫表格字段,統(tǒng)計北京地區(qū)不同商戶業(yè)務(wù)包投訴數(shù)量。在
PyCharm控制臺打印輸出不同商戶業(yè)務(wù)包的投訴數(shù)量,以投訴數(shù)降序排列。
示例格式:
==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===
==商戶業(yè)務(wù)包:***,投訴數(shù)量:***家===
2、使用Flask框架,結(jié)合Echarts,完成玫瑰圖輸出。要求標(biāo)題為“北京商戶業(yè)
務(wù)包投訴占比“,順時針顯示次序與打印語句數(shù)據(jù)一致,將可視化結(jié)果截圖并保
存(截圖需包含瀏覽器地址欄)。
任務(wù)五:柱狀堆疊圖呈現(xiàn)審核結(jié)果比例
任務(wù)背景:
外賣的配送范圍一般由外賣平臺的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實
際情況向平臺申請修改配送范圍。通常配送范圍并不是毫無棱角的圓形,因為這
種劃分并沒有因地制宜,是不合理的。最大配送距離指的是配送范圍中距離商家
最遠(yuǎn)的直線距離,最小配送距離則是配送范圍中距離商家最近的直線距離。在申
請配送范圍修改時,審核員將考慮實際道路限制、綜合運力成本、顧客等待時長
等因素,對配送范圍變更的申請進行考量,最終做出通過/拒絕/駁回的結(jié)果判定。
請根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出范圍審核相關(guān)分析圖例。
任務(wù)描述:
請根據(jù)數(shù)據(jù)庫相關(guān)表格數(shù)據(jù),統(tǒng)計審核通過與拒絕的范圍申請記錄數(shù)量,并
以柱狀堆疊圖表達。
具體任務(wù)要求:
1>根據(jù)相關(guān)表格中“id,Request_id,Walle_id,Retailer_id,retailer_name,
retailer_address,etailer_location,City_id,City_name,Grid_id,
Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,
first_auditor_candidate_ids,first_auditor_id,first_auditor_name,
second_auditor_role,second_auditor_candidate_ids,second_auditor_id,
second_auditor_name,status,max_distance_before_edit,
min_distance_before_edit,max_distance_after_edit,
min_distance_after_edit,area_before_edit,area_after_edit,created_at,
updated_at,申請時間,創(chuàng)建時間”等字段,匯總各二級審核人審批的申請數(shù)量,
并統(tǒng)計其中通過與拒絕的條數(shù)。在PyCharm控制臺打印輸出審核記錄數(shù)最多的
10位審核人id,審批總數(shù),以及其中通過與拒絕的條數(shù),按審批總數(shù)降序排列。
示例格式:
二1.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條
二2.二級審核人id:***,審批數(shù)量:***條,其中通過**條,拒絕**條
2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。要求標(biāo)題為“審
核通過與拒絕對比“,橫坐標(biāo)為審核人id,縱坐標(biāo)為審核記錄數(shù)。畫出審核數(shù)量
最多的10位二級審核人記錄審批情況,通過記錄數(shù)藍(藍色表示)上方疊加拒
絕和駁回記錄數(shù)(紅色表示),以審批總數(shù)降序排列。將可視化結(jié)果截圖并保存
(截圖需包含瀏覽器地址欄)。
任務(wù)六:散點地圖呈現(xiàn)各城市商家數(shù)量分布
任務(wù)背景:
近年來,我國外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場規(guī)模逐漸擴大,外賣
平臺已覆蓋全國所有省份。2019全年外賣交易超7274億元,截至2020年3月,
我國網(wǎng)上外賣及手機網(wǎng)上外賣用戶滲透率已達44虬2020年底,全國外賣總體訂
單量已超過171.2億單。為縱觀全國范圍內(nèi)外賣平臺簽約商家分布情況,請根據(jù)
相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出相關(guān)分析圖例。
任務(wù)描述:
請根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計不同城市商家數(shù)量,并散點地圖呈現(xiàn)。
具體任務(wù)要求:
1、根據(jù)相關(guān)表格,參考字段同可視化3、(任務(wù)數(shù)字編號),統(tǒng)計不同城市商家數(shù)
量。請在PyCharm控制臺以商家數(shù)量降序打印輸出城市名稱,商家數(shù)量。
示例格式:
==1.城市:***,商家***個===
==2.城市:***,商家***個===
2、使用Flask框架,結(jié)合Echarts,完成散點地圖輸出。標(biāo)題為“各城市商家數(shù)
量散點地圖”。將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。
模塊E:綜合分析(20分)
通過模塊B的網(wǎng)站分析及數(shù)據(jù)爬取、模塊C的數(shù)據(jù)清洗與分析及
模塊D的可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺業(yè)務(wù)背景
及相關(guān)數(shù)據(jù),在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進行
分析,并編寫分析報告。
請根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報告。分別從商家
價值聚類、推單差值等維度對外賣平臺推廣情況與網(wǎng)格銷售表現(xiàn)進行
分析,并平臺經(jīng)營提出幾點建議。
分析報告要求:
任務(wù)一:商家聚類分析
結(jié)合平臺相關(guān)數(shù)據(jù)文件,以雷達圖表示4類商家在核心屬性集上的聚類表現(xiàn)。
說明商家聚類對平臺發(fā)展的用途及經(jīng)營策略影響。分別以文字描述和圖例進行說
明。
任務(wù)二:各地區(qū)商戶業(yè)務(wù)包分析
結(jié)合模塊D可視化分析中對不同地區(qū)商戶業(yè)務(wù)包的統(tǒng)計結(jié)果,說明圖表有哪
些差異?說明了什么問題?分別以文字描述和圖例進行說明。
任務(wù)三:平臺規(guī)劃建議
請結(jié)合平臺業(yè)務(wù)背景及相關(guān)分析結(jié)論,對平臺未來規(guī)劃提出建議(不少于3
條建議)。
附錄:補充說明
數(shù)據(jù)集中涉及字段及中文說明:
poi:pointofinterest興趣點
數(shù)據(jù)表字段中文釋義:
原字段中文釋義
city_name城市
location商圈
latitude緯度
longtitude經(jīng)度
rest_type商家所屬平臺
platform_A_restid商家id(A平臺)
A_rst_name店鋪名稱(A平臺)
A_day_30_cnt30天銷量(A平臺)
platform_B_restid商家id(B平臺)
B_rst_name店鋪名稱(B平臺)
B_day_30_cnt30天銷量(B平臺)
籍單薪-9推單數(shù)(9日)
有效完成率-9有效完成率(9日)
超時率-9超時率(9日)
推單數(shù)-8推單數(shù)(8日)
有效完成率-8有效完成率(8日)
超時率-8超時率(8日)
灰度餐廳灰度餐廳
id標(biāo)識id
Request_id請求id
Walle_id(平臺)商鋪id
Retailer_id(配送系統(tǒng))商鋪id
retailer_name商鋪名稱
retailer_address商鋪地址
retailer_location位置P0I編碼
City_id城市id
City_name城市名稱
Grid_id網(wǎng)格id
Carrier_id渠道經(jīng)理
Team_id渠道小組
Applicant_id申請人id
Applicant_name申請人
first_auditor_ro1e一級審批角色
first_auditor_candidate_ids候選審批人id
first_auditor_id審核人id
first_auditor_name審批人名
second_auditorrole二級審批角色
second_auditor_candidate_ids審核小組成員
second_auditor_id二級審核人id
second_auditor_name二級審核人名
status申請狀態(tài)
max_distance_before_edit申請前最大配送距離
min_distance_before_edit申請前最小配送距離
max_distance_after_edit申請后最大配送距離
min_distanceafter_edit申請后最小配送距離
area_before_edit申請前配送面積
area_after_edit申請前配送面積
created_at申請遞交時間
updated_at審核完成
申請時間申請時間
創(chuàng)建時間創(chuàng)建時間
餐廳id餐廳id
餐廳名稱餐廳名稱
所屬城市所屬城市
營業(yè)時長營業(yè)時長
餐廳狀杰餐廳狀杰
是否托管是否托管
總單量總單量
總單量增長率總單量增長率
有效訂單量有效訂單量
有效訂單增長率有效訂單增長率
訂單配送成功率訂單配送成功率
超時訂單率超時訂單率
無效訂單率無效訂單率
平均預(yù)計送達時長平均預(yù)計送達時長
平均實際配送時長平均實際配送時長
當(dāng)前配送面積當(dāng)前配送面積
面積變更值面積變更值
網(wǎng)格id
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Module 8 Sports Life Unit 1 教學(xué)設(shè)計 2024-2025學(xué)年外研版九年級英語上冊
- 副會長聘用合同范本
- 前置物業(yè)合同范本
- 勞務(wù)分包泥工合同范本
- 公墓bot項目合同范本
- gps銷售合同范本
- 2024年新疆格瑞汀新材料科技有限公司招聘考試真題
- 七人合同范本
- 勞務(wù)裝修合同范本
- 2024年黑龍江省選調(diào)考試真題
- 口腔正畸學(xué)單詞
- 2022牛排消費趨勢報告
- TPM╲t4Step Manul(三星TPM絕密資料)
- 細(xì)菌群體感應(yīng)系統(tǒng)及其應(yīng)用課件
- 司法鑒定程序通則(試行)
- 內(nèi)襯修復(fù)用HTPO管材企標(biāo)
- 部編教材一年級下冊生字筆順筆畫
- 通達信指標(biāo)——江恩輪
- 二維火收銀使用手冊
- 神經(jīng)電生理檢查ppt課件
- 管路滑脫風(fēng)險評估表
評論
0/150
提交評論