2022年甘肅省職業(yè)技能大賽大數(shù)據(jù)技術與應用賽項試題A_第1頁
2022年甘肅省職業(yè)技能大賽大數(shù)據(jù)技術與應用賽項試題A_第2頁
2022年甘肅省職業(yè)技能大賽大數(shù)據(jù)技術與應用賽項試題A_第3頁
2022年甘肅省職業(yè)技能大賽大數(shù)據(jù)技術與應用賽項試題A_第4頁
2022年甘肅省職業(yè)技能大賽大數(shù)據(jù)技術與應用賽項試題A_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2022甘肅省職業(yè)院校技能大賽高職組“大數(shù)據(jù)技術與應用”賽項賽卷(1卷)任務書參賽隊編號:背景描述據(jù)央視財經(jīng)報道,2020年我國O2O市場規(guī)模突破萬億元,O2O市場存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場較大份額,并且業(yè)務增長迅速。截至2020年底,全國外賣總體訂單量已超過171.2億單,同比增長7.5%,全國外賣市場交易規(guī)模達到8352億元,同比增長14.8%。我國外賣用戶規(guī)模已接近5億人,其中80后、90后是餐飲外賣服務的中堅消費力量,消費者使用餐飲外賣服務也不再局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費者的外賣新寵。為把握這一商業(yè)機遇,ChinaSkills公司計劃進駐外賣平臺市場,現(xiàn)需對大規(guī)模成熟外賣平臺進行詳細評估調(diào)研,采集多方多維度數(shù)據(jù),尋找行業(yè)痛點,摸清市場需求,以技術為手段為投資保駕護航。為完成該項工作,你所在的小組將應用大數(shù)據(jù)技術,以Python、Java、Scala作為整個項目的基礎開發(fā)語言,基于大數(shù)據(jù)平臺綜合利用MapReduce、Spark、MySQL、Scrapy、Flask、ECharts等,對數(shù)據(jù)進行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實現(xiàn)對公司未來的重點戰(zhàn)略方向提出建議。你們作為該小組的技術人員,請按照下面任務完成本次工作,并編制綜合報告。模塊A:大數(shù)據(jù)平臺及組件的部署管理(15分)環(huán)境說明:服務端登錄地址詳見各模塊服務端說明。補充說明:各節(jié)點可通過XShell工具進行SSH訪問;主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/123456;相關軟件安裝包在主節(jié)點的/chinaskills目錄下,請選擇對應的安裝包進行安裝,用不到的可忽略;所有模塊中應用命令必須采用絕對路徑。任務一:HadoopHA部署管理本環(huán)節(jié)需要使用root用戶完成相關配置,安裝Hadoop需要配置前置環(huán)境,具體部署要求如下:將master節(jié)點JDK安裝包解壓并移動到/usr/local/src路徑下,將命令復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;設置JDK環(huán)境變量,并使環(huán)境變量只對當前root用戶生效,配置完畢后在master節(jié)點分別執(zhí)行“java”和“javac”命令,將命令行執(zhí)行結果分別截圖并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;請完成host相關配置,將三個節(jié)點分別命名為master、slave1、slave2,從master復制JDK環(huán)境變量文件以及JDK解壓后的安裝文件到slave1、slave2節(jié)點,將全部復制命令復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;配置SSH免密登錄,實現(xiàn)從master登錄到slave1,將登錄命令和執(zhí)行結果復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;Zookeeper配置完畢后,分別在3個節(jié)點啟動Zookeeper,并在slave2節(jié)點查看ZooKeeper運行狀態(tài),將查看命令和結果復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;ZooKeeper、HadoopHA配置完畢后,請將nodes.hadoopcluster設置為nn1,nn2并在master節(jié)點啟動Hadoop,并查看服務(nn1,nn2)進程狀態(tài),并將查看命令及結果復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;HadoopHA配置完畢后,在slave1節(jié)點查看服務進程,將查看命令及結果復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下。任務二:Hive部署管理本環(huán)節(jié)需要使用root用戶完成相關配置,已安裝Hadoop及需要配置前置環(huán)境,具體部署要求如下:將master節(jié)點Hive安裝包解壓并移動到/usr/local/src下,將命令復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;把解壓后的apache-hive-1.2.2-bin文件夾更名為hive;進入hive文件夾使用ls進行查看,并將查看結果復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;設置Hive環(huán)境變量,并使環(huán)境變量只對當前root用戶生效;并將環(huán)境變量配置內(nèi)容復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;將Hive安裝目錄里hive-default.xml.template文件更名為hive-site.xml;并將更改命令復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;修改hive-site.xml配置文件,將MySQL數(shù)據(jù)庫作為Hive元數(shù)據(jù)庫。將配置文件中配置Hive元存儲的相關內(nèi)容復制并粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安裝目錄的lib文件夾下;并通過schematool命令執(zhí)行初始化,將初始化結果復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;完善其他配置并啟動Hive,將命令行輸出結果復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下。任務三:Sqoop組件部署管理本環(huán)節(jié)需要使用root用戶完成相關配置,已安裝Hadoop及需要配置前置環(huán)境,具體部署要求如下:將master節(jié)點Sqoop安裝包解壓,修改解壓后文件夾名為sqoop并移動到/usr/local/src路徑下,將全部命令復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;修改Sqoop環(huán)境變量,并使環(huán)境變量只對當前root用戶生效,并將環(huán)境變量修改內(nèi)容復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;修改并配置sqoop-env.sh文件,并將修改內(nèi)容復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下;測試Sqoop連接master節(jié)點的MySQL數(shù)據(jù)庫是否成功并展示所有的database,并將連接命令復制粘貼至客戶端桌面【Release\模塊A提交結果.docx】中對應的任務序號下。模塊B:數(shù)據(jù)采集與處理(20分)項目背景說明查看餐飲外送統(tǒng)計平臺網(wǎng)站源碼結構。網(wǎng)站前后臺地址詳見各模塊服務端說明;打開網(wǎng)站,在網(wǎng)頁中右鍵點擊檢查,或者F12快捷鍵,查看源碼頁面;檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。從餐飲外送統(tǒng)計平臺中采集需要數(shù)據(jù),按照要求使用Python語言編寫代碼工程,獲取指定數(shù)據(jù)項,并對結果數(shù)據(jù)集進行必要的數(shù)據(jù)處理。請將符合任務要求的結果復制粘貼至對應報告中。具體步驟如下:創(chuàng)建工程項目:C:\food_delivery_crawl構建采集請求按要求定義相關字段獲取有效數(shù)據(jù)將獲取到的數(shù)據(jù)保存到指定位置對數(shù)據(jù)集進行基礎的數(shù)據(jù)處理至此已從餐飲外送統(tǒng)計平臺中獲取所需數(shù)據(jù),并完成了必要的基礎的數(shù)據(jù)處理。每條數(shù)據(jù)記錄請以單獨一行保存,信息存儲格式為key:value。文件保存路徑為:C:\crawl_output。示例:[{"key1":"***","key2":"***",……},{"key1":"***","key2":"***",……},……]任務一:爬取網(wǎng)頁信息自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“配送平臺數(shù)據(jù)”與“店鋪運營數(shù)據(jù)”頁面相關數(shù)據(jù),通過爬蟲代碼分頁爬取,將使用re解析分頁鏈接的程序源代碼(正則表達式需能體現(xiàn)url的構造規(guī)律)復制粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。任務二:爬取數(shù)據(jù)至指定文件運行代碼,爬取“配送平臺數(shù)據(jù)”與“店鋪運營數(shù)據(jù)”頁面相關數(shù)據(jù)分別至distribution_data.json與store_operation.json文件。查看文件并填寫采集到的記錄行數(shù),并將以下內(nèi)容及答案在PyCharm控制臺打印輸出,將輸出結果截圖粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。打印示例格式:distribution_data.json行數(shù)為:store_operation.json行數(shù)為:任務三:屬性判斷審查爬取的distribution_data.json數(shù)據(jù),判斷屬性“申請遞交時間”與“申請時間”是否為重復屬性。如果為重復屬性,則刪除“申請時間”字段,并在Pycharm控制臺打印輸出“是重復屬性,處理過后的前10條數(shù)據(jù)為:”以及前10條數(shù)據(jù)記錄并截圖(由于字段數(shù)可能較多會有省略號,所以截圖中務必顯示**rowsx**columns即幾行幾列);如果不是重復屬性,則在Pycharm控制臺打印輸出“不是重復屬性,數(shù)據(jù)集中這兩個字段值不相同的記錄條數(shù)為:”以及數(shù)據(jù)集中數(shù)值不相同的記錄條數(shù)并截圖。將打印輸出結果截圖粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。任務四:數(shù)據(jù)探索針對爬取的store_operation.json數(shù)據(jù),首先對數(shù)據(jù)中存在“%”的數(shù)值進行“%”刪除(只刪除“%”,不對數(shù)值做除以100的操作),再利用DataFrame.describe方法探索數(shù)據(jù)基本情況,在Pycharm控制臺打印輸出探索結果,將輸出結果截圖粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。任務五:缺失值統(tǒng)計針對任務四處理后的store_operation.json數(shù)據(jù)中缺失值較多的屬性“推單數(shù)(8日)”,“有效完成率(8日)”,“超時率(8日)”,請分別計算下列任務,并將以下內(nèi)容及答案復制粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。(1)屬性“推單數(shù)(8日)”空值記錄條數(shù)為:,平均值為:。(2)屬性“有效完成率(8日)”空值記錄條數(shù)為:,平均值為:。(3)屬性“超時率(8日)”空值記錄條數(shù)為:,平均值為:。任務六:缺失值處理請根據(jù)任務五中計算的結果,對數(shù)據(jù)集中存在空值的字段使用均值進行填充。在Pycharm控制臺打印輸出數(shù)據(jù)集前5條記錄,將輸出結果截圖粘貼至客戶端桌面【Release\模塊B提交結果.docx】中對應的任務序號下。模塊C:數(shù)據(jù)清洗與挖掘分析(25分)環(huán)境說明:服務端登錄地址詳見各模塊服務端說明。補充說明:各主機可通過XShell工具進行SSH訪問,并且已安裝好大數(shù)據(jù)集群;主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/Password123$;清洗數(shù)據(jù)源在主節(jié)點的/chinaskills目錄下;所有模塊中應用命令必須采用絕對路徑。項目背景說明餐飲外賣平臺的核心價值體現(xiàn)在配送,而配送的價值則依賴于商家與客戶的雙向選擇。外賣平臺通常會通過內(nèi)容激活消費者和商家兩個群體的活躍度。消費者會參考平臺展示的內(nèi)容選擇商家,商家也會以消費者評價與平臺統(tǒng)計數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用戶下單、評論、形成正向循環(huán)。保證配送的時效與品質(zhì)是從優(yōu)化用戶體驗的角度,吸引更多的用戶參與,進而帶動商家不斷入駐。由此,商家、消費者、騎手在平臺上形成越來越多的真實可靠的數(shù)據(jù),幫助消費者更好的做出消費決策,同時促進商家提高服務質(zhì)量。而平臺通過數(shù)據(jù),不斷調(diào)整優(yōu)化服務,從而不斷提升這種多邊網(wǎng)絡效應。提升網(wǎng)絡效應的直接結果就是用戶和商家規(guī)模大幅提升,進而形成規(guī)模效應——降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。為探索各大外賣平臺的市場策略與經(jīng)營模式,現(xiàn)已從平臺獲取到了原始數(shù)據(jù)集,包含“餐廳ID,城市,商戶業(yè)務包,配送范圍”等多項字段。為保障用戶隱私和行業(yè)敏感信息,已經(jīng)對數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對真實數(shù)據(jù)進行改造并提供測試使用,如身份證號、手機號等個人敏感信息都需要進行數(shù)據(jù)脫敏。工程所需配置文件pom.xml存放于客戶端“桌面\Resource\數(shù)據(jù)清洗與挖掘分析配置文件”下。任務中所有命令務必使用絕對路徑。任務一:數(shù)據(jù)清洗子任務1任務背景:數(shù)據(jù)源為眾多網(wǎng)站及平臺的數(shù)據(jù)匯總,且為多次采集的結果,在整合多來源數(shù)據(jù)時可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導致的屬性列矛盾等情況。請根據(jù)任務具體參數(shù)要求,針對原始數(shù)據(jù)集中不符合業(yè)務邏輯的屬性列進行清洗,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件,復制并保存結果。任務描述:數(shù)據(jù)源文件存放于master節(jié)點/chinaskills目錄下,其中屬性“推單數(shù)”是指外賣平臺通過顧客點單向商家推送的訂單數(shù)量,“接單數(shù)”為商家根據(jù)自身情況,最終選擇接受訂單的數(shù)量。一般來說,商家對于平臺推送的訂單,排除自身原因,例如原材料耗盡、用戶下單時店鋪已經(jīng)打烊等特殊情況,都會選擇接單。請按照如下要求編寫Spark程序?qū)?shù)據(jù)進行清洗,并將結果輸出HDFS文件系統(tǒng)/diliveryoutput1目錄(自行創(chuàng)建)下。分析/chinaskills中json數(shù)據(jù)文件針對屬性列“推單數(shù)”、“接單數(shù)”,排查并刪除異常數(shù)據(jù)條目程序打包并在Spark(Standalone模式)集群上運行,結果輸出至HDFS文件系統(tǒng)/diliveryoutput1目錄(自行創(chuàng)建)下具體任務要求:1、將master節(jié)點/chinaskills中json數(shù)據(jù)源文件上傳至HDFS新建目錄/platform_data中,編寫Spark程序,剔除屬性列“推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條目,并在XShell命令行中以打印語句輸出異常條數(shù)。將打印輸出結果截圖并粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。(截圖內(nèi)容需包含打印語句輸出結果的上下各5行運行日志)。打印示例格式:===“推單數(shù)”小于“接單數(shù)”的異常數(shù)據(jù)條數(shù)為***條===2、程序打包并在Spark平臺運行,將剔除異常數(shù)據(jù)后的結果數(shù)據(jù)集json文件輸出至HDFS文件系統(tǒng)/diliveryoutput1(將分區(qū)數(shù)設置為1)。并在XShell命令行中使用HadoopShell相關命令直接查看輸出文件前5條記錄,將查看命令與執(zhí)行結果復制粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。子任務2任務背景:客單價是指客戶在該商鋪下一單的平均支付價格。根據(jù)商家定位不同,可以分為高客單價和低客單價。高客單價,單量一般表現(xiàn)平平;低單價則通常會獲得更高的單量。不同的定價針對的消費人群不同、選擇的位置不同、營業(yè)的時間也不同。高客單價的品類偏向于白領人群,一般說來辦公樓覆蓋越多的位置越好,但是辦公樓并不一定都是白領人群,所以辦公樓也要區(qū)分區(qū)域性,客戶行業(yè)越是前沿的,具備消費能力越高,但晚上和周末的單量一般較少。低客單價的品類偏向于大眾化,選址優(yōu)先辦公/大學區(qū)/小區(qū)綜合覆蓋區(qū)域,滿足低消費與一般消費能力用戶群。當前數(shù)據(jù)源因涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于人為操作失誤或計算機故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一種常見的臟數(shù)據(jù)情況。對于缺失值的處理,從總體上來說分為缺失值刪除和缺失值插補兩種處理方式。當缺失值過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進行填補,則數(shù)據(jù)分析結果可能會受到干擾,有失客觀性。結合行業(yè)數(shù)據(jù)本身特點及上述考慮,對于數(shù)據(jù)集中數(shù)值字段缺失的情況,通??梢圆捎锰畛涔潭ㄖ怠⒕?、中位數(shù)、KNN填充、以及把缺失值作為新的label等方式處理。同時,不當?shù)奶畛淇赡軙詈罄m(xù)的分析結果出現(xiàn)導向性偏差,當缺失信息的記錄數(shù)較少時可采用刪除的方式來進行處理。下面請根據(jù)任務具體參數(shù)要求處理關鍵字段缺失。任務描述:請以前置任務的結果數(shù)據(jù)集/diliveryoutput1目錄下的數(shù)據(jù)作為輸入數(shù)據(jù)源,編寫Spark程序,按照如下要求實現(xiàn)對數(shù)據(jù)的清洗,并將結果輸出。解析/diliveryoutput1中的文件針對數(shù)據(jù)集“客單價”屬性,審查缺失值數(shù)量當缺失值比例小于5%時,對包含缺失值數(shù)據(jù)的樣本進行刪除當缺失值比例大于5%時,對缺失值字段進行中位數(shù)填充程序打包并在Spark(Standalone模式)集群上運行,結果json文件輸出至HDFS文件系統(tǒng)/diliveryoutput2目錄(自行創(chuàng)建)下具體任務要求:1、根據(jù)任務要求,編寫Spark程序,針對數(shù)據(jù)集“客單價”屬性,審查缺失值數(shù)量,并在XShell命令行中打印輸出,將打印輸出結果截圖并粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下(截圖內(nèi)容需包含打印語句輸出結果的上下各5行運行日志)。打印示例格式:===“客單價”屬性缺失記錄為***條,缺失比例**%===2、缺失值處理a)當缺失比例小于5%時,對含缺失值數(shù)據(jù)記錄進行刪除,同時將在XShell命令行中的打印輸出結果截圖并粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下(截圖內(nèi)容需包含打印語句輸出結果的上下各5行運行日志):打印示例格式:===“客單價”缺失記錄已刪除===b)當缺失比例大于5%時,利用“客單價”屬性中位數(shù)對缺失值進行填充,并將中位數(shù)在XShell命令行中打印輸出,將打印輸出結果截圖并粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下(截圖內(nèi)容需包含打印語句輸出結果的上下各5行運行日志)。打印示例格式:===“客單價”屬性中位數(shù)為***天===3、將清洗后的數(shù)據(jù)集json文件輸出至/diliveryoutput2(將分區(qū)數(shù)設置為1),并在XShell命令行中使用HadoopShell相關命令直接查看輸出文件前5條記錄,將查看命令與執(zhí)行結果復制粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。子任務31、讀取大數(shù)據(jù)集群HDFS文件系統(tǒng)中/aggr_wm目錄下的json數(shù)據(jù),使用Spark將city_rst_info根據(jù)’/t’拆分并按照city_name,A_rst_name,status,order進行字典排序,將數(shù)據(jù)保存為json文件,將分區(qū)數(shù)設置為1并保存至目錄HDFS文件系統(tǒng)/diliveryoutput8目錄(自行創(chuàng)建)下,在XShell命令行中使用HadoopShell相關命令直接查看前10條記錄,將查看命令及結果截圖粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。源數(shù)據(jù):字段名中文解釋備注city_name城市例如:北京city_rst_info城市中的參觀相關信息字段內(nèi)容為:A_rst_name:餐廳狀態(tài):訂單數(shù)/tA_rst_name:餐廳狀態(tài):訂單數(shù)…例如:北京常來飯店:正常:406/t喜樂多:異常:385/t拆分后格式為:字段名中文解釋備注city_name城市名稱A_rst_name餐廳名稱status狀態(tài)order訂單數(shù)例如:city_nameA_rst_namestatusorder北京常來飯店正常406北京喜樂多異常3852、基于/diliveryoutput8中的數(shù)據(jù),使用Spark,在同一城市中,按照order進行跳躍順序排序生成seq字段(order值相同,則排序是一樣的,下一個排序會跳過,例如前兩條數(shù)據(jù)的order值相同并和第3條的order值不同,則排序的seq值為1,1,3),再按照city_name,seq,A_rst_name,status進行字典順序排序,并生成索引序列index,將分區(qū)數(shù)設置為1并保存至HDFS文件系統(tǒng)/diliveryoutput9目錄(自行創(chuàng)建)下,格式為json文件,在XShell命令行中使用HadoopShell相關命令直接查看前10條記錄,將查看命令及結果截圖粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。格式為:字段名中文解釋備注index索引序列例如:1,2,3,4,5city_name城市名稱A_rst_name餐廳名稱status餐廳狀態(tài)例如:正常/異常order訂單數(shù)seq組內(nèi)排序序列例如:1,1,3,3,5任務二:數(shù)據(jù)挖掘分析任務背景:聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法,同時也是數(shù)據(jù)挖掘的一個重要算法。聚類分析是由若干模式組成的。通常,模式是一個度量的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎,同一個聚類簇中的模式之間具有相似性,不同聚類簇之間具有相異性。在商業(yè)上,聚類可以幫助平臺市場分析人員從數(shù)據(jù)中區(qū)分出不同的商家群體,并提取每一類商家的經(jīng)營模式。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)中的深層的信息,并且提取出每一類樣本的特點,或者把注意力放在某一個特定的類上以作進一步的分析;同時,聚類分析也可以作為數(shù)據(jù)挖掘算法中其他分析算法的一個預處理步驟。本題數(shù)據(jù)請采用數(shù)據(jù)清洗任務的子任務2的輸出文件/diliveryoutput2中的數(shù)據(jù)文件。選擇數(shù)據(jù)分析的維度通常分為用戶維度、行為維度和產(chǎn)品維度,想要對外賣平臺入駐商家進行聚類劃分,有側(cè)重地分類評估商家對平臺的價值,首先需要針對商家數(shù)據(jù)選擇核心數(shù)據(jù)集,為確保聚類模型收斂速度與質(zhì)量,以及消除量綱對聚類結果的影響,首先應對數(shù)據(jù)進行歸一化或標準化處理,再進行數(shù)據(jù)建模。任務描述:請以數(shù)據(jù)清洗子任務2的結果數(shù)據(jù)集/diliveryoutput2目錄下的數(shù)據(jù)作為輸入數(shù)據(jù)源,按照如下要求編寫Spark程序?qū)崿F(xiàn)對數(shù)據(jù)的分析,并將結果輸出至HDFS文件系統(tǒng)中/diliveryoutput3目錄(自行創(chuàng)建)下。解析/diliveryoutput2中的文件提取商家數(shù)據(jù)核心屬性針對商家核心屬性進行預處理利用處理過的核心屬性集完成商家聚類具體任務要求:1、針對相關數(shù)據(jù)集抽取北京地區(qū)(“所屬城市”字段為“北京”)相關數(shù)據(jù)記錄,并計算商家好評比,將“好評比”作為新屬性添加至最后一列。將結果數(shù)據(jù)集json文件輸出至/diliveryoutput3(自行創(chuàng)建,將分區(qū)數(shù)設置為1),并在XShell命令行中使用HadoopShell相關命令直接查看輸出文件前5條記錄,將查看命令與執(zhí)行結果復制粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下?!竞迷u比計算公式:好評比=好評數(shù)/評價數(shù)】2、根據(jù)/diliveryoutput3中輸出的結果數(shù)據(jù)集,篩選4項核心屬性集:“商戶業(yè)務包”,“接單數(shù)”,“客單價”,“好評比”,數(shù)據(jù)記錄以接單數(shù)降序排列。將結果數(shù)據(jù)集json文件輸出至/diliveryoutput4(自行創(chuàng)建,將分區(qū)數(shù)設置為1),并在XShell命令行中使用HadoopShell相關命令直接查看輸出文件前5行,將查看命令及結果截圖粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。3、由于核心數(shù)據(jù)集中“商戶業(yè)務包”為分類屬性,請將該屬性設置為啞變量(該啞變量不參與聚類運算);同時對屬性“接單數(shù)”,“客單價”進行max-min歸一化,以實現(xiàn)對核心屬性的預處理。將處理后的結果數(shù)據(jù)集json文件以接單數(shù)降序排列,輸出至/diliveryoutput5(自行創(chuàng)建,將分區(qū)數(shù)設置為1),并在XShell命令行中使用hadoopshell相關命令直接查看輸出文件前5條記錄,將查看命令及結果截圖粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下?!練w一化公式:x'=(x-X_min)/(X_max-X_min)】4、基于“接單數(shù)”、“客單價”、“好評比”對商家進行k-means聚類,聚類數(shù)設為4,迭代次數(shù)為2000次,請在XShell命令行中以打印語句輸出聚類中心,及每個類的商家數(shù),將輸出結果截圖粘貼至客戶端桌面【Release\模塊C提交結果.docx】中對應的任務序號下。打印示例格式:==cluster0:聚類中心為[****]=商家數(shù)為***個=====cluster1:聚類中心為[****]=商家數(shù)為***個===……模塊D:數(shù)據(jù)可視化(20分)MySQL數(shù)據(jù)庫中的相關數(shù)據(jù)集包含了城市、地點、商家標識id、網(wǎng)格ID、餐品種類、標品屬性等多項基礎信息字段。請使用Flask框架,結合ECharts完成下列任務。數(shù)據(jù)庫地址信息詳見各模塊服務端說明自行創(chuàng)建代碼工程路徑為C:\food_delivery任務一:氣泡圖呈現(xiàn)商家數(shù)量任務背景:商圈,指某商場以其所在地為原點,沿著一定的方向和距離擴展,吸引顧客的輻射范圍。簡單地說,就是來店顧客所居住或工作的區(qū)域范圍。無論餐廳規(guī)模大小,其銷售覆蓋區(qū)域總是有一定的地理范圍。這個地理范圍就是以某商場為中心,向四周輻射到可能來店消費的顧客居住地或工作地。請按任務指定要求,輸出相關圖例。任務描述:請根據(jù)數(shù)據(jù)庫store_basic_informations數(shù)據(jù)表中的字段,明晰商圈與商家聚集程度之間的關系。請以經(jīng)度為橫坐標,緯度為縱坐標,繪制商家數(shù)量氣泡圖,并以該商圈的商家數(shù)量/10作為氣泡半徑。具體任務要求:1、提取數(shù)據(jù)表相關字段,在控制臺按照“商家數(shù)量”降序排列,打印輸出前10個商圈名稱及包含的商家數(shù)量,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印示例格式:==1:商圈****=商家數(shù)為***個=====2:商圈****=商家數(shù)為***個===……2、使用Flask框架,結合Echarts,完成氣泡圖輸出。要求氣泡圖標題為“商家聚集地理位置展示”,橫坐標為經(jīng)度,縱坐標為緯度,以該商圈的商家數(shù)量/10作為氣泡半徑,繪制氣泡圖(含全部商圈數(shù)據(jù))。將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。任務二:雙折線圖呈現(xiàn)市場占有率任務背景:市場份額亦稱“市場占有率”。指某企業(yè)的銷售量(或銷售額)在市場同類品類中所占比重。反映企業(yè)在市場上的地位。通常市場份額越高,競爭力越強。市場占有率一般有3種基本測算方法:(1)總體市場份額,指某企業(yè)銷售量在整個行業(yè)中所占比重。(2)目標市場份額,指某企業(yè)銷售量在其目標市場,即其所服務的市場中所占比重。(3)相對市場份額,指某企業(yè)銷售量與市場上最大競爭者銷售量之比,若高于1,表明該企業(yè)其為這一市場的領導者。請按任務指定要求,輸出不同平臺商家銷售分析相關圖例。任務描述:請根據(jù)store_basic_informations數(shù)據(jù)表中的數(shù)據(jù),分別統(tǒng)計A平臺與B平臺30天銷量最高的10個商家的銷量,并以共享y軸的雙折線圖呈現(xiàn)。具體任務要求:1、根據(jù)相關數(shù)據(jù)表中city_name,location,latitude,longitude,rest_type,platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,B_rst_name,B_day_30_cnt等字段,分別統(tǒng)計A平臺與B平臺30天銷量最高的10個商家及銷量,在控制臺按照“30天銷量”降序打印輸出商家標識id,商家名稱,商家所屬平臺,及30天銷量,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印示例格式:==商家標識id:“商家名稱”,Platform-A,銷量為***=====商家標識id:“****”,Platform-A,銷量為***===……==商家標識id:“****”,Platform-A,銷量為***=====商家標識id:“商家名稱”,Platform-B,銷量為***=====商家標識id:“****”,Platform-B,銷量為***===……==商家標識id:“****”,Platform-B,銷量為***===2、使用Flask框架,結合Echarts,完成可視化輸出。要求雙折線圖標題為“各平臺30天銷量最高10大商家”,橫坐標為商家標識id,下方為平臺A的橫坐標,上方為平臺B的橫坐標(傾斜顯示、互不遮擋),縱坐標為商家銷量,以銷量降序排列,藍色折線標識Platform-A商家,紅色折線標識Platform-B商家。將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。任務三:餅狀圖呈現(xiàn)標品屬性任務背景:外賣平臺的“標品屬性”是指外賣的配送方式,一般說來分為眾包、專送、自營銷三種方式。其中,專送的穩(wěn)定性最高,專送騎手是配送商的正式員工,且接單模式是平臺派單,所以惡劣天氣也很少會出現(xiàn)無人接單的尷尬情況。眾包則是兼職配送員,以搶單的方式接單配送,所以一些“難送”或者惡劣天氣時的訂單經(jīng)常會出現(xiàn)無人接單的情況。這將導致商家大量訂單積壓送不出去,從而被迫關店。從穩(wěn)定性上來講,專送要遠遠優(yōu)于眾包和快送。但專送的配送范圍相對較小,在2km左右,對于一些快餐品類來說更為合適,但是對于一些高客單價的細分品類來說,2km的配送范圍很難拓展單量。請根據(jù)相關數(shù)據(jù)集,按任務指定要求,輸出配送方式相關分析圖例。任務描述:請根據(jù)數(shù)據(jù)庫distribution_operation數(shù)據(jù)表中的數(shù)據(jù),統(tǒng)計不同標品屬性的商家數(shù)量,并以餅狀圖表達。(餐廳即為商家)具體任務要求:1、根據(jù)相關數(shù)據(jù)表的網(wǎng)格ID,戰(zhàn)團,餐廳ID,近7天平臺單量,近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性等字段,統(tǒng)計不同標品屬性的餐廳數(shù)量。請將標品屬性“專送KA”合并至“專送”中,“眾包平臺”合并至“眾包”中。在控制臺以餐廳數(shù)量降序打印輸出標品屬性,餐廳數(shù)量,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印示例格式如下:==自營銷:商家***個=====眾包:商家***個=====專送:商家***個===2、使用Flask框架,結合Echarts,完成餅圖輸出。要求餅圖標題為“標品屬性占比”,并標識該分類占比。將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。任務四:組圖(條形圖、玫瑰餅圖)呈現(xiàn)戰(zhàn)團數(shù)量任務背景:外賣平臺對商家業(yè)務的拓展主要由BD負責,BD(BussinessDeveloper)即為業(yè)務拓展經(jīng)理,工作職責是根據(jù)公司的業(yè)務戰(zhàn)略制定具體的戰(zhàn)略實施計劃,業(yè)務推廣計劃,商家上架計劃的達成跟進及分析,提供訂單銷售分析報告。同時負責調(diào)查區(qū)域品牌發(fā)展狀況,調(diào)研競品,為公司品牌發(fā)展提出相應建議。BD的上一層戰(zhàn)略組織為戰(zhàn)營、戰(zhàn)團。一般指在更大的地域范圍內(nèi)組成的銷售部門,存在共同的業(yè)務發(fā)展愿景和明確的績效考核指標。請根據(jù)相關數(shù)據(jù)集,按任務指定要求,輸出相關分析圖例。任務描述:請根據(jù)distribution_operation數(shù)據(jù)表中的數(shù)據(jù),統(tǒng)計不同戰(zhàn)團商家數(shù)量以及不同餐品種類占比,并以組圖表達。(餐廳即為商家)具體任務要求:1、請根據(jù)數(shù)據(jù)表中網(wǎng)格ID,戰(zhàn)團,餐廳ID,近7天平臺單量,近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性等字段,統(tǒng)計不同戰(zhàn)團的商家數(shù)量。請在控制臺以商家數(shù)量降序打印輸出前10的戰(zhàn)團名稱,商家數(shù)量,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印示例格式如下:==戰(zhàn)團:***,商家***個=====戰(zhàn)團:***,商家***個===……2、統(tǒng)計包含商家數(shù)量最多的戰(zhàn)團中,不同餐品種類的占比。請匯總前4位餐品種類商家數(shù),其他種類請歸并為“其他”(若“其他”種類商家數(shù)量排進前4,則除“其他”外再輸出4類餐品種類)。請在PyCharm控制臺以各餐品種類商家數(shù)降序打印輸出餐品種類,商家數(shù),將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印語句格式如下:==小吃夜宵,商家***個=====特色菜系,商家***個===……3、使用Flask框架,結合Echarts,完成組圖輸出。要求組圖左側(cè)輸出條形圖,標題為“Top10戰(zhàn)團商家數(shù)量”,縱坐標為戰(zhàn)團名,橫坐標為包含商家數(shù);組圖右側(cè)繪制玫瑰餅圖表達包含商家數(shù)量最多的戰(zhàn)團各餐品種類占比,標題為“**戰(zhàn)團餐品種類占比”。將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。任務五:柱狀圖呈現(xiàn)推單差值任務背景:網(wǎng)格化營銷是近年來新興的一種營銷管理模式,已被廣泛地運用于市場精準營銷。在市場營銷中,采取地圖營銷、網(wǎng)格管理、精準策略等,可將客戶的心理需求與其日常生活緊密地聯(lián)系起來,巧妙運用網(wǎng)格化管理和營銷地圖,以此來實現(xiàn)客戶的營銷精準度與價值提升,提高單一客戶貢獻值和營銷效率。其核心旨在幫助企業(yè)快速響應市場需求,為用戶提供更加便捷的、專業(yè)化服務,并使企業(yè)的資源分配以客戶為中心,以市場變化為導向,固本強基、開拓市場、提升效益,有助于平臺有效地制定績效戰(zhàn)略。請根據(jù)相關數(shù)據(jù)集,按任務指定要求,輸出相關分析圖例。任務描述:請根據(jù)數(shù)據(jù)庫distribution_operation數(shù)據(jù)表中的數(shù)據(jù),統(tǒng)計不同標品屬性的商家數(shù)量,并以餅狀圖表達。(餐廳即為商家)具體任務要求:1、請根據(jù)數(shù)據(jù)表中網(wǎng)格ID,戰(zhàn)團,餐廳ID,近7天平臺單量,近7天推單,餐廳名,餐廳地址(取餐地址),餐品種類,標品屬性等字段,統(tǒng)計不同網(wǎng)格“近7天平臺單量”,與“近7天推單”的差值。在控制臺以差值降序打印輸出前10位網(wǎng)格ID,戰(zhàn)團,推單差值,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印語句格式如下:==1網(wǎng)格ID:37ffed,戰(zhàn)團:****,推單差值為**=====2網(wǎng)格ID:37ffed,戰(zhàn)團:****,推單差值為**===……2、使用Flask框架,結合Echarts,完成柱狀圖輸出。以柱狀圖輸出推單差值前10位的戰(zhàn)團及差值,其中標題為“推單差值Top10”,橫坐標為戰(zhàn)團(若戰(zhàn)團名稱過長則傾斜顯示,互不遮擋),縱坐標為推單差值。將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。任務六:組圖(柱狀圖、玫瑰餅圖)呈現(xiàn)投訴比例任務背景:投訴是顧客對平臺管理和服務不滿的表達方式,也是企業(yè)有價值的信息來源,它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖定他們對平臺和產(chǎn)品的忠誠,已成為企業(yè)營銷實踐的重要內(nèi)容之一。商戶業(yè)務包是指該商戶在經(jīng)營定位時所確定的主要消費群體。不同城市消費群占比不同,大致可以分為大客戶,白領,小客戶,高校,家庭,其它六個商業(yè)業(yè)務包。請根據(jù)相關數(shù)據(jù)集,按任務指定要求,統(tǒng)計并輸出投訴相關的分析圖例。任務描述:請根據(jù)數(shù)據(jù)庫distribution_platform、store_basic_informations數(shù)據(jù)表中的相關字段,統(tǒng)計北京地區(qū),不同“商戶業(yè)務包”的商家數(shù)量及投訴數(shù)量,投訴數(shù)量為商戶投訴數(shù)和用戶投訴數(shù)之和,并以組圖呈現(xiàn)。程序輸出及可視化輸出時請使用商戶業(yè)務包中文釋義,中文釋義對應關系如表1所示。表1商戶業(yè)務包中文釋義字母縮寫中文釋義GKA大客戶BL白領SIG小客戶GX高校FML家庭OTH其他具體任務要求:1、根據(jù)相關數(shù)據(jù)庫數(shù)據(jù)表中的字段,統(tǒng)計北京地區(qū)不同商戶業(yè)務包屬性商戶數(shù)量及投訴數(shù)量,并在PyCharm控制臺打印輸出,請以投訴數(shù)量降序排列,將輸出結果截圖粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。打印示例格式如下:==1.商戶業(yè)務包:***,商家數(shù)量:***家,投訴數(shù)***條=====2.商戶業(yè)務包:***,商家數(shù)量:***家,投訴數(shù)***條===……2、使用Flask框架,結合Echarts,完成組圖輸出。請在左側(cè)畫出以不同商戶業(yè)務包屬性的商家數(shù)量降序排列的柱狀圖,標題為“北京商戶業(yè)務包商家數(shù)”,橫坐標位商戶業(yè)務包名稱,縱坐標位商家數(shù)量;請在右側(cè)畫出不同商戶業(yè)務包商家的投訴占比玫瑰圖,標題為“北京商戶業(yè)務包投訴占比”,順時針顯示次序與打印語句數(shù)據(jù)一致,將可視化結果截圖(截圖需包含瀏覽器地址欄)并粘貼至客戶端桌面【Release\模塊D提交結果.docx】中對應的任務序號下。模塊E:綜合分析(15分)任務一:Spark數(shù)據(jù)傾斜分析在處理C模塊時,查看SparkUI會發(fā)現(xiàn),大部分task運行速度極快,其中極小部分task運行速度極慢,我們稱這種情況為數(shù)據(jù)傾斜,請問造成數(shù)據(jù)傾斜的原因主要是什么?怎么定位問題出現(xiàn)在哪段代碼呢?將內(nèi)容編寫至客戶端桌面【Release\模塊E綜合分析.docx】中對應的任務序號下。任務二:解決數(shù)據(jù)傾斜當使用spark產(chǎn)生了數(shù)據(jù)傾斜的情況時,請問有哪些方法可以解決這個問題呢?將內(nèi)容編寫至客戶端桌面【Release\模塊E綜合分析.docx】中對應的任務序號下。任務三:參數(shù)調(diào)優(yōu)和平臺建議我們使用的是spark2.0,在處理大數(shù)據(jù)量的時候發(fā)現(xiàn)在聚合、連接等操作的時候,由于數(shù)據(jù)量過大,shuffle階段會發(fā)生溢寫(原本在內(nèi)存中的數(shù)據(jù)溢出到磁盤上,導致效率變低),自spark1.6之后,spark采用UnifiedMemoryManager,存儲內(nèi)存和計算內(nèi)存可以相互借調(diào),但是我們發(fā)現(xiàn)該內(nèi)存模型效果不理想,于是我們使用LegacyMode(靜態(tài)內(nèi)存系統(tǒng))并進行調(diào)參之后,發(fā)現(xiàn)效率提高幾倍,該系統(tǒng)的堆內(nèi)內(nèi)存主要是有三個部分,分別是Storage內(nèi)存區(qū)域(包含unroll,storage和reserved三個區(qū)域),Executi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論