基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析_第1頁
基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析_第2頁
基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析_第3頁
基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析_第4頁
基于tipdm數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于TipDM數(shù)據(jù)挖掘建模平臺實現(xiàn)餐飲企業(yè)綜合分析1平臺簡介目錄背景2快速構(gòu)建餐飲企業(yè)綜合分析工程3小結(jié)4本案例將介紹使用一種工具——TipDM數(shù)據(jù)挖掘建模平臺,通過該平臺實現(xiàn)餐飲企業(yè)綜合分析。相較于傳統(tǒng)Python解析器,TipDM數(shù)據(jù)挖掘建模平臺具有流程化、去編程化等特點,滿足不懂編程的用戶使用數(shù)據(jù)分析技術(shù)的需求。案例背景TipDM與Python1平臺簡介目錄背景2快速構(gòu)建餐飲企業(yè)綜合分析工程3小結(jié)4TipDM數(shù)據(jù)挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā)、基于Python引擎、用于數(shù)據(jù)分析的開源平臺。平臺提供數(shù)量豐富的數(shù)據(jù)分析組件,用戶可在沒有編程基礎(chǔ)的情況下,通過拖曳的方式進(jìn)行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,幫助用戶快速建立數(shù)據(jù)分析工程,提升數(shù)據(jù)處理的效能。TipDM數(shù)據(jù)挖掘建模平臺平臺的界面平臺的界面如下圖所示。組件:將建模過程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評估等算法分別進(jìn)行封裝,每一個封裝好的算法模塊稱為組件。工程:為實現(xiàn)某一數(shù)據(jù)分析目標(biāo),將各組件通過流程化的方式進(jìn)行連接,整個數(shù)據(jù)分析流程稱為一個工程。模板:分享建好的數(shù)據(jù)分析工程,其他用戶可以直接創(chuàng)建并運行,這樣的工程稱之為模板。概念平臺算法基于Python引擎,用于數(shù)據(jù)分析。Python是目前最為流行的用于數(shù)據(jù)分析的語言之一,高度契合行業(yè)需求。平臺已對所有用戶實現(xiàn)開源,用戶可在本地部署平臺,或?qū)ζ脚_進(jìn)行二次開發(fā),滿足個人使用需求。用戶可在沒有Python編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。特點提供公開可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建,快速運行。支持挖掘流程每個節(jié)點的結(jié)果在線預(yù)覽。提供十大類數(shù)十種算法組件,包括數(shù)據(jù)預(yù)處理、統(tǒng)計分析、分類、聚類、關(guān)聯(lián)、推薦等常用數(shù)據(jù)分析算法,支持查看算法組件源代碼(需本地化部署)。同時提供Python腳本與SQL腳本,快速粘貼代碼即可運行。提供算法組件自定義功能(需本地化部署),用戶可將個人本地編寫的代碼配置到平臺中,成為算法組件。特點下面將對平臺【首頁】【數(shù)據(jù)源】【工程】和【系統(tǒng)組件】4個模塊進(jìn)行介紹,并對平臺的本地化部署方式進(jìn)行介紹。平臺簡介登錄平臺后,用戶即可看到【首頁】模塊系統(tǒng)提供的示例工程(模板)。首頁【模板】模塊主要用于常用數(shù)據(jù)分析與建模案例的快速創(chuàng)建和展示。通過【模板】模塊,用戶可以創(chuàng)建一個無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運行的工程。同時,用戶可以將自己搭建的數(shù)據(jù)分析工程生成為模板,顯示在【首頁】模塊,供其他用戶一鍵創(chuàng)建。首頁【數(shù)據(jù)源】模塊主要用于數(shù)據(jù)分析工程的數(shù)據(jù)導(dǎo)入與管理,根據(jù)情況用戶可選擇【CSV文件】或者【SQL數(shù)據(jù)庫】?!綜SV文件】支持從本地導(dǎo)入CSV類型的數(shù)據(jù)。數(shù)據(jù)源【SQL數(shù)據(jù)庫】支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)。數(shù)據(jù)源數(shù)據(jù)上傳成功后,用戶可以使用數(shù)據(jù)分享功能,將搭建工程涉及到的數(shù)據(jù)分享給其他用戶。數(shù)據(jù)源其他用戶可在【共享數(shù)據(jù)源】選項卡內(nèi)查看到分享給自己的數(shù)據(jù),并使用該數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)源【工程】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,通過【工程】模塊,用戶可以創(chuàng)建空白工程,進(jìn)行數(shù)據(jù)分析工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進(jìn)行連接,達(dá)到數(shù)據(jù)分析的目的。工程【系統(tǒng)組件】模塊主要用于數(shù)據(jù)分析常用算法組件的管理。組件包括輸入/輸出、腳本、數(shù)據(jù)預(yù)處理、統(tǒng)計分析、分類、回歸、聚類、時序模型、模型評估和模型預(yù)測,共十大類。系統(tǒng)組件【輸入/輸出】類提供配置數(shù)據(jù)分析工程的輸入和輸出組件,包括輸入源、輸出源?!灸_本】類提供一個代碼編輯框,用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼,直接運行,無須再額外配置成組件,包括Python腳本、SQL腳本?!緮?shù)據(jù)預(yù)處理】類提供對數(shù)據(jù)進(jìn)行清洗的組件,包括特征構(gòu)造、表堆疊、記錄選擇、表連接、新增序列、數(shù)據(jù)集劃分、類型轉(zhuǎn)換、缺失值處理、記錄去重、異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)學(xué)類函數(shù)、排序、分組聚合、修改列名。系統(tǒng)組件【統(tǒng)計分析】類提供對數(shù)據(jù)整體情況進(jìn)行統(tǒng)計的常用組件,包括數(shù)據(jù)探索、純隨機性檢驗、相關(guān)性分析、單樣本T檢驗、正態(tài)性檢驗、雙樣本T檢驗、主成分分析、頻數(shù)統(tǒng)計、全表統(tǒng)計、平穩(wěn)性檢驗、因子分析、卡方檢驗?!痉诸悺款愄峁┏S玫姆诸愃惴ńM件,包括CART分類樹、ID3分類樹、最近鄰分類、樸素貝葉斯、支持向量機、邏輯回歸、多層感知神經(jīng)網(wǎng)絡(luò)?!净貧w】類提供常用的回歸算法組件,包括CART回歸樹、線性回歸、支持向量回歸、最近鄰回歸、LASSO回歸。系統(tǒng)組件【聚類】類提供常用的聚類算法組件,包括層次聚類、DBSCAN密度聚類、K-Means聚類?!緯r間模型】類提供常用的時間序列算法組件,包括ARIMA、GM(1,1)、差分。【模型評估】類提供對通過分類算法或回歸算法訓(xùn)練得到的模型進(jìn)行評價的組件?!灸P皖A(yù)測】類提供對通過分類算法或回歸算法訓(xùn)練得到的模型進(jìn)行預(yù)測的組系統(tǒng)組件通過開源TipDM數(shù)據(jù)挖掘建模平臺官網(wǎng)(),進(jìn)入Github或碼云開源網(wǎng)站,同步平臺程序代碼到本地,按照說明文檔進(jìn)行配置部署。平臺簡介平臺官網(wǎng)還提供了詳細(xì)的幫助資料,包含【操作文檔】【常見問題】【操作視頻】選項卡,用戶可以根據(jù)這些資料,輕松入門平臺的使用。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署平臺官網(wǎng)提供了數(shù)量豐富的不同行業(yè)的解決方案,主要介紹使用平臺搭建數(shù)據(jù)分析工程的不同行業(yè)的案例,包含【電子商務(wù)】【智能設(shè)備】【金融保險】類等,用戶可以根據(jù)步驟提示,動手搭建數(shù)據(jù)分析工程。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署1平臺簡介目錄背景2快速構(gòu)建餐飲企業(yè)綜合分析工程3小結(jié)4在TipDM數(shù)據(jù)挖掘建模平臺上配置餐飲企業(yè)綜合分析案例的總體流程,主要包括以下4個步驟。導(dǎo)入餐飲企業(yè)綜合分析的數(shù)據(jù)到TipDM數(shù)據(jù)挖掘建模平臺。對數(shù)據(jù)進(jìn)行日期提取、統(tǒng)計每日用餐人數(shù)與營業(yè)額和繪制用餐人數(shù)折線圖。對數(shù)據(jù)進(jìn)行記錄選擇操作。對數(shù)據(jù)構(gòu)建RFM關(guān)鍵特征,構(gòu)建K-Means模型對餐飲客戶進(jìn)行客戶分群??傮w流程總體流程圖餐飲企業(yè)綜合分析建模工程配置總流程最終流程圖最終流程如圖所示本章的數(shù)據(jù)是CSV文件,使用TipDM數(shù)據(jù)挖掘建模平臺導(dǎo)入該數(shù)據(jù),步驟如下。單擊【數(shù)據(jù)源】模塊,在【新建數(shù)據(jù)源】下拉項中選擇【CSV文件】。獲取數(shù)據(jù)單擊選擇文件,選擇案例的數(shù)據(jù),在【新建目標(biāo)表名】框中填入“meal_order_info”,【預(yù)覽設(shè)置】項選擇【分頁顯示】,然后單擊【下一步】按鈕。獲取數(shù)據(jù)在【預(yù)覽數(shù)據(jù)】框中,觀察每個字段的類型及精度,然后單擊【下一步】按鈕。將【use_start_time】字段和【lock_time】字段的類型選擇為【字符】,單擊【確定】按鈕,即可上傳。獲取數(shù)據(jù)數(shù)據(jù)上傳完成后,新建一個命名為【餐飲企業(yè)綜合分析】的空白工程,配置一個【輸入源】組件,步驟如下。在【工程】模塊左下方的【組件】欄中,找到【系統(tǒng)組件】類下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】組件至工程畫布中。獲取數(shù)據(jù)單擊畫布中的【輸入源】組件,然后單擊工程畫布右側(cè)【字段屬性】欄中的【數(shù)據(jù)表】框,輸入“meal_order_info”,在彈出的下拉框中選擇【meal_order_info】。獲取數(shù)據(jù)右鍵單擊【輸入源】組件,選擇【查看數(shù)據(jù)】。由圖可得,該數(shù)據(jù)共有945條記錄。獲取數(shù)據(jù)日期提取拖曳【數(shù)據(jù)預(yù)處理】類中的【日期提取】組件至工程畫布中,并與【選擇訂單狀態(tài)為1的數(shù)據(jù)】組件相連接。單擊畫布中的【日期提取】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【日期提取標(biāo)簽】項下的圖標(biāo),選擇“use_start_time”字段。探索性分析右鍵單擊【日期提取】組件,選擇【運行該節(jié)點】。運行完成后,右鍵單擊【日期提取】組件,選擇【查看數(shù)據(jù)】。探索性分析統(tǒng)計每日用餐人數(shù)與營業(yè)額拖曳【數(shù)據(jù)預(yù)處理】類中的【分組聚合】組件至工程畫布中,并與【日期提取】組件相連接。單擊畫布中的【分組聚合】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【特征】項下的圖標(biāo),勾選“number_consumers”,“accounts_payable”字段。單擊【分組組件】項下的圖標(biāo),勾選“day”字段。探索性分析單擊工程畫布右下方的【參數(shù)設(shè)置】欄,在【聚合方法】項中選擇【sum】,【新列名】項中輸入“用餐時間,人數(shù),銷量”。探索性分析右鍵單擊【分組聚合】組件,選擇【運行該節(jié)點】。運行完成后,右鍵單擊【缺失值處理】組件,選擇【查看數(shù)據(jù)】。數(shù)據(jù)已對每日用餐人數(shù)與營業(yè)額進(jìn)行統(tǒng)計,其中字段“人數(shù)”為每日用餐人數(shù),字段“銷量”為每日營業(yè)額。右鍵單擊【分組聚合】組件,選擇【重命名】項輸入“就餐日期分組聚合”進(jìn)行組件名稱修改。探索性分析繪制用餐人數(shù)折線圖拖曳【繪圖】類中的【折線圖】組件至工程畫布中,并與【就餐日期分組聚合】組件相連接。單擊【繪制數(shù)據(jù)】項下的圖標(biāo),勾選“人數(shù)字段”字段,單擊【繪制標(biāo)簽】項下的圖標(biāo),勾選“用餐時間”字段。探索性分析運行【折線圖】組件。運行完成后,右鍵單擊【折線圖】組件,選擇【查看報告】。探索性分析運行【折線圖】組件。運行完成后,右鍵單擊【折線圖】組件,選擇【查看報告】。右鍵單擊【折線圖】組件,選擇【重命名】項輸入“每日就餐人數(shù)折線圖”進(jìn)行組件名稱修改。探索性分析訂單表中訂單狀態(tài)為1的記錄為完成訂單的記錄,所以本章數(shù)據(jù)預(yù)處理為選取訂單狀態(tài)為1的數(shù)據(jù),步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【記錄選擇】組件至工程畫布中,并與【輸入源】組件相連接。單擊【特征】項下的圖標(biāo),勾選全部字段。數(shù)據(jù)預(yù)處理單擊工程畫布右下方的【參數(shù)設(shè)置】欄,然后單擊【條件】項下方的

圖標(biāo),添加1個篩選條件。單擊【條件】項下方的

圖標(biāo)。在【條件】項第2列中,篩選條件的字段選擇【order_status】;在【條件】項第3列中,篩選條件選擇【=】;在【條件】項第4列中,篩選條件填入【1】。數(shù)據(jù)預(yù)處理運行【記錄選擇】組件。右鍵單擊【記錄選擇】組件,選擇【查看數(shù)據(jù)】。右鍵單擊【記錄選擇】組件,選擇【重命名】項輸入“選擇訂單狀態(tài)為1的數(shù)據(jù)”進(jìn)行組件名稱修改。數(shù)據(jù)預(yù)處理本章利用RFM模型,構(gòu)建餐飲企業(yè)客戶價值分析的關(guān)鍵特征,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【表連接】組件至工程畫布中,并分別于與【表連接】組件、【構(gòu)造R特征】組件相連接。單擊【左表特征】項下的圖標(biāo),勾選“emp_id”,“f”,“m”字段。單擊【右表特征】項下的圖標(biāo),勾選“emp_id”,“r”字段。分別單擊【左表主鍵】、【右主鍵】項下的圖標(biāo),選擇“emp_id”字段。構(gòu)建模型構(gòu)建關(guān)鍵特征單擊工程畫布右下方的【參數(shù)設(shè)置】欄,【連接方法】選擇【內(nèi)連接】。構(gòu)建模型運行【表連接】組件,運行完成后,右鍵單擊【表連接】組件,選擇【查看數(shù)據(jù)】查看組件數(shù)據(jù)。由圖所示,字段“r”“f”“m”為餐飲企業(yè)客戶價值分析的關(guān)鍵特征。構(gòu)建模型特征構(gòu)造完成后,使用K-Means聚類算法對餐飲客戶數(shù)據(jù)進(jìn)行客戶分群,聚成3類,步驟如下。拖曳【聚類】類中的【K-Means】組件至工程畫布中,并與【數(shù)據(jù)標(biāo)準(zhǔn)化】組件相連接。單擊【特征】項下的

圖標(biāo),勾選全部字段。構(gòu)建模型構(gòu)建K-Means模型單擊工程畫布右下方的【基礎(chǔ)參數(shù)】欄,在【聚類數(shù)】項中填入【3】,【最大迭代次數(shù)】項中填入【100】。構(gòu)建模型運行【K-Means】組件。右鍵單擊【K-Means】組件,選擇【查看數(shù)據(jù)】。構(gòu)建模型運行【K-Means】組件。右鍵單擊【K-Means】組件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論