版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于TipDM數(shù)據(jù)挖掘建模平臺實現(xiàn)航空公司客戶價值分析1快速構(gòu)建航空公司客戶價值分析工程目錄平臺簡介2TipDM數(shù)據(jù)挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā)、基于Python引擎、用于數(shù)據(jù)分析的開源平臺。平臺提供數(shù)量豐富的數(shù)據(jù)分析組件,用戶可在沒有編程基礎(chǔ)的情況下,通過拖曳的方式進行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進行連接,幫助用戶快速建立數(shù)據(jù)分析工程,提升數(shù)據(jù)處理的效能。平臺簡介平臺的界面如圖所示。平臺簡介以航空公司客戶價值分析案例為例,介紹如何使用平臺實現(xiàn)案例的流程。在介紹之前,需要引入平臺的幾個概念。組件:將建模過程涉及的輸入/輸出、數(shù)據(jù)探索及預(yù)處理、建模、模型評估等算法分別進行封裝,每一個封裝好的算法模塊稱之為組件。工程:為實現(xiàn)某一數(shù)據(jù)分析目標,將各組件通過流程化的方式進行連接,整個數(shù)據(jù)分析流程稱為一個工程。模板:用戶可以將配置好的工程,通過模板的方式,分享給其他用戶,其他用戶可以使用該模板,創(chuàng)建一個無需配置組件便可運行的工程。平臺簡介TipDM數(shù)據(jù)挖掘建模平臺主要有以下幾個特點。平臺算法基于Python引擎,用于數(shù)據(jù)分析。Python是目前最為流行的用于數(shù)據(jù)分析的語言之一,高度契合行業(yè)需求。平臺已對所有用戶實現(xiàn)開源,用戶可在本地部署平臺,或?qū)ζ脚_進行二次開發(fā),滿足個人使用需求。用戶可在沒有Python編程基礎(chǔ)的情況下,使用直觀的拖曳式圖形界面構(gòu)建數(shù)據(jù)分析流程,無須編程。提供公開可用的數(shù)據(jù)分析示例工程,一鍵創(chuàng)建,快速運行。支持挖掘流程每個節(jié)點的結(jié)果在線預(yù)覽。提供十大類數(shù)十種算法組件,包括數(shù)據(jù)預(yù)處理、統(tǒng)計分析、分類、聚類、關(guān)聯(lián)、推薦等常用數(shù)據(jù)分析算法,支持查看算法組件源代碼(需本地化部署)。同時提供Python腳本與SQL腳本,快速粘貼代碼即可運行。提供算法組件自定義功能(需本地化部署),用戶可將個人本地編寫的代碼配置到平臺當(dāng)中,成為算法組件。平臺簡介登錄平臺后,用戶即可看到【首頁】模塊系統(tǒng)提供的示例工程(模板),如下圖所示?!灸0濉磕K主要用于常用數(shù)據(jù)分析與建模案例的快速創(chuàng)建和展示。通過【模板】模塊,用戶可以創(chuàng)建一個無須導(dǎo)入數(shù)據(jù)及配置參數(shù)就能夠快速運行的工程。同時,用戶可以將自己搭建的數(shù)據(jù)分析工程生成為模板,顯示在【首頁】模塊,供其他用戶一鍵創(chuàng)建。首頁【數(shù)據(jù)源】模塊主要用于數(shù)據(jù)分析工程的數(shù)據(jù)導(dǎo)入與管理,根據(jù)情況用戶可選擇【CSV文件】或者【SQL數(shù)據(jù)庫】。【CSV文件】支持從本地導(dǎo)入CSV類型的數(shù)據(jù),如圖所示。數(shù)據(jù)源【SQL數(shù)據(jù)庫】支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù),如圖所示。數(shù)據(jù)源數(shù)據(jù)上傳成功后,用戶可以使用數(shù)據(jù)分享功能,如下圖所示,將搭建工程涉及到的數(shù)據(jù)分享給其他用戶。數(shù)據(jù)源其他用戶可在【共享數(shù)據(jù)源】選項卡內(nèi)查看到分享給自己的數(shù)據(jù),如圖所示,并使用該數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)源【工程】模塊主要用于數(shù)據(jù)分析流程化的創(chuàng)建與管理,如圖所示,通過【工程】模塊,用戶可以創(chuàng)建空白工程,進行數(shù)據(jù)分析工程的配置,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進行連接,達到數(shù)據(jù)分析的目的。工程【系統(tǒng)組件】模塊主要用于數(shù)據(jù)分析常用算法組件的管理。組件包括輸入/輸出、腳本、數(shù)據(jù)預(yù)處理、統(tǒng)計分析、分類、回歸、聚類、時序模型、模型評估和模型預(yù)測,共十大類,如圖所示。系統(tǒng)組件各個類組件的介紹如下?!据斎?輸出】類提供配置數(shù)據(jù)分析工程的輸入和輸出組件,包括輸入源、輸出源?!灸_本】類提供一個代碼編輯框,用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼,直接運行,無須再額外配置成組件,包括Python腳本、SQL腳本。【數(shù)據(jù)預(yù)處理】類提供對數(shù)據(jù)進行清洗的組件,包括特征構(gòu)造、表堆疊、記錄選擇、表連接、新增序列、數(shù)據(jù)集劃分、類型轉(zhuǎn)換、缺失值處理、記錄去重、異常值處理、數(shù)據(jù)標準化、數(shù)學(xué)類函數(shù)、排序、分組聚合、修改列名。【統(tǒng)計分析】類提供對數(shù)據(jù)整體情況進行統(tǒng)計的常用組件,包括數(shù)據(jù)探索、純隨機性檢驗、相關(guān)性分析、單樣本T檢驗、正態(tài)性檢驗、雙樣本T檢驗、主成分分析、頻數(shù)統(tǒng)計、全表統(tǒng)計、平穩(wěn)性檢驗、因子分析、卡方檢驗。系統(tǒng)組件【分類】類提供常用的分類算法組件,包括CART分類樹、ID3分類樹、最近鄰分類、樸素貝葉斯、支持向量機、邏輯回歸、多層感知神經(jīng)網(wǎng)絡(luò)?!净貧w】類提供常用的回歸算法組件,包括CART回歸樹、線性回歸、支持向量回歸、最近鄰回歸、LASSO回歸。【聚類】類提供常用的聚類算法組件,包括層次聚類、DBSCAN密度聚類、K-Means聚類?!緯r間模型】類提供常用的時間序列算法組件,包括ARIMA、GM(1,1)、差分?!灸P驮u估】類提供對通過分類算法或回歸算法訓(xùn)練得到的模型進行評價的組件?!灸P皖A(yù)測】類提供對通過分類算法或回歸算法訓(xùn)練得到的模型進行預(yù)測的組件。系統(tǒng)組件通過開源TipDM數(shù)據(jù)挖掘建模平臺官網(wǎng),如圖所示。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署進入Github或碼云開源網(wǎng)站,如圖所示,同步平臺程序代碼到本地,按照說明文檔進行配置部署。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署平臺官網(wǎng)提供了數(shù)量豐富的不同行業(yè)的解決方案,主要介紹使用平臺搭建數(shù)據(jù)分析工程的不同行業(yè)的案例,包含【電子商務(wù)】【智能設(shè)備】【金融保險】類等,如下圖所示,用戶可以根據(jù)步驟提示,動手搭建數(shù)據(jù)分析工程。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署TipDM數(shù)據(jù)挖掘建模平臺的本地化部署平臺官網(wǎng)還提供了詳細的幫助資料,包含【操作文檔】【常見問題】【操作視頻】選項卡,如圖所示,用戶可以根據(jù)這些資料,輕松入門平臺的使用。TipDM數(shù)據(jù)挖掘建模平臺的本地化部署1快速構(gòu)建航空公司客戶價值分析工程目錄平臺簡介2以航空公司客戶價值分析案例為例,在TipDM數(shù)據(jù)挖掘建模平臺上配置對應(yīng)工程,展示幾個主要流程的配置過程。案例主要包括以下4個步驟。導(dǎo)入航空公司2012年4月1日至2014年3月31日的數(shù)據(jù)到TipDM數(shù)據(jù)挖掘建模平臺。對數(shù)據(jù)進行探索性分析、數(shù)據(jù)清洗和數(shù)據(jù)篩選。對數(shù)據(jù)進行特征構(gòu)造和數(shù)據(jù)標準化等操作。使用K-Means算法構(gòu)建模型,進行客戶分群。總體流程在TipDM數(shù)據(jù)挖掘建模平臺上配置航空公司客戶價值分析案例的總體流程如圖所示??傮w流程得到的最終流程如圖所示??傮w流程本章的數(shù)據(jù)是CSV文件,使用TipDM數(shù)據(jù)挖掘建模平臺導(dǎo)入該數(shù)據(jù),步驟如下。單擊【數(shù)據(jù)源】模塊,在【新建數(shù)據(jù)源】下拉項中選擇【CSV文件】,如圖所示。獲取數(shù)據(jù)單擊選擇文件,選擇案例的數(shù)據(jù),在【新建目標表名中】框中填入“air_data”,【預(yù)覽設(shè)置】項選擇【分頁顯示】,如圖所示,然后單擊【下一步】按鈕。獲取數(shù)據(jù)在【預(yù)覽數(shù)據(jù)】框中,觀察每個字段的類型及精度,然后單擊【下一步】按鈕。將【ffp_date】字段和【load_time】字段的類型選擇為【字符】,如圖所示。獲取數(shù)據(jù)字段【avg_discount】的【精度】設(shè)置為【6】,如圖所示,單擊【確定】按鈕,即可上傳獲取數(shù)據(jù)數(shù)據(jù)上傳完成后,新建一個命名為【航空公司客戶價值分析】的空白工程,配置一個【輸入源】組件,步驟如下在【工程】模塊左下方的【組件】欄中,找到【系統(tǒng)組件】類下的【輸入/輸出】類。拖曳【輸入/輸出】類中的【輸入源】組件至工程畫布中。獲取數(shù)據(jù)單擊畫布中的【輸入源】組件,然后單擊工程畫布右側(cè)【字段屬性】欄中的【數(shù)據(jù)表】框,輸入“air_data”,在彈出的下拉框中選擇【air_data】,如圖所示。獲取數(shù)據(jù)右鍵單擊【輸入源】組件,選擇【查看數(shù)據(jù)】,如圖所示。該數(shù)據(jù)共有62988條記錄。獲取數(shù)據(jù)航空公司的數(shù)據(jù)質(zhì)量可能尚未達到直接用于建模的程度,可能存在缺失值、異常值等問題。這些問題會導(dǎo)致建立的模型不夠精確,為盡可能地排除干擾因素、保證模型的可靠性,需要進行必要的數(shù)據(jù)準備。數(shù)據(jù)準備探索性分析主要是對數(shù)據(jù)進行描述性統(tǒng)計分析,計算每個屬性的記錄總數(shù)、均值、方差、最小值和最大值等指標,步驟如下。拖曳【統(tǒng)計分析】類中的【全表統(tǒng)計】組件至工程畫布中,并與【輸入源】組件相連接。數(shù)據(jù)準備1.探索性統(tǒng)計單擊畫布中的【全表統(tǒng)計】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【特征】項下的【刷新】按鈕,勾選全部字段,如圖所示。數(shù)據(jù)準備右鍵單擊【全表統(tǒng)計】組件,選擇【運行該節(jié)點】。運行完成后,右鍵單擊【全表統(tǒng)計】組件,選擇【查看數(shù)據(jù)】,如圖所示。數(shù)據(jù)準備通過數(shù)據(jù)探索分析,發(fā)現(xiàn)數(shù)據(jù)中存在缺失值,需要進行數(shù)據(jù)清洗,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【缺失值處理】組件至工程畫布中,并與【輸入源】組件相連接。數(shù)據(jù)準備2.數(shù)據(jù)清洗單擊畫布中的【缺失值處理】組件,在工程畫布右側(cè)【字段屬性】欄中,單擊【特征】項下的【刷新】按鈕,勾選全部字段,如圖所示。數(shù)據(jù)準備單擊工程畫布右下方的【參數(shù)設(shè)置】欄,在【處理方法】項中選擇【刪除缺失值】,如圖所示。數(shù)據(jù)準備右鍵單擊【缺失值處理】組件,選擇【運行該節(jié)點】。運行完成后,右鍵單擊【缺失值處理】組件,選擇【查看數(shù)據(jù)】,如圖所示。經(jīng)過缺失值處理后,該數(shù)據(jù)剩下62300條記錄,共有688條記錄被刪除.數(shù)據(jù)準備通過數(shù)據(jù)探索性分析,發(fā)現(xiàn)數(shù)據(jù)中存在票價最小值為0、折扣率最小值為0、總飛行公里數(shù)大于0的記錄。由于原始數(shù)據(jù)量大,這類數(shù)據(jù)所占比例較小,對于問題影響不大,因此進行丟棄處理,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【記錄選擇】組件至工程畫布中,并與【缺失值處理】組件相連接。單擊【特征】項下的【刷新】按鈕,勾選全部字段。數(shù)據(jù)準備3.數(shù)據(jù)篩選單擊工程畫布右下方的【參數(shù)設(shè)置】欄,然后單擊3次【條件】項下方的【添加】按鈕,添加3個篩選條件。單擊【條件】項下方的【刷新】按鈕。在【條件】項第2列中,3個篩選條件的字段分別選擇【sum_yr_1】【sum_yr_2】和【seg_km_sum】;在【條件】項第3列中,3個篩選條件都選擇【>】;在【條件】項第4列中,3個篩選條件都填入【0】,如圖所示。數(shù)據(jù)準備運行【記錄選擇】組件右鍵單擊【記錄選擇】組件,選擇【查看數(shù)據(jù)】,如圖所示。經(jīng)過記錄選擇后,該數(shù)據(jù)剩下41516條記錄數(shù)據(jù)準備由于航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,需要通過特征構(gòu)造得到航空公司會員入會時長,步驟如下.拖曳【數(shù)據(jù)預(yù)處理】類中的【類型轉(zhuǎn)換】組件至工程畫布中,與【記錄選擇】組件相連接,目的是將“ffp_date”字段和“l(fā)oad_time”字段的類型由文本類型轉(zhuǎn)換為日期類型。拖曳【數(shù)據(jù)預(yù)處理】類中的【特征構(gòu)造】組件至工程畫布中,并與【類型轉(zhuǎn)換】組件相連接.單擊【特征】項下的【刷新】按鈕,勾選全部字段。特征工程1.特征構(gòu)造單擊工程畫布右下方的【參數(shù)設(shè)置】欄,在【新特征名】框中輸入“new”,在【表達式】框中輸入“l(fā)oad_time-ffp_date”,如圖所示。特征工程運行【特征構(gòu)造】組件,運行完成后,右鍵單擊【特征構(gòu)造】組件,選擇【查看數(shù)據(jù)】查看組件數(shù)據(jù),如圖所示。字段new為航空公司會員入會時長。特征工程由于屬性間的數(shù)據(jù)取值范圍差異較大,為了消除量級帶來的影響,需要進行標準化處理,步驟如下。拖曳【數(shù)據(jù)預(yù)處理】類中的【修改列名】組件至工程畫布中,與【特征構(gòu)造】組件相連接,目的是將“flight_count”、“seg_km_sum”、“l(fā)ast_to_end”、“avg_discount”和“new”這五個字段的名稱分別改為“f”、“m”、“r”、“c”和“l(fā)”。拖曳【數(shù)據(jù)預(yù)處理】類中的【類型轉(zhuǎn)換】組件至工程畫布中,與【修改列名】組件相連接,目的是將“l(fā)”字段的類型由文本類型轉(zhuǎn)換為數(shù)值類型。拖曳【數(shù)據(jù)預(yù)處理】類中的【數(shù)據(jù)標準化】組件至工程畫布中,并與【類型轉(zhuǎn)換】組件相連接。單擊【特征】項下的【刷新】按鈕,勾選全部字段。特征工程2.數(shù)據(jù)標準化單擊工程畫布右下方的【參數(shù)設(shè)置】欄
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年私人門面房出租與租賃期限靈活調(diào)整合同3篇
- 2025年樹木修剪與隱患排查一體化服務(wù)合同3篇
- 2025年代理商分銷協(xié)議-電動汽車配件代理協(xié)議
- 2025年辦公空間室內(nèi)設(shè)計服務(wù)合同
- 二零二五年度石材加工打磨承包協(xié)議83篇
- 2025年唐裝加工承攬合同
- 2025年合資合同內(nèi)容解釋要點
- 2025年墜機保險協(xié)議
- 2025年商業(yè)用地共建項目商業(yè)共建合作協(xié)議
- 2025年校園小賣部綠色生活用品專營店承包合同3篇
- 蘇少版七年級美術(shù)下冊 全冊
- 民航概論5套模擬試卷考試題帶答案
- 2024屆中國電建地產(chǎn)校園招聘網(wǎng)申平臺高頻500題難、易錯點模擬試題附帶答案詳解
- COCA20000詞匯音標版表格
- 滬教版七年級數(shù)學(xué)上冊專題06圖形的運動(原卷版+解析)
- JTG-T-F20-2015公路路面基層施工技術(shù)細則
- 光伏發(fā)電站集中監(jiān)控系統(tǒng)通信及數(shù)據(jù)標準
- 建筑垃圾減排及資源化處置措施
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 中西方校服文化差異研究
- 2024年一級建造師考試思維導(dǎo)圖-市政
評論
0/150
提交評論