《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析

上傳人：鴻*** IP屬地：河北上傳時間：2024-07-22 格式：PPTX 頁數(shù)：74 大?。?.52MB 積分：12 舉報 版權申訴

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析_第2頁

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析_第3頁

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析_第4頁

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析_第5頁

已閱讀5頁，還剩69頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析1實現(xiàn)運輸車輛駕駛行為分析目錄

TipDM大數(shù)據挖掘建模平臺簡介2TipDM大數(shù)據挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發(fā)，面向大數(shù)據挖掘項目的工具。平臺使用Java語言開發(fā)，采用B/S結構，用戶不需要下載客戶端，可通過瀏覽器進行訪問。平臺提供了基于Python、R以及Hadoop/Spark分布式引擎的大數(shù)據分析功能。平臺支持工作流，用戶可在沒有Scala、Python、R等編程語言基礎的情況下，通過拖曳的方式進行操作，以流程化的方式將數(shù)據輸入輸出、統(tǒng)計分析，數(shù)據預處理、分析與建模等環(huán)節(jié)進行連接，從而達成大數(shù)據分析的目的。讀者可通過訪問平臺查看具體的界面情況，訪問平臺的具體步驟如下。微信搜索公眾號“泰迪學院”或“TipDataMining”，關注公眾號。關注公眾號后，回復“建模平臺”，獲取平臺訪問方式。平臺簡介平臺的界面如圖所示。平臺簡介本章將以運輸車輛駕駛行為案例為例，介紹如何使用平臺實現(xiàn)案例的流程。在介紹之前，需要引入平臺的幾個概念。算法：將建模過程涉及的輸入/輸出、數(shù)據探索及預處理、建模、模型評估等算法分別進行封裝，每一個封裝好的算法模塊稱之為算法。實訓：為實現(xiàn)某一數(shù)據分析目標，將各算法通過流程化的方式進行連接，整個數(shù)據分析流程稱為一個實訓。模板：用戶可以將配置好的實訓，通過模板的方式，分享給其他用戶，其他用戶可以使用該模板，創(chuàng)建一個無需配置算法便可運行的實訓。平臺簡介TipDM大數(shù)據挖掘建模平臺主要有以下幾個特點。平臺算法基于Python、R以及Hadoop/Spark分布式引擎，用于數(shù)據分析。Python、R以及Hadoop/Spark是目前最為流行的用于數(shù)據分析的語言，高度契合行業(yè)需求。用戶可在沒有Python、R或者Hadoop/Spark編程基礎的情況下，使用直觀的拖曳式圖形界面構建數(shù)據分析流程，無須編程。提供公開可用的數(shù)據分析示例實訓，一鍵創(chuàng)建，快速運行。支持挖掘流程每個節(jié)點的結果在線預覽。Python算法包可分為10大類：統(tǒng)計分析、預處理、腳本分類、聚類、回歸、時間序列、關聯(lián)規(guī)則、文本分析、繪圖。Spark算法包可分為6大類：預處理、統(tǒng)計分析、分類、聚類、回歸、協(xié)同過濾。R語言算法包可分為8大類：統(tǒng)計分析、預處理、腳本、分類、聚類、回歸、時間序列、關聯(lián)規(guī)則。下面將對平臺【實訓庫】【數(shù)據連接】【實訓數(shù)據】【我的實訓】【系統(tǒng)算法】和【個人算法】6個模塊進行介紹。平臺簡介登錄平臺后，用戶即可看到【實訓庫】模塊系統(tǒng)提供的示例實訓（模板），如圖所示。實訓庫【實訓庫】模塊主要用于標準大數(shù)據分析案例的快速創(chuàng)建和展示。通過【實訓庫】模塊，用戶可以創(chuàng)建一個無須導入數(shù)據及配置參數(shù)就能夠快速運行的實訓。同時，每一個模板的創(chuàng)建者都具有模板的所有權，能夠對模板進行管理。用戶可以將自己搭建的數(shù)據分析實訓生成為模板，顯示在【實訓庫】模塊，供其他用戶一鍵創(chuàng)建。實訓庫【數(shù)據連接】模塊支持從DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用關系型數(shù)據庫導入數(shù)據，如圖所示。數(shù)據連接【實訓數(shù)據】模塊主要用于數(shù)據分析實訓的數(shù)據導入與管理。支持從本地導入任意類型數(shù)據。如圖所示。實訓數(shù)據除了導入本地的文件外，還可以通過連接的數(shù)據庫進行導入數(shù)據，如圖所示。實訓數(shù)據【我的實訓】模塊主要用于數(shù)據分析流程化的創(chuàng)建與管理，如圖所示。通過【實訓】模塊，用戶可以創(chuàng)建空白實訓，進行數(shù)據分析實習的配置，將數(shù)據輸入輸出、數(shù)據預處理、挖掘建模、模型評估等環(huán)節(jié)通過流程化的方式進行連接，達到數(shù)據分析的目的。對于完成的優(yōu)秀的實訓，可以將其保存為模板，讓其他使用者學習和借鑒。我的實訓【系統(tǒng)算法】模塊主要用于大數(shù)據分析內置常用算法的管理，提供Python、R語言、Spark三種算法包，如圖所示。系統(tǒng)算法Python算法包可分為10大類，具體如下?！窘y(tǒng)計分析】類提供對數(shù)據整體情況進行統(tǒng)計的常用算法，包括因子分析、全表統(tǒng)計、正態(tài)性檢驗、相關性分析、卡方檢驗、主成分分析和頻數(shù)統(tǒng)計?！绢A處理】類提供對數(shù)據進行清洗的算法，包括數(shù)據標準化、缺失值處理、表堆疊、數(shù)據篩選、行列轉置、修改列名、衍生變量、數(shù)據拆分、主鍵合并、新增序列、數(shù)據排序、記錄去重和分組聚合?！灸_本】類提供一個Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經寫好的程序代碼并直接運行，無須再額外配置成算法?！痉诸悺款愄峁┏Ｓ玫姆诸愃惴?，包括樸素貝葉斯、支持向量機、CART分類樹、邏輯回歸、神經網絡和K最近鄰?！揪垲悺款愄峁┏Ｓ玫木垲愃惴ǎ▽哟尉垲?、DBSCAN密度聚類和K-Means。系統(tǒng)算法【回歸】類提供常用的回歸算法，包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸?！緯r間序列】類提供常用的時間序列算法，包括ARIMA?！娟P聯(lián)規(guī)則】類提供常用的關聯(lián)規(guī)則算法，包括Apriori和FP-Growth。【文本分析】類提供對文本數(shù)據進行清洗、特征提取與分析的常用算法，包括TextCNN、seq2seq、jieba分詞、HanLP分詞與詞性、TF-IDF、doc2vec、word2vec、過濾停用詞、LDA、TextRank、分句、正則匹配和HanLP實體提取?！纠L圖】類提供常用的畫圖算法，包括柱形圖、折線圖、散點圖、餅圖和詞云圖。系統(tǒng)算法Spark算法包可分為6大類，具體如下。【預處理】類提供對數(shù)據進行清洗的算法，包括數(shù)據去重、數(shù)據過濾、數(shù)據映射、數(shù)據反映射、數(shù)據拆分、數(shù)據排序、缺失值處理、數(shù)據標準化、衍生變量、表連接、表堆疊、啞變量和數(shù)據離散化。【統(tǒng)計分析】類提供對數(shù)據整體情況進行統(tǒng)計的常用算法，包括行列統(tǒng)計、全表統(tǒng)計、相關性分析和卡方檢驗。【分類】類提供常用的分類算法，包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機森林、線性支持向量機和多層感知神經網絡?！揪垲悺款愄峁┏Ｓ玫木垲愃惴?，包括K-Means聚類、二分K均值聚類和混合高斯模型?！净貧w】類提供常用的回歸算法，包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機森林回歸和保序回歸。【協(xié)同過濾】類提供常用的智能推薦算法，包括ALS算法。系統(tǒng)算法R語言算法包可分為8大類，具體如下?！窘y(tǒng)計分析】類提供對數(shù)據整體情況進行統(tǒng)計的常用算法，包括卡方檢驗、因子分析、主成分分析、相關性分析、正態(tài)性檢驗和全表統(tǒng)計?！绢A處理】類提供對數(shù)據進行清洗的算法，包括缺失值處理、異常值處理、表連接、表堆疊、數(shù)據標準化、記錄去重、數(shù)據離散化、排序、數(shù)據拆分、頻數(shù)統(tǒng)計、新增序列、字符串拆分、字符串拼接、修改列名和衍生變量。【腳本】類提供一個R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經寫好的程序代碼并直接運行，無須再額外配置成算法。系統(tǒng)算法【分類】類提供常用的分類算法，包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經網絡、KNN、SVM和邏輯回歸?！揪垲悺款愄峁┏Ｓ玫木垲愃惴?，包括K-Means、DBSCAN和系統(tǒng)聚類?！净貧w】類提供常用的回歸算法，包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸?！緯r間序列】類提供常用的時間序列算法，包括ARIMA、GM(1,1)和指數(shù)平滑。【關聯(lián)分析】類提供常用的關聯(lián)規(guī)則算法，包括Apriori。系統(tǒng)算法【個人算法】模塊主要為了滿足用戶的個性化需求。在用戶使用過程中，可根據自己的需求定制算法，方便使用。目前個人算法支持通過Python和R語言進行個人算法的定制，如圖所示。個人算法1實現(xiàn)運輸車輛駕駛行為分析目錄

TipDM大數(shù)據挖掘建模平臺簡介2本小節(jié)以運輸車輛駕駛行為分析案例為例，在TipDM大數(shù)據挖掘建模平臺上配置對應工程，展示數(shù)據挖掘流程中的數(shù)據獲取、數(shù)據探索、分析與建模的配置過程。在平臺上配置得到的運輸車輛駕駛行為分析的最終流程如圖所示。實現(xiàn)運輸車輛駕駛行為分析在TipDM大數(shù)據挖掘建模平臺上配置運輸車輛駕駛行為分析案例，主要包括以下4個步驟。導入數(shù)據。在TipDM大數(shù)據挖掘建模平臺上導入駕駛行為指標數(shù)據。數(shù)據探索分析。對原始數(shù)據進行分布分析、相關性分析和異常值檢測。聚類分析。對駕駛行為進行聚類分析。模型構建。構建駕駛行為判別模型，并對駕駛行為進行預測評價。實現(xiàn)運輸車輛駕駛行為分析本章的數(shù)據為車輛駕駛行為指標數(shù)據，該數(shù)據文件為CSV文件，使用TipDM大數(shù)據挖掘建模平臺導入數(shù)據，步驟如下。單擊“我的數(shù)據”，在“我的數(shù)據集”中選擇“新增”，如圖所示。數(shù)據源配置設置新增數(shù)據集參數(shù)。任意選擇一張封面圖片，在“名稱”中填入“運輸車輛駕駛行為分析”，“有效期（天）”項選擇“永久”，“描述”中填入“運輸車輛駕駛行為分析的相關數(shù)據存放至車輛駕駛行為指標數(shù)據.csv文件中”。單擊“點擊上傳”選擇“車輛駕駛行為指標數(shù)據.csv”數(shù)據，如圖所示。等到數(shù)據載入成功后，單擊“確定”按鈕，即可上傳數(shù)據。數(shù)據源配置當數(shù)據上傳完成后，新建一個名為“運輸車輛駕駛行為分析”的空白工程，步驟如下。新建空白工程。單擊“我的工程”，單擊按鈕，新建一個空白工程。在新建工程頁面填寫相關的信息，包括名稱和描述，如圖所示。數(shù)據源配置在“運輸車輛駕駛行為分析”工程中配置一個“輸入源”算法，步驟如下。在“工程”欄旁邊的“組件”欄中，找到“內置組件”下的“輸入/輸出”類。拖曳“輸入/輸出”類中的“輸入源”算法至工程畫布中。數(shù)據源配置配置“輸入源”算法。單擊畫布中的“輸入源”算法，然后單擊工程畫布右側“參數(shù)配置”欄中的“數(shù)據集”框，輸入“運輸車輛駕駛行為分析”。在彈出的下拉框中選擇“運輸車輛駕駛行為分析”，“文件列表”中選擇“車輛駕駛行為指標數(shù)據.csv”數(shù)據，如圖所示（注意：由于平臺限制了各框架的大小，所以可能會導致一些輸入內容顯示不全）。數(shù)據源配置加載數(shù)據。右鍵單擊“輸入源”算法，選擇“運行該節(jié)點”，運行完成后，可看到“輸入源”算法變?yōu)榫G色，如圖所示。右鍵單擊運行完成后的“輸入源”算法，選擇“查看日志”，可看到“數(shù)據載入成功”的信息，如圖所示，說明已成功將車輛駕駛行為指標數(shù)據加載到平臺上。數(shù)據源配置1．分布分析通常情況下，在進行分析與建模之前，需要對數(shù)據進行分布分析，其目的是及時發(fā)現(xiàn)數(shù)據中的分布規(guī)律，查看各屬性的基本情況，為后續(xù)數(shù)據分析工作做準備。對加載后的車輛駕駛行為指標數(shù)據進行分布分析，步驟如下。拖曳一個“全表統(tǒng)計”算法至工程畫布中，連接“輸入源”算法和“全表統(tǒng)計”算法。數(shù)據探索分析本章數(shù)據探索分析主要是對車輛駕駛行為指標數(shù)據進行分布分析、相關性分析、異常值檢測等內容。配置“全表統(tǒng)計”算法。單擊畫布中的“全表統(tǒng)計”算法，在“字段設置”中，單擊“特征”旁的按鈕后，勾選除“車輛編碼”之外的所有字段，如圖所示；“參數(shù)設置”中保持默認選擇。數(shù)據探索分析預覽數(shù)據。右鍵單擊“全表統(tǒng)計”算法，選擇“運行該節(jié)點”；運行完成后，右單擊該算法，選擇“查看數(shù)據”，其結果如圖所示。由全表統(tǒng)計運行結果可以看到，各屬性的記錄數(shù)、均值、標準差、最大值和最小值等信息。數(shù)據探索分析對車輛駕駛行為指標數(shù)據進行相關性分析，計算出各屬性兩兩之間的相關系數(shù)，能更直觀地看出各屬性之間的相關程度，其步驟如下。拖曳一個“相關性分析”算法至工程畫布中，連接“輸入源”算法和“相關性分析”算法。配置“相關性分析”算法“字段設置”。單擊畫布中的“相關性分析”算法，在“字段設置”中，單擊“特征”旁的按鈕后，勾選除“車輛編碼”以外的所有字段，如圖所示。數(shù)據探索分析2.相關性分析配置“相關性分析”算法“參數(shù)設置”。在“參數(shù)設置”中，“相關性系數(shù)”選擇“標準相關系數(shù)”，如圖所示。數(shù)據探索分析預覽日志。右鍵單擊“相關性分析”算法，選擇“運行該節(jié)點”；運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。由圖可以看到各屬性之間的相關系數(shù)，其中，急加速與急加速頻率、急減速與急減速頻率等的相關系數(shù)均較大，達到了0.8以上，具有較強的相關關系。數(shù)據探索分析用戶在進行異常值檢測時，一般可以通過繪制箱型圖查看其異常情況。在平臺上，可以自定義“箱型圖”個人算法，查看數(shù)據中的異常數(shù)據。自定義“箱型圖”個人算法的步驟如下。單擊“個人算法”后，單擊（添加算法）按鈕，彈出設置算法界面信息。數(shù)據探索分析3.異常值檢測在設置算法界面中，“組件名稱”填入“箱型圖”，“算法引擎”選擇“Python”，“算法代碼”填入異常值檢測的相關代碼，填寫相關信息后的界面如圖所示。設置完相關信息后，單擊“添加”按鈕，即可成功添加“箱型圖”個人算法。數(shù)據探索分析在平臺中可通過“箱型圖”個人算法對車輛運輸指標數(shù)據進行異常值檢測，步驟如下。拖曳一個個人算法“箱型圖”至工程畫布中，連接“輸入源”算法和“箱型圖”算法。配置“箱型圖”算法。單擊畫布中的“箱型圖”算法，在“參數(shù)配置”中，單擊“數(shù)值列”旁的按鈕后，勾選“行駛里程（km）”“疲勞駕駛（次）”“熄火滑行（次）”“超長怠速（次）”字段，如圖所示。數(shù)據探索分析預覽日志。右鍵單擊“箱型圖”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其部分結果如圖所示。由異常值檢測結果可知，數(shù)據中存在部分異常數(shù)據，說明存在一些不良的駕駛行為數(shù)據，且該數(shù)據符合本案例的分析方向。因此，為保證后續(xù)的分析結果，不做異常值處理。數(shù)據探索分析1．K-Means聚類在平臺中可通過“數(shù)據標準化”算法，對車輛運輸指標數(shù)據進行標準化處理，步驟如下。拖曳一個“數(shù)據標準化”算法至工程畫布中，連接“輸入源”算法和“數(shù)據標準化”算法。駕駛行為聚類分析為了查看各車輛的駕駛行為主要分為哪幾類，本章將分別使用K-Means聚類、層次聚類、高斯混合模型聚類和譜聚類的方法對駕駛行為進行聚類分析，并對比各聚類方法效果。注意：在進行聚類分析之前，需先采用Z-Score標準化方法對數(shù)據進行標準化處理，使數(shù)據標準統(tǒng)一化。配置“數(shù)據標準化”算法。單擊畫布中的“數(shù)據標準化”算法，在“參數(shù)設置”中，單擊“特征”旁的按鈕后，選擇除“車輛編碼”以外的所有字段；“標準化方式”選擇“標準差標準化”，如圖所示。駕駛行為聚類分析預覽數(shù)據。右鍵單擊“數(shù)據標準化”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看數(shù)據”，其結果如圖所示。由圖可知，已成功將數(shù)據進行標準化處理。駕駛行為聚類分析通過K-Means聚類算法，對車輛駕駛行為進行分類，步驟如下。創(chuàng)建一個“K-Means聚類”個人算法。由于10.2.2小節(jié)已介紹個人算法的自定義方法，且10.2.3和10.2.4小節(jié)均有自定義個人算法的內容。因此，為避免章節(jié)篇幅過長，后續(xù)涉及到個人算法的相關內容，本章將不再重復說明。關于個人算法的算法代碼部分，讀者可查看工程文件中對應組件的源碼。拖曳一個已創(chuàng)建好的個人算法“K-Means聚類”至工程畫布中，連接“數(shù)據標準化”算法和“K-Means聚類”算法。駕駛行為聚類分析配置“K-Means聚類”算法“字段設置”。單擊畫布中的“K-Means聚類”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇除“車輛編碼”以外的所有字段，如圖所示。駕駛行為聚類分析配置“K-Means聚類”算法“參數(shù)設置”。在“參數(shù)設置”中，“聚類數(shù)”設為“3”，如圖所示。駕駛行為聚類分析預覽日志。右鍵單擊“K-Means聚類”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。

由圖可知，進行K-Means聚類后，所得到的聚類簇1個數(shù)為446、簇2個數(shù)為1、簇3個數(shù)為1，且由展示圖可以看出，K-Means的聚類效果并不理想。駕駛行為聚類分析通過層次聚類算法，對車輛駕駛行為進行分類，步驟如下。創(chuàng)建一個“層次聚類”個人算法。拖曳一個已創(chuàng)建好的個人算法“層次聚類”至工程畫布中，連接“數(shù)據標準化”算法和“層次聚類”算法。駕駛行為聚類分析2．層次聚類配置“層次聚類”算法“字段設置”。單擊畫布中的“層次聚類”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇除“車輛編碼”以外的所有字段，如圖所示。駕駛行為聚類分析配置“層次聚類”算法“參數(shù)設置”。在“參數(shù)設置”中，“聚類數(shù)”設置為“3”，如圖所示。駕駛行為聚類分析預覽日志。右鍵單擊“層次聚類”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。由圖可知，進行層次聚類后，所得到的聚類簇1個數(shù)為446、簇2個數(shù)為1、簇3個數(shù)為1，且由展示圖可以看出，層次聚類的效果也不佳。駕駛行為聚類分析通過高斯混合模型算法，對車輛駕駛行為進行分類，步驟如下。創(chuàng)建一個“高斯混合模型”個人算法。拖曳一個已創(chuàng)建好的個人算法“高斯混合模型”至工程畫布中，連接“數(shù)據標準化”算法和“高斯混合模型”算法。駕駛行為聚類分析3．高斯混合模型聚類配置“高斯混合模型”算法“字段設置”。單擊畫布中的“高斯混合模型”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇除“車輛編碼”以外的所有字段，如圖所示。駕駛行為聚類分析配置“高斯混合模型”算法“參數(shù)設置”。在“參數(shù)設置”中，“K值”設為“3”，如圖所示。駕駛行為聚類分析預覽日志。右鍵單擊“高斯混合模型”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。由圖可知，進行高斯混合模型聚類后，所得到的聚類簇1個數(shù)為276、簇2個數(shù)為1、簇3個數(shù)為171，且由展示圖可以看出，高斯混合模型的聚類效果依然欠佳。駕駛行為聚類分析通過譜聚類算法，對車輛駕駛行為進行分類，步驟如下。創(chuàng)建一個“譜聚類”個人算法。拖曳一個已創(chuàng)建好的個人算法“譜聚類”至工程畫布中，并將該算法重命名為“第一次譜聚類”，連接“數(shù)據標準化”算法和“第一次譜聚類”算法。駕駛行為聚類分析4．譜聚類配置“第一次譜聚類”算法“字段設置”。單擊畫布中的“第一次譜聚類”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇除“車輛編碼”以外的所有字段，如圖所示。駕駛行為聚類分析配置“第一次譜聚類”算法“參數(shù)設置”。在“參數(shù)設置”中，“聚類數(shù)”設置為“3”，如圖所示。駕駛行為聚類分析預覽日志。右鍵單擊“第一次譜聚類”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。由圖可知，進行第一次譜聚類后，所得到的譜聚類簇1個數(shù)為113、簇2個數(shù)為262、簇3個數(shù)為73，且在聚類結果展示圖中，成功將車輛行為分為3類。但橙色（正方形形狀）和綠色（星星形狀）混雜在了一起，無法清楚地進行分類，因此需要進一步聚類分析，即使用“熄火滑行頻率”“超長怠速頻率”“疲勞駕駛頻率”“急加速頻率”“急減速頻率”“速度標準差”和“速度差值標準差”屬性進行第二次譜聚類。駕駛行為聚類分析由于第二次譜聚類方法和第一次譜聚類方法相似，區(qū)別在于“特征”選擇的不同，所以此處不再贅述。構建后的工程如圖所示。駕駛行為聚類分析聚類結果如圖所示。由圖可知，進行第二次譜聚類后，所得到的譜聚類簇1個數(shù)為168、簇2個數(shù)為181、簇3個數(shù)為99，駕駛行為能夠較好地分成3個類別，由車輛速度標準差、平均速度等數(shù)據，可以大致判斷出橙色（正方形形狀）所代表的類別為“穩(wěn)健型駕駛”；藍色（圓點形狀）所代表的類別為“激進型駕駛”；綠色（星星形狀）所代表的類別為“疲憊型駕駛”。駕駛行為聚類分析1．構建線性判別分析模型用戶可通過構建線性判別分析模型，用于判定車輛駕駛行為，并對模型進行模型評價，步驟如下。創(chuàng)建一個“線性判別分析”個人算法。拖曳一個已創(chuàng)建好的個人算法“線性判別分析”至工程畫布中，連接“第二次譜聚類”算法和“線性判別分析”算法。構建駕駛行為預測模型為了判定車輛駕駛行為屬于哪種類型，本章將分別使用線性判別分析、樸素貝葉斯和神經網絡方法構建駕駛行為預測模型，并給出各模型的評價結果。配置“線性判別分析”算法。單擊畫布中的“線性判別分析”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇“速度標準差”“速度差值標準差”“急加速頻率”“急減速頻率”“疲勞駕駛頻率”“熄火滑行頻率”和“超長怠速頻率”字段，“標簽”選擇“l(fā)abels”，如圖所示。運行節(jié)點。右鍵單擊“線性判別分析”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，即可發(fā)現(xiàn)線性判別分析模型的判別精度為94.64%，說明該模型的判別效果較好。構建駕駛行為預測模型用戶可通過構建高斯樸素貝葉斯模型，用于判定車輛駕駛行為，并對模型進行模型評價，步驟如下。拖曳一個“樸素貝葉斯”算法至工程畫布中，并將該算法重命名為“高斯樸素貝葉斯”，連接“第二次譜聚類”算法和“高斯樸素貝葉斯”算法。構建駕駛行為預測模型2．構建樸素貝葉斯模型配置“高斯樸素貝葉斯”算法“字段設置”。單擊畫布中的“高斯樸素貝葉斯”算法，在“字段設置”中，單擊“特征”旁的按鈕后，選擇“速度標準差”“速度差值標準差”“急加速頻率”“急減速頻率”“疲勞駕駛頻率”“熄火滑行頻率”和“超長怠速頻率”字段，“標簽”選擇“l(fā)abels”，如圖所示。構建駕駛行為預測模型配置“高斯樸素貝葉斯”算法“參數(shù)設置”。在“參數(shù)設置”中，將“類函數(shù)”設為“高斯樸素貝葉斯”，其余默認，如圖所示。構建駕駛行為預測模型預覽日志。右鍵單擊“高斯樸素貝葉斯”算法，選擇“運行該節(jié)點”，運行完成后，右鍵單擊該算法，選擇“查看日志”，其結果如圖所示。由圖可知，先驗為高斯分布的樸素貝葉斯準確率為74%，說明該模型的判別效果還算理想。構建駕駛行為預測模型由于伯努利樸素貝葉斯模型的構建方法和高斯樸素貝葉斯模型的構建方法相似，區(qū)別在于“類函數(shù)”的設置不同

人人文庫> 全部分類> 應用文書 > 工作計劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析

文檔簡介

溫馨提示

最新文檔

評論

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章 基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

《Python數(shù)據分析基礎與案例實戰(zhàn)》第10章基于TipDM大數(shù)據挖掘建模平臺實現(xiàn)運輸車輛駕駛行為分析