工業(yè)大數(shù)據(jù)采集處理與應用-項目5_第1頁
工業(yè)大數(shù)據(jù)采集處理與應用-項目5_第2頁
工業(yè)大數(shù)據(jù)采集處理與應用-項目5_第3頁
工業(yè)大數(shù)據(jù)采集處理與應用-項目5_第4頁
工業(yè)大數(shù)據(jù)采集處理與應用-項目5_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

彭振云唐昭琳工業(yè)大數(shù)據(jù)采集、處理與應用課程目錄1五、工業(yè)大數(shù)據(jù)分析認識大數(shù)據(jù)分析過程理解機器學習的相關概念理解兩種不同預測算法的應用場景知識目標技能目標掌握數(shù)據(jù)分析工具的安裝和使用方法掌握兩類常見的回歸和分類預測方法能夠使用數(shù)據(jù)分析工具進行分類預測分析學習目標2五、工業(yè)大數(shù)據(jù)建模(一)使用大數(shù)據(jù)分析工具(二)使用回歸分析預測(三)使用分類分析預測內容組成3大數(shù)據(jù)分析過程五、工業(yè)大數(shù)據(jù)分析大數(shù)據(jù)分析

對海量數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的過程,也就是建立經(jīng)驗模型。4五、工業(yè)大數(shù)據(jù)分析算法選擇

根據(jù)要解決的具體業(yè)務問題來構建或選擇算法。模型訓練

模型開發(fā)過程是一個從數(shù)據(jù)中學習得到模型的過程,稱為“訓練”或“學習”。模型中可以適當變化的部分,一般叫做參數(shù)。應基于實際的業(yè)務數(shù)據(jù)來確定最合適的模型參數(shù)。數(shù)據(jù)集劃分

算法建模所用的數(shù)據(jù)集一般分為兩個部分。一部分用于訓練模型的,叫“訓練集”;另一部分用于評估模型的,叫“驗證集”。原則上不用訓練集作為驗證集。模型評估

用驗證集來判斷訓練得到的模型是否適用。如果在訓練集和驗證集上的預測效果差不多,就表示模型質量尚好,可直接使用。如果發(fā)現(xiàn)訓練集和驗證集上的預測效果相差太遠,說明模型還有優(yōu)化的余地。建立算法模型的關鍵環(huán)節(jié)5三、工業(yè)大數(shù)據(jù)建模機器學習

通過算法使得機器能從歷史數(shù)據(jù)中學習規(guī)律,從而對新的樣本能做出智能識別或預測。。機器學習的應用場景常見應用預測:設備故障預測、降雨預測、產品質量預測……營銷:商品推薦、用戶群體畫像、廣告精準投放金融:貸款發(fā)放預測、金融風險控制、股票走勢預測、黃金價格預測社交關系挖掘:社交關系鏈分析、微博粉絲領袖分析自然語言處理:翻譯、關鍵詞提取、文章摘要、文本內容分析圖片分類、圖片文本內容提取、文字識別6三、工業(yè)大數(shù)據(jù)分析有監(jiān)督學習在給定一系列輸入/輸出樣本(實例)構成的數(shù)據(jù)集的條件下,學習輸入x到輸出y的映射關系。有監(jiān)督學習的樣本數(shù)據(jù)是帶有標簽的,每一個樣本數(shù)據(jù)都含有已知結論,其主要做法是使用有標簽的樣本數(shù)據(jù)來訓練得到模型。無監(jiān)督學習在給定一系列僅由輸入樣本(實例)構成的數(shù)據(jù)集的條件下,發(fā)現(xiàn)數(shù)據(jù)中的模式。無監(jiān)督學習有時候也稱為知識發(fā)現(xiàn)。無監(jiān)督學習的樣本數(shù)據(jù)沒有任何標簽,而是直接從數(shù)據(jù)本身發(fā)現(xiàn)一些潛在的規(guī)律。強化學習

強化學習是指一個系統(tǒng)和外界環(huán)境不斷地交互,獲得外界反饋,然后決定自身的行為,達到長期目標的最優(yōu)化。其中典型的案例就是阿爾法狗下圍棋,或者汽車無人駕駛。機器學習類型7三、工業(yè)大數(shù)據(jù)分析分類預測

利用算法,從樣本數(shù)據(jù)中學習并推導出判斷模型,從而對未知的數(shù)據(jù)進行識別。

包括以下兩類:回歸分析:輸入變量(特征)與輸出變量(結果)均為連續(xù)變量的預測問題。例如,預測明天的氣溫是多少度(定量),這是一個回歸任務。分類分析:輸出變量(結果)為有限個離散變量的預測問題。例如,預測明天是陰、晴還是雨(定性),這是一個分類任務。

什么是分類預測?8三、工業(yè)大數(shù)據(jù)建模認識Weka9三、工業(yè)大數(shù)據(jù)建模認識Weka的數(shù)據(jù)實例屬性10五、工業(yè)大數(shù)據(jù)分析認識Weka的數(shù)據(jù)文件格式——arff%ARFFweather@relationweather@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@data29,85,FALSE,no26,90,TRUE,no28,86,FALSE,yes21,96,FALSE,yes注釋行數(shù)據(jù)集名稱數(shù)據(jù)屬性數(shù)據(jù)行起始11三、工業(yè)大數(shù)據(jù)建模分類預測

利用算法,從樣本數(shù)據(jù)中學習并推導出判斷模型,從而對未知的數(shù)據(jù)進行識別。

包括兩類:回歸分析:輸入變量(特征)與輸出變量(結果)均為連續(xù)變量的預測問題。例如,預測明天的氣溫是多少度(定量),這是一個回歸任務。分類分析:輸出變量(結果)為有限個離散變量的預測問題。例如,預測明天是陰、晴還是雨(定性),這是一個分類任務。分類預測回歸得到的結果是連續(xù)值,分類的得到的結果是離散值。12三、工業(yè)大數(shù)據(jù)建?;貧w分析思想:給定一個自變量

x,以及一個因變量y,用歷史數(shù)據(jù)樣本,擬合得到一條直線或曲線。

歸回分析算法思想因變量:通常是實際問題中所關心的一類指標,常用y表示。例如,研究能源消耗與某些因素關系中,那么,能源消耗就是因變量。自變量:影響因變量取值的變量稱為自變量,常用x來表示。如研究能源消耗與時間的關系中,時間就是自變量。13三、工業(yè)大數(shù)據(jù)建模使用歸回分析進行預測因變量年份能耗消耗量年份能耗消耗量200510602013219302006349020141864020074990201523680200835602016245402009646020173082020109760201830820201115290201931060201223020202036990自變量例:某企業(yè)能源消耗的歷年數(shù)據(jù)預測值14三、工業(yè)大數(shù)據(jù)建模如何評估歸回分析模型的優(yōu)劣?相關系數(shù)

度量變量之間相關的緊密程度。該系數(shù)取值范圍為?1~1。越靠近正負1,表明兩個變量之間的線性關系越明顯;越接近0,表明兩個變量之間線性關系越小。當其為0時,說明兩個變量之間不存在線性關系?;貧w系數(shù)

假定x是自變量,y是因變量?;貧w系數(shù)越大表示x對y影響越大,正回歸系數(shù)表示y隨x增大而增大,負回歸系數(shù)表示y隨x增大而減小。15三、工業(yè)大數(shù)據(jù)建模建立歸回分析模型的步驟16三、工業(yè)大數(shù)據(jù)建模Weka:導入數(shù)據(jù)集選擇過濾器對數(shù)據(jù)預處理從文件讀入數(shù)據(jù)數(shù)據(jù)屬性數(shù)據(jù)分布情況17三、工業(yè)大數(shù)據(jù)建模Weka:利用散點圖觀察數(shù)據(jù)的變化趨勢18三、工業(yè)大數(shù)據(jù)建模Weak:選擇線性回歸算法19三、工業(yè)大數(shù)據(jù)建模Weak:設置訓練集、驗證集設置訓練集、驗證集20三、工業(yè)大數(shù)據(jù)建模Weak:執(zhí)行訓練執(zhí)行訓練21三、工業(yè)大數(shù)據(jù)建模Weak:模型誤差分析誤差判斷參考指標:Correlationcoefficient:相關性Meanabsoluteerror:平均絕對誤差Rootmeansquarederror:平均根誤差Relativeabsoluteerror:相對誤差Rootrelativesquarederror:方根相對誤差22三、工業(yè)大數(shù)據(jù)建模分類分析算法思想分類分析:指通過對歷史數(shù)據(jù)進行測算,實現(xiàn)對未知數(shù)據(jù)的分類。與回歸不同的是,輸出的結果是有限數(shù)量的離散變量。應用比較廣的分類算法:決策樹(DesitionTree)隨機森林(RandomForest)梯度下降決策樹(GBDT)極端梯度提升決策樹(XGBoost)梯度提升決策樹(LightGBM)貝葉斯(Bayes)人工神經(jīng)網(wǎng)絡(ANN)支持向量機(SVM)23三、工業(yè)大數(shù)據(jù)建模分類分析的思想分類分析思想——以決策樹為例24三、工業(yè)大數(shù)據(jù)建模如何評估分類分析模型的優(yōu)劣?查準率(準確率)=正確識別正品的個數(shù)/(真正品數(shù)+假正品數(shù))查全率(召回率)=正確識別正品的個數(shù)/(真正品數(shù)+假次品數(shù))ROC曲線ROC曲線越靠攏(0,1)點,越偏離45度對角線越好。AUC

(AreaUnderCurve)

AUC是Roc曲線下的面積。AUC介于0.1和1之間。AUC作為數(shù)值可以直觀的評價分類器的好壞,值越大越好。當0.5<AUC<1,優(yōu)于隨機猜測。Kappa統(tǒng)計量:與隨機分類的差異程度。0,表示與隨機分類完全相同。1,表示與隨機分類完全相異。越接近1,表明分類器越好。ROC曲線(綠色線)AUC(藍色部分)25三、工業(yè)大數(shù)據(jù)建模Weka:導入數(shù)據(jù)集從文件讀入數(shù)據(jù)選擇過濾器對數(shù)據(jù)預處理數(shù)據(jù)屬性數(shù)據(jù)分布情況26三、工業(yè)大數(shù)據(jù)建模選擇分類算法設置算法參數(shù)選擇算法27三、工業(yè)大數(shù)據(jù)建模執(zhí)行訓練后,分析誤差正確分類的樣例個數(shù)錯誤分類的樣例個數(shù)28三、工業(yè)大數(shù)據(jù)建模決策樹可視化29三、工業(yè)大數(shù)據(jù)建模拓展知識——集成學習單棵決策樹兩棵決策樹集成學習:指將多個學習模型組合,以獲得更好的預測效果、更強的泛化能力。如構建多個分類器,各自獨立學習和做出預測,再用某種策略組合這些分類器來完成學習任務。例:預測一臺設備的故障風險,方法對比。30三、工業(yè)大數(shù)據(jù)建模拓展知識——聚類分析聚類

將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,使得同一個簇中的對象有較大的相似性,而不同簇間的對象有較大的相異性。

聚類與分類的不同在于,聚類所要求劃分的類是未知的,屬于機器學習中的無監(jiān)督學習方法。聚類分析算法常見的有K-Means。K-Means是一種通過均值對數(shù)據(jù)點進行聚類的算法。適用于對球形簇分布的數(shù)據(jù)聚類分析,可應用于客戶細分、市場細分等分析場景。31三、工業(yè)大數(shù)據(jù)建模拓展知識——關聯(lián)規(guī)則關聯(lián)規(guī)則

關聯(lián)規(guī)則反映一個事物與其它事物之間的相互依存性和關聯(lián)性。如果兩個事物或者多個事物之間存在一定的關聯(lián)關系,那么其中一個事物就能夠通過其它事物被預測到。例:假設超市想了解顧客的購物習慣,特別是想知道哪些商品顧客可能會在一次購物時同時購買??梢詫ι痰甑念櫩褪挛锪闶蹟?shù)量進行購物籃分析。通過發(fā)現(xiàn)顧

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論