![《Python數(shù)據(jù)分析基礎與案例實戰(zhàn)》第6章 6.1 構(gòu)建分類與回歸模型_第1頁](http://file4.renrendoc.com/view12/M0B/2D/13/wKhkGWadrx6AFVQAAAEG3EDLS1w052.jpg)
![《Python數(shù)據(jù)分析基礎與案例實戰(zhàn)》第6章 6.1 構(gòu)建分類與回歸模型_第2頁](http://file4.renrendoc.com/view12/M0B/2D/13/wKhkGWadrx6AFVQAAAEG3EDLS1w0522.jpg)
![《Python數(shù)據(jù)分析基礎與案例實戰(zhàn)》第6章 6.1 構(gòu)建分類與回歸模型_第3頁](http://file4.renrendoc.com/view12/M0B/2D/13/wKhkGWadrx6AFVQAAAEG3EDLS1w0523.jpg)
![《Python數(shù)據(jù)分析基礎與案例實戰(zhàn)》第6章 6.1 構(gòu)建分類與回歸模型_第4頁](http://file4.renrendoc.com/view12/M0B/2D/13/wKhkGWadrx6AFVQAAAEG3EDLS1w0524.jpg)
![《Python數(shù)據(jù)分析基礎與案例實戰(zhàn)》第6章 6.1 構(gòu)建分類與回歸模型_第5頁](http://file4.renrendoc.com/view12/M0B/2D/13/wKhkGWadrx6AFVQAAAEG3EDLS1w0525.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
構(gòu)建分類與回歸模型1了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3分類算法用于構(gòu)造一個分類模型,模型的輸入為樣本的屬性值,輸出為對應的類別,將每個樣本映射到預先定義好的類別。回歸算法用于建立兩種或兩種以上變量間相互依賴的函數(shù)模型,然后使用函數(shù)模型預測目標的值。分類和回歸模型的實現(xiàn)過程類似,以分類模型為例,其實現(xiàn)步驟如右圖所示。常用的分類與回歸算法分類模型的具體實現(xiàn)步驟分為兩步:第一步是訓練步,通過歸納、分析訓練集來建立分類模型,得到分類規(guī)則;第二步是預測步,先用已知的測試集評估分類模型的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的驗證集進行預測?;貧w模型的實現(xiàn)步驟也有兩步,類似于分類模型,第一步是通過訓練集建立數(shù)值型的預測屬性的函數(shù)模型;第二步是在模型通過檢驗后進行預測或控制。常用的分類與回歸算法常用的分類與回歸算法如下表所示。常用的分類與回歸算法算法名稱算法描述回歸分析回歸分析是確定預測屬性(數(shù)值型)與其他變量間相互依賴的定量關系常用的統(tǒng)計學方法,包括線性回歸、非線性回歸、邏輯(Logistic)回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型決策樹決策樹采用自頂向下的遞歸方式,在內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點向下分支,最終得到的葉節(jié)點是學習劃分的類判別分析利用已知類別的若干樣本的數(shù)據(jù)信息,對客觀事物分類的規(guī)律性進行總結(jié),從而建立判別公式和判別準則的一種統(tǒng)計方法。包括線性判別分析、K最近鄰(KNN)、樸素貝葉斯等模型支持向量機支持向量機是一種通過某種非線性映射,將低維的非線性可分轉(zhuǎn)化為高維的線性可分,在高維空間進行線性分析的算法人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡是一種模仿大腦神經(jīng)網(wǎng)絡結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),是表示神經(jīng)網(wǎng)絡的輸入與輸出變量之間關系的模型集成學習集成學習使用多種算法的組合進行預測,其比單一分類器具有更高的準確率和魯棒性,通常分為Bagging(聚合)、Boosting(提升)和Stacking(堆疊)3種模式1了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3回歸分析是通過建立模型來研究變量之間相互關系的密切程度、結(jié)構(gòu)狀態(tài)及進行模型預測的一種有效工具,在工商管理、經(jīng)濟、社會、醫(yī)學和生物學等領域應用十分廣泛。從19世紀初高斯提出最小二乘估計法起,回歸分析的歷史已有200多年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的范圍大致如右圖所示。了解回歸分析在數(shù)據(jù)挖掘環(huán)境下,自變量與因變量具有相關關系,自變量的值是已知的,因變量的值是要預測的。常用的回歸模型如下表所示。了解回歸分析回歸模型名稱適用條件描述線性回歸因變量與自變量是線性關系對一個或多個自變量和因變量之間的線性關系進行建模,可用最小二乘法求解模型系數(shù)非線性回歸因變量與自變量之間不都是線性關系對一個或多個自變量和因變量之間的非線性關系進行建模。如果非線性關系可以通過簡單的函數(shù)變換轉(zhuǎn)化成線性關系,則用線性回歸的思想求解;如果不能轉(zhuǎn)化,則用非線性最小二乘法求解邏輯回歸一般因變量有1、0(是、否)兩種取值是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0~1,表示取值為1的概率嶺回歸參與建模的自變量之間具有多重共線性是一種改進最小二乘估計的方法主成分回歸參與建模的自變量之間具有多重共線性主成分回歸是根據(jù)主成分分析的思想提出來的,是對最小二乘法的一種改進,它是參數(shù)估計的一種有偏估計,可以消除自變量之間的多重共線性線性回歸模型是相對簡單的回歸模型,但是當因變量和自變量之間呈現(xiàn)某種曲線關系時,就需要建立非線性回歸模型。邏輯回歸屬于概率型非線性回歸,分為二分類和多分類的邏輯回歸模型。對于二分類的邏輯回歸,因變量y只有“是、否”兩個取值,記為1和0。假設在自變量作用下,y取“是”的概率是p,則取“否”的概率是,二分類的邏輯回歸研究的是當y取“是”的概率p與自變量的關系。當自變量之間出現(xiàn)多重共線性時,用最小二乘估計法估計的回歸系數(shù)可能會不準確,消除多重共線性的參數(shù)改進的估計方法主要有嶺回歸和主成分回歸。了解回歸分析公式為線性回歸的一般形式,它給出了自變量x與因變量y成線性關系時的函數(shù)關系。但是,現(xiàn)實場景中更多的情況下x不是與y成線性關系,而是與y的某個函數(shù)成線性關系,此時需要引入廣義線性回歸模型。需要注意的是,邏輯回歸雖然稱作“回歸”,但實際上是一種分類算法。具體的分類方法:設定一個分類閾值,將預測結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。邏輯回歸模型如式(6-1)所示。 (6-1)其中的取值范圍是,表示回歸系數(shù)的集合,其中回歸系數(shù)表示屬性在預測目標變量時的重要性,b為常數(shù)。了解回歸分析1.邏輯回歸模型式(6-1)經(jīng)過變形,轉(zhuǎn)為標準邏輯回歸形式,如式(6-2)所示。 (6-2)了解回歸分析2.邏輯回歸模型解釋邏輯回歸模型的建模步驟如右圖所示,具體步驟如下。根據(jù)分析目的設置因變量和自變量,然后收集數(shù)據(jù),根據(jù)收集到的數(shù)據(jù),再次進行屬性篩選。取1的概率是,則取0的概率是。根據(jù)自變量列出線性回歸方程,估計出模型中的回歸系數(shù)。模型檢驗。模型有效性的檢驗指標有很多,最基本的有準確率,其次有混淆矩陣、ROC曲線、KS值等。模型預測。輸入自變量的取值,就可以得到預測變量的值。
了解回歸分析3.邏輯回歸模型的建模步驟LogisticRegression類常用的參數(shù)及其說明如下表所示。代碼的結(jié)果顯示邏輯回歸模型預測結(jié)果的準確率為100%,說明模型分類效果比較理想,但是有過擬合的風險。了解回歸分析參數(shù)名稱參數(shù)說明penalty接收str。表示正則化選擇參數(shù),可選l1或l2。默認為l2solver接收str。表示優(yōu)化算法選擇參數(shù),可選newton-cg、lbfg、liblinear、sag,當penalty='l2'時,4種都可選;當penalty='l1'時,只能選liblinear。默認為liblinearmulti_class接收str。表示分類方式選擇參數(shù),可選ovr和multinomial。默認為ovrclass_weight接收balanced以及字典。表示類型權重參數(shù),如對于因變量取值為0或1的二元模型,可以定義class_weight={0:0.9,1:0.1},這樣類型0的權重為90%,而類型1的權重為10%。默認為Nonen_jobs接收int。表示運行的并行作業(yè)數(shù)。默認為11了解回歸分析目錄常用的分類與回歸算法2了解樸素貝葉斯3樸素貝葉斯是基于貝葉斯定理與條件獨立假設的分類方法。對于給定的訓練數(shù)據(jù)集,首先基于條件獨立假設學習輸入輸出的聯(lián)合概率分布;然后基于此模型,對給定的輸入X,利用貝葉斯定理求出后驗概率最大的輸出y。樸素貝葉斯實現(xiàn)簡單,學習與預測的效率都很高,是一種常用的方法。樸素貝葉斯算法有許多優(yōu)點,如,對大數(shù)據(jù)集訓練速度快;支持增量式運算,可以實時對新增樣本進行訓練;結(jié)果可解釋性強。同時也存在因為使用了樣本屬性獨立性的假設,所以屬性間有關聯(lián)性時有效果不佳的缺點。了解樸素貝葉斯常用的樸素貝葉斯模型的構(gòu)建類是GaussianNB,其基本語法格式如下。classsklearn.naive_bayes.GaussianNB(priors=None)GaussianNB類常用的參數(shù)及其說明,如下表所示?;趌oad_breast_cancer數(shù)據(jù)集,使用GaussianNB類構(gòu)建樸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑工地施工安全措施不到位免責條款協(xié)議
- 堡坎承包工程合同
- 環(huán)保產(chǎn)業(yè)園區(qū)入駐企業(yè)合作協(xié)議
- 標準房屋買賣合同
- 項目解決方案實施與進度跟蹤報告
- 高級烹飪食材采購及供應責任免除協(xié)議書
- 北京液化石油氣鋼瓶租賃合同8篇
- 高中信息技術浙教版:4-3 以三維全景圖形式發(fā)布-教學設計
- 教學計劃(教學設計)-2024-2025學年外研版(三起)英語四年級上冊
- 電子證據(jù)存證保全協(xié)議
- 北京工業(yè)大學《機器學習基礎》2022-2023學年期末試卷
- 解剖臺市場發(fā)展前景分析及供需格局研究預測報告
- GB/T 44590-2024天然林保護修復生態(tài)效益評估指南
- 民用無人機操控員執(zhí)照(CAAC)考試復習重點題及答案
- 第20課清朝君主專制的強化 教案
- 骨科睡眠護理
- 2025年高考語文復習備考復習策略講座
- 2024至2030年中國聚硫橡膠行業(yè)市場現(xiàn)狀分析及未來前景規(guī)劃報告
- 天津市河西區(qū)2023-2024學年高一上學期1月期末化學試題(原卷版)
- 2025高考語文步步高大一輪復習講義65練答案精析
- 部編版八年級語文下冊全冊單元教材分析
評論
0/150
提交評論