




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第3章
線性回歸學(xué)習(xí)目標(biāo)理解線性回歸的基本原理掌握運(yùn)用Scikit-learn庫實(shí)現(xiàn)線性回歸的基本方法12目錄頁3.1基本原理3.2應(yīng)用實(shí)例線性回歸3.1基本原理回歸分析是一種研究自變量與因變量之間關(guān)系的模型構(gòu)建方法,其主要目標(biāo)在于利用直線或曲線擬合已知數(shù)據(jù)點(diǎn)以使指定的誤差(如數(shù)據(jù)點(diǎn)至直線或曲線距離之和)最小?;貧w分析通常分為模型學(xué)習(xí)和預(yù)測兩個(gè)過程,前者主要根據(jù)給定的訓(xùn)練數(shù)據(jù)構(gòu)建模型,后者則根據(jù)新數(shù)據(jù)預(yù)測相應(yīng)的輸出。線性回歸是一種較為簡單、常用的回歸分析方法,其在假設(shè)目標(biāo)值(因變量)與特征值(自變量)之間線性相關(guān)的基礎(chǔ)上,通過求解指定誤差或損失函數(shù)確定相應(yīng)的線性模型參數(shù)。知識(shí)拓展回歸是由弗朗西斯·高爾頓(FrancisGalton
)于1877年提出,其目的在于根據(jù)上一代豌豆種子(雙親)的尺寸來預(yù)測下一代豌豆種子(孩子)的尺寸。Galton在大量對(duì)象上應(yīng)用了回歸分析,甚至包括人的身高。他注意到,如果雙親的高度比平均高度高,他們的子女也傾向于比平均高度高,但尚不及雙親。孩子的高度向著平均高度回退(回歸)。Galton在多項(xiàng)研究上都注意到這個(gè)現(xiàn)象,所以盡管這個(gè)英文單詞跟數(shù)值預(yù)測沒有任何關(guān)系,但這種研究方法仍被稱作回歸。3.1基本原理針對(duì)機(jī)器學(xué)習(xí)中分類與回歸兩類常見問題,在已知訓(xùn)練樣本的情況下,前者與后者的輸出分別為離散型數(shù)值(或分類標(biāo)記)與連續(xù)型數(shù)值。回歸分析的目的在于利用已知樣本確定指定回歸方程或模型的相關(guān)系數(shù)以通過新樣本與相關(guān)系數(shù)之間的數(shù)學(xué)運(yùn)算實(shí)現(xiàn)連續(xù)型輸出值的求解或相關(guān)問題的預(yù)測。3.1.1基本概念回歸最簡單的定義可表述為:已知特征空間中的點(diǎn)集,利用已知或未知形式的函數(shù)對(duì)其進(jìn)行擬合以使點(diǎn)集與函數(shù)之間的誤差最??;若目標(biāo)值(因變量)與特征值(自變量)之間為線性相關(guān)關(guān)系(自變量指數(shù)為1),則稱為線性回歸,否則則稱為非線性回歸(自變量指數(shù)大于1)。線性回歸通過求解指定代價(jià)或目標(biāo)函數(shù)的方式確定相應(yīng)的相關(guān)系數(shù);根據(jù)自變量數(shù)量,線性回歸分別一元線性回歸與多元線性回歸。3.1.1基本概念
3.1.1基本概念(2)多元線性回歸多元線性回歸旨在確定多個(gè)自變量與一個(gè)因變量之間的線性關(guān)系,相應(yīng)的模型可采用一個(gè)多元一次線性方程進(jìn)行表達(dá);需要注意的是,“多元”與“多次”是兩個(gè)不同的概念,“多元”是指模型參數(shù)的數(shù)量,而“多次”則指模型參數(shù)的最高次冪。3.1.1基本概念(3)廣義線性回歸廣義線性回歸是傳統(tǒng)線性回歸的拓展,在實(shí)際中可用于處理分布形態(tài)多樣的數(shù)據(jù)。廣義線性回歸模型的一般形式是在多元線性回歸模型的基礎(chǔ)上,將其中的因變量更換為特定的函數(shù)(如對(duì)數(shù)函數(shù)),因而具有與多元線性回歸模型相同的參數(shù)。然而,從本質(zhì)上而言,廣義線性回歸模型實(shí)現(xiàn)了數(shù)據(jù)從輸入空間至輸出空間的非線性映射,通??筛?、深入地描述數(shù)據(jù)中蘊(yùn)含的規(guī)律或關(guān)鍵信息。3.1.1基本概念回歸應(yīng)了“物以類聚,人以群分”這一句俗語。我們交友時(shí)一定會(huì)遵循一些原則,但是朋友也有親疏之分,真正關(guān)系十分親近的好友必定是有著相同的人生觀,世界觀,價(jià)值觀。我們也要靠近三觀都正的圈子,讓自己總是保持積極樂觀的狀態(tài)。課程思政3.1.1基本概念在探討線性回歸的基本原理之前,首先通過一個(gè)簡單實(shí)例明確線性回歸的主要目的。在圖3-1中,有10個(gè)沿直線分布的真實(shí)數(shù)據(jù)點(diǎn)(藍(lán)色圓點(diǎn))與噪聲點(diǎn)(橙色方形點(diǎn)),在真實(shí)數(shù)據(jù)點(diǎn)未知的情況下,如何根據(jù)噪聲點(diǎn)確定真實(shí)數(shù)據(jù)點(diǎn)所在的真實(shí)直線?需要強(qiáng)調(diào)的是,在實(shí)際中,由于各種干擾因素(如運(yùn)行引起的圖像模糊)的影響,真實(shí)數(shù)據(jù)點(diǎn)通常難以獲取,而求取真實(shí)數(shù)據(jù)點(diǎn)相關(guān)的模型(如直線)卻是各類機(jī)器學(xué)習(xí)算法的根本目的。3.1.1基本概念圖3-1線性回歸示例圖3.1.2數(shù)學(xué)模型與求解根據(jù)以上分析,線性回歸問題的求解可歸結(jié)為兩個(gè)步驟,即:首先明確或定義線性回歸模型的基本形式,然后用已知數(shù)據(jù)點(diǎn)及約束條件構(gòu)造相應(yīng)的代價(jià)或風(fēng)險(xiǎn)函數(shù)求取回歸模型參數(shù)3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
圖3-2一元線性回歸3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
3.1.2數(shù)學(xué)模型與求解
3.2應(yīng)用實(shí)例Scikit-learn庫包含線性回歸模塊及糖尿病、波士頓房價(jià)等用于回歸分析的數(shù)據(jù)集,其中,線性回歸模塊的引入方式如下:fromsklearn.linear_modelimportLinearRegression函數(shù)原型如下:LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)3.2.1體重預(yù)測在人們的日常生活中,體重偏高與偏低均是身體出現(xiàn)亞健康的體現(xiàn),也是身體部分器官發(fā)病的前兆。影響體重的因素較多(如體內(nèi)激素水平、飲食情況、心情原因等),而且與身高具有直接的相關(guān)性。因而,如何在指定身高下評(píng)估體重是否達(dá)標(biāo)進(jìn)而讓人們提前預(yù)知身體狀況具有一定實(shí)際意義。(1)問題描述利用表3-4所示身高與體重?cái)?shù)據(jù)進(jìn)行線性回歸分析?;疽笕缦拢孩賹颖炯瘎澐譃橛?xùn)練樣本與測試樣本用于求取模型參數(shù)與測試模型精度。②考察身高與體重的線性關(guān)系并進(jìn)行可視化。③利用均方誤差分析回歸模型的性能。(2)編程實(shí)現(xiàn)
見3.2.1體重預(yù)測.py3.2.1體重預(yù)測(3)結(jié)果與分析以上代碼運(yùn)行結(jié)果如下。0.9063321151748930.009699096627073803根據(jù)圖3-2(a)
所示實(shí)驗(yàn)結(jié)果可知,體重隨身高的增大而增大,相關(guān)數(shù)據(jù)點(diǎn)近似呈直線分布,因而可確定相應(yīng)的直線模型。此外,如圖3-2(b)所示,根據(jù)已求知的直線模型以及新數(shù)據(jù)點(diǎn)與該直線模型之間的關(guān)系,則可確定指定身高時(shí)體重的偏重或偏輕狀況(白點(diǎn)為偏重,黑點(diǎn)為偏輕),以此可評(píng)估相應(yīng)的健康情況。3.2.1體重預(yù)測(a)利用訓(xùn)練數(shù)據(jù)構(gòu)建身高與體重線性回歸模型(b)利用測試數(shù)據(jù)線性回歸模型進(jìn)行測試圖3-2對(duì)身高體重?cái)?shù)據(jù)集進(jìn)行線性回歸分析效果圖3.2.2糖尿病預(yù)測糖尿病是一種常見的慢性疾病,根據(jù)2023年4月6日發(fā)布的第十版《全球糖尿病概覽》數(shù)據(jù)顯示,截至2023年,全球約有5.37億的患者。中國糖尿病患者人數(shù)達(dá)1.41億人,發(fā)病率高達(dá)12.8%,糖尿病患者人數(shù)居全球首位!成為威脅人們身體健康的一大問題。早發(fā)現(xiàn)、早治療可以減少糖尿病的發(fā)病率以及由糖尿病并發(fā)癥引起的死亡率。在實(shí)際中,糖尿病誘發(fā)因素通常包括葡萄糖濃度、舒張壓、皮層厚度等多種(每種因素與線性回歸模型中的自變量相應(yīng)),因而需采用多元線性回歸模型確定多種因素與問題求解目標(biāo)之間相關(guān)性。3.2.2糖尿病預(yù)測(1)問題描述利用Skicit-learn庫中的糖尿病數(shù)據(jù)集構(gòu)建多元線性回歸模型,實(shí)現(xiàn)糖尿病的預(yù)測與精度分析?;疽笕缦拢孩賹颖炯瘎澐譃橛?xùn)練樣本與測試樣本用于求取模型參數(shù)與測試模型的精度。②考察單個(gè)特征與糖尿病之間的線性關(guān)系并進(jìn)行可視化。③利用均方差標(biāo)準(zhǔn)度量線性回歸模型的性能。(2)編程實(shí)現(xiàn)
見3.2.2糖尿病預(yù)測.py3.2.2糖尿病預(yù)測(3)運(yùn)行結(jié)果以上代碼運(yùn)行結(jié)果如下。0.5559939824614473根據(jù)實(shí)驗(yàn)結(jié)果可知,利用10個(gè)特征進(jìn)行多元線性回歸時(shí),相應(yīng)模型的精度只有0.5左右且均方差較大,表明特征空間中的數(shù)據(jù)點(diǎn)的分布形態(tài)并不呈明顯的線性形態(tài)。此外,如圖3-3所示,利用單個(gè)特征進(jìn)行一元線性回歸時(shí),數(shù)據(jù)點(diǎn)線性分布形態(tài)越明顯,相應(yīng)的模型精度越高,表明該特征與糖尿病越相關(guān)。3.2.2糖尿病預(yù)測3.2.2糖尿病預(yù)測圖3-3利用糖尿病數(shù)據(jù)進(jìn)行線性回歸3.2.3房價(jià)預(yù)測(1)問題描述利用波士頓房價(jià)數(shù)據(jù)集(/datasets/boston)構(gòu)建線性回歸模型,實(shí)現(xiàn)房價(jià)的預(yù)測。波士頓房價(jià)數(shù)據(jù)集包括506個(gè)樣本,每個(gè)樣本包括13個(gè)特征與該地區(qū)的平均房價(jià)。基本要求如下:①將樣本集劃分為訓(xùn)練樣本與測試樣本用于求取模型參數(shù)與測試模型精度。②考查每棟住宅的房間數(shù)(RM)、地區(qū)中有多少房東屬于低收入人群(LSTAT)與城鎮(zhèn)人均犯罪率(CRIM)三個(gè)特征與房價(jià)之間的線性關(guān)系并進(jìn)行可視化。③利用精度與均方誤差等標(biāo)準(zhǔn)評(píng)估線性回歸模型的性能。(2)編程實(shí)現(xiàn)
見3.2.3房價(jià)預(yù)測.py3.2.3房價(jià)預(yù)測(3)結(jié)果與分析以上代碼運(yùn)行結(jié)果如下。精度:0.5436505100025456均方誤差:0.01681490540812091在與波士頓房價(jià)相關(guān)的13個(gè)特征中,如圖3-4(a)所示,本例對(duì)不同特征與房價(jià)之間的相關(guān)性進(jìn)行了分析,其中特征LSTAT(負(fù)相關(guān))、PTRADIO(負(fù)相關(guān))與RM(正相關(guān))與房價(jià)相關(guān)性最高;采用三個(gè)特征構(gòu)建多元線性回歸模型,相應(yīng)的精度分別為0.54左右,表明特征空間中的數(shù)據(jù)點(diǎn)的分布形態(tài)并不呈明顯的線性形態(tài)。此外,圖3-4(b)與(d)所示為單個(gè)特征與房價(jià)之間的一元線性回歸結(jié)果,其中,特征LSTAT、RM與房價(jià)的相關(guān)性相對(duì)較高(相關(guān)數(shù)據(jù)點(diǎn)線性分布形態(tài)較為明顯),相應(yīng)模型的精度相對(duì)也較高。3.2.3房價(jià)預(yù)測(a)與房價(jià)相關(guān)系數(shù)大于0.5的三個(gè)特征(b)特征LSTAT與房價(jià)的線性關(guān)系(c)特征PTRADIO與房價(jià)的線性關(guān)系(d)特征RM與房價(jià)的線性關(guān)系圖3-4利用波士頓數(shù)據(jù)進(jìn)行線性回歸(c)特征PTRADIO與房價(jià)的線性關(guān)系(d)特征RM與房價(jià)的線性關(guān)系圖3-4利用波士頓數(shù)據(jù)進(jìn)行線性回歸本章小結(jié)與分類一樣,回歸也是預(yù)測目標(biāo)值的過程?;貧w與分類的不同點(diǎn)在于,前者預(yù)測連續(xù)性變量,后者預(yù)測離散型變量?;貧w是統(tǒng)計(jì)學(xué)中最有力的工具之一。線性回歸在假設(shè)自變量與因變量之間滿足
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第二章第二節(jié)世界的海陸分布 教學(xué)設(shè)計(jì) 2023-2024學(xué)年湘教版地理七年級(jí)上冊
- 說木葉教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版高中語文必修下冊
- 《統(tǒng)計(jì)表和條形統(tǒng)計(jì)圖(一)-運(yùn)動(dòng)與身體變化》教學(xué)設(shè)計(jì)-2024-2025學(xué)年四年級(jí)上冊數(shù)學(xué)蘇教版
- Unit12 Review 3(教學(xué)設(shè)計(jì))-2023-2024學(xué)年北師大版(一起)英語六年級(jí)下冊
- 2024年六安霍邱合高現(xiàn)代產(chǎn)業(yè)園投資有限公司招聘4人筆試參考題庫附帶答案詳解
- 2025年湖南信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及參考答案
- 2024年下半年廣西現(xiàn)代物流集團(tuán)社會(huì)招聘校園招聘筆試參考題庫附帶答案詳解
- 2025年貴州水利水電職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫含答案
- 2024年12月崇左市社會(huì)保險(xiǎn)事業(yè)管理中心公開招聘編外聘用工作人員1人筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 《計(jì)算機(jī)應(yīng)用基礎(chǔ)》課程思政教學(xué)設(shè)計(jì)四
- 2023年陜西延長石油礦業(yè)有限責(zé)任公司招聘筆試題庫及答案解析
- YY/T 1792-2021熒光免疫層析分析儀
- GB/T 39235-2020豬營養(yǎng)需要量
- GB/T 30799-2014食品用洗滌劑試驗(yàn)方法重金屬的測定
- 染廠公司簡介(4個(gè)范本)
- PPT用中國地圖(可編輯)
- 基于德育的農(nóng)村中小學(xué)校園欺凌現(xiàn)象的解決對(duì)策優(yōu)秀獲獎(jiǎng)科研論文
- 鐵路工程概預(yù)算-工程經(jīng)濟(jì)管理培訓(xùn)-課件
- 小學(xué)英語一般現(xiàn)在時(shí)-(演示)課件
- 面部激素依賴性皮炎的管理課件
- 盧卡奇教學(xué)講解課件
評(píng)論
0/150
提交評(píng)論