《人工智能》課件第5章 回歸_第1頁
《人工智能》課件第5章 回歸_第2頁
《人工智能》課件第5章 回歸_第3頁
《人工智能》課件第5章 回歸_第4頁
《人工智能》課件第5章 回歸_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章回歸主要內(nèi)容一元線性回歸多元線性回歸梯度下降法Logistic回歸3房屋應(yīng)用做一個(gè)房屋價(jià)值的評估系統(tǒng),一個(gè)房屋的價(jià)值來自很多地方,比如說面積、房間的數(shù)量(幾室?guī)讖d)、地段、朝向等等,這些影響房屋價(jià)值的變量被稱為特征(feature)。在此處,為了簡單,假設(shè)我們的房屋就是一個(gè)變量影響的,就是房屋的面積。假設(shè)有一個(gè)房屋銷售的數(shù)據(jù)如下:4線性回歸及其模型線性回歸,是利用數(shù)理統(tǒng)計(jì)中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。其表達(dá)形式為y=w'x+e,e為誤差服從均值為0的正態(tài)分布。

wj是系數(shù),W就是這個(gè)系數(shù)組成的向量,它影響著不同維度的Φj(x)在回歸函數(shù)中的影響度,比如說對于房屋的售價(jià)來說,房間朝向的w一定比房間面積的w更小。Φ(x)可以換成不同的函數(shù),不一定要求Φ(x)=x假設(shè)特征和結(jié)果都滿足線性。收集的數(shù)據(jù)中,每一個(gè)分量,就可以看做一個(gè)特征數(shù)據(jù)。每個(gè)特征至少對應(yīng)一個(gè)未知的參數(shù)。這樣就形成了一個(gè)線性模型函數(shù),向量表示形式:5回歸問題的常規(guī)步驟尋找模型函數(shù);構(gòu)造J函數(shù)(損失函數(shù));最小化J函數(shù)并求得回歸參數(shù)(w)6線性回歸的損失函數(shù)誤差最小。模型與數(shù)據(jù)差的平方和最小:最小二乘法梯度下降法模型函數(shù):損失函數(shù)7線性回歸的兩個(gè)用途如果目標(biāo)是預(yù)測或者映射,線性回歸可以用來對觀測數(shù)據(jù)集的和X的值擬合出一個(gè)預(yù)測模型。當(dāng)完成這樣一個(gè)模型以后,對于一個(gè)新增的X值,在沒有給定與它相配對的y的情況下,可以用這個(gè)擬合過的模型預(yù)測出一個(gè)y值。這是比方差分析進(jìn)一步的作用,就是根據(jù)現(xiàn)在,預(yù)測未來。雖然,線性回歸和方差都是需要因變量為連續(xù)變量,自變量為分類變量,自變量可以有一個(gè)或者多個(gè),但是,線性回歸增加另一個(gè)功能,也就是憑什么預(yù)測未來,就是憑回歸方程。這個(gè)回歸方程的因變量是一個(gè)未知數(shù),也是一個(gè)估計(jì)數(shù),雖然估計(jì),但是,只要有規(guī)律,就能預(yù)測未來。給定一個(gè)變量y和一些變量X1,...,Xp,這些變量有可能與y相關(guān),線性回歸分析可以用來量化y與Xj之間相關(guān)性的強(qiáng)度,評估出與y不相關(guān)的Xj,并識(shí)別出哪些Xj的子集包含了關(guān)于y的冗余信息。一元線性回歸回歸是一種監(jiān)督學(xué)習(xí)模型,用于估計(jì)一個(gè)預(yù)測值(又稱為因變量、響應(yīng)變量)和一個(gè)或多個(gè)特征(又稱為自變量)之間關(guān)系。最常見的回歸方法有線性回歸和Logistic回歸等。如果特征和預(yù)測值之間存在線性關(guān)系,利用觀測到的特征數(shù)據(jù)和預(yù)測值建立它們之間的線性模型的過程就是線性回歸。如果特征只有一個(gè),那么就叫一元線性回歸,又叫簡單線性回歸。一元線性回歸線性關(guān)系物質(zhì)的體積和質(zhì)量、父子的身高、房子的房間數(shù)和價(jià)格、披薩的直徑和價(jià)格等等之間都在一定程度上存在線性關(guān)系。當(dāng)獲取到一組(特征,預(yù)測值)數(shù)據(jù)時(shí),可以通過可視化來直觀地確定它們之間是否存在線性關(guān)系。一元線性回歸線性關(guān)系平均房間數(shù)和房價(jià)之間的線性關(guān)系fromsklearn.datasetsimportload_boston#導(dǎo)入波士頓房價(jià)數(shù)據(jù)集importmatplotlib.pyplotaspltdataset=load_boston()x_data=dataset.data#導(dǎo)入所有特征變量y_data=dataset.target#導(dǎo)入目標(biāo)值(房價(jià))name_data=dataset.feature_names#導(dǎo)入特征名plt.subplot(1,1,1)#繪制房間數(shù)和房價(jià)的散點(diǎn)圖plt.scatter(x_data[:,5],y_data,s=20)#第5個(gè)特征為為房間數(shù)plt.title(name_data[5])plt.show()一元線性回歸

一元線性回歸一元線性回歸利用Sklearn實(shí)現(xiàn)一元線性回歸導(dǎo)入數(shù)據(jù)集導(dǎo)入線性回歸類導(dǎo)入數(shù)據(jù)集處理方法導(dǎo)入可視化包fromsklearn.datasetsimportload_bostonfromsklearn.linear_modelimportLinearRegressionfromsklearn.model_selectionimporttrain_test_splitimportmatplotlib.pyplotasplt一元線性回歸一元線性回歸利用Sklearn實(shí)現(xiàn)一元線性回歸數(shù)據(jù)準(zhǔn)備dataset=load_boston()x_data=dataset.data#導(dǎo)入所有特征變量y_data=dataset.target#導(dǎo)入目標(biāo)值(房價(jià))name_data=dataset.feature_names#導(dǎo)入特征

x_train,x_test,y_train,y_test=train_test_split(x_data,y_data,test_size=0.25,random_state=1001)

x_data_train=x_train[:,5].reshape(-1,1)#選取前400個(gè)樣本作為訓(xùn)練集y_data_train=y_train.reshape(-1,1)x_data_test=x_test[:,5].reshape(-1,1)#選取剩余的樣本作為訓(xùn)練集y_data_test=y_test.reshape(-1,1)

一元線性回歸一元線性回歸利用Sklearn實(shí)現(xiàn)一元線性回歸包括線性回歸在內(nèi)的機(jī)器學(xué)習(xí)都包含訓(xùn)練(或?qū)W習(xí))和預(yù)測兩個(gè)過程。fit()方法用于學(xué)習(xí)模型。predict()函數(shù)利用學(xué)習(xí)到的模型來預(yù)測一個(gè)自變量對應(yīng)的因變量值。訓(xùn)練和預(yù)測simple_model=LinearRegression()#創(chuàng)建線性回歸估計(jì)器實(shí)例simple_model.fit(x_data_train,y_data_train)#用訓(xùn)練數(shù)據(jù)擬合模型y_data_test_p=simple_model.predict(x_data_test)#用訓(xùn)練的模型對測試集進(jìn)行預(yù)測

一元線性回歸一元線性回歸利用Sklearn實(shí)現(xiàn)一元線性回歸預(yù)測結(jié)果輸出模型結(jié)果plt.subplot(1,1,1)plt.scatter(x_data_test,y_data_test,s=20,color="r")plt.scatter(x_data_test,y_data_test_p,s=20,color="b")plt.xlabel('RoomNumber')plt.ylabel('Price')plt.title(name_data[5])plt.show()In[2]:simple_model.coef_Out[2]:array([[9.01867888]])In[3]:simple_ercept_Out[3]:array([-34.20143988])

模型的回歸系數(shù)coef_和截距intercept_,分別為9.02和-34.20。一元線性回歸

一元線性回歸模型工作原理方差用來衡量一組值的偏離程度。協(xié)方差用來衡量兩個(gè)變量如何一起變化。

一元線性回歸模型工作原理代價(jià)函數(shù)代價(jià)函數(shù)極小時(shí)

一元線性回歸

一元線性回歸

r_squared=simple_model.score(x_data_test,y_data_test)print('R2=%s'%r_squared)r_squaredOut[2]:0.46561991850703266多元線性回歸

多元線性回歸

多元線性回歸利用Sklearn實(shí)現(xiàn)多元線性回歸dataset=load_boston()x_data=dataset.data#導(dǎo)入所有特征變量y_data=dataset.target#導(dǎo)入目標(biāo)值(房價(jià))name_data=dataset.feature_names#導(dǎo)入特征#隨機(jī)選取訓(xùn)練機(jī)和測試集x_train,x_test,y_train,y_test=train_test_split(x_data,y_data,test_size=0.25,random_state=1001)

mlr_model=LinearRegression()#創(chuàng)建線性回歸估計(jì)器實(shí)例mlr_model.fit(x_train,y_train)#用訓(xùn)練數(shù)據(jù)擬合模型y_test_p=mlr_model.predict(x_test)#用訓(xùn)練的模型對測試集進(jìn)行預(yù)測多元線性回歸plt.subplot(1,1,1)plt.scatter(x_test[:,5],y_test,s=20,color="r")plt.scatter(x_test[:,5],y_test_p,s=20,color="b")plt.xlabel('RoomNumber')plt.ylabel('Price')plt.title(name_data[5])plt.show()r_squared=mlr_model.score(x_test,y_test)print('R2=%s'%r_squared)梯度下降

梯度下降

梯度下降

基于梯度下降法的多元線性回歸code-5-5.py#SGDMultipleLinearRegressionfromsklearn.datasetsimportload_bostonfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportSGDRegressorimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitdataset=load_boston()x_data=dataset.data#導(dǎo)入所有特征變量y_data=dataset.target#導(dǎo)入目標(biāo)值(房價(jià))name_data=dataset.feature_names#導(dǎo)入特征x_train,x_test,y_train,y_test=train_test_split(x_data,y_data,test_size=0.25,random_state=1001)基于梯度下降法的多元線性回歸#分別初始化對特征和目標(biāo)值的標(biāo)準(zhǔn)化器sc_X=StandardScaler()sc_y=StandardScaler()#分別對訓(xùn)練和測試數(shù)據(jù)的特征以及目標(biāo)值進(jìn)行標(biāo)準(zhǔn)化處理x_train=sc_X.fit_transform(x_train)x_test=sc_X.transform(x_test)y_train=sc_y.fit_transform(y_train.reshape(-1,1))y_test=sc_y.transform(y_test.reshape(-1,1))基于梯度下降法的多元線性回歸#創(chuàng)建回歸估計(jì)器實(shí)例,并選擇殘差平方和作為代價(jià)函數(shù)Sklearn提供的SGDRegressor類就是基于隨機(jī)梯度下降的多元線性回歸方法的一個(gè)實(shí)現(xiàn)sgd_model=SGDRegressor(loss='squared_loss')sgd_model.fit(x_train,y_train)#用訓(xùn)練數(shù)據(jù)擬合模型y_test_p=sgd_model.predict(x_test)#用訓(xùn)練的模型對測試集進(jìn)行預(yù)測r_squared=sgd_model.score(x_test,y_test)print('R2=%s'%r_squared)基于梯度下降法的多元線性回歸#繪圖plt.subplot(1,1,1)y_test_p=sc_y.inverse_transform(y_test_p)y_test=sc_y.inverse_transform(y_test)plt.scatter(x_test[:,5],y_test_p,s=20,color="b",marker='s')plt.scatter(x_test[:,5],y_test,s=20,color="r",marker='x')plt.xlabel('RoomNumber')plt.ylabel('Price')plt.title(name_data[5])plt.show()32邏輯回歸Logistic回歸與多重線性回歸實(shí)際上有很多相同之處,最大的區(qū)別就在于它們的因變量不同,其他的基本都差不多。正是因?yàn)槿绱?,這兩種回歸可以歸于同一個(gè)家族,即廣義線性模型(generalizedlinearmodel)。Logistic回歸主要在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某疾病的危險(xiǎn)因素,根據(jù)危險(xiǎn)因素預(yù)測某疾病發(fā)生的概率,等等。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。33邏輯回歸的IIA效應(yīng)邏輯回歸的“Independentandirrelevantalternatives”假設(shè),也稱作“IIA效應(yīng)”,指Logit模型中的各個(gè)可選項(xiàng)是獨(dú)立的不相關(guān)的。如:市場上有A,B,C三個(gè)商品相互競爭,分別占有市場份額:60%,30%和10%,三者比例為:6:3:1一個(gè)新產(chǎn)品D引入市場,有能力占有20%的市場——如果滿足IIA假設(shè),各個(gè)產(chǎn)品獨(dú)立作用,互不關(guān)聯(lián):新產(chǎn)品D占有20%的市場份額,剩下的80%在A、B、C之間按照6:3:1的比例瓜分,分別占有48%,24%和8%。如果不滿足IIA假設(shè),比如新產(chǎn)品D跟產(chǎn)品B幾乎相同,則新產(chǎn)品D跟產(chǎn)品B嚴(yán)重相關(guān):新產(chǎn)品D奪去產(chǎn)品B的部分市場,占有總份額的20%,產(chǎn)品B占有剩余的10%,而產(chǎn)品A和C的市場份額保持60%和10%不變。Logistic回歸當(dāng)因變量是離散的(比如好與壞、男與女等,輸出僅有兩個(gè)值,可以設(shè)置為0和1)時(shí),問題變?yōu)橐环N二元分類問題,可以用Logistic回歸來解決。Logistic回歸模型是一種廣義線性回歸模型。Logistic回歸

Logistic回歸選擇Sigmoid函數(shù)作為聯(lián)系函數(shù)Logistic回歸模型

Logistic回歸

Logistic回歸

Logistic回歸Logistic回歸應(yīng)用利用

Sklearn包的LogisticRegression類實(shí)現(xiàn)了Logistic回歸數(shù)據(jù)集:內(nèi)置的cancer數(shù)據(jù)集,包含了威斯康辛州記錄的569個(gè)病人的乳腺癌惡性/良性(1/0)類別型數(shù)據(jù)(訓(xùn)練目標(biāo)),以及與之對應(yīng)的30個(gè)維度的生理指標(biāo)數(shù)據(jù)。fromsklearn.datasetsimportload_breast_cancerfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportclassification_reportfromsklearn.metricsimportaccuracy_score,confusion_matrixLogistic回歸Logistic回歸應(yīng)用#數(shù)據(jù)加載和分割cancer=load_breast_cancer()X=cancer.datay=cancer.targetX_train,X_test,Y_train,Y_test=train_te

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論