




已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第七章 嶺回歸,7.1 嶺回歸估計的定義 7.2 嶺回歸估計的性質(zhì) 7.3 嶺跡分析 7.4 嶺參數(shù)k的選擇 7.5 用嶺回歸選擇變量 7.6 本章小結(jié)與評注,7.1 嶺回歸估計的定義,一、普通最小二乘估計帶來的問題,當(dāng)自變量間存在復(fù)共線性時,回歸系數(shù)估計的方差就很大, 估計值就很不穩(wěn)定,下面進一步用一個模擬的例子來說明這一點。,例7.1 假設(shè)已知x1,x2與y的關(guān)系服從線性回歸模型 y=10+2x1+3x2+,7.1 嶺回歸估計的定義,7.1 嶺回歸估計的定義,7.1 嶺回歸估計的定義,二、嶺回歸的定義,嶺回歸(Ridge Regression,簡記為RR)提出的想法是很自然的。 當(dāng)自變量間存在復(fù)共線性時,XX0, 我們設(shè)想給XX加上一個正常數(shù)矩陣kI,(k0), 那么XX+kI接近奇異的程度就會比XX接近奇異的程度小得多。 考慮到變量的量綱問題,我們先對數(shù)據(jù)做標(biāo)準化,為了記號方便,標(biāo)準化后的設(shè)計陣仍然用X表示,7.1 嶺回歸估計的定義,我們稱,為的嶺回歸估計,其中k稱為嶺參數(shù)。,由于假設(shè)X已經(jīng)標(biāo)準化,所以XX就是自變量樣本相關(guān)陣,(7.2)式計算的實際是標(biāo)準化嶺回歸估計。 (7.2)式中因變量觀測向量y可以經(jīng)過標(biāo)準化也可以未經(jīng)標(biāo)準化。 顯然,嶺回歸做為的估計應(yīng)比最小二乘估計穩(wěn)定, 當(dāng)k=0時的嶺回歸估計就是普通的最小二乘估計。,(7.2),7.1 嶺回歸估計的定義,表7.2,7.1 嶺回歸估計的定義,7.2 嶺回歸估計的性質(zhì),在本節(jié)嶺回歸估計的性質(zhì)的討論中,假定(7.2)式中因變量觀測向量y未經(jīng)標(biāo)準化。,7.2 嶺回歸估計的性質(zhì),7.2 嶺回歸估計的性質(zhì),7.2 嶺回歸估計的性質(zhì),7.3 嶺跡分析,7.3 嶺跡分析,7.4 嶺參數(shù)k的選擇,一、嶺跡法,嶺跡法選擇k值的一般原則是:,(1)各回歸系數(shù)的嶺估計基本穩(wěn)定; (2)用最小二乘估計時符號不合理的回歸系數(shù),其嶺估計的符號變得合理; (3)回歸系數(shù)沒有不合乎經(jīng)濟意義的絕對值; (4)殘差平方和增大不太多。,7.4 嶺參數(shù)k的選擇,7.4 嶺參數(shù)k的選擇,二、方差擴大因子法,7.4 嶺參數(shù)k的選擇,三、由殘差平方和來確定k值,嶺估計在減小均方誤差的同時增大了殘差平方和,我們希望嶺回歸的殘差平方和SSE(k)的增加幅度控制在一定的限度以內(nèi),可以給定一個大于1的c值,要求: SSE(k)cSSE (7.3) 尋找使(7.3)式成立的最大的k值。在后邊的例子中我們將會看到對該方法的應(yīng)用。,7.5 用嶺回歸選擇變量,嶺回歸選擇變量的原則: (1)在嶺回歸中設(shè)計矩陣X已經(jīng)中心化和標(biāo)準化了,這樣可以直接比較標(biāo)準化嶺回歸系數(shù)的大小。可以剔除掉標(biāo)準化嶺回歸系數(shù)比較穩(wěn)定且絕對值很小的自變量。 (2)隨著k的增加,回歸系數(shù)不穩(wěn)定,震動趨于零的自變量也可以剔除。 (3)如果依照上述去掉變量的原則,有若干個回歸系數(shù)不穩(wěn)定,究竟去掉幾個,去掉哪幾個,這并無一般原則可循,這需根據(jù)去掉某個變量后重新進行嶺回歸分析的效果來確定。,7.5 用嶺回歸選擇變量,例7.2 空氣污染問題。Mcdonald和Schwing在參考文獻18 中曾研究死亡率與空氣污染、氣候以及社會經(jīng)濟狀況等因素 的關(guān)系??紤]了15個解釋變量,收集了60組樣本數(shù)據(jù)。 x1Average annual precipitation in inches 平均年降雨量 x2Average January temperature in degrees F 1月份平均氣溫 x3Same for July 7月份平均氣溫 x4Percent of 1960 SMSA population aged 65 or older 年齡65歲以上的人口占總?cè)丝诘陌俜直?x5Average household size 每家人口數(shù) x6Median school years completed by those over 22 年齡在22歲以上的人受教育年限的中位數(shù),7.5 用嶺回歸選擇變量,x7Percent of housing units which are sound & with all facilities 住房符合標(biāo)準的家庭比例數(shù) x8Population per sq. mile in urbanized areas, 1960 每平方公里人口數(shù) x9Percent non-white population in urbanized areas, 1960 非白種人占總?cè)丝诘谋壤?x10Percent employed in white collar occupations 白領(lǐng)階層人口比例 x11Percent of families with income $3000 收入在3000美元以下的家庭比例 x12Relative hydrocarbon pollution potential 碳氫化合物的相對污染勢 x13 Same for nitric oxides 氮氧化合物的相對污染勢 x14Same for sulphur dioxide 二氧化硫的相對污染勢 x15Annual average % relative humidity at 1pm 年平均相對濕度 yTotal age-adjusted mortality rate per 100,000 每十萬人中的死亡人數(shù),7.5 用嶺回歸選擇變量,計算XX的15個特征為: 4.5272,2.7547,2.0545,1.3487,1.2227 0.9605,0.6124, 0.4729,0.3708,0.2163 0.1665,0.1275,0.1142,0.0460,0.0049,條件數(shù),注:以上特征根是按照原文獻的計算方式,自變量觀測陣未包含代表常數(shù)項的第一列1,與用SPSS計算結(jié)果有所不同,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,進行嶺跡分析 把15個回歸系數(shù)的嶺跡畫到圖7.4中,我們可看到,當(dāng)k=0.20時嶺跡大體上達到穩(wěn)定。按照嶺跡法,應(yīng)取k=0.2。 若用方差擴大因子法,因k=0.18時,方差擴大因子接近于1,當(dāng)k在0.020.08時,方差擴大因子小于10,故應(yīng)建議在此范圍選取k。 由此也看到不同的方法選取k值是不同的。,7.5 用嶺回歸選擇變量,在用嶺回歸進行變量選擇時,因為從嶺跡看到自變量x4,x7,x10,x11和x15有較穩(wěn)定且絕對值比較小的嶺回歸系數(shù),根據(jù)變量選擇的第一條原則,這些自變量可以去掉。 又因為自變量x12和x13的嶺回歸系數(shù)很不穩(wěn)定,且隨著k的增加很快趨于零,根據(jù)上面的第二條原則這些自變量也應(yīng)該去掉。 再根據(jù)第三條原則去掉變量x3和x5。 這個問題最后剩的變量是x1,x2,x6,x8,x9,x14。,7.5 用嶺回歸選擇變量,例7.3Gorman-Torman例子(見參考文獻2)。 本例共有10個自變量,X已經(jīng)中心化和標(biāo)準化了, XX的特征根為: 3.692,1.542,1.293,1.046,0.972, 0.659,0.357,0.220,0.152,0.068 最后一個特征根10=0.068,較接近于零。,7.5 用嶺回歸選擇變量,條件數(shù)k=7.36810。從條件數(shù)的角度看,似乎設(shè)計矩陣X沒有復(fù)共線性。但下面的研究表明,作嶺回歸還是必要的。 關(guān)于條件數(shù),這里附帶說明它的一個缺陷,就是當(dāng)XX所有特征根都比較小時,雖然條件數(shù)不大,但多重共線性卻存在。,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,例7.4 用嶺回歸方法處理民航客運數(shù)據(jù)的多重共線性問題。 SPSS軟件的嶺回歸功能要用語法命令實現(xiàn),菜單對話框中沒有此功能。運行嶺回歸程序的步驟如下:,7.5 用嶺回歸選擇變量,1進入SPSS軟件,錄入變量數(shù)據(jù)或調(diào)入已有的數(shù)據(jù)文件。 2進入Syntax語法窗口。方法是依次點選File-New-Syntax。 3錄入如下的語法命令: INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 . 4運行。依次點選主菜單的Run-All.,7.5 用嶺回歸 選擇變量,7.5 用嶺回歸選擇變量,圖7.6 (a),7.5 用嶺回歸選擇變量,通過上面的分析,我們決定剔除x1,用y與其余4個自變量 做嶺回歸。把嶺參數(shù)步長改為0.02,范圍減小到0.2。 這需要增加一句語法程序, 點選主菜單的Window-Syntax Editor返回語法窗口, 語法命令如下: INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y /ENTER x2 x3 x4 x5 /START=0.0/STOP=0.2/INC=0.02.,7.5 用嶺回歸選擇變量,7.5 用嶺回歸選擇變量,圖7.6 (b),7.5 用嶺回歸選擇變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年建筑施工進度監(jiān)督管理協(xié)議正式文本
- 重塑跨境電商出海新勢能的背景意義及必要性
- 軟組織生物力學(xué)實驗系統(tǒng)基礎(chǔ)知識點歸納
- 牦牛養(yǎng)殖的智能監(jiān)控與數(shù)據(jù)分析
- 智能化輔導(dǎo)模式在高校學(xué)生管理中的創(chuàng)新探索
- 影視產(chǎn)業(yè)賦能區(qū)域經(jīng)濟發(fā)展的背景意義及必要性
- 哲學(xué)與現(xiàn)代探索
- 春節(jié)營銷藝術(shù)設(shè)計
- 傳媒實踐與創(chuàng)新
- 黑龍江省應(yīng)急通信網(wǎng)絡(luò)基礎(chǔ)建設(shè)規(guī)范第1部分總規(guī)范
- 湖北省隨州市隨縣2023-2024學(xué)年七年級下學(xué)期語文期末考試卷
- 2024年中國城建圍擋板市場調(diào)查研究報告
- 北京市海淀區(qū)101中學(xué)2025屆數(shù)學(xué)八年級第一學(xué)期期末統(tǒng)考試題含解析
- 重慶市渝中區(qū)巴蜀小學(xué)校2023-2024學(xué)年六年級下學(xué)期期末小升初數(shù)學(xué)試卷
- ??漆t(yī)院醫(yī)院財務(wù)預(yù)算管理知識考核試卷
- 2022-2023學(xué)年北京市西城區(qū)三帆中學(xué)七年級(上)期中數(shù)學(xué)試卷【含解析】
- 2024年中考語文真題分類匯編標(biāo)點符號
- 北京西城區(qū)2023年初中學(xué)業(yè)水平考試信息科技試卷真題(含答案詳解)
- 渣土傾倒協(xié)議
- 2023-2024學(xué)年廣西貴百河高一下學(xué)期5月新高考月考測試數(shù)學(xué)試卷(含答案)
- 2024屆上海復(fù)旦附中高一下3月英語試題及答案
評論
0/150
提交評論