平衡損失函數(shù)下線性回歸系數(shù)的Stein估計(jì)及其性質(zhì)_第1頁(yè)
平衡損失函數(shù)下線性回歸系數(shù)的Stein估計(jì)及其性質(zhì)_第2頁(yè)
平衡損失函數(shù)下線性回歸系數(shù)的Stein估計(jì)及其性質(zhì)_第3頁(yè)
平衡損失函數(shù)下線性回歸系數(shù)的Stein估計(jì)及其性質(zhì)_第4頁(yè)
平衡損失函數(shù)下線性回歸系數(shù)的Stein估計(jì)及其性質(zhì)_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 緒論1.1線性回歸模型和最小二乘估計(jì)近現(xiàn)代統(tǒng)計(jì)學(xué)中線性回歸模型是最為重要的模型,它在科學(xué)研究以及工農(nóng)業(yè)生產(chǎn)當(dāng)中都有十分廣泛的應(yīng)用,比如產(chǎn)品統(tǒng)計(jì)質(zhì)量管理,經(jīng)驗(yàn)公式的搜尋,試驗(yàn)數(shù)據(jù)的處理,市場(chǎng)預(yù)測(cè),地質(zhì)勘探,氣象預(yù)報(bào)等。線性回歸模型是用來(lái)描述一個(gè)隨機(jī)變量y與變量之間的線性關(guān)系的,一般具有下述形式 , (1.1)一般我們將矩陣X稱為設(shè)計(jì)矩陣。為了簡(jiǎn)便起見(jiàn),我們之后的研究討論都基于以下模型 , (1.2)線性回歸模型中最為常見(jiàn)也是最基本的問(wèn)題是其回歸系數(shù)的估計(jì)。回歸系數(shù)的估計(jì)方法很多,發(fā)展最早也是最基本的方法是最小二乘法,這種方法是由Legendre和Gauss先后于1806年和1809年獨(dú)立提出

2、。對(duì)于參數(shù)和,將它們的最小二乘估計(jì)(LS)定義為統(tǒng)計(jì)學(xué)家通過(guò)對(duì)的大量研究,發(fā)現(xiàn)其具有很多優(yōu)良的性質(zhì)。性質(zhì)1.1 是的無(wú)偏估計(jì),并且。性質(zhì)1.2 對(duì)于模型(1.1),的任意一個(gè)線性函數(shù)的最小方差線性無(wú)偏估計(jì)(BLUE)是,是維向量。性質(zhì)1.3 LS估計(jì)在線性估計(jì)類中是可容許估計(jì)。我們假設(shè)誤差向量服從多元正態(tài)分布,那么模型(1.1)中參數(shù)的最小二乘估計(jì)有更好的性質(zhì)。1.2 最小二乘估計(jì)變壞的原因由于最小二乘估計(jì)在線性估計(jì)類中的最優(yōu)性,我們?cè)诤荛L(zhǎng)一段時(shí)間內(nèi)都把最小二乘估計(jì)當(dāng)作線性回歸模型參數(shù)估計(jì)的最好估計(jì)。然而,容許性理論的不斷發(fā)展和人們對(duì)于含有很多變量的回歸問(wèn)題的研究,人們逐漸發(fā)現(xiàn)在某些情況下最小

3、二乘估計(jì)的性質(zhì)變得不再那么優(yōu)秀。為了探討最小二乘估計(jì)性質(zhì)變壞的原因,為了方便后文討論研究,先給出可容許估計(jì)的定義以及度量估計(jì)好壞與否的均方誤差的定義。定義1.1 和是的兩個(gè)估計(jì),若對(duì)于損失函數(shù)(1),對(duì)于所有成立,(2)至少存在一個(gè),使得上式中不等號(hào)成立。那么我們稱關(guān)于損失函數(shù)一致優(yōu)于。如果在一個(gè)估計(jì)類中,不存在一致優(yōu)于的估計(jì),我們就稱在這個(gè)估計(jì)類中關(guān)于損失函數(shù)是的可容許估計(jì)。我們簡(jiǎn)稱為的可容許估計(jì)。若不然,我們稱是的不可容許估計(jì)。定義1.2 假設(shè)參數(shù)向量的估計(jì)量是,我們稱是的均方誤差。在理論分析當(dāng)中,最小二乘法估計(jì)具有不可容許性。1955年,Stein證明了對(duì)于多元正態(tài)分布,在平方損失函數(shù)下

4、,它的均值向量的最小二乘估計(jì)具有不可容許性。這一重大發(fā)現(xiàn)促使人們對(duì)最小二乘估計(jì)重新加以研究。經(jīng)研究發(fā)現(xiàn),最小二乘估計(jì)的優(yōu)良性質(zhì)僅在線性無(wú)偏估計(jì)類中存在,然而在非線性估計(jì)類中,最小二乘估計(jì)的優(yōu)越性便不再存在。在實(shí)際應(yīng)用中,最小二乘估計(jì)法對(duì)于處理多維的復(fù)共線性數(shù)據(jù)的乏力性。電子計(jì)算機(jī)的飛速發(fā)展,使得人們經(jīng)常處理一些包含較多變量的回歸問(wèn)題,大量應(yīng)用實(shí)踐證明,在復(fù)雜的大型回歸模型問(wèn)題中。最小二乘估計(jì)表現(xiàn)并不理想。比如某些回歸系數(shù)的估計(jì)的絕對(duì)值非常大,有時(shí)回歸系數(shù)的估計(jì)值的符號(hào)和問(wèn)題的實(shí)際意義互相矛盾等等??茖W(xué)研究表明,產(chǎn)生上述問(wèn)題的重要原因就是回歸自變量之間存在近似的線性關(guān)系,我們稱為復(fù)共線性。這時(shí)設(shè)

5、計(jì)矩陣X的病態(tài)(矩陣的特征根中至少有一個(gè)接近于0)的,即使最小二乘法估計(jì)的方差在線性無(wú)偏估計(jì)類中是最小的,但其值很大,這就說(shuō)明這種情況下的最小二乘估計(jì)的精度不高。這是由于最小二乘估計(jì)均方誤差是由上式可以看出,矩陣的特征根只要有接近于零的,的值就會(huì)異常大。遇到這種情況,我們就不能再用最小二乘估計(jì)來(lái)估計(jì)回歸參數(shù)了。那么我們就需要尋找更好的估計(jì)來(lái)替代最小二乘估計(jì)。1.3 幾種影響深遠(yuǎn)的有偏估計(jì)由于某些最小二乘估計(jì)不再優(yōu)良的估計(jì)此類情況,近五十年來(lái)統(tǒng)計(jì)學(xué)家們研究了關(guān)于最小二乘估計(jì)的改進(jìn)問(wèn)題,相繼提出了一些改進(jìn)方法。一種方向就是設(shè)法消除回歸自變量之間的復(fù)共線性,從而提出了特征根估計(jì),主成分估計(jì)等。第二種

6、方向是減小的最小二乘法估計(jì)的均方誤差,從而提出了Stein估計(jì),嶺估計(jì)以及Liu估計(jì)等。這些方法有一個(gè)共同點(diǎn),就是估計(jì)的數(shù)學(xué)期望不等于待估的未知參數(shù),故人們將這些估計(jì)統(tǒng)稱為線性回歸參數(shù)的有偏估計(jì)。我們考慮從減小均方誤差的方向出發(fā)得到的有偏估計(jì),影響力較大的有下面幾種。(一)嶺估計(jì)及廣義嶺估計(jì)嶺估計(jì)是一種有偏估計(jì),是對(duì)最小二乘法估計(jì)的改進(jìn),這種估計(jì)的研究與應(yīng)用受到統(tǒng)計(jì)學(xué)家們的廣泛重視。定義1.3 對(duì)線性回歸模型(1.2),回歸系數(shù)的嶺估計(jì)定義為 (1.3)上式中稱作嶺參數(shù),顯然,我們發(fā)現(xiàn)最小二乘估計(jì)是時(shí)的特殊情況。嶺估計(jì)與最小二乘估計(jì)相比,把換成了。直觀上來(lái)說(shuō)這樣做的原因也是十分明顯的。當(dāng)呈病態(tài)

7、的時(shí)候,的特征值至少存在一個(gè)非常接近零,然后的特征根接近于零的程度就會(huì)大大改善,先前設(shè)計(jì)矩陣的復(fù)共線性也就不復(fù)存在,嶺估計(jì)的均方誤差也就小于最小二乘估計(jì)了。由大樣本理論來(lái)看,滿足一定條件下的嶺估計(jì)的收斂速度不低于最小二乘估計(jì)。沿著上述方向深入思考,我們發(fā)現(xiàn)如果以對(duì)角元不必全都相等的對(duì)角矩陣替代,能夠進(jìn)一步減小均方誤差。于是我們有了下面的廣義嶺估計(jì)。定義1.4 對(duì)線性回歸模型(1.2),定義回歸系數(shù)的廣義嶺估計(jì)為 (1.4)其中。(二)Stein估計(jì)嶺估計(jì)是將最小二乘估計(jì)向遠(yuǎn)點(diǎn)壓縮后得到的,一般,他們是對(duì)各個(gè)分量的不均勻壓縮。而Stein估計(jì)是一種均勻壓縮估計(jì),是由統(tǒng)計(jì)學(xué)家Stein于1955年

8、提出的。它是提出最早,也是最簡(jiǎn)單的無(wú)偏估計(jì)。雖然它的應(yīng)用不及嶺估計(jì),但扔在有偏估計(jì)領(lǐng)域占有重要地位。定義1.5 是的Stein估計(jì),此處我們稱之為壓縮系數(shù),在區(qū)間上變化時(shí),就生成了一個(gè)估計(jì)類。Stein估計(jì)中最為重要的是James-Stein估計(jì),我們簡(jiǎn)記為J-S估計(jì)。Stein估計(jì)的具體性質(zhì)我們會(huì)在后文作出詳細(xì)的介紹。(三)Liu估計(jì)下面介紹一種比較新的估計(jì),也就是Liu估計(jì)。Liu估計(jì)是Liu于1993年提出的新的有偏估計(jì)。近十年以來(lái),Liu估計(jì)得到了眾多統(tǒng)計(jì)學(xué)家的廣泛關(guān)注,統(tǒng)計(jì)學(xué)者對(duì)其進(jìn)行了大量研究。定義1.6 在線性模型(1.2)中,我們稱 (1.5)為回歸系數(shù)的Liu估計(jì)。其中是非隨

9、機(jī)常數(shù),實(shí)際應(yīng)用中,我們要慎重考慮d的選取。和前文的嶺估計(jì)類似,我們可以將式(1.5)中的換成矩陣,這樣即可將Liu估計(jì)推廣得到廣義Liu估計(jì)。不難看出,上述三種估計(jì)均是從減小均方誤差的方向提出,一些統(tǒng)計(jì)學(xué)家討論了這些有偏估計(jì)之間的關(guān)系。4得出了J-S估計(jì)優(yōu)于嶺估計(jì)的條件,5將Liu估計(jì),和嶺估計(jì),廣義Liu估計(jì)和廣義嶺估計(jì)進(jìn)行了深入比較。6將Stein估計(jì)與嶺估計(jì)組合在一起,7中把Liu估計(jì)與嶺估計(jì)組合在了一起,最后得出的新估計(jì)從某種意義上更進(jìn)一步地改進(jìn)了最小二乘法估計(jì)。1.4平衡損失函數(shù)對(duì)于模型(1.2)中回歸系數(shù), 以擬合優(yōu)度的角度出發(fā)能夠得到最小二乘估計(jì),以統(tǒng)計(jì)判決角度理論的角度,就是

10、在二次損失函數(shù)下從線性估計(jì)類中選擇使風(fēng)險(xiǎn)達(dá)到最小的估計(jì),從而得到各類可容許估計(jì)。但是,我們?cè)趯?duì)回歸系數(shù)進(jìn)行估計(jì)時(shí),既要考慮擬合優(yōu)度,還要考慮估計(jì)的精度。 為此,Zellner在比較總結(jié)了兩種方法的優(yōu)劣后,將兩種方法進(jìn)行綜合,得出了一種新的稱為平衡損失函數(shù)的標(biāo)準(zhǔn) (1.6)上式中,S是已知正定矩陣,是的估計(jì)。損失函數(shù)(1.6)同時(shí)考慮了模型擬合優(yōu)度以及估計(jì)的精度,比二次損失以及殘差平方和更加全面也更加合理。學(xué)術(shù)領(lǐng)域中,平衡損失函數(shù)參數(shù)估計(jì),估計(jì)比較和未來(lái)觀察值預(yù)測(cè)等方面得到了廣泛應(yīng)用。例如Wan8研究了不等式約束下參數(shù)的最小二乘法估計(jì)及其他相關(guān)風(fēng)險(xiǎn)比較,Giles9等共同研究了Stein估計(jì)及某

11、些回歸系數(shù)的先驗(yàn)估計(jì)的風(fēng)險(xiǎn)。Bansal10等人在平衡損失函數(shù)條件下對(duì)有限總體回歸系數(shù)的Bayes預(yù)測(cè)做出了適當(dāng)?shù)挠懻摗?.5全文安排本文第一章主要介紹了線性回歸模型,最小二乘估計(jì)和幾種著名的有偏估計(jì),探討了最小二乘估計(jì)不再優(yōu)良的原因,并簡(jiǎn)單介紹了平衡損失函數(shù)的研究成果。第二章給出了Stein估計(jì)的定義以及基本性質(zhì),并分別介紹了三種影響力較大的Stein估計(jì),它們是Farebrother估計(jì),J-S估計(jì)以及重K類估計(jì)。第三章是本文的主要內(nèi)容,在本章中我們證明了在一定條件內(nèi)在平衡損失函數(shù)下Stein估計(jì)相對(duì)于最小二乘估計(jì)的優(yōu)越性,并給出了Stein估計(jì)優(yōu)于最小二乘估計(jì)的充要條件,在證明之前給出了

12、基本理論用以鋪墊。第四章也是本文的主要內(nèi)容之一,本章著重研究了在平衡損失函數(shù)意義下Stein估計(jì)的壓縮系數(shù)的選取方法。第五章對(duì)本文所探討的內(nèi)容進(jìn)行了簡(jiǎn)單的總結(jié),并提出了目前尚待解決的問(wèn)題和一些解決思路。2 幾種重要的Stein估計(jì)2.1 Stein估計(jì)基本定義及研究背景在統(tǒng)計(jì)決策理論當(dāng)中,可容許估計(jì)是對(duì)估計(jì)最基本的要求。若一個(gè)估計(jì)是不可容許的,我們就能找到更好的估計(jì)代替它。一般情況下,未知參數(shù)向量的可容許估計(jì)是很多的,它們組成了一個(gè)龐大的估計(jì)類。故在實(shí)際應(yīng)用時(shí),我們應(yīng)該根據(jù)一些其它標(biāo)準(zhǔn),例如方差最小性,無(wú)偏性,平衡損失函數(shù)最小性等,從估計(jì)類中選取一個(gè)特殊估計(jì)。如最小二乘法估計(jì)因?yàn)樽陨淼膬?yōu)良性質(zhì)

13、得到了廣泛應(yīng)用。而Stein在1956年發(fā)現(xiàn)在多元正態(tài)總體中,的最小二乘估計(jì)在的情況下在均方誤差的意義下不可容許,這也就說(shuō)明了之前被普遍接受并且應(yīng)用非常廣泛的最小二乘估計(jì)是不可容許的。這個(gè)驚人的發(fā)現(xiàn),促使了一個(gè)新的研究領(lǐng)域的出現(xiàn),著名的Stein估計(jì)便應(yīng)運(yùn)而生了。我們稱為的Stein估計(jì),此處我們稱之為壓縮系數(shù),c在區(qū)間上變化。那么Stein估計(jì)有下述性質(zhì):(1) 若,那么是的有偏估計(jì),同時(shí)是壓縮估計(jì),即(2) 存在這樣的,它使成立。證 記得均方誤差為對(duì)求導(dǎo),且令其等于零,求得最優(yōu)解我們發(fā)現(xiàn),在處取到最小值,并且當(dāng)時(shí)成立。不難發(fā)現(xiàn),Stein估計(jì)中壓縮系數(shù)的最優(yōu)值依賴于未知參數(shù)與,我們必須通過(guò)

14、數(shù)據(jù)來(lái)選測(cè)壓縮系數(shù)。在應(yīng)用上,我們通常用未知參數(shù)的估計(jì)值來(lái)替代未知參數(shù)從而求得壓縮系數(shù)的最優(yōu)值。2.2 幾種Stein估計(jì)1 Farebrother估計(jì)定義2.1 假設(shè)參數(shù)向量的估計(jì)量是,我們稱是的均值偏離誤差??紤]模型(1.2),假設(shè)的估計(jì)是,我們可以將它寫(xiě)成下述形式:其中是階矩陣,那么 (2.1)我們將上式求關(guān)于的偏導(dǎo)數(shù),并讓它為零,就有因而我們得到了的最小MDE估計(jì)是 (2.2)我們可將(2.2)式改寫(xiě) (2.3)在上述計(jì)算中,我們分別用與的最小二乘估計(jì)來(lái)替代它們,得到 (2.4)我們把上式中的稱作Farebrother估計(jì)。2 重K類估計(jì)考慮將(2.3)式中擴(kuò)充成如下形式 (2.5)若

15、我們分別將,與以,與,那么改寫(xiě)為可計(jì)算形式上式中其中,它是冪等矩陣。我們發(fā)現(xiàn)與所以可以將改寫(xiě)成如下形式:不難發(fā)現(xiàn),時(shí),時(shí)。我們把改寫(xiě)成為更一般的如下形式 (2.6)上式中,是任意的非隨機(jī)或者隨機(jī)純量,我們將稱為的重K類估計(jì)。對(duì)于重K類估計(jì),8中詳細(xì)探討了它相對(duì)于最小二乘估計(jì)的優(yōu)越性。3 J-S估計(jì)我們?cè)谘芯恳恍┒嘣y(tǒng)計(jì)關(guān)于均值估計(jì)的問(wèn)題時(shí),知道在正態(tài)隨機(jī)向量中,已知,在獲得樣本后,若取得估計(jì)為上式中是常數(shù),那么當(dāng)時(shí),估計(jì)與樣本X的均值相比有較小MSE,也就是說(shuō),樣本均值不是的容許估計(jì),這是由James-Stein于1961年提出的。現(xiàn)在將這種思想方法應(yīng)用于模型(1.2),首先考慮模型 (2.7

16、)上式中,是奇異值分解,H是階矩陣,使成立,是階矩陣,它是的特征向量矩陣,是階矩陣,它是由的特征值的平方根構(gòu)成的對(duì)角陣。我們記,所以上式中。這樣以來(lái),我們可以利用的J-S估計(jì),借助等式(2.7),我們可將估計(jì)記為 (2.8)我們?cè)诘玫缴鲜降倪^(guò)程中只需要注意所以,并且。若未知,那么我們就用的無(wú)偏估計(jì)替代,這時(shí),我們稱具有上述形式的估計(jì)為James-Stein估計(jì),簡(jiǎn)記為J-S估計(jì)。不管是從實(shí)際應(yīng)用的角度還是理論研究的角度出發(fā),J-S估計(jì)都是最為重要的一種Stein估計(jì),11討論了J-S估計(jì)和Bayes估計(jì)以及經(jīng)驗(yàn)Bayes估計(jì)之間的關(guān)系,12給出了非常重要的J-S估計(jì)的應(yīng)用。除了上述提到的三種估

17、計(jì)以外還有1314等等重要的Stein估計(jì)。近些年來(lái),統(tǒng)計(jì)學(xué)家們?cè)谄湮墨I(xiàn)中提出了許多其它的Stein估計(jì),本文不再介紹。3 平衡損失函數(shù)下Stein估計(jì)相對(duì)于LS估計(jì)的優(yōu)良性3.1 理論準(zhǔn)備 前文簡(jiǎn)單討論了Stein估計(jì)在均方誤差意義下相對(duì)于最小二乘估計(jì),也就是LS估計(jì)的優(yōu)良性,那么在平衡損失函數(shù)意義下,Stein估計(jì)和最小二乘估計(jì)又會(huì)表現(xiàn)出怎樣的優(yōu)劣性呢?在進(jìn)入優(yōu)劣性的證明之前,我們先熟悉下述理論。定義3.1 在模型(1.2)中,參數(shù)向量的估計(jì)量為,那么的平衡損失風(fēng)險(xiǎn)函數(shù)為這里是已經(jīng)正定矩陣,在第一章中我們已經(jīng)知道平衡損失為其中。平衡損失風(fēng)險(xiǎn)函數(shù)準(zhǔn)則下討論Stein估計(jì)對(duì)于最小二乘估計(jì)的優(yōu)良

18、性,模型(1.2)中,取平衡損失中的S為。引理3.1假設(shè),為已知,是實(shí)函數(shù),并且,那么引理3.2 假設(shè),那么其中表示參數(shù)為的Poisson分布。3.2平衡損失函數(shù)意義下Stein估計(jì)優(yōu)于最小二乘估計(jì)的證明熟悉了上述理論鋪墊后,下面開(kāi)始Stein估計(jì)在平衡損失意義下相對(duì)于最小二乘估計(jì)優(yōu)越性的探討。定理3.1 模型(1.2)中,平衡損失函數(shù)下的Stein估計(jì)優(yōu)于最小二乘估計(jì)的充分必要條件為:證明 由于由于,平且與獨(dú)立,故有根據(jù)已有條件我們可以求出接下來(lái)取,由引理3 1可得上式中故可以求得然后令,根據(jù)引理3.2,可得 所以從而可以得到它等價(jià)于定理3.1說(shuō)明了只需要控制c在一個(gè)特定范圍內(nèi)取值,那么我們就能保證在平衡損失風(fēng)險(xiǎn)下Stein估計(jì)是優(yōu)于最小二乘估計(jì)的。4 平衡損失函數(shù)下Stein壓縮系數(shù)的選取4.1Stein壓縮系數(shù)求解思路前文中已給出了在均方誤差最小意義下,Stein估計(jì)的壓縮系數(shù)的選取方法,那么在平衡損失函數(shù)意義下,壓錯(cuò)系數(shù)該如何選取?我們已經(jīng)知道平衡損失函數(shù)的形式為其中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論