高統(tǒng)專題1.穩(wěn)健回歸9譯稿_第1頁
高統(tǒng)專題1.穩(wěn)健回歸9譯稿_第2頁
高統(tǒng)專題1.穩(wěn)健回歸9譯稿_第3頁
高統(tǒng)專題1.穩(wěn)健回歸9譯稿_第4頁
高統(tǒng)專題1.穩(wěn)健回歸9譯稿_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc目錄1Sa與 Sa 的資源 本書體例的說明一個 Sa 操作的例子Sa 的文件管理與幫助(Help)文件 搜尋信息S Sa 公司 alist專門期刊 Sa Journal 應(yīng)用 Sa 的2數(shù)據(jù)管理命令示范創(chuàng)建一個新數(shù)據(jù)定義數(shù)據(jù)的子集:in 和if 選擇條件 創(chuàng)建和替代變量使用函數(shù)數(shù)值和字符串之間的格式轉(zhuǎn)換創(chuàng)建新的分類變量和定序變量標(biāo)注變量下標(biāo)導(dǎo)入其他程序的數(shù)據(jù)合并兩個或多個 Sa 文件數(shù)據(jù)的轉(zhuǎn)置、變換或分拆觀測案例的生成隨機(jī)數(shù)據(jù)和隨機(jī)樣本編制數(shù)據(jù)管理程序內(nèi)存管理3制圖命令示范直方圖散點(diǎn)圖曲線標(biāo)

2、繪圖連線標(biāo)繪圖其他類型的二維標(biāo)繪圖箱線圖餅圖條形圖點(diǎn)圖對稱圖和分位數(shù)圖質(zhì)量控制圖對圖形添加文本疊并多幅二維圖使用 Do 文件制圖取出與合并圖形4概要統(tǒng)計(jì)及交互表命令示范定距變量的描述性統(tǒng)計(jì)探測性數(shù)據(jù)分析正態(tài)性檢驗(yàn)和數(shù)據(jù)轉(zhuǎn)換頻數(shù)表和二維交互表多表和交互表iD:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc關(guān)于平均數(shù)、中位數(shù)以及其他概要統(tǒng)計(jì)指標(biāo)的列表使用頻數(shù)權(quán)數(shù)5方差分析和其他比較方法命令示范單樣本檢驗(yàn)兩樣本檢驗(yàn)單雙方差分析和多方差分析協(xié)方差分析值和誤差條形圖6線性回歸分析命令示范回歸表多元回歸值及殘差回歸的基本圖形相關(guān)假設(shè)檢驗(yàn)虛擬變量分類變量

3、的自動標(biāo)識和交互項(xiàng)逐步回歸多項(xiàng)式回歸面板數(shù)據(jù)7回歸命令示范SAT 分?jǐn)?shù)的重新回歸, 標(biāo)繪圖案例統(tǒng)計(jì)量多元共線性8擬合曲線命令示范波段回歸lowess 修勻轉(zhuǎn)換變量回歸1轉(zhuǎn)換變量回歸2條件效應(yīng)標(biāo)繪圖非線性回歸1非線性回歸29穩(wěn)健回歸命令示范用理想數(shù)據(jù)的回歸Y 上的特異值 X 上的特異值(杠桿作用) 不對稱的誤差分布穩(wěn)健的方差分析對 rreg 和 qreg 的應(yīng)用方差的穩(wěn)健估計(jì)1方差的穩(wěn)健估計(jì)210logistic 回歸 命令示范航天飛機(jī)數(shù)據(jù)使用 logistic 回歸條件效應(yīng)標(biāo)繪圖iiD:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc統(tǒng)計(jì)與標(biāo)

4、繪圖對序次和多分類 y 的logistic 回歸多項(xiàng) logistic 回歸11生存模型與事件計(jì)數(shù)模型命令示范生存時間數(shù)據(jù)計(jì)數(shù)時間數(shù)據(jù)Kaplan-Meier 存活函數(shù) Cox 比例風(fēng)險(xiǎn)模型 指數(shù)回歸與 Weibull 回歸泊松回歸一般化線性模型12主成份、因子和聚類分析命令示范主成份旋轉(zhuǎn)因子分主因子法最大似然法聚類分析 1聚類分析 213時間序列分析命令示范修勻時間標(biāo)繪圖例子時滯、前導(dǎo)和差分相關(guān)圖ARIMA 模型 14編程入門基本的概念與工具程序示范:移動自相關(guān)ado 文件 幫助文件矩陣代數(shù)自助法模擬iiiD:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1

5、&9 譯稿.docSWS_Page: 1頂1Sa與 Sa 的資源Sa 是用于 Windows、Macosh 以及 Unix 電腦系統(tǒng)下的一種功能完全的統(tǒng)計(jì)包。它的特點(diǎn)包括易操作、速度快,還包括一整套預(yù)先編好的分析與數(shù)據(jù)管理功能,同時也允許用戶根據(jù)需要來創(chuàng)建自己的程序、添加的功能。大部分操作既可以通過下拉菜單系統(tǒng)來完成,也可以更直接地通過鍵入命令來完成。初學(xué)者可以在菜單的幫助下學(xué)習(xí)使用 Sa,任何人在應(yīng)用自己所不熟悉的程序時都可以由此獲得幫助。Sa令有很強(qiáng)調(diào)的一致性和直觀意義,可以使有經(jīng)驗(yàn)的用戶更為高效地工作,這一特點(diǎn)還使得對更復(fù)雜或需要多次重復(fù)的任務(wù)進(jìn)行編程變得十分容易。如果需要,在應(yīng)用 Sa

6、 時還可以混用菜單方法和命令方法。它還提供廣泛的幫助(help)、尋找(search)和能完成像查詢某一命令句法或其他信息這類的事情。(link)功能,輕輕松松便本書先提供一些介紹性信息,然后從一段 Sa 應(yīng)用示范來說明數(shù)據(jù)分析的“流程”、以及怎樣使用分析結(jié)果。以后的各章將做更為詳細(xì)的解釋。然而,即使沒有任何解釋,你也可以看到有關(guān)命令多么簡單明了:打開數(shù)據(jù)文件 filename令就是use filename ,取得概要統(tǒng)計(jì)令是summarize ,取得相關(guān)矩陣令是 correlate ,如此等等。并且,也可以通過 Data 或 Sistics菜單上的選擇來取得同樣的結(jié)果。有各種各樣的資源來幫助

7、用戶學(xué)習(xí) Sa,以解決任何層次的。這些資源并不只是來自于 Saa公司,而且也來自于活躍的 Sa 用戶群體。本章的一部分內(nèi)容就是介紹一些最重要的資源:包括 S的幫助和打印版的文件;以及在尋求技術(shù)幫助時應(yīng)該給哪里打、發(fā)傳真、寫信或發(fā)電子郵件。S壇 Sa 的alist是 ,它提供多種服務(wù),包括更新與常見問題解答。此外,還有互聯(lián)網(wǎng)論ernet,以及專門的索引期刊 Sa Journal。本書體例的說明本書采用幾種不同的印刷體例來標(biāo)志有關(guān)文字的類型意義:凡文中采用粗黑體的英文文字(如 bold Courier font)專門表示命令。當(dāng)給出完整令行時,將以一個英文句點(diǎn)作為起始點(diǎn),這與 S例一樣。比如:a

8、結(jié)果窗口顯示或輸出文件(以 log 為擴(kuò)展名)中的體命令中的變量名(variable)或文件名(file)均為粗斜體,以強(qiáng)調(diào)它們是相機(jī)而定的,并不是命令的固定部分。1D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:2頂本書一般行文中涉及到變量名(variable)或文件名(file)時將采用不加粗的斜體,以示它們與一般文字的區(qū)別。Sa 菜單上的項(xiàng)目將以 Arial 體表示,以破折號表示隨后選擇。比如,打開一個現(xiàn)有數(shù)據(jù)文件的菜單選項(xiàng)依次為 File Open,然后找到并點(diǎn)擊這一數(shù)據(jù)集的文件名。注意,一些常規(guī)菜單的動作也可以

9、通過 Sa 主菜單工具條中的文字選項(xiàng)來完成:相應(yīng)的圖標(biāo)完成。比如,選擇 File Open 與點(diǎn)擊最左側(cè)的圖標(biāo)鈕或者的行動是完全一樣的。用戶還可以直接鍵入以下命令來完成同一動作:可以在結(jié)果(Results)窗口看到的 Sa 輸出將采用小號字(如 small Courier font)來表示。小號字可以允許 Sa 的 80 列輸出格式能夠適合本書的排印寬度。于是,顯示名為 penalty 的變量的概要統(tǒng)計(jì)指標(biāo)的計(jì)算結(jié)果時,就用以下形式:這些體例只適用于本書,而不適用于 Sa 本身的程序。Sa 可以顯示不同的屏幕字體,但是它在命令中并不使用斜體字。一旦 Sa 的日志(log)文件裝載入文字處理,或

10、者將結(jié)果中的表并粘貼到文字處理需要注意,S,你應(yīng)該將其格式改為 Courier 體的 10 號或更小號字,這樣才能將各列對應(yīng)。a 對于命令和變量名是區(qū)分大小寫差別的。所以, summarize 就是一個命令,而Summarize 和 SUMMARIZE 就不是命令。并且,Penalty 和 penalty 將是兩個不同的變量。一個 Sa 操作的例子先來看一看 Sa 是如何工作的,這一節(jié)將介紹如何打開和分析一個以往建立的數(shù)據(jù)文件,文件名為 lofoten.dta。Jentoft 和 Kristofferson(1989)在一篇關(guān)于挪威北極圈內(nèi) Lofoten 群島的漁民自我管理的中首次了這些數(shù)據(jù)

11、。這個數(shù)據(jù)中包含 10 次觀測(年)和 5 個變量,其中就有penalty 這個變量,它記載了每年漁民漁業(yè)條例的次數(shù)。,最好的方法是在工作開始時先打開一個用于輸出日志的“l(fā)og如果想對這段工作保存一個文件”。log 文件可以存放命令和統(tǒng)計(jì)結(jié)果表,但是不能存放圖形。要建立一個 log 文件,先點(diǎn)擊滾軸樣的開始 log(Begin Log)圖標(biāo)鈕,并為這個輸出結(jié)果的 log 文件設(shè)置文件名和文件夾?;蛘?,也可以通過在主菜單工具條上選擇 File Log Begin 起始這個文件,還可直接鍵入以下命令來起始這個文件:2D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9

12、_1&9 譯稿.docSWS_Page:3頂在Sa中,有多種方式來做這同一件事。每一種都有自己的優(yōu)點(diǎn),各自適合于不同場合或不同用戶的偏好。log 文件既可以按一種特殊的 Sa 格式(.smcl)來建立,也可以采用一般文本或 ASCII 格式(.log)。.smcl(即Sa markup and control language 的縮寫)文件格式在使用 Sa 時能很好地瀏覽和打印。其中還可以包括超以方便理解命令或錯誤提示。一般的 log 文本文件則不能使用這些格式,但是如果用戶將來要將這些輸出其他文檔或進(jìn)行進(jìn)一步編輯時,就會很方便。用戶在選擇了所需要的 log 文件類型后,便可以點(diǎn)擊 Save。

13、在這一節(jié)中,其命名為 monday1.smcl。建立一個.smcl 格式的 log 文件,將這里將分析一個現(xiàn)有的 Sa 格式的數(shù)據(jù)文件 lofoten.dta。要打開這個數(shù)據(jù),仍然有好幾種方式:從主菜單工具條上點(diǎn)擊 File Open lofoten.dta;直接點(diǎn)擊 lofoten.dta;鍵入命令 use lofoten 。在默認(rèn) Windows 設(shè)置下,Sa 將會在文件夾 C:data 中尋找數(shù)據(jù)文件。如果想要的文件在別的文件夾中,可以在 use 命令中定義它的位置:或者用命令 cd (代表 change directory,即改變子目錄)來改變這一階段的默認(rèn)文件夾:通常,取得文件的最簡

14、單方法是選擇 File Open ,然后按常規(guī)方式瀏覽該文件夾加以選擇。如果想要取得現(xiàn)在已經(jīng)在內(nèi)存中的數(shù)據(jù)的簡要描述,鍵入:許多 Sa 命令都可以簡化為它們的前幾個字母。比如,可以將 describe 命令簡化為僅有一個字母 d 。如果要使用菜單,那么選擇 Data Describe data Describe variables能得到同樣的輸出表格。emory OK 也這一數(shù)據(jù)只有 10 個觀測和 5 個變量,所以鍵入 list 就能列出相應(yīng)內(nèi)容(或者就鍵入小寫字母 l也行;或者選擇 Data Describe data List data OK 也行):3D:zguo_x60統(tǒng)計(jì)及 SPS

15、S 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:4頂從平均值(Mean)、標(biāo)準(zhǔn)差(Std. Dev.)、最小值(Min)以及最大值(Max)入手來進(jìn)行分析(直接鍵入 summarize 或 su ;或者選擇 Sistics Summaries, tables, & tests Summary sistics Summary sistics OK):如果需要將這部分結(jié)果打印出來,那么首先點(diǎn)擊結(jié)果(Results)窗口將其移到前面來,或者是點(diǎn)擊圖標(biāo)鈕(即 Bring Results Window to Front)也行,然后點(diǎn)擊圖標(biāo)鈕(即 Pr)。如果想一個

16、表、一些命令、或結(jié)果窗口的其他信息到文字處理中,首先要將結(jié)果窗口移到前面來(點(diǎn)擊這個窗口或圖標(biāo)鈕)。然后用光標(biāo)選擇想要的那些結(jié)果,點(diǎn)擊光標(biāo)右鍵,再選擇光標(biāo)菜單上的 Copy Text。最后,轉(zhuǎn)到你的文字處理中,在適當(dāng)點(diǎn)點(diǎn)擊光標(biāo)右鍵、然后點(diǎn)擊 Paste?;蛘撸c(diǎn)擊該文字處理器工具條上的“剪粘板(clipboard)”圖標(biāo)。那么在這個數(shù)據(jù)包括的 20 年中漁業(yè)條例的處罰次數(shù)是否有所變化呢?可以對每 10 年(decade)的處罰(penalty)做概要統(tǒng)計(jì),結(jié)果顯示出 1970 年代有的處罰:同一個表也可以通過菜單選擇來取得:Sistics Summaries, tables, & tests

17、Tables One/two- way table of summary sistics,然后將 decade 作為變量 1(variable 1)填入,而將 penalty 作為概要統(tǒng)計(jì)變量(variable to be summarized)。盡管使用菜單選擇通常都很簡單明了,SWS_Page:緊接下頁段落4D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:5 接上頁段落但是你能看到在描述它們時卻比使用簡單文字命令更復(fù)雜。因此,后面主要使用命令,只在少許場合提及菜單選用。對于菜單的探究、搞清其如何使用才能完成同樣的任務(wù)

18、,將留給讀者自己來完成。出于同樣的原因,Smanuals)也是采取了以命令為基礎(chǔ)的方式。a 參考手冊(Sa reference也許,處罰次數(shù)的減少是因?yàn)樵?1980 年代打魚的人變少了。(boats)和漁民人數(shù)(men)之間存在著高度相關(guān)(r 0.8):發(fā)現(xiàn),處罰次數(shù)與同期漁船數(shù)圖形可以更清楚地反映它們之間的關(guān)系。圖 1.1 按年(year)畫出了 men 與 penalty 的標(biāo)繪圖,命令為 graph twoway connected 。在這個例子中,先要求將按年對 men 做雙變量連線(connected-line)標(biāo)繪圖,定義了左側(cè) y 軸, yaxis(1) 。在分隔符 | 以后,又

19、要求按年對penalty 做連線圖,這次定義右側(cè) y 軸, yaxis(2) 。結(jié)果圖形表明,漁民人數(shù)與處罰次數(shù)在時間上有對應(yīng)關(guān)系。圖 1.1由于 1976 年至 1980 年的數(shù)據(jù)有缺失,圖 1.1 顯示中將 1975 年直接連接到 1981 年。有時出于種種原因,不太愿意這樣做。作為替換,可以去找到缺失數(shù)據(jù)、也可以采用稍微復(fù)雜一點(diǎn)令在這段時期留一個不連接的缺口。5D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:6頂要打印出這個圖,點(diǎn)擊 Graph 窗口或點(diǎn)擊(將圖形窗口移前),然后點(diǎn)擊打印圖標(biāo)鈕。要將此圖直接到文字處

20、理器或其他文件中,先將圖形窗口移前,這一圖形,然后選擇Copy。再轉(zhuǎn)到你的文字處理器窗口,定位點(diǎn)后,選擇一種適當(dāng)?shù)恼迟N方式,比如 Edit Paste、或Edit Paste Spel(Metafile)、或直接點(diǎn)擊“剪粘板(clipboard)”圖標(biāo)鈕(不同的文字處理器有不同的處理方式)。并選擇 Save,或選擇主菜單上的 File Save如果需要將此圖存起來將來再用,可以Graph。在 Save As Type 子菜單可以選擇存為幾種不同的文件格式。在 Windows 系統(tǒng)中,這些選項(xiàng)包括:Sa graph (*.gph)(一種“活”的圖形,包括足夠的信息供 Sa 來編輯。)As-is

21、graph (*.gph) Windows Metafile (*.wmf)Enhanced Metafile (*.emf)(一種更壓縮的 Sa 圖形格式。)Portable Network GraphicsTIFF (*.tif)(*.png)tScript (*.ps)EncapsulatedEncapsulatedtScript with TIFF preview (*.eps)tScript (*.eps)不管需要哪種圖形格式,都值得同時再存一份這一圖形的“活”的格式,即.gph 格式。這種.gph 格式在將來還可以用 graph use 或 graph combine 命令來重新打

22、開、合并、重新新設(shè)置格式(參見第 3 章)。或重除了使用菜單以外,也可以在任何 graph 圖形命令之后加上 saving(filename) 選項(xiàng)來存為圖形文件。比如,要把圖形存為文件名為 figure1.gph 的文件,就在原制圖命令后加入另一個分隔符、一個英語逗號以及 saving(figure1) 即可。第 3 章將會對 graph 命令的原理做的解釋?,F(xiàn)在這個完整令包括以下內(nèi)容(在 Sa 命令窗口可以鍵入任意多的空格,只要沒有硬回車即可):通過以上所有分析,log 文件 Monday1.smcl 中已經(jīng)存放了的結(jié)果。用好幾種方法都能檢查這個文件,看看曾經(jīng)做過什么:File Log V

23、iew OK View snapshot of log file OK鍵入命令 View Monday1.smcl可以通過點(diǎn)擊(Pr)來打印 log 文件。Log 文件將會在一段 S也可以用下列指令要求提前關(guān)閉:a 操作完成后自行關(guān)閉,或者6D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:7頂File Log Close Close log file OK鍵入命令 log close一旦關(guān)閉,文件 Monday1.smcl 就可以再通過隨后的 Sa 操作的 File View 再打開。為了使輸出文件能更容易地被其他的文字

24、處理器打開,可以鍵入以下命令將 log 文件從.smcl 格式(S為.log 格式(標(biāo)準(zhǔn) ASCII 文本格式):a 格式)轉(zhuǎn)換或者,一開始就建立.log 格式文件而不用.smcl 格式。Sa 的文件管理與幫助(Help)文件Sa 9 的整套文件包括 15 卷,共計(jì) 6,000 多頁:一本較薄的初學(xué)手冊(比如,Getting Started with sa for Windows),一本更廣泛的用戶指南(Users Guide),三卷本的基礎(chǔ)參考手冊(Base Reference Manual),還有分別對數(shù)據(jù)管理、制圖、縱貫和面板數(shù)據(jù)、矩陣編程(Mata)、多元統(tǒng)計(jì)、編程、數(shù)據(jù)、存活分析和流

25、行病學(xué)梯度表、以及時間序列分析的參考手冊。初學(xué)手冊只是幫助用戶做最基本的安裝、視窗管理、數(shù)據(jù)輸入、打印等方面的工作。用戶指南是對一般問題的更廣泛的,包括資源與問題解決。新用戶尤其要注意的是用戶指南中的一節(jié):ds everyone should know)”?;A(chǔ)參考手冊按字母排列列出“所有人都應(yīng)該知道令(了所有 Sa 命令。每一條命令都包括了完整令句法、所有可用選項(xiàng)的描述、例子、有關(guān)公式和基本原理的技術(shù)說明,以及其他參考文獻(xiàn)。數(shù)據(jù)管理、制圖、面板數(shù)據(jù)等等在一般參考文獻(xiàn)中已經(jīng)涉及到了,但是更復(fù)雜的題目是在它們自己的專題手冊中才提供更具體的處理方法以及例子。還有一本快速參考與索引(Quick Re

26、ference and Index)提供了全部文件齊全的。當(dāng)在操作 Sa 時,更簡單的是取得而不是去查詢這些手冊。從主菜單工具條選擇Help 時將會拉下選擇的菜單,包括對特定命令的幫助、一般問題、更新、Sa 期刊,以及連接 Sa 的()。此外,也可以將瀏覽器窗口(Viewer)移到前面(或點(diǎn)擊),并使用其檢索(Search)和內(nèi)容(Contents)的功能來尋找信息。還可以使用 help 命令。比如,鍵入 help correlate 命令將使有關(guān)幫助信息顯示在瀏覽器窗口。與參考手冊一樣,屏幕幫助也提供命令句法說明以及完整的選項(xiàng)。它還包括了一些例子,但常常不太具體,而且不提供手冊中那些技術(shù)。超

27、級文本。但是,瀏覽器幫助相比手冊也有一些優(yōu)點(diǎn)。它能夠在 Sa 互聯(lián)的文件中搜尋可以使你直接找到有關(guān)條目。屏幕幫助還包括一些最近更新的資料、或者你還可以從 Sa或其他用戶一些“非”的 Sa 程序。7D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:8頂搜尋信息選擇 Help Search Searchation and FAQs 提供一個直接方式來搜尋 Sa 文件資料中的信息或命令是:上的常見問題解答(FAQs,即 frequently asked questions)和其他頁面。相應(yīng)的 Sa與命令 search 相關(guān)的選項(xiàng)

28、允許規(guī)定搜尋范圍,比如搜尋 Sa 文件和常見問題解答、或者搜尋網(wǎng)上資源包括其期刊(Sa Journal)、或者同時搜尋這兩個資源。比如,這個命令將搜尋文件和常見問題中與“median”(中位數(shù))和“regres”(回歸)有關(guān)的信息。如果還想將搜尋范圍從文件資料和常見問題進(jìn)一步擴(kuò)大到 Sa 的網(wǎng)上資源,就鍵入瀏覽器窗口的搜尋結(jié)果將包括可點(diǎn)擊的超到信息或原著。對命令 search 的一種特殊使用在某些場合下會提供信息,比如當(dāng)令沒有被成功執(zhí)行因而導(dǎo)致得到的是含義不明的 Sa 錯誤提示碼。比如,鍵入一個單詞令 table 就會得到錯誤提示或“返回碼(return code)”r(100):這是因?yàn)槊?/p>

29、 table 顯然是需要附上變量表的。但是,錯誤提示的意義常常并不太清楚。如果想知道返回碼 r(100)到底是什么意思,可鍵入:鍵入 help search 可以提供關(guān)于這個命令的信息。8D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:9頂Sa 公司要搜尋有關(guān)定購、證和更新方面的信息,你可以通過下列電子郵箱與 Sa 公司聯(lián)系:或者他們的:Sa己單獨(dú)的有豐富的用戶支持信息,并且還提供其他資源的。Sa(SaPress)還有其自,提供關(guān)于 Sa物的信息,包括例題所用的數(shù)據(jù)。這兩個都很值得進(jìn)行探究。Sa 公司的郵寄地址是號碼也包

30、括很好記的 800 號碼。對于有證的 Sa 用戶,多數(shù)版本的升級是免費(fèi)的。這就為用戶當(dāng)前版本取得改進(jìn)、錯誤修復(fù)等提供了便捷的途徑。如果想查一查自己的 Sa 是否需要更新了,就鍵入以下命令來啟動自動升級進(jìn)程:要尋求技術(shù)幫助,用戶可以通過電子郵件詢問,在標(biāo)題行中要寫明你的S a序列號:不過,在進(jìn)行聯(lián)系或?qū)懶艑で蠹夹g(shù)以前,用戶也許應(yīng)該先到 看看你的問題是否已經(jīng)在常見問題中解答過了。這個還提品、定購以及幫助信息;國際語言說明;分類與公告。的是提供用戶支持,包括以下服務(wù):FAQS 常見問題解答。如果用戶困擾、在手冊中又找不到,那么就可以查查這里。也許它就是一個常見問題。這里的問答涉及面很寬,既有很基礎(chǔ),

31、像“如何將其他文件轉(zhuǎn)換,比方“如何在完全最大似然估計(jì)中使用 heckman為 Sa 格式的數(shù)據(jù)文件?”;也有更技術(shù)化命令來強(qiáng)制 =0 ?”UPDATES 更新升級。對于有。證的 Sa 用戶,經(jīng)常性的較小更新或錯誤修復(fù),可以免費(fèi)9D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:10頂OTHER RESOUR 其他資源。和信息中包括Sa 教學(xué)(網(wǎng)上課程,NetCourses);Sa 期刊的增進(jìn);Sa 用戶進(jìn)行的獨(dú)立服務(wù)器(Salist);銷售有關(guān) Sa的和其他統(tǒng)計(jì)參考資料的書店;a 的競爭者。與 Sa相關(guān)的數(shù)據(jù)與程序;通向其

32、他統(tǒng)計(jì)的鏈接,其中也包括 S下面一節(jié)來描述一些最重要的用戶支持資源。SalistSalist 提供了一個極有價(jià)值的 Sa 活躍用戶之間聯(lián)系的。它獨(dú)立于 Sa 公司,盡管S件:a 的程序員們對其進(jìn)行監(jiān)察,并且也經(jīng)常參與。要訂閱 Salist,就給以下電子郵箱發(fā)個郵郵件內(nèi)容只需要寫以下一段話即可:于是處理器就會承認(rèn)接到你的來信并附上如何使用這個的說明,包括如何將你自己的消息張貼到上去。任何發(fā)送到下列電子郵箱的消息都會寄到當(dāng)前所有訂閱者處:千萬不要試圖通過直接給 Salist 地址發(fā)訂閱或取消訂閱。這并不能達(dá)到你的目的,但是卻會將你的錯誤分發(fā)給成百上千的訂閱者。要想從majordomo 郵箱:上取消

33、訂閱,請同樣寫給你訂閱時用過的但是內(nèi)容只寫以下一段話:或者是同一意思的另一表達(dá):如果你計(jì)劃外出旅行一段時間,取消訂閱將保證你的郵箱不致被 S新訂閱。alist 的消息塞滿。你總是可以重要搜尋 Salist,可以Salist 的材料包括索取程序、求解方法、有關(guān)建議,以及回答和一般。與 Sa 期刊(下面討論)一道,Salist 在擴(kuò)展 Sa 本身能力以及認(rèn)真的 Sa 用戶的能力方面發(fā)揮了主要作用。專門期刊 Sa Journal從 1991 年至 2001 年,稱為 Sa Technical Bulletin(簡稱 STB)的雙服務(wù)于發(fā)布新令和Sa 更新,其中既有用戶撰寫的,也有正式發(fā)布的。STB

34、上的文章累積起來,每年都一本書,稱為 Sa Technical Bulletin Reprs,這些書可以從 Sa 公司直接訂購。10D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:11頂隨著網(wǎng)絡(luò)的發(fā)展,用戶之間通過 Salist 這種載體的即時交流成為可能。程序文件能從遙遠(yuǎn)的資源地輕易。雙印的期刊和磁盤對于用戶交流或發(fā)布更新與用戶撰寫的程序而言,都已經(jīng)不再是最好的途徑了。為了適應(yīng)變化了的世界,STB 也必須有新的發(fā)展。于是,Sa Journal(Sa 期刊)開始,以迎接、滿足 Sa 日益擴(kuò)大的用戶群。像以前的 STB 一

35、樣,Sa Journal 仍包括用戶描述研制新命令的文章,也包括 Sa 公司雇員編制的非正式命令。但是,發(fā)布新命令并不是它的首要關(guān)注。Sa Journal 還包括帶索引的統(tǒng)計(jì)學(xué)注釋文章、書評、以及一些有趣的欄目,比如由 Nicholas J. Cox 主持的“話說 Sa”(Speaking Sa)如何更有效率地使用 S的目錄:a 編程語言。Sa Journal 既給初學(xué)者服務(wù)、也給老用戶服務(wù)。比如,這里是最近一期SaJournal 是每季度,可以通過直接向 Sa 公司訂閱。應(yīng)用 Sa 的除了 Sa 自己的參考手冊以外,描述 Sa 或應(yīng)用 Sa 來示范分析技術(shù)的書目越來越多。這些書中包括一般性介

36、紹;學(xué)科應(yīng)用,如社會科學(xué)、生物統(tǒng)計(jì)或經(jīng)濟(jì)計(jì)量;以及有關(guān)分析、實(shí)驗(yàn)數(shù)據(jù)、分類因變量以及其他題目的專門著述。Sa 網(wǎng)頁上的書店提供的書目,并且附有內(nèi)容描述:這個網(wǎng)店提供了一個了解和訂購不同商的 Sa 相關(guān)的好地方。11D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc原著 239 頁9穩(wěn)健回歸a 的基本 regress 和 anova 命令執(zhí)行常規(guī)最小二乘法(OLS)回歸。OLS 的普及源自其在S假定“理想”數(shù)據(jù)條件下的理論優(yōu)勢。如果誤差分布為正態(tài)、獨(dú)立、同分布(即 normal i.i.d.),那么OLS 解會比任何其他無偏估計(jì)更有效率。然而

37、,這一陳述的卻常常被忽略了:如果誤差不是正態(tài)分布,即非 i.i.d.的話,那么其他無偏估計(jì)也許比 OLS 做得更好。實(shí)際上,OLS 的效率在重尾(heavier-tailed)誤差分布(即特異值傾向)條件下迅速。然而,這樣的分布在許多領(lǐng)域見慣。OLS 傾向于追隨特異值,為了擬合它們損失了其他樣本案例。長期以來,由于樣本中經(jīng)常包含特異值,進(jìn)而導(dǎo)致不同樣本之間在結(jié)果上差異很大,或者說效率較差。穩(wěn)健回歸(robust regres)方法在理想數(shù)據(jù)條件下幾乎可以取得與 OLS 一樣的效率,而在數(shù)據(jù)不理想(比如誤差非正態(tài))時能夠取得比 OLS 高得多的效率?!胺€(wěn)健回歸”其實(shí)包含了多種不同的技術(shù),每一種在

38、處理有問題的數(shù)據(jù)時都有自己的優(yōu)點(diǎn)和缺點(diǎn)。本章介紹兩種穩(wěn)健回歸, rreg 和 qreg ,并且將它們的結(jié)果與 OLS( regress )的結(jié)果加以比較。rreg 和 qreg 都能抵抗特異值的牽引,在非正態(tài)和重尾型誤差分布的情況下便能取得高于 OLS 的效率。然而,它們共享 OLS 關(guān)于誤差獨(dú)立和同分布的假定。結(jié)果是,它們的標(biāo)準(zhǔn)誤、統(tǒng)計(jì)檢驗(yàn)和置信區(qū)間在誤差異分布或誤差相關(guān)時也不。在使用 regress 或其他模型命令時(盡管不是 rreg 和qreg ),想要放松誤差獨(dú)立和同分布假定,Sa 也提供了估計(jì)穩(wěn)健標(biāo)準(zhǔn)誤的選項(xiàng)。為了簡明,本章集中雙變量的例子,但是穩(wěn)健的多元回歸或多ANOVA 可以直

39、接應(yīng)用同樣的試驗(yàn)來評價(jià)相應(yīng)的統(tǒng)計(jì)技術(shù)。命令。第 14 章還會回過頭來穩(wěn)健性問題,并說明如何應(yīng)用本章描述的幾種技術(shù)可以從菜單選擇上得到:SSistics Nonparametricistics Linear regresysis le regres分位數(shù)回歸穩(wěn)健標(biāo)準(zhǔn)誤and related Linear regres Robust SE12D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc原著 240 頁命令示范執(zhí)行 y 對 3 個自變量的穩(wěn)健回歸,采用再最小二乘法加上 Huber 和雙權(quán)數(shù)函數(shù),并按 95%效率調(diào)整。在適當(dāng)設(shè)置數(shù)據(jù)時,rre

40、g 還可以取得穩(wěn)健的平均數(shù)、置信區(qū)間、平均數(shù)差異檢驗(yàn),以及ANOVA 或ANCOVA。執(zhí)行 y 對 3 個自變量的穩(wěn)健回歸。上述選項(xiàng)指示 Sa 不要打印迭代過程的輸出,采用調(diào)整常數(shù) 6(它比默認(rèn)的 7 能更快使特異值的權(quán)數(shù)縮?。?,產(chǎn)生一個新變量(任意命名為 rweight)來為每一案例存放最終迭代的穩(wěn)健權(quán)數(shù),并且限制迭代最多進(jìn)行 10 次。執(zhí)行 y 對 3 個自變量的分位數(shù)回歸(le regres),也稱為最小絕對值(least absolutevalue,LAV)回歸或最小 L1-規(guī)范回歸(minimum L1-norm regres)。按照默認(rèn),qreg 建立 y的 0.5 條件分位數(shù)(近

41、似于中位數(shù))作為自變量的線性函數(shù),于是提供了一種“中位數(shù)回歸”。執(zhí)行 y 對 3 個自變量的分位數(shù)回歸,建立 y 的 0.25 條件分位數(shù)(第一四分位)作為 x1、x2、x3 的線性函數(shù)。執(zhí)行分位數(shù)回歸,用自助法(bootstrap)對數(shù)據(jù)重復(fù)抽樣 100 遍(默認(rèn)設(shè)置為 rep(20) )以估計(jì)出標(biāo)準(zhǔn)誤。在執(zhí)行 regress 、 rreg 、 qreg 、 bsqreg 命令之后,進(jìn)一步計(jì)算出殘差值(指定命名為e)。與此類似, predict yhat 可進(jìn)一步計(jì)算出 y 的條件下也可應(yīng)用。值。其他 predict 選項(xiàng)在某些限制執(zhí)行 y 對 3 個自變量的 OLS 回歸。通過不需要假定誤

42、差同分布的穩(wěn)健方法(Huber/White 方法或三明治方法)對系數(shù)的方差及標(biāo)準(zhǔn)誤進(jìn)行估計(jì)。如果加上 cluster() 選項(xiàng),還可容納誤差之間一種來源的相關(guān)。用戶指南中描述了這些方法背后的原理。用理想數(shù)據(jù)的回歸為了闡明穩(wěn)健性問題,來探究一個人工小數(shù)據(jù)(n=20)robust1.dta:13D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docP241 上變量 x 和 e1 各自都包括 20 個來自獨(dú)立標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)值。y1 包括 20 個由回歸模型產(chǎn)生的值:y1 10 2 x e1形成這前 3 個變量令為:要是用實(shí)際數(shù)據(jù),編碼錯誤和測量誤

43、差有時會導(dǎo)致極特異的值。為了模擬這種情況,案例的誤差從 -0.89 改為 19.89 :可以將第 2 個用類似的處理方法形成了 robust1.dta 中的其他一些變量。y1 和 x 呈現(xiàn)了一種理想的回歸問題:y1 的期望值其實(shí)只是 x 的線性函數(shù),誤差來自于正態(tài)、獨(dú)立、并且相同的分布,因?yàn)檫@些都是回歸線如圖 9.1 所示。定義的。OLS 很好地估計(jì)了真實(shí)的截距(10)和斜率(2),取得的14D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docP241 上圖 9.1用迭代再最小二乘法(IRLS)程序 rreg 來取得穩(wěn)健回歸估計(jì)。第一步 rr

44、eg 迭代是從OLS 估計(jì)開始的。在第一步后任何影響大到 Cook 的 D 值大于 1 的案例都將會自動被擱置一邊。然后,應(yīng)用Huber 函數(shù)為每一個案例計(jì)算出權(quán)數(shù),它會使殘差較大的案例得到較小的權(quán)數(shù),再繼續(xù)進(jìn)行最小二乘法(WLS)估計(jì)。經(jīng)過幾步 WLS 迭代,權(quán)數(shù)函數(shù)轉(zhuǎn)變?yōu)?Tukey 雙權(quán)(Tukey biweight,參見 Li, 1985),并按 95%效率加以調(diào)整(細(xì)節(jié)參見 Hamilton, 1992a)。 rreg 估計(jì)出標(biāo)準(zhǔn)誤并進(jìn)行假設(shè)檢驗(yàn),用的是偽值法(pseudo性。valuesmethod)(見 Street,Carroll 和Ruppert,1988),因?yàn)槠洳恍枰俣?/p>

45、正態(tài)15D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docPDF243 項(xiàng)這一“理想數(shù)據(jù)”示例沒有包括嚴(yán)重的特異值,所以這里本來用不著 rreg 。 rreg 所取得的截距和斜率估計(jì)與 regress 所取得的類似(都與真值 10 和 2 差得不多),但是它們的估計(jì)標(biāo)準(zhǔn)誤稍大一 點(diǎn)。在 normal i.i.d.誤差條件下,正如本例所示, rreg 理論上擁有 OLS 效率的 95%。rreg 與 regress 都同屬最大似然估計(jì)族(M-estimators)。而另一種序次統(tǒng)計(jì)估計(jì)-estimators)采用擬合 y 的分位數(shù),而不是它的

46、期望值或平均數(shù)。比如,可以建模表示 y 的中位數(shù)(0.5 分位數(shù))如何隨 x 變化。 qreg ,一種 L1 型估計(jì),可以完成這種分位數(shù)回歸,并提供了另一種能夠很好抵抗特異值的方法:盡管 qreg 取得了合理的參數(shù)估計(jì),但它們的標(biāo)準(zhǔn)誤都超過了regress (OLS)和 rreg 。在理想數(shù)再來看看它們在數(shù)據(jù)并不理想條件下?lián)l件下, qreg 是這 3 種估計(jì)中效率的作為。的。在以下各節(jié),Y 上的特異值變量 y2 與 y1 相同,但是有一個由第 2 號案例的“嚴(yán)重”誤差所導(dǎo)致的特異值。OLS 估計(jì)對特異值幾乎沒抵抗力,所以案例 2 的這一變化(在圖 9.2 的左上部)極大地改變了regress

47、的結(jié)果:16D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docPDF244 頁頂這個特異值提高了 OLS 截距(從 9.936 升至 11.1579),并且減低了斜率(從 2.048 降到 0.766)。R2 也從 0.8574 減小到 0.0511。標(biāo)準(zhǔn)誤相當(dāng)于原來的 4 倍,而且 OLS 斜率(圖 9.2 中的實(shí)線)變得不再顯著區(qū)0 了。然而,正如圖 9.2 中虛線所示,這個特異值對于 rreg 幾乎沒什么影響。穩(wěn)健系數(shù)幾乎沒什么變化,仍然接近于真實(shí)參數(shù) 10 和 2,并且穩(wěn)健標(biāo)準(zhǔn)誤也沒有提高多少。圖 9.217D:zguo_x60統(tǒng)計(jì)

48、及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docPDF245 頁頂上述命令的 nolog 選項(xiàng)導(dǎo)致 S為名為 rweight2 的變量。a 不再打印迭代。選項(xiàng)genwt(rweight2)將穩(wěn)健權(quán)數(shù)存接近于 0 的殘差所產(chǎn)生的權(quán)數(shù)接近于 1,越大的殘差得到越發(fā)更小的權(quán)數(shù)。案例 2 由于影響過大已經(jīng)被自動地?cái)R置一邊,因?yàn)槠?Cook 的 D 統(tǒng)計(jì)量已經(jīng)大于 1 了,所以 rreg 分配給案例 2 的權(quán)數(shù)為“缺失”,于是這個案例對最終估計(jì)完全沒有影響。要是用 regress 伴以分析權(quán)數(shù)的回歸(結(jié)果略)會得到相同的最終估計(jì),但是標(biāo)準(zhǔn)誤或統(tǒng)計(jì)檢驗(yàn)是不正確的:要是用 q

49、reg 做 y2 對 x 的回歸,也能抵抗特異值的影響,并且比 regress 做得要更好,但是其表現(xiàn)不如 rreg 。 qreg 顯得比 rreg 的效率低,并且就這個樣本的系數(shù)估計(jì)距離真值 10 和 2 來說有點(diǎn)過大。18D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docpdf246研究者也已經(jīng)注意到,用 qreg 計(jì)算的標(biāo)準(zhǔn)誤有時會低估計(jì)真正的樣本之間的變異,尤其是當(dāng)樣本規(guī)模較小時。作為一種替換,S分位數(shù)回歸,但運(yùn)用自助法(bootstrapa 提供了 bsqreg 命令,它與 qreg 完成同樣的中位數(shù)或,即數(shù)據(jù)再抽樣)來估計(jì)標(biāo)準(zhǔn)誤

50、。選項(xiàng) rep( ) 控制重復(fù)的次數(shù)。它的默認(rèn)設(shè)置是 rep(20) ,這對于探測性工作已經(jīng)足夠了。在取得“最終”結(jié)論之前,可以多花點(diǎn)時間抽出 200 或的自助樣本。 qreg 和 bsqreg 擬合的是同樣的模型。在下面的例子中, bsqreg 也取得了類似的標(biāo)準(zhǔn)誤。到第 14 章時還會再談自助法的話題。X 上的特異值(杠桿作用)rreg 、 qreg 、 bsqreg 都能較好地處理 y 上的特異值,除非具有異常 y 值的案例還同時具有異常的 x 值(也稱杠桿作用,leverage)。在 robust1.dta 數(shù)據(jù)中的變量 y3 和 x3 提供了關(guān)于杠桿的極端例子。除案例 2 是個杠桿作

51、用案例以外,其他所有變量值都與 y1 和 x 相同。案例 2 有很強(qiáng)的杠桿作用,再加上它有非尋常的 y3 值,兩者結(jié)合起來導(dǎo)致其影響巨大:regress和qreg都追隨這個特異值,說“最佳擬合”線有負(fù)的斜率(圖 9.3)。19D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.doc圖 9.320D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docpdf 248 頂圖 9.3 顯示出, regress 和 qreg 對于杠桿作用(即 x 上特異值)并不穩(wěn)健。然而, rreg 程序不僅削弱了較大殘差

52、案例的權(quán)重(這種功能本身并不能防護(hù)杠桿影響),而且還自動地將那些 Cook 的D(影響)統(tǒng)計(jì)量大于 1 的案例擱置在外了。當(dāng)y3 對 x3 回歸時,這種情況就發(fā)生了。 rreg 不再理睬這個最有影響的觀測案例,在其他 19 個案例基礎(chǔ)上求出了一條更加合理的正斜率的回歸線。將影響特大的案例置于不顧,就像 rreg 所為,提供了一種簡單的但是并不十分安全的方式來處理杠桿作用。還存在著更綜合的方法,稱為有限影響回歸(bounded-influence regres),也可以在Sa 程序中執(zhí)行。圖 9.2 和圖 9.3 的例子只涉及了單一特異值,其實(shí)穩(wěn)健程序可以處理特異值。如果有太多嚴(yán)重的特異值,或者

53、有一組類似的特異值,可能會導(dǎo)致穩(wěn)健程序中止。但是在這種場合,用的標(biāo)繪圖常常值得加以注意,分析必須要問,擬合一個線性模型是否有意義。很可能值得去尋求一種明確的模型來解釋什么導(dǎo)致這些特異值之所以特異。試驗(yàn)(在第 14 章示范)確認(rèn),像 rreg 和 qreg 這樣的估計(jì)方法應(yīng)用于重尾(特異值傾向)但對稱的誤差分布時,通常能保持無偏,效率要優(yōu)于 OLS 估計(jì)。下一節(jié)示范當(dāng)誤差為不對稱分布時會產(chǎn)生什么結(jié)果。不對稱的誤差分布在數(shù)據(jù) robust1.dta 中,變量 e4 呈偏態(tài)分布并含有特異值:e4 等于將 e1(標(biāo)準(zhǔn)正態(tài)變量)做 4 次方、然后調(diào)整為平均值為 0。這些偏態(tài)誤差、加上與 x 之間的線性關(guān)

54、系定義變量 y4 = 10 + 2x + e4 。不管誤差分布的形狀如何,OLS 仍然是無偏估計(jì)。從趨向上看,其估計(jì)應(yīng)該以真實(shí)參數(shù)值為中心。但是大多數(shù)穩(wěn)健估計(jì)卻并不是這樣。除非誤差是對稱的,用 qreg 擬合的中位線或用 rreg 擬合的雙權(quán)(biweight)線在理論上并不與用 regress 估計(jì)的 y 期望值線相符。只要偏態(tài)誤差只反映在分布中很小部分,那么 rreg 展示不出有偏。但是當(dāng)整個分布都呈偏態(tài)時,比如像 e4 那樣, rreg 就會集中在一側(cè)削弱權(quán)數(shù),導(dǎo)致 y 上的截距估計(jì)顯著有偏。21D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9

55、譯稿.docSWS_Page:249 頂在圖 9.4 中,盡管 rreg 取得的 y 截距過低,其斜率卻與 OLS 線和真實(shí)模型保持平行。其實(shí),由于受特異值影響較少, rreg 的斜率(1.95)更接近于真實(shí)斜率(2),并且其標(biāo)準(zhǔn)誤也比 regress 結(jié)果小得多。這就表明,在使用 rreg 或類似估計(jì)方法于偏態(tài)誤差數(shù)據(jù)時要有所權(quán)衡:在 y 截距估計(jì)上存在有偏風(fēng)險(xiǎn),但是回歸系數(shù)估計(jì)可望無偏、并相對更精確。在許多研究場合,斜率比截距更有意義,因此這種得失是值得的。此外,穩(wěn)健的 t 檢驗(yàn)和 F 檢驗(yàn)中并不需要假定正態(tài)誤差,這與 OLS 估計(jì)中有所不同。圖 9.4穩(wěn)健的方差分析一旦方差分析模型改用回

56、歸形式,工資數(shù)據(jù) faculty.dta 來加以示范。rreg 還能用于穩(wěn)健的方差分析或協(xié)方差分析。用某校教師22D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:250 頂教師工資是隨而提高的。在這個數(shù)據(jù)中,有更高的平均工資水平:gender 都對工資有顯著影響。常規(guī)(OLS)的方差分析表明,與但是工資并不是正態(tài)分布,并且高級平均工資反映出可能有特異值影響,即有少數(shù)人工資極高。假如想要通過穩(wěn)健的方差分析來檢查這些結(jié)果。需要與 gender 的相應(yīng)效應(yīng)編碼(effect-coding)變量,這一數(shù)據(jù)也已經(jīng)包括了。23D:z

57、guo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:251頂如果 faculty.dta 中并沒有這些效應(yīng)編碼變量(如 female、assoc 和 full),可以根據(jù) gender和(的信息用一系列 generate 和 replace 命令來建立。另外,還需要建立兩個交互項(xiàng)eraction terms)來代表女性和女性正教授:和助理教授在這個例子中都屬于“省略類型”。現(xiàn)在分析了:就可以用回歸來完成以前所做的方差24D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_

58、Page:252頂以前 anova 同樣的 R2 和 F 檢驗(yàn)結(jié)執(zhí)行 regress 之后再執(zhí)行適當(dāng)?shù)膖est 命令就能取得與果。這里回歸值就等于平均工資。值(即平均數(shù))、R2 和 F 檢驗(yàn)的結(jié)果并不取決于在回歸中省略了哪個類別,因?yàn)樗^的“省略類別”,與助理教授,在回歸并沒有真的省略。它們的信息暗含于所包括的類別中:即如果一個教師不是女的,那么他就一定是男的,以此類推。為了完成穩(wěn)健的方差分析,就應(yīng)用rreg于這個模型:25D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:253頂rreg 削弱了幾個特異值的權(quán)數(shù),主要是那

59、些高薪的測值:正教授。要看穩(wěn)健平均數(shù),就再次使用預(yù)要是但是,看穩(wěn)健平均數(shù),那么在助理教授和正教授內(nèi)的男女差異顯得較小,盡管并沒有完全。內(nèi)的差異卻有少許擴(kuò)大。輔以效應(yīng)編碼和適當(dāng)?shù)慕换ロ?xiàng),析,但檢驗(yàn)的是穩(wěn)健平均數(shù)(而不是regress 可以準(zhǔn)確重現(xiàn)方差分析結(jié)果。 rreg 也能完成類似的分regress 和 anova 用的常規(guī)平均數(shù))之間的差異。以類似的工作方式, qreg 提供了第三種可能來檢驗(yàn)中位數(shù)之間的差異。為了比較,下面來進(jìn)行教師工資分析的分位數(shù)回歸:26D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:254頂由分

60、位數(shù)回歸得到的值與各交互分組中的中位工資數(shù)非常接近,因?yàn)榭梢灾苯雍藢?shí):27D:zguo_x60統(tǒng)計(jì)及 SPSS 課程社會統(tǒng)計(jì)課程立項(xiàng)上網(wǎng)1.穩(wěn)健回歸SWS9_1&9 譯稿.docSWS_Page:255頂于是, qreg 使像多方差分析或協(xié)方差分析那樣來擬合模型,但是卻通過 0.5 分位數(shù)或近似中位數(shù)的方式,而不是常規(guī)的平均數(shù)方式。在理論上,0.5 分位數(shù)和中位數(shù)是相同的。但是在實(shí)際中,分位數(shù)是用實(shí)際樣本數(shù)值近似計(jì)算的,而當(dāng)一個分組包括了偶數(shù)觀測時,中位數(shù)卻是通過位于最中間的兩個值取平均值得到。所以,樣本中的中位數(shù)和 0.5 分位數(shù)可能有點(diǎn)差別,但這種差別不至于影響到模型解釋。對 rreg 和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論