PSM理論與R軟件應(yīng)用_第1頁(yè)
PSM理論與R軟件應(yīng)用_第2頁(yè)
PSM理論與R軟件應(yīng)用_第3頁(yè)
PSM理論與R軟件應(yīng)用_第4頁(yè)
PSM理論與R軟件應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TOC\o"1-5"\h\z上篇:傾向匹配法基本理論2一、因果推論的基本難題2(一)基本難題2(二)平均處理效用3二、處理變量選擇3(一)處理變量的類型3(二)處理變量的可操作性3(三)財(cái)務(wù)與會(huì)計(jì)研究應(yīng)用中處理變量的選取3三、因果推論的相關(guān)假定4(一)單元同質(zhì)性假定4(二)可忽略的處理分配假定4(三)控制混淆共變量5(四)穩(wěn)定單元處理值假定5(五)共變量分布平衡與重合假定6四、使用傾向值匹配法估計(jì)因果效用7(一)傾向值的基本要義7(二)傾向值匹配法的步驟8(三)傾向值8下篇:傾向值匹配法R軟件應(yīng)用12一、Matchit12二、Matching23上篇:傾向匹配法基本理論一、因果推論的基本難題(一)基本難題一個(gè)二元處理變量,有兩個(gè)因果態(tài),會(huì)產(chǎn)生兩個(gè)實(shí)際結(jié)果,兩個(gè)反事實(shí)結(jié)果。無(wú)論結(jié)果

是實(shí)際觀察到的,或是無(wú)法觀察到的,對(duì)應(yīng)到兩個(gè)因果態(tài),兩種結(jié)果以隨機(jī)變量Y表示為丫和Y0,1通常代表接觸到處理,0代表未接觸到處理。用z來(lái)表示這個(gè)二元變量或處理變量,則兩個(gè)因果態(tài)的數(shù)學(xué)表達(dá)式為:TOC\o"1-5"\h\zY=YifZ=11.1Y=YifZ=01.2某個(gè)單元實(shí)際被觀測(cè)到的結(jié)果,通常以小寫(xiě)字母表示,y1和y:。而這個(gè)二元處理對(duì)于該受測(cè)單元的個(gè)體處理效用則為:ITE=i=y1-yi:1.3處理效用都是比較實(shí)驗(yàn)組和對(duì)照組間的線性差。表1因果推論的基本難題Y丫。實(shí)驗(yàn)組Z=1實(shí)際結(jié)果Y反事實(shí)結(jié)果對(duì)照組Z=0反事實(shí)結(jié)果實(shí)際結(jié)果Y1.1和1.2可以表不TOC\o"1-5"\h\zY=ZY+(1—Z)Yo1.4對(duì)照組可以觀測(cè)到的,是實(shí)驗(yàn)組無(wú)法觀測(cè)到的反事實(shí)結(jié)果;實(shí)驗(yàn)組可以觀測(cè)到的,是對(duì)照組無(wú)法觀測(cè)到的反事實(shí)結(jié)果。對(duì)任何一個(gè)受測(cè)單元來(lái)說(shuō),不可能獲得它的個(gè)體處理效用,101因?yàn)?,它或是在?shí)驗(yàn)組被觀測(cè)到y(tǒng)1,或是在對(duì)照組被觀測(cè)到y(tǒng),由于無(wú)法同時(shí)得到y(tǒng)1和y:,當(dāng)然也不可能獲得個(gè)體處理效用*。這就是因果推論的基本難題。從1.4可以得到,當(dāng)接觸處理時(shí)Z=1,(1-Z)Y0=0,Y0的信息便缺失了;當(dāng)沒(méi)有接觸處理時(shí)Z=0,ZY=。,Y的信息便缺失了。(二)平均處理效用由于無(wú)法獲得每一個(gè)受測(cè)單元的個(gè)體處理效用,即處理效用是無(wú)法在個(gè)體層面上估計(jì),只能從集體層面上估計(jì)平均處理效用(AT日:ATE=E(t)=E(丫-K)=E(Y)-E(Yo)1.5二、處理變量選擇(一)處理變量的類型受測(cè)單元接受一個(gè)二元的處理實(shí)驗(yàn),產(chǎn)生兩種狀態(tài):接觸到處理的狀態(tài)和未接觸到處理的狀態(tài),前者屬于實(shí)驗(yàn)組,后者屬于對(duì)照組,比較受測(cè)單元在兩種狀態(tài)下的差別,所得到的就是處理效用。如果處理不是二元的,而是多元的(例如受教育程度:小學(xué)、中學(xué)、大學(xué)),可以用多元邏輯處理;如果是連續(xù)性的處理變量,則是廣義的傾向值匹配。連續(xù)性的處理變量應(yīng)用更加廣泛。(二)處理變量的可操作性因果推論中,并非任何一個(gè)變量都可以置于回歸方程的右側(cè),成為處理變量;處理變量必須能夠在受測(cè)單元上實(shí)現(xiàn)不同程度的實(shí)驗(yàn)。如探索身高與收入的因果關(guān)系是沒(méi)有意義的,因?yàn)橐粋€(gè)人身高是固定的。但如果這個(gè)人通過(guò)穿增高鞋,那么穿增高鞋可以看成一個(gè)處理變量,它改變了身高。性別也不適合作為處理變量。單親母親也不適合作為處理變量。另外,人為把一個(gè)變量按照均值(或中位數(shù))分類,大于均值(或中位數(shù))為1,否則為0,從而構(gòu)建一個(gè)虛擬二元變量。在分配受測(cè)單元于處理組和對(duì)照組時(shí),強(qiáng)調(diào)?隨機(jī)?分配,即接受處理的受測(cè)單元不是因?yàn)槠渌蛩囟x擇處理的。因此,人為構(gòu)造一個(gè)虛擬二元變量作為處理變量也是不可取的,但可以把這個(gè)變量作為連續(xù)性的處理變量。(三)財(cái)務(wù)與會(huì)計(jì)研究應(yīng)用中處理變量的選取附表1中對(duì)國(guó)內(nèi)使用PSMT法中處理變量選取進(jìn)行了一個(gè)歸納。國(guó)內(nèi)在財(cái)務(wù)與會(huì)計(jì)研究中,從2010年開(kāi)始出現(xiàn)PSMT法的應(yīng)用,一直到2017年,該方法的應(yīng)用并不多。其中,處理變量涉及股權(quán)激勵(lì)、發(fā)行債券、公司違規(guī)、交叉上市、銀行授信、政府補(bǔ)貼、稅收激勵(lì)、審計(jì)意見(jiàn)、事務(wù)所選擇、媒體報(bào)道、研發(fā)投入等二元變量,還涉及一些連續(xù)性處理變量,如債務(wù)集中度、研發(fā)強(qiáng)度等。三、因果推論的相關(guān)假定(一)單元同質(zhì)性假定單元同質(zhì)性假定就是說(shuō),各個(gè)受測(cè)單元基本上是一樣的,是同質(zhì)的。不能或避免比較類似蘋(píng)果和橘子的對(duì)象,盡可能比較同一種蘋(píng)果,最好是使用同一個(gè)基因復(fù)制出來(lái)的蘋(píng)果。在實(shí)驗(yàn)中,復(fù)制相同的個(gè)體,如在同一個(gè)環(huán)境等因素下,培養(yǎng)類似的小白鼠,然后分相同的兩組,一組接觸處理一組不接觸處理。培養(yǎng)200只基因完全相同的小白鼠,100只接受紫外線照射,另外100只不接受。6個(gè)月后,觀察兩批小白鼠皮膚病變的數(shù)量,假設(shè)我們觀測(cè)到實(shí)驗(yàn)組中有20只老鼠皮膚癌變,病變率為20%而對(duì)照組只有5只病變,病變率為5%所以實(shí)驗(yàn)處理的效用就是20%-5%=15%平均來(lái)說(shuō),過(guò)度照射紫外線的小白鼠,相比沒(méi)有照射紫外線的小白鼠,皮膚癌變的概率增加了15%單元同質(zhì)性假定,我們可以這樣認(rèn)為,接觸組的個(gè)體和非接觸組的個(gè)體盡量相同。所以在匹配中,一些研究是在同年、同行業(yè)、同地區(qū)或者同規(guī)模等幾種匹配規(guī)則,以一種匹配規(guī)則進(jìn)行匹配;也有的以幾種規(guī)則一起限制進(jìn)行匹配。(二)可忽略的處理分配假定在實(shí)驗(yàn)室里,處理分配可以做到隨機(jī)化,即接觸和非接觸處理變量的個(gè)體不是人為分配的。但是在社會(huì)科學(xué)等方面不可能做到處理分配的隨機(jī)化。在分配受測(cè)單元于處理組與對(duì)照組時(shí),強(qiáng)調(diào)是?隨機(jī)?分配。隨機(jī)分配處理是為確保接觸處理的受測(cè)單元不是因?yàn)槠渌蛩囟x擇接觸處理。比如參加數(shù)學(xué)補(bǔ)習(xí)的學(xué)生,如果一些成績(jī)好的學(xué)生對(duì)自己的成績(jī)要求更高,那么參加補(bǔ)習(xí)班的這些成績(jī)好的學(xué)生,也就是實(shí)驗(yàn)組的學(xué)生,他們的數(shù)學(xué)平均成績(jī)高于對(duì)照組就不足為奇了。成績(jī)高可能不是來(lái)自于補(bǔ)習(xí)班的教學(xué)效果顯著,而是本來(lái)這些學(xué)生成績(jī)就好。所以,若果能夠?隨機(jī)?分配學(xué)生參與補(bǔ)習(xí)班,則可以排除這些可能造成實(shí)驗(yàn)組學(xué)生和對(duì)照組學(xué)生基本差異的因素。實(shí)驗(yàn)結(jié)果必須與處理分配是獨(dú)立的,即,(Y1,K)-Z1.6分配處理Z必須?聯(lián)合?獨(dú)立于",《):在一個(gè)設(shè)計(jì)合理的隨機(jī)分配處理的實(shí)驗(yàn)中,分配機(jī)制并不能讓我們預(yù)測(cè)實(shí)驗(yàn)效果的大小。分配處理z?聯(lián)合?獨(dú)立于(丫,丫0)時(shí),處理分配是隨機(jī)化的,因此處理分配是可忽略的,所以1.6稱為嚴(yán)格可忽略的處理分配假定。處理變量Z?聯(lián)合?獨(dú)立于(丫,丫0),但不表示Z與丫是獨(dú)立的。由于社會(huì)科學(xué)的研究多屬于觀測(cè)性研究,與實(shí)驗(yàn)研究的最大差別在于,研究者無(wú)法控制處理是如何分配到各個(gè)受測(cè)單元的,研究者所進(jìn)行的觀測(cè)性研究,往往是發(fā)生在處理分配后,結(jié)果已經(jīng)發(fā)生,研究者才觀測(cè)到受測(cè)單元的行為以及反應(yīng),只有通過(guò)合理的假定以及建模來(lái)了解處理的分配機(jī)制,借此從中分離處理與因果態(tài)的關(guān)系,從而達(dá)到獨(dú)立的條件。鑒于觀測(cè)性研究無(wú)法隨機(jī)分配處理,研究者使用問(wèn)卷調(diào)查模擬實(shí)驗(yàn)室隨機(jī)分配處理的機(jī)制,確保處理效用大小與處理分配無(wú)

關(guān)。關(guān)。嚴(yán)格可忽略的處理分配假定可以減弱到弱可忽略的處理分配假定,分配處理Z分別與(¥,,丫0)獨(dú)立,1.7滿足1.7,則有ATE=E()1.8=E(Y/Z=1)-E(Yo|Z=0)1.8=E(Y|Z=1)-E(Y|Z=0)1.8表明處理分配等概率的。(三)控制混淆共變量我們可以模仿實(shí)驗(yàn)的研究,但是無(wú)法復(fù)制相同的受測(cè)者與受測(cè)環(huán)境。比如,參加補(bǔ)習(xí)班的硬件條件比較好,硬件條件既影響處理?參加補(bǔ)習(xí)班?,又影響補(bǔ)習(xí)成績(jī)。因此,在因果推論的研究中,如果無(wú)法控制影響處理分配和實(shí)驗(yàn)結(jié)果的混淆共變量,則分配處理Z必須聯(lián)合?獨(dú)立于(Y,Y0)就不成立,所以我們?cè)谘芯恐幸M量控制可能影響處理分配和實(shí)驗(yàn)結(jié)果的共變量X,讓聯(lián)合獨(dú)立性成立,即:TOC\o"1-5"\h\z四,K),Z|X1.9假設(shè)在控制可觀察到X的條件下,分配處理的機(jī)制是嚴(yán)格可忽略的。這個(gè)假定放寬了等概率分配處理的條件,處理分配不再要求是等概率的,只要滿足在控制共變量的條件下,處理分配是等概率的即可。式1.9改變?yōu)锳te=e()=E(丫|X,Z=1)-E(Y0|X,Z=0)1.10=E(Y|X,Z=1)-E(Y|X,Z=0)因此,我們需要知道E(Y|X,Z=1)和E(Y|X,Z=0),在接觸處理時(shí),共變量對(duì)受測(cè)單元的影響;在非接觸處理時(shí),共變量對(duì)受測(cè)單元的影響。估計(jì)這兩部分可以使用傾向得分匹配方法。(四)穩(wěn)定單元處理值假定穩(wěn)定單元處理值假定:一是指處理對(duì)于所有受測(cè)單元的效果是一致的,是穩(wěn)定的。比如,如果參加補(bǔ)習(xí)班可以使得成績(jī)提高10%那么在其他變量不變的情況,我們可以推測(cè),對(duì)于其他學(xué)生參加補(bǔ)習(xí)班也應(yīng)該提高成績(jī),如果成績(jī)反而下降了,這表示參加補(bǔ)習(xí)班這個(gè)處理,其效用可為正,也可以為負(fù),則處理值是不穩(wěn)定的。二是指受測(cè)單元彼此不受對(duì)方干擾;未接觸到處理的受測(cè)單元,不會(huì)因?yàn)榱硪粋€(gè)受測(cè)單元接觸到處理而受影響;所以同群效應(yīng)和溢出效應(yīng)都是違反穩(wěn)定單元處理值的假設(shè)。比如,參加補(bǔ)習(xí)班的學(xué)生進(jìn)入沒(méi)有課后補(bǔ)習(xí)的班上,參加補(bǔ)習(xí)班的學(xué)生由于補(bǔ)習(xí)使得他們的能力提高,能夠積極準(zhǔn)確地回答老師的問(wèn)題,但可能造成老師誤判自己的教學(xué)效果,本來(lái)尚未解釋清楚的概念,可能不再解釋了。因此,未參加補(bǔ)習(xí)班的學(xué)生因此受到了影響,于是他們成績(jī)的低落不是因?yàn)闆](méi)有參加補(bǔ)習(xí),而是老師沒(méi)有盡到授業(yè)解惑的責(zé)任。對(duì)于這點(diǎn)問(wèn)題,可能的解決方式是以班級(jí)為單元,隨機(jī)決定哪個(gè)班級(jí)的學(xué)生參與補(bǔ)習(xí),而不是決定哪些學(xué)生參加補(bǔ)習(xí)。比如:選擇?股權(quán)激勵(lì)?處理,一個(gè)公司選擇這些處理可能是受到其他公司選擇的影響,所以企業(yè)績(jī)效的增加,我們也無(wú)法得出?股權(quán)激勵(lì)?提高了企業(yè)績(jī)效的結(jié)論。原因之一是?股權(quán)激勵(lì)?并非一項(xiàng)隨機(jī)選擇,而是參考其他企業(yè)的行為,結(jié)合本企業(yè)條件所作出的決定;選擇又受到其他企業(yè)的干擾,是在參考其他企業(yè)經(jīng)驗(yàn)后,才推出本企業(yè)的股權(quán)激勵(lì)模式,所以處理實(shí)施的方式可能是經(jīng)過(guò)改良的。(五)共變量分布平衡與重合假定在控制適當(dāng)共變量后,可以忽略處理變量分配與潛在結(jié)果的關(guān)系,但還有相應(yīng)的假定:共變量在實(shí)驗(yàn)組和對(duì)照組的分布必須是平衡的、重合的。1、平衡以股權(quán)激勵(lì)為例,假設(shè)我們控制的共變量包括財(cái)務(wù)變量和公司治理變量:企業(yè)規(guī)模、資產(chǎn)負(fù)債率、營(yíng)業(yè)收入增長(zhǎng)率、資本支出率、市場(chǎng)力量、總資產(chǎn)周轉(zhuǎn)率、資產(chǎn)收益率、兩職合一、企業(yè)實(shí)際控制人以及第一大股東持股比例,典型的實(shí)驗(yàn)組和對(duì)照組共變量分布不平衡的情況可能是這樣的:實(shí)施股權(quán)激勵(lì)的大規(guī)模企業(yè)比小規(guī)模多,實(shí)施股權(quán)激勵(lì)的資產(chǎn)負(fù)債率較高、國(guó)有企業(yè)較多,如此以來(lái),兩個(gè)組別無(wú)法對(duì)比,我們可以懷疑,除了實(shí)施股權(quán)激勵(lì)造成的組間差異外,這些共變量可能也是造成這些差異的因素之一。所以,檢驗(yàn)假設(shè)1.9成立與否,檢查共變量在組間的分布是否平衡是重要的方法之一。在實(shí)踐中,是通過(guò)比較這些共變量在組間的均值和標(biāo)準(zhǔn)差的差異來(lái)判斷是否平衡。2、重合實(shí)驗(yàn)組和對(duì)照組分布必須重合,重合的區(qū)域氛圍稱為共同支持域。圖1模擬了參加補(bǔ)習(xí)班前后數(shù)學(xué)成績(jī)的差異。黑實(shí)點(diǎn)是實(shí)驗(yàn)組,灰實(shí)點(diǎn)是對(duì)照組。黑實(shí)線和灰實(shí)線分別為實(shí)驗(yàn)組和對(duì)照組的回歸線。實(shí)驗(yàn)組有數(shù)學(xué)成績(jī)特別高的學(xué)生,對(duì)照組有數(shù)學(xué)成績(jī)特別低的學(xué)生,在圖1的左圖,從左圖的左側(cè)兩條垂直線和右側(cè)兩條垂直線可以看出,對(duì)照組的低分學(xué)生不能與實(shí)驗(yàn)組匹配,而實(shí)驗(yàn)組的高分學(xué)生不能與對(duì)照組匹配,也就是說(shuō)這兩個(gè)區(qū)域不能重合。而圖1的右圖,雖然回歸線擬合的更好,但還是存在兩個(gè)區(qū)域不重合。不重合會(huì)造成估計(jì)處理效用的偏差。解決不重合的方法之一就是刪除這些不重合的區(qū)域,也就是只保留重合部分。圖1重合性分析平衡和重合是兩個(gè)完全不同的概念,平衡了共變量在組間的差異,并不代表各個(gè)共變量的分布就是重合的;重合也不代表平衡。比如高管特征變量中,實(shí)驗(yàn)組和對(duì)照組中高管的受教育程度可能都分布在本科以下、本科、本科以上等三個(gè)層次,實(shí)驗(yàn)組和對(duì)照組在受教育程度上完全重合,但分布不平衡,即實(shí)驗(yàn)組受教育程度在三個(gè)層次的人數(shù)都比較少,而對(duì)照組則比較多。實(shí)驗(yàn)組中高管的年齡可能只分布在45-55歲之間,而對(duì)照組中高管年齡可能分布在30-60歲之間,所以在年齡上缺乏重合,但實(shí)驗(yàn)組和對(duì)照組年齡分布的均值是平衡的。四、使用傾向值匹配法估計(jì)因果效用(一)傾向值的基本要義從?控制?的角度出發(fā),傾向值匹配十分巧妙地完成了對(duì)多個(gè)共變量的控制。我們可以從一個(gè)共變量的情況談起:假定只有個(gè)人智力水平混淆了大學(xué)教育和收入之間的關(guān)系。一個(gè)比較直觀的控制個(gè)人智力的辦法是將個(gè)人智力這一變量細(xì)分(sub-classification)成不同層次以保證每一個(gè)層次中的人的個(gè)人智力水平近似。然后我們?cè)诟鱾€(gè)層次內(nèi)部觀察大學(xué)教育和收入的關(guān)系,最后將這些關(guān)系綜合起來(lái)(Rubin,1997)。如果存在兩個(gè)共變量(例如家庭經(jīng)濟(jì)背景好壞和個(gè)人智力高低),我們可以將這兩個(gè)變量交互分成2x2個(gè)小組,組個(gè)體在這兩個(gè)變量上的取值都是一樣的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高,以及家庭背景不好且智力低),在每組內(nèi)部觀察大學(xué)教育和收入的關(guān)系然后綜合起來(lái)。至此,通過(guò)細(xì)分的方法,我們完成了?控制?共變量的工作。但隨著共變量越來(lái)越多,這種細(xì)分法就變得十分不方便了。例如,如果我們要控制5個(gè)共變量,每個(gè)變量有5個(gè)取值水平,我們就需要?jiǎng)澐?A5=3125個(gè)小組。很快我們的數(shù)據(jù)樣本量就不夠保證每一組都有個(gè)體。傾向值匹配的辦法巧妙地解決了這個(gè)多共變量下的?多維?(multipledimensional)問(wèn)題:它不再關(guān)注每個(gè)需要控制的共變量的具體取值,而是轉(zhuǎn)而關(guān)注將這些變量納入Logistic回歸方程后預(yù)測(cè)出來(lái)的傾向值取值,傾向值就是某一個(gè)樣本接受到處理的概率。只要保證傾向值匹配,這些所有需要控制的共變量就都考慮到了(Rosenbaum&Rubin,1983)。這樣做實(shí)際上是將對(duì)多個(gè)共變量的控制轉(zhuǎn)為對(duì)傾向值的控制從而達(dá)到?降維?(dimensionreduction)的目的。換句話說(shuō),無(wú)論有多少需要控制的共變量,我們都能夠通過(guò)傾向值匹配的方法將它們控制,從而幫助我們得出因果性結(jié)論。因此,從?控制?的角度出發(fā),傾向值匹配法很好地解決了多共變量時(shí)的控制問(wèn)題,從而支持了因果推論。(二)傾向值匹配法的步驟分3個(gè)主要步驟:估計(jì)傾向值、匹配、估計(jì)處理效應(yīng)。任何一項(xiàng)檢驗(yàn)不能通過(guò),則必須從頭開(kāi)始。(三)傾向值傾向值e(XJ是某一個(gè)樣本接受到處理的概率,假定這個(gè)處理是個(gè)二元變量,則傾向值就是一個(gè)接受或不接受處理的指標(biāo)變量。e(Xi)=Pr(乙=")1.11當(dāng)Xj包括不止一個(gè)共變量時(shí),傾向值e(Xi)可以降維,把多維的共變量簡(jiǎn)化成一維的概率值。1、傾向值的性質(zhì)對(duì)于非隨機(jī)的實(shí)驗(yàn),或社會(huì)、經(jīng)濟(jì)科學(xué)研究中,我們必須借助平衡方法來(lái)平衡兩組間的差距,比較平衡國(guó)的組間所得的處理效用。傾向值能平衡實(shí)驗(yàn)組和對(duì)照組之間的差異。一個(gè)實(shí)驗(yàn)組和一個(gè)對(duì)照組的樣本,一旦擁有相同的傾向值,這個(gè)兩個(gè)樣本在可觀察到的共變量Xi上的分布是一樣的,兩者在共變量Xj上的差異是平衡的。同時(shí),兩個(gè)樣本有相同的傾向值,不代表兩個(gè)樣本有相同的共變量Xj。在控制傾向值的情況下,共變量是獨(dú)立于處理分配的,X-Z|e(X)1.12因此,對(duì)于相同傾向值的單元來(lái)說(shuō),實(shí)驗(yàn)組和對(duì)照組間結(jié)果變量的均值的差,是該傾向值上平均處理效用的無(wú)偏估計(jì)。2、估計(jì)傾向值Z處理變量不外乎是二元型、連續(xù)型、定序型等幾類,求解1.11函數(shù),都可以通過(guò)統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)。參數(shù)回歸來(lái)求解傾向值過(guò)程中,由于Z和Xj關(guān)系的模型無(wú)法得知,所以往往被要求加入對(duì)參數(shù)設(shè)定的穩(wěn)定性檢驗(yàn),說(shuō)明使用不同的參數(shù)設(shè)定,對(duì)研究結(jié)果的影響不大。非參數(shù)回歸求解傾向值,擺脫了對(duì)參數(shù)假定的依賴。如果Z是二元型變量,可以使用PROBIT或Logistic回歸模型來(lái)計(jì)算。如果Z是連續(xù)型變量,可以使用多元線性回歸來(lái)計(jì)算。如果Z是定序型變量,可以使用有序Logistic回歸來(lái)計(jì)算。如果Z是類別型變量,可以使用多項(xiàng)Logistic回歸來(lái)計(jì)算。3、匹配法(1)精確匹配法實(shí)驗(yàn)組和對(duì)照組,尋找相同的傾向值進(jìn)行匹配。問(wèn)題:很難找到相同的傾向值,最終可能導(dǎo)致樣本量的丟棄。(2)最近鄰匹配法實(shí)驗(yàn)組和對(duì)照組,尋找相似的傾向值進(jìn)行匹配。不可替代匹配:造成匹配度不高的問(wèn)題??商娲ヅ洌嚎赡軘U(kuò)大處理效用的偏差。修正:卡尺匹配法,即限制了實(shí)驗(yàn)組和對(duì)照組傾向值的最大可容忍差距,超過(guò)這個(gè)差距,應(yīng)選擇放棄。因此,陳述因果推論,應(yīng)如實(shí)報(bào)告。半徑匹配法屬于卡尺匹配法的一種,任何對(duì)照組樣本與某一實(shí)驗(yàn)組樣本的傾向值的絕對(duì)值差值小于設(shè)定的半徑大小,那么這些對(duì)照組樣本都會(huì)被選擇來(lái)匹配實(shí)驗(yàn)組樣本。一般軟件里設(shè)置為0.01(3)區(qū)間匹配法區(qū)間匹配法又稱子分類匹配、分層匹配法。首先使用分位數(shù)法將估計(jì)得到的傾向值分層或分類,建議最佳5分位點(diǎn)或6分位點(diǎn)。在5個(gè)區(qū)間內(nèi)進(jìn)行5個(gè)獨(dú)立的匹配,得到5個(gè)處理效用,最后在加權(quán)平均得到最終的處理效應(yīng)。(4)核匹配法核匹配法是使用權(quán)重調(diào)整所有匹配到實(shí)驗(yàn)組樣本的對(duì)照組樣本,更合理地調(diào)整每個(gè)對(duì)照組樣本與任一實(shí)驗(yàn)組樣本之間的距離(傾向值)。(5)馬氏距離匹配法首先使用共變量計(jì)算實(shí)驗(yàn)組樣本與對(duì)照組樣本的馬氏距離;其次,從中挑出馬氏距離最小的對(duì)照組樣本進(jìn)行匹配,直到實(shí)驗(yàn)組樣本都有匹配的對(duì)照組樣本。問(wèn)題:共變量數(shù)量的增大,會(huì)加大馬氏距離,增加尋找匹配的難度。馬氏距離是匹配共變量,傾向值匹配是匹配傾向值。(6)貪婪匹配與最佳匹配法為實(shí)驗(yàn)組尋找最相近的對(duì)照組樣本進(jìn)行匹配。問(wèn)題:只關(guān)心單一樣本最近距離的匹配樣本,不關(guān)注所有匹配的總距離是否為最佳選擇。最佳匹配:最小化所有匹配間距離的總和。4、匹配后的檢驗(yàn)使用傾向值匹配法的主要功能是消除選擇性偏差,為了得到更加可靠的處理效用,從而避免選擇性偏差,需要對(duì)共變量分布進(jìn)行平衡與重合檢驗(yàn),以及是否存在選擇性偏差的敏感性分析。(1)共變量分布不平衡分析檢驗(yàn)方法一:共變量在實(shí)驗(yàn)組和對(duì)照組均值的差值是否顯著:T檢驗(yàn)。原假設(shè):兩個(gè)均值相等,備擇假設(shè):兩個(gè)均值不相等。檢驗(yàn)結(jié)果是統(tǒng)計(jì)顯著的,則拒絕原假設(shè),接受備擇假設(shè),則兩均值是有差異的,共變量的分布是不平衡的。問(wèn)題:T檢驗(yàn)只檢驗(yàn)了均值的差異,無(wú)法檢驗(yàn)分布的其他特征。檢驗(yàn)方法二:Kolmogorov-Smirnov檢驗(yàn)方法使用不同的分布特征檢驗(yàn)兩個(gè)分布的差異。原假設(shè):兩個(gè)分布的累積密度函數(shù)相等;備擇假設(shè):不相等。檢驗(yàn)結(jié)果是統(tǒng)計(jì)顯著的,則拒絕原假設(shè),接受備擇假設(shè),則兩分布是有差異的,共變量的分布是不平衡的。經(jīng)驗(yàn):兩種方法一起使用,更好地確認(rèn)共變量的分布是平衡的。(2)共變量分布不重合分析方法:用共變量分布的柱狀圖判斷共變量分布的重合性,或者貝葉斯非參數(shù)回歸模型。經(jīng)驗(yàn):丟棄不重合的部分這兩個(gè)必須進(jìn)行檢驗(yàn)。(3)選擇性偏差與敏感性分析選擇性偏差:比如,處理變量是促進(jìn)就業(yè)的政策,影響就業(yè)的共變量為性別、教育程度、學(xué)歷專業(yè),證書(shū)等。擁有數(shù)個(gè)證書(shū)的就業(yè)者,可能會(huì)比其他人更為積極地參與提升就業(yè)機(jī)會(huì)的活動(dòng),進(jìn)而選擇加入受測(cè)(自我選擇偏差)。這屬于顯性的共變量造成的顯性偏差,可以通過(guò)控制共變量解決。如果存在隱藏的共變量,則就是隱藏性偏差。分析結(jié)果在存在選擇性偏差的合理范圍內(nèi)是否依然穩(wěn)健有效,這就是所謂的敏感性分析。敏感性分析即假定單元j和k擁有相同的共變量,它們接觸處理發(fā)生比的比率(oddsratio)會(huì)介于1/「和r之間,其中r>1o敏感性分析判斷標(biāo)準(zhǔn):當(dāng)「數(shù)值越大,則該研究的敏感性越低;當(dāng)「數(shù)值越小,則該研究的敏感性越高。一般來(lái)說(shuō),只要r>2,則該研究就可以聲稱已免除隱藏性偏差的影響。敏感性分析,需要進(jìn)行無(wú)效假設(shè)檢驗(yàn)。重點(diǎn)檢驗(yàn)在逐步增加「后,處理效用7還是有效的。原假設(shè):T=0不存在處理效應(yīng);備擇假設(shè):T>0存在處理效用。統(tǒng)計(jì)軟件中Wilcoxon符號(hào)秩檢驗(yàn)法、Hodges-Lehmann點(diǎn)估計(jì)和信用區(qū)間檢驗(yàn)法,都可以進(jìn)行敏感性分析。任一項(xiàng)敏感性分析驗(yàn)證研究的因果推論不受潛在選擇性偏差的影響,就是一項(xiàng)完整且可信賴的研究。例子:兒童血液含鉛水平與他們父母職業(yè)的關(guān)系由于只選擇兩個(gè)共變量:兒童年齡和居住環(huán)境,可能存在隱藏性偏差。敏感性分析結(jié)果如表2所示,表2兒童血鉛水平的敏感性分析結(jié)果rSig+Sig-?十?一ci+ci—1<0.0001<0.000115159.520.520.0018<0.000110.2519.54.527.530.0136<0.0001823132.540.0388<0.00016.525-1374.250.0468<0.0001625-1.538.54.350.0502<0.0001625.5-238.550.0740<0.0001526.5-342Sig+和Sig-分別是Wilcoxon符號(hào)秩檢驗(yàn)顯著性水平的上界和下界。p+、?一分別是Hodges-Lehmann點(diǎn)估計(jì)的上界和下界。CI弋CI9別是Hodges-Lehmann95%言用區(qū)間的上界和下界。r=1表明匹配的單元接觸處理發(fā)生比是相同的,表示該研究無(wú)隱藏性偏差。Wilcoxon符號(hào)秩檢驗(yàn)的上界和下界的顯著性水平都小于0.0001(只要小于0.05即可),表示拒絕==0不存在處理效應(yīng)原假設(shè),因此處理效用是有效的。直到「>4.35時(shí),Wilcoxon符號(hào)秩檢驗(yàn)顯著性水平的上界才大于0.05,才能接受原假設(shè),處理效用是無(wú)效的,隱藏性偏差的影響,致使匹配的兩個(gè)單元接觸處理發(fā)生比的差異超過(guò)4.35倍時(shí),才能改變?cè)葘?duì)于處理效用的結(jié)論。因此,該研究對(duì)于隱藏性偏差影響的敏感性是非常低的,研究結(jié)論是可靠的。對(duì)于?*、P一分別是Hodges-Lehmann點(diǎn)估計(jì)的上界和下界。CI*、CI一分別是Hodges-Lehmann95%言用區(qū)間的上界和下界。一直到檢驗(yàn)廠>4時(shí),點(diǎn)估計(jì)的上界和下界分別是6.5和25,95%的信用區(qū)間的上界和下界[-1,37]包含0,表示這個(gè)點(diǎn)估計(jì)是統(tǒng)計(jì)不顯著的,接受了原假設(shè),因此,該研究對(duì)于隱藏性偏差影響的敏感性是非常低的,研究結(jié)論是可靠的。(4)匹配后估計(jì)平均處理效用平均處理效用ATE由實(shí)驗(yàn)組平均處理效用ATT和對(duì)照組平均處理效用ATC組成。1.13n1ATT+n°ATC1.13n1和n0分別是實(shí)驗(yàn)組和對(duì)照組樣本量。1.13的平均處理效用也可以通過(guò)簡(jiǎn)單的回歸方程獲得,依照結(jié)果變量的類型,使用不同的回歸方程來(lái)估計(jì)處理效用,如果結(jié)果變量Y是連續(xù)型變量,、二7LX1.14如果匹配后的共變量是平衡和重合的,則式1.14與1.13的處理效應(yīng)?在理論上是完全一致的。(5)平均處理效用的標(biāo)準(zhǔn)誤差一般使用Bootstrap重復(fù)抽樣的方式獲得標(biāo)準(zhǔn)誤差,一般建議5000次的重復(fù)抽樣。下篇:傾向值匹配法R軟件應(yīng)用卜面幾種常用的R程序包,包括Matchit、Matching、optmatch和rbounds一、Matchit可以實(shí)現(xiàn)的匹配方法有最近鄰匹配、馬氏距離匹配、卡尺匹配、精確匹配、子分類匹配、最佳匹配和完全匹配法,同時(shí)可以實(shí)現(xiàn)若干匹配后的檢驗(yàn),匹配后的處理效用需要Zelig軟件包。Matchit軟件包已經(jīng)升級(jí)到3.0.1版本,包含以下7個(gè)程序,其中matchit是主程序。get_matcheshelp.matchitis.matchitlalondematch.datamatchit:主程序mpt.1、matchitmatchit(formula,data,method="nearest",distance="logit",distance.options=list(),discard="none",reestimate=FALSE,...)2、程序講解(1)數(shù)據(jù)的讀寫(xiě)(建議整理好后放在TXT里)改變工作路徑,把TXT文件放在工作路徑里。rt<-read.table("exam.txt",head=TRUE)(讀取TXT文件,第一行為標(biāo)題行所以head=TRUE把exam.TXT文件轉(zhuǎn)換名為rt的r數(shù)據(jù)文件)rt(顯示數(shù)據(jù))lm.sol<-lm(Weight~Height,data=rt)(提取weight和Height兩列)summary(lm.sol)(最小二乘法)matchit(應(yīng)用Lalonde數(shù)據(jù))library(Matchit)##調(diào)用Matchit程序包data(lalonde)##loadtheLmpt()##Press<return>tocontinue##matchit使用的匹配方法,使用Logit邏輯回歸進(jìn)行匹配(Thedefaultislogisticregression)#performnearestneighbormatchingm.outl<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit")

#method="subclass"系統(tǒng)默認(rèn)分6個(gè)子類m.outl<-matchit(treat?re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")#method="exact"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")#method="full",m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="full",distance="logit")#method="genetic"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="genetic",distance="logit")#method="optimal"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="optimal",distance="logit")mpt()#使用馬氏距離進(jìn)行匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="mahalanobis")mpt()#1:1匹配和1:2匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=2)#顯示1:1最近鄰匹配法結(jié)果的程序m.out1結(jié)果為:Call:matchit(formula=treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)Samplesizes:ControlTreatedAll429All429185TOC\o"1-5"\h\zMatched185185Unmatched2440Discarded00由于只有185個(gè)實(shí)驗(yàn)組樣本,使用1:1最近鄰匹配法進(jìn)行匹配,對(duì)照組樣本也是185個(gè)#obtainmatcheddata獲得匹配數(shù)據(jù)m.data1<-match.data(m.out1)m.data1#顯示處理組、對(duì)照組中匹配的各185個(gè)數(shù)據(jù)。有了匹配數(shù)據(jù),就可以在使用DID方法。#summarizetheresultingmatcheddata對(duì)匹配數(shù)據(jù)進(jìn)行統(tǒng)計(jì)summary(m.data1)(3)匹配檢驗(yàn)平衡檢驗(yàn):統(tǒng)計(jì)量使用summary。語(yǔ)句計(jì)算各個(gè)共變量的平衡統(tǒng)計(jì)值,standardize=TRUE語(yǔ)句表示標(biāo)準(zhǔn)化這些平衡統(tǒng)計(jì)彳K,主要使用Std.MeanDiff這個(gè)統(tǒng)計(jì)值進(jìn)行診斷。library(MachIt)data(lalonde)mpt()#1:1Nearestneighbormatchingm.out<-matchit(treat~re74+re75+educ+black+hispan+age,data=lalonde,method="nearest")#balancediagnosticsthroughstatistics平衡的統(tǒng)計(jì)診斷s.out<-summary(m.out,standardize=TRUE)print(s.out)mpt()檢驗(yàn)結(jié)果分析Summaryofbalanceforalldata:匹配前各個(gè)共變量在實(shí)驗(yàn)組和對(duì)照組差異的描述,distance和black兩個(gè)變量的差異性較大MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.18720.23081.79190.4017re742095.57375619.23656788.7508-0.72110.2335re751532.05532466.48443291.9962-0.29030.1355educ10.345910.23542.85520.05500.0228black0.84320.20280.40261.75680.3202hispan0.05950.14220.3497-0.34890.0414age25.816228.030310.7867-0.30940.0827eCDFMeaneCDFMaxdistance0.37340.6435

re740.22480.4470re750.13420.2876educ0.03470.1114black0.32020.6404hispan0.04140.0827age0.08130.1577Summaryofbalanceformatcheddata:匹配后各個(gè)共變量在實(shí)驗(yàn)組和對(duì)照組差異的描述,distance和black兩個(gè)變量的差異性依然較大,hispan變量的差異在變大??梢哉f(shuō)明匹配后的這三個(gè)共變量的改善程度不好。需要做模型、匹配方法等方面的在調(diào)整。MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.36490.25980.95090.2378re742095.57372466.30394245.6943-0.07590.0432re751532.05531960.35482948.2552-0.13300.0703educ10.345910.47033.2067-0.06180.0405black0.84320.47030.50051.02310.1865hispan0.05950.27570.4481-0.91180.1081age25.816226.054110.1910-0.03320.0649eCDFMeaneCDFMaxdistance0.21170.3892re740.07800.2919re750.07620.2000educ0.04950.1459black0.18650.3730hispan0.10810.2162age0.07060.1784PercentBalanceImprovement:Std.MeanDiff.eCDFMedeCDFMeaneCDFMaxdistance46.935840.796043.310039.5219re7489.478881.483265.285634.7050re7554.164648.145043.174930.4700educ-12.4957-78.0576-42.7023-31.0442black41.763641.763641.763641.7636hispan-161.3463-161.3463-161.3463-161.3463age89.258021.608013.2585--13.0931平衡檢驗(yàn):圖形##balancediagnosticsthroughgraphics使用圖形法進(jìn)行檢驗(yàn)plot(m.out)##默認(rèn)為QQ>位數(shù)對(duì)分位數(shù)圖下圖顯示6個(gè)共變量匹配前后的QQ分位數(shù)對(duì)分位數(shù)圖,除了black和兩個(gè)變量外,其他4個(gè)變量在匹配后都靠近了45度線,都有所改善。45c77ueedrreQQPlotsQWMW28W0IoQRB2Qsw—o51-^50npaO1OQUOAU^zu-ageControlUnits卜面是散點(diǎn)圖的程序,對(duì)照組三個(gè)點(diǎn)與實(shí)驗(yàn)組匹配程度較差,凸顯了兩組樣本傾向值分布不平衡的情況,也顯示了這個(gè)區(qū)域兩組樣本分布缺乏重合。plot(m.out,type="jitter")mpt()DistributionofPropensityScoresPropensityScore下面是柱狀圖的程序,匹配前和匹配后的實(shí)驗(yàn)組和對(duì)照組(左側(cè)上下,與右側(cè)上下),兩組傾向值分布極為不同,說(shuō)明平衡狀況不佳。plot(m.out,type="hist")mpt()RawTreatedPropensityScoreMatchedTreatedPropensityScore0.00.8PropensityScoreRawControl9nulno0.00.20.4RawTreatedPropensityScoreMatchedTreatedPropensityScore0.00.8PropensityScoreRawControl9nulno0.00.8PropensityScoreMatchedControl下面是匹配前后各二個(gè)共變量組間差值絕對(duì)值的變化,多數(shù)共變量在匹配后,組間差值的絕對(duì)值都有明顯的減少,只有hispan和educ這兩個(gè)變量的差值的絕對(duì)值在增加。plot(s.out)##s.out,是匹配數(shù)據(jù)的平衡檢驗(yàn)統(tǒng)計(jì)量的結(jié)果

anan/AllDataMatchedDataeduc(4)平衡性修正修正1,刪除平衡性差的共變量blacklibrary(Matchlt)data(lalonde)mpt()##1:1NearestneighbormatchingwithMahalanobismatchingonre74andre75andexactmatchingonmarried,另外,沒(méi)有選擇black這個(gè)變量。m.out2<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",mahvars=c("re74","re75"),exact=c("married"),caliper=.25)mpt()##balancediagnosticsthroughstatistics在進(jìn)行平衡統(tǒng)計(jì)診斷s.out2<-summary(m.out2,standardize=TRUE)print(s.out2)結(jié)果如下:Std.MeanDiff在匹配后除了educ這個(gè)變量差值的絕對(duì)值有所增加外,其他的都在降低,修正效果較好。Summaryofbalanceforalldata:MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.35360.27880.12560.82990.2226re742095.57375619.23656788.7508-0.72110.2335

re751532.05532466.48443291.9962-0.29030.1355age25.816228.030310.7867-0.30940.0827educ10.345910.23542.85520.05500.0228married0.18920.51280.5004-0.82410.1618eCDFMeaneCDFMaxdistance0.19440.3398re740.22480.4470re750.13420.2876age0.08130.1577educ0.03470.1114married0.16180.3236MeanDiff.eCDFMedSummaryofbalanceformatcheddata:MeanDiff.eCDFMed##balancediagnosticsthroughgraphics了##balancediagnosticsthroughgraphics了45度線,修正效果較好。plot(m.out2),QQ圖顯示5個(gè)共變量經(jīng)過(guò)匹配后都靠近MatchededucmarriedMatchededucmarrieddistance0.35360.34490.08880.09600.0649re742095.57372282.05864476.6831-0.03820.0162re751532.05531373.92252429.89390.04910.0162age25.816224.25419.98070.21830.0432educ10.345910.12972.47910.10750.0162married0.18920.18920.39270.00000.0000MeansTreatedMeansControlSDControlStd.eCDFMeaneCDFMaxdistance0.06140.1459re740.05710.2595re750.03470.1622age0.08870.3189educ0.02560.0649married0.00000.0000ControlUnitsControlUnitsControlUnits##散點(diǎn)圖,經(jīng)過(guò)匹配后,效果改善也比較明顯。plot(m.out2,type="jitter")DistributionofPropensityScoresPropensityScore卜面是匹配前后只有educ這個(gè)變量的差值的絕對(duì)值在增加。plot(s.out)##s.out,是匹配數(shù)據(jù)的平衡檢驗(yàn)統(tǒng)計(jì)量的結(jié)果DistributionofPropensityScoresPropensityScore卜面是匹配前后只有educ這個(gè)變量的差值的絕對(duì)值在增加。plot(s.out)##s.out,是匹配數(shù)據(jù)的平衡檢驗(yàn)統(tǒng)計(jì)量的結(jié)果80604020oosnaeMtfIDdeamrosbA修正2,刪除平衡性差的樣本點(diǎn)library(MatchIt)data(lalonde)mpt()#1:1Nearestneighbormatchingwithunitsoutsidethecommonsupportdiscardedm.out3<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",discard="both")mpt()

#printashortsummaryprint(m.out3)mpt()m.out3的運(yùn)行結(jié)果為:ControlTreatedTOC\o"1-5"\h\zAll429185Matched184184Unmatched2420Discarded31然后再進(jìn)行平衡統(tǒng)計(jì)量檢驗(yàn)與圖形檢驗(yàn),程序如上。修正3,使用1:2匹配法#Nearestneighbormatchingwithreplacementm.out4<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",replace=TRUE,ratio=2)修正3,使用子分類法#Nearestneighbormatchingfollowedbysubclassificationm.out5<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",subclass=5)(5)處理效果估計(jì)可以下載MatchItSE_1.0與Rcpp_0.12.14(低版本)兩個(gè)程序包一起安裝后,就可以簡(jiǎn)單計(jì)算平均處理效用及其標(biāo)準(zhǔn)誤差了。library(MatchIt)library(MatchItSE)#調(diào)用MatchItSE程序data("lalonde")m.out<-matchit(treat~age+educ+black+hispan+married+nodegree+re74+re75,data=lalonde,method="nearest",distance="logit")#計(jì)算傾向值z(mì)elig_se(obj=m.out,丫=lalonde$re78)##計(jì)算re78的平均處理效應(yīng)。結(jié)果如下:estsdatt.estatt.se5220.49692183.84091128.6466562.1904平均處理效應(yīng)att的標(biāo)準(zhǔn)誤差mdata<-match.data(m.out,group="all")#從匹配后的m.out結(jié)果中抽取匹配后的數(shù)從匹配后的m.out結(jié)果中抽取匹據(jù)。從匹配后的m.out結(jié)果中抽取匹mdatatreated<-match.data(m.out,group="treat")#配后的實(shí)驗(yàn)組數(shù)據(jù)。mdatacontrol<-match.data(m.out,group="control")#從匹配后的m.out結(jié)果中抽取匹配后的對(duì)照組數(shù)據(jù)。(5)敏感性檢驗(yàn)安裝rounds程序包,進(jìn)行敏感性分析。按照抽取的實(shí)驗(yàn)組和對(duì)照組數(shù)據(jù),使用psens()程序進(jìn)行wilcoxon符號(hào)秩檢驗(yàn)。library(MatchIt)library(rbounds)library(Matching)data(lalonde)##loadtheLalondedata##matchit使用的匹配方法,使用Logit邏輯回歸進(jìn)行匹配(Thedefaultislogisticregression)##performnearestneighbormatchingm.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit")m.data1<-match.data(m.out1,group="all")Ytreated<-match.data(m.data1,group="treat")Ycontrol<-match.data(m.data1,group="control")psens(x=Ycontrol,y=Ytreated,Gamma=2,GammaInc=0.1)#wilcoxon符號(hào)秩檢驗(yàn)wilcoxon符號(hào)秩檢驗(yàn)結(jié)果如下:Unconfoundedestimate....0.7435GammaLowerboundUpperbound1.00.74350.74351.10.53870.88731.20.34050.95771.30.18960.98611.40.09440.99591.50.04270.99891.60.01780.99971.70.00690.99991.80.00251.00001.90.00091.00002.00.00031.0000wilcoxon符號(hào)秩檢驗(yàn),當(dāng)Gamma=1.5寸,下界的顯著TfcK平就小于0.05,說(shuō)明了當(dāng)匹配的兩個(gè)單元接觸處理發(fā)生比為1.5時(shí),就可以改變?cè)葘?duì)于處理效用的結(jié)論:這個(gè)隱藏性偏差的影響不必太大就可以改變?cè)瓉?lái)的結(jié)論,結(jié)論非常敏感,不可靠的。二、Matching能夠基于單變量和多變量平衡檢驗(yàn)的統(tǒng)計(jì)量,實(shí)現(xiàn)自動(dòng)化匹配樣本選擇。主要采用i對(duì)多、樣本可替代或不可替代的方法,包含卡尺匹配法、精確匹配法。同時(shí)可以實(shí)現(xiàn)匹配后的處理效用和變異量估算。Lalonde數(shù)據(jù)說(shuō)明變量名稱變量?jī)?nèi)容Age出生年Educ受過(guò)幾年教育Black指標(biāo)變量,1為黑人,0為非黑人Hisp指標(biāo)變量1為西班牙商,0為非西班牙商Married指標(biāo)變量,1為已婚,0非已婚Nodegr指標(biāo)變量,1為擁有高中學(xué)歷證書(shū),0則無(wú)Re74參與者1974年收入Re75參與者1975年收入Re78參與者1978年收入,結(jié)果變量Treat指標(biāo)變量,1為實(shí)驗(yàn)組,0為實(shí)驗(yàn)組,處理變量程序步驟:1、本地安裝Matching包打開(kāi)r軟件,在菜單欄才T開(kāi):程序包-Installpackagesfromlocalfiles,彈出一窗口,找到下載的ZIP壓縮安裝包,確定后,出現(xiàn)?程序包'Matching'打開(kāi)成功,MD林口檢查也通過(guò)?,則表明安裝成功。2、調(diào)用Matching包library("Matching")data("lalonde")attach(lalonde)#記入存儲(chǔ)器里便于使用3、Logistic回歸模型估計(jì)傾向值m1<-glm(treat?age+educ+black+hisp+married+nodegr+re74+re75,family=binomial(link="logit"))m14、匹配使用程序包Match()程序進(jìn)行1:1樣本(M=??商娲?replace=TRUE)和1:1樣本不可替代(replace=FALSE)的最近鄰匹配法,并要求返回ATT估值(estimated="ATT')??商娲ヅ鋚m1<-Match(丫=re78,Tr=treat,X=m1$fitted,estimand="ATT",M=1,replace=TRUE)summary(pm1)Estimate...2624.3AISE……802.19

T-stat.....3.2714p.val......0.0010702說(shuō)明估計(jì)的實(shí)驗(yàn)組平均處理效用具有統(tǒng)計(jì)顯著性。5.平衡檢驗(yàn)mb<-MatchBalance(treat?age+educ+black+hisp+married+nodegr+re74+re75,match.out=pm1,nboots=1000,data=lalonde)MatchBalance(),nboots=1000一般建議大于1000。匹配方法最近近鄰法,處理組匹配前后的均值是不變的;控制組均值,以age變量為例,從匹配前的25.054變成了25.692。age變量匹配后的控制住均值與處理組均值更接近了。T-testp-value表示均值差異是否是統(tǒng)計(jì)顯著的,匹配前后,age組間的均值差的數(shù)值均大于0.05,說(shuō)明匹配前后實(shí)3^組和控制組age的均值在統(tǒng)計(jì)上是無(wú)差異的;匹配前后,二個(gè)KS^計(jì)量(KSBootstrapp-value,KSNaivep-value)都大于0.05,說(shuō)明了使用KS僉驗(yàn)法檢驗(yàn)age在實(shí)驗(yàn)組和對(duì)照組的分布,在統(tǒng)計(jì)上也是無(wú)差異的。stdmeandiff代表的則是標(biāo)準(zhǔn)化后的組間均值差,可以用來(lái)比較不同共變量平衡值的差異。例如,age標(biāo)準(zhǔn)化后的組間均值差為1.73,而educ均值差為9.97,說(shuō)明了匹配后,age較educ更為平衡。nodegr、re74、re75這三個(gè)變量平衡性較差,其中re74匹配后變的更差了。*****(V1)age*****BeforeMatchingAfterMatchingmeantreatment25.81625.816meancontrol25.05425.692stdmeandiff10.6551.7342meanraweQQdiff.....0.940540.73837TOC\o"1-5"\h\zmedraweQQdiff.....10maxraweQQdiff.....79meaneCDFdiff0.0253640.021893medeCDFdiff0.0221930.020349maxeCDFdiff0.0651770.061047varratio(Tr/Co).....1.02781.083T-testp-value0.265940.84975KSBootstrapp-value..0.4910.374KSNaivep-value......0.74810.54314KSStatistic0.0651770.061047*****(V2)educ*****BeforeMatchingAfterMatching10.34610.14610.34610.1469.96640.23256020.0166110.0101740.0610471.23440.18420.20.543140.061047AfterMatching0.843240.86847-6.91940.026163010.0130810.0130810.0261631.15720.40214meantreatment10.346meancontrol10.088stdmeandiff12.806meanraweQQdiff.....0.40541medraweQQdiff0maxraweQQdiff2meaneCDFdiff0.028698medeCDFdiff0.012682maxeCDFdiff0.12651varratio(Tr/Co)1.5513T-testp-value0.15017KSBootstrapp-value..0.014KSNaivep-value0.062873KSStatistic0.12651*****(v3)black*****BeforeMatchingmeantreatment0.84324meancontrol0.82692stdmeandiff4.4767meanraweQQdiff.....0.016216medraweQQdiff.....0maxraweQQdiff1meaneCDFdiff0.0081601medeCDFdiff0.0081601maxeCDFdiff0.01632varratio(Tr/Co)0.92503T-testp-value0.64736*****(V4)hisp*****BeforeMatchingmeantreatment0.059459meancontrol0.10769stdmeandiff-20.341meanraweQQdiff0.048649AfterMatching0.0594590.049554.17920.011628medraweQQdiff.....00maxraweQQdiff.....11meaneCDFdiff0.0241160.005814medeCDFdiff0.0241160.005814maxeCDFdiff0.0482330.011628varratio(Tr/Co).....0.582881.1875T-testp-value0.0640430.46063*****(v5)married*****BeforeMatchingmeantreatment0.18919AfterMatching0.18919*****(v5)married*****BeforeMatchingmeantreatment0.18919AfterMatching0.18919meancontrol0.153850.18423stdmeandiff8.99951.2617meanraweQQdiff0.0378380.026163medraweQQdiff00maxraweQQdiff11meaneCDFdiff0.0176720.013081medeCDFdiff0.0176720.013081maxeCDFdiff0.0353430.026163varratio(Tr/Co)1.18021.0207T-testp-value0.334250.89497*****(V6)nodegr*****BeforeMatchingmeantreatmentmeancontrolstdmeandiff*****(V6)nodegr*****BeforeMatchingmeantreatmentmeancontrolstdmeandiffmeanraweQQdiffmedraweQQdiffmaxraweQQdiffmeaneCDFdiffmedeCDFdiffmaxeCDFdiffvarratio(Tr/Co)0.70811

0.83462-27.7510.12432

010.063254

0.063254

0.126511.4998AfterMatching0.708110.76757-13.0430.043605010.0218020.0218020.0436051.1585T-testp-value0.00203680.0071385*****(V7)re74*****BeforeMatchingmeantreatment2095.6meancontrol2107*****(V7)re74*****BeforeMatchingmeantreatment2095.6meancontrol2107stdmeandiff-0.23437AfterMatching2095.62193.3-2.0004meanraweQQdiff.....487.98869.16medraweQQdiff00maxraweQQdiff.....841310305meaneCDFdiff0.0192230.054701medeCDFdiff0.01580.050872maxeCDFdiff0.0470890.12209varratio(Tr/Co)0.73810.75054T-testp-value0.981860.84996KSBootstrapp-value..0.581<2.22e-16KSNaivep-value0.970230.011858KSStatistic0.0470890.12209*****(V8)re75*****BeforeMatchingmeantreatment1532.1AfterMatching1532.1meancontrol1266.92179.9stdmeandiff8.2363-20.125meanraweQQdiff367.61590.34medraweQQdiff00maxraweQQdiff.....2110.28092.9meaneCDFdiff0.0508340.050338medeCDFdiff0.0619540.049419maxeCDFdiff0.107480.098837varratio(Tr/Co)1.07630.56563T-testp-value0.385270.079002KSBootstrapp-value..0.0430.013KSNaivep-value0.164490.069435KSStatistic0.107480.098837BeforeMatchingMinimump.value:0.0020368VariableName(s):nodegrNumber(s):6AfterMatchingMinimump.value:<2.22e-16VariableName(s):re74Number(s):76、匹配后的調(diào)整匹配后,共變量在實(shí)驗(yàn)組和對(duì)照組之間的平衡情況仍然不佳,特別是re75和re78,共變量在兩組間的差異仍然不小,所以使用者并應(yīng)該進(jìn)行適當(dāng)?shù)恼{(diào)整。Sekhon(2011)等的Matching程序包的GenMatch()程序,可以自動(dòng)進(jìn)行調(diào)整,找尋最適合的匹配,最小化各個(gè)共變量在組間的差異。library("Matching")data("lalonde")attach(lalonde)<-lalonde$re78Tr<-lalonde$treat#propensityscoremodelglm1<-glm(Tr~age+educ+black+hisp+married+nodegr+re74+re75,family=binomial,data=lalonde)#estimandistheaveragetreatmenteffectonthetreated(ATT):rr1<-Match(Y=Y,Tr=Tr,X=glm1$fitted)R>m1=Match(Y=Y,Tr=Tr,X=glm1$fitted,estimand="ATT",M=1,ties=TRUE,replace=TRUE)#上面兩個(gè)語(yǔ)句的結(jié)果相同。##下面只選擇了re74進(jìn)行了平衡性檢驗(yàn)MatchBalance(Tr~re74,match.out=rr1,nboots=1000,data=lalonde)平衡性檢驗(yàn)結(jié)果:BeforeMatchingAfterMatchingmeantreatment2095.62095.6meancontrol21072193.3stdmeandiff-0.23437-2.0004meanraweQQdiff.....487.98869.16medraweQQdiff00maxraweQQdiff.....841310305meaneCDFdiff0.0192230.054701medeCDFdiff0.01580.050872maxeCDFdiff0.0470890.12209varratio(Tr/Co)0.73810.75054T-testp-value0.981860.84996KSBootstrapp-value..0.564<2.22e-16

KSNaivep-value......0.970230.011858KSStatistic0.0470890.12209##re74匹配后的QQ圖形,re74的平衡性并沒(méi)有提高多少qqplot(lalonde$re74[rr1$index.control],lalonde$re74[rr1$index.treated])abline(coef=c(0,1),col=2)lalondeSre74[rr1$index.control]##GenMatch()程序的使用首先,在GenMatch()程序中,給定X和BalanceMatrix兩參數(shù)由共變量組成的矩陣,一般情況下,X(用來(lái)估計(jì)傾向值的共變量)和BalanceMatrix(用來(lái)決定兩組間哪些是需要平衡的共變量)是相同的。但BalanceMatrix可以提供部分共變量,當(dāng)然也可以提供比X更多的共變量的變形,比如BalanceMatrix的變量包括二次項(xiàng)、交互項(xiàng)等。其次GenMatch()自動(dòng)適配匹配后,將匹配的結(jié)果當(dāng)成權(quán)重提供給Match()程序,得到的結(jié)果與先前的分析結(jié)果不同。再次,再使用MatchBalance檢3GGenMatch程序匹配的結(jié)果是否改進(jìn)了共變量的平衡狀況。X<-cbind(age,educ,black,hisp,married,nodegr,re74,re75,u74,u75)BalanceMatrix<-cbind(age,I(ageA2),educ,I(educA2),black,hisp,married,nodegr,re74,I(re74A2),re75,I(re75A2),u74,u75,I(re74*re75),I(age*nodegr),I(educ*re74),I(educ*re75))gen1<-GenMatch(Tr=Tr,X=X,BalanceMatrix=BalanceMatrix,pop.size=1000)##需要安裝rgenoud包,搜索需要花點(diǎn)時(shí)間將匹配的結(jié)果當(dāng)mgen1<-Match(Y=Y,Tr=Tr,X=X,Weight.matrix=gen1)##成權(quán)重提供給Match()程序?qū)⑵ヅ涞慕Y(jié)果當(dāng)MatchBalance(Tr?age+I(ageM)+educ+I(educA2)+black+hisp+married+nodegr+re74+I(re74A2)+re75+I(re75A2)+u74+u75+I(re74*re75)+I(age*nodegr)+I(educ*re74)+I(educ*re75),data=lalonde,match.out=mgenl,nboots=1000)MatchBalance(Tr?nodegr+re74+I(re74A2),match.out=mgenl,nboots=1000,data=lalonde)##只檢驗(yàn)nodegr+re74+I(re74A2)三個(gè)變量summary(mgenl)##平均處理效應(yīng)檢驗(yàn)qqplot(lalonde$re74[mgen1$index.control],lalonde$re74[mgen1$index.treated])##re74匹配后的QC@abline(coef=c(0,1),col=2)結(jié)果分析:我們只提供了re74匹配后的QQ相比上一圖,平衡狀況得到了很大的改觀。本案例最大的特點(diǎn)是通過(guò)二次項(xiàng)和交互項(xiàng)的引入,以及采用GenMatch()提高平衡性狀況。官網(wǎng)用官網(wǎng)用矍一玄vpu屏LulmEE」」印舞心puo_fD_0500010000150002000025000Iak)nde$re74[mgen1Sindexcontrol]7、敏感性檢驗(yàn)安裝rounds程序包,進(jìn)行敏感性分析。按照抽取的實(shí)驗(yàn)組和對(duì)照組數(shù)據(jù),分別使用psens()和hlsens()程序進(jìn)行wilcoxon符號(hào)秩檢驗(yàn)和Hodges-lehmann點(diǎn)估計(jì)檢驗(yàn)。library(rbounds)psens(mgen1,Gamma=2,GammaInc=0.1)#wilcoxon符號(hào)秩檢驗(yàn)wilcoxon符號(hào)秩檢驗(yàn)結(jié)果如下:RosenbaumSensitivityTestforWilcoxonSignedRankP-ValueUnconfoundedestimate....0.0086GammaLowerboundUpperbound1.00.00860.00860.00120.04050.00010.12180.00000.26240.00000.44200.00000.62170.00000.76940.00000.87250.00000.93550.00000.96982.00.00000.9868wilcoxon符號(hào)秩檢驗(yàn),當(dāng)Gamma=1.2寸,上界的顯著T^水平就大于0.05,說(shuō)明了當(dāng)匹配的兩個(gè)單元接觸處理發(fā)生比為1.2時(shí),就可以改變?cè)葘?duì)于處理效用的結(jié)論:這個(gè)隱藏性偏差的影響不必太大就可以改變?cè)瓉?lái)的結(jié)論,結(jié)論非常敏感,不可靠的。hlsens(mgen1,pr=0.1,Gamma=2,GammaInc=0.1)#Hodges-lehmann點(diǎn)估計(jì)檢驗(yàn)Hodges-lehmann點(diǎn)估計(jì)檢驗(yàn)結(jié)果Unconfoundedestimate....1338.42GammaLowerboundUpperbound1.3384e+031338.46.3652e+021343.53.8342e+021697.91.1582e+021986.3-7.9992e-022241.5-1.4498e+022478.6-3.7808e+022738.0-5.7178e+022955.8-7.5258e+023189.2-9.4858e+023339.6-1.0948e+033548.4Hodges-lehmann點(diǎn)估計(jì)檢驗(yàn),當(dāng)Gamma=1.4寸,95%勺信用區(qū)間已經(jīng)包含0,說(shuō)明了當(dāng)匹配的兩個(gè)單元接觸處理發(fā)生比為1.4時(shí),就可以改變?cè)葘?duì)于處理效用的結(jié)論:這個(gè)隱藏性偏差的影響不必太大就可以改變?cè)瓉?lái)的結(jié)論,結(jié)論非常敏感,不可靠的。8、共同支持域檢驗(yàn)(重合性檢驗(yàn))共同支持域檢驗(yàn)會(huì)丟棄不重合的樣本,一般把共同支持域檢驗(yàn)作為穩(wěn)健性檢驗(yàn)用的。mgen2<-Match(Y=Y,Tr=Tr,X=X,Weight.matrix=gen1,CommonSupport=TRUE)summary(mgen2)結(jié)果分析:進(jìn)行共同支持域檢驗(yàn)與沒(méi)有進(jìn)行的平均處理效應(yīng)分別為1578.4和1540.1,兩者差異較小,剔除非重合的三個(gè)樣本后,估計(jì)的平均處理效應(yīng)比較穩(wěn)健。進(jìn)行共同支持域檢驗(yàn)的平均處理效應(yīng)Estimate...1578.4AISE......869.3T-stat.....1.8157p.val......0.06942TOC\o"1-5"\h\zOriginalnumberofobservations442Originalnumberoftreatedobs185Matchednumberofobservations185Matchednumberofobservations(unweighted).268沒(méi)有進(jìn)行共同支持域檢驗(yàn)的平均處理效應(yīng)Estimate...1540.1AISE872T-stat.....1.7662p.val0.077362Originalnumberofobservations445Originalnumbe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論