




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)的懲罰整合分析方法【摘要】:大數(shù)據(jù)具有數(shù)據(jù)來源差異性、高維性及稀疏性等特點,如何挖掘數(shù)據(jù)集間的異質(zhì)性和共同性并降維去噪是大數(shù)據(jù)分析的目標與挑戰(zhàn)之一。懲罰整合分析(PenalizedIntegrativeAnalysis)同時分析多個獨立數(shù)據(jù)集,避免因地域、時間等因素造成的樣本差異而引起模型不穩(wěn)定,是研究大數(shù)據(jù)差異性的有效方法。它的特點是將每個解釋變量在所有數(shù)據(jù)集中的系數(shù)視為一組,通過懲罰函數(shù)對系數(shù)組進行壓縮,研究變量間的關(guān)聯(lián)性并實現(xiàn)降維。本文從同構(gòu)數(shù)據(jù)整合分析、異構(gòu)數(shù)據(jù)整合分析以及考慮網(wǎng)絡(luò)結(jié)構(gòu)的整合分析三方面梳理了懲罰整合分析方法的原理、算法和研究現(xiàn)狀。統(tǒng)計模擬發(fā)現(xiàn),在弱相關(guān)、一般相關(guān)和強相關(guān)三種情形下,七GroupBridge>%GroupMCP、CompositeMCP都表現(xiàn)良好,其中£GroupBridge的假陽數(shù)最低且最穩(wěn)定。最后,將L1GroupBridge整合分析用于農(nóng)村新農(nóng)合的家庭醫(yī)療支出分析,發(fā)現(xiàn)不管在總體還是各個地區(qū),它都比單數(shù)據(jù)集分析的預(yù)測效果更好。關(guān)鍵詞:大數(shù)據(jù);懲罰整合分析;變量選擇;醫(yī)療支出中圖分類號:F222.3文獻標識碼:APenalizedIntegrativeAnalysisApproachesforBigDataAbstract:Thedifferenceofdatasource,highdimensionalityandsparsityarethemaincharacteristicsofBigData.HowtominingtheheterogeneityandassociationofdifferentdatasetsandtoachievingdimensionreductionisoneofthegoalsandchallengesofBigdataanalysis.IntegrativeanalysisprovidesaneffectivewayofanalyzingBigData.Itsimultaneouslyanalyzesmultipledatasets,avoidingthemodelinstabilityfromindividualvariationscausedbyregionalandtimefactorandsoon.Thecoefficientsofeachcovariateacrossalldatasetsaretreatedasagroupandusepenaltyfunctiontoshrinkagethesegroupsofcoefficientstoachievevariableselection.Inthispaper,wereviewtheexistingresearchofpenalizedintegrativeanalysisfromthreeaspectsofhomogeneityintegrativeanalysis,heterogeneityintegrativeanalysisandnetworkintegrativeanalysis.Threesimulationsareconductedtoverifytheperformanceofintegrativeanalysis,includingweak,moderateandstrongcorrelations.ItshowsthatL1GroupBridge>L1GroupMCP、CompositeMCPperformwell,whilethefirsthasthelowestfalsepositiveandismoststable.Finally,L1GroupBridgeintegrativeanalysisisadoptedtoanalyzethenewruralcooperativemedicalexpendituredatasets.Theresultsshowthatithasbetterpredictionperformancethansingledatasetanalysis.Keywords:BigData;PenalizedIntegrativeAnalysis;VariableSelection;MedicalExpenditure一、引言21世紀是信息爆炸的時代,計算機技術(shù)的飛速發(fā)展,極大地便利了數(shù)據(jù)的獲取和儲存,使得很多部門每天都有大量的數(shù)據(jù)產(chǎn)生。大數(shù)據(jù)通常是由來源、主體或格式不同的數(shù)據(jù)合并而成,例如來自不同地區(qū)的調(diào)查數(shù)據(jù);來自不同市場的金融數(shù)據(jù)等。這種基于多個數(shù)據(jù)集的建模十分常見,了解不同子樣本間的異構(gòu)性和共同性是大數(shù)據(jù)分析的兩個重要目標(Fan等,2014)[1]。但它的建模比較特殊,一方面,由于不同來源的數(shù)據(jù)存在差異,各不同數(shù)據(jù)源的同一變量的系數(shù)顯著性和估計值可能存在差異,傳統(tǒng)的處理方法是簡單合并所有樣本,建立統(tǒng)一模型,但是這種方法過于籠統(tǒng),忽略了數(shù)據(jù)間的異質(zhì)性(heterogeneity);另一方面,也不能分開各自建立模型,因為這樣會忽略各個數(shù)據(jù)集間的關(guān)聯(lián)性。整合分析(IntegrativeAnalysis)方法同時兼顧這兩方面,通過目標函數(shù)綜合不同地區(qū)的數(shù)據(jù),從統(tǒng)計角度考慮數(shù)據(jù)的異質(zhì)性和同一性,以多個變量為研究目標,充分考慮了不同地區(qū)間相互影響,同時求解多個模型。整合分析方法起源于20世紀60年代,把不同來源、格式、特點性質(zhì)的數(shù)據(jù)集中起來,相對于單一數(shù)據(jù)集模型,整合了更多的原始信息,能解決因地域、時間等因素造成的樣本差異而引起的建模不穩(wěn)定性,在模型解釋性和預(yù)測方面都有顯著優(yōu)勢。整合分析也是解決“大p小n”問題的有效方法。它綜合多個數(shù)據(jù)集而增加了樣本量,是解決小樣本問題的有效途徑。該問題在大數(shù)據(jù)中亦十分常見,一方面源于大數(shù)據(jù)的稀疏性、價值密度低,即信息的邊際價值并未隨數(shù)據(jù)量增加而提升;另一方面是大數(shù)據(jù)的高維性突出(Fan等,2014),互聯(lián)網(wǎng)和云計算為數(shù)據(jù)的獲得和存儲帶來便利,與研究現(xiàn)象相關(guān)的微小因素都可能被收集起來,維度自然會很高,“去噪提純”是亟待解決的問題。懲罰整合分析(PenalizedIntegrativeAnalysis)是將懲罰變量選擇方法與整合分析結(jié)合,是降維和提取信息的有效方式,不僅能對模型進行選擇,還能分析數(shù)據(jù)集間的關(guān)聯(lián)性,以便更好地識別信號和噪音。鑒于大數(shù)據(jù)的來源差異性、高維性、稀疏性等特點,如何對其充分利用和綜合分析比新技術(shù)更為重要,因此非常有必要在大數(shù)據(jù)時代下研究不同數(shù)據(jù)集的懲罰整合分析。在單數(shù)據(jù)集變量選擇中,懲罰方法是使用最為廣泛的一類方法,它通過對未知參數(shù)的值進行壓縮,同時實現(xiàn)變量選擇和參數(shù)估計,具有降低估計偏差、提高預(yù)測精度和模型可解釋性的優(yōu)點。其研究可追溯到Lasso的提出,它顛覆了逐步回歸、最優(yōu)子集、模型選擇等貪婪方法,以壓縮的角度實現(xiàn)自動識別。受Lasso的激發(fā),相繼有學(xué)者提出了多種懲罰變量方法,根據(jù)選擇效果可分為四類:只能選擇單個變量的單變量選擇方法(IndividualVariableSelection),如Lasso(Tibshirani,1996)、SCAD(Fan和Li,2001)、MCP(Zhang,2007)、Bridge(Frank和Friedman,1993);高度相關(guān)數(shù)據(jù)的變量選擇方法,如彈性網(wǎng)Zou和Hastie,2005)、Mnet(Huang等,2010),在一定程度上能解決共線性問題;組選擇方法,GroupLasso(Yuan和Lin,2006)⑵、CAP(Zhao等,2009)等,對以組形式出現(xiàn)的變量進行選擇;雙層選擇方法如SparseGroupLasso(Simon等,2013)[3],乙[GroupBridge(Huang等,2009)[4]等,在變量組內(nèi)和組間實現(xiàn)雙層選擇。懲罰整合分析依舊借鑒單數(shù)據(jù)集變量選擇的思想,特殊之處在于整合分析中解釋變量的回歸系數(shù)不再是一個而是一組,不僅要篩選出顯著的變量,還要識別出它在哪些數(shù)據(jù)集中顯著,問題變得更加復(fù)雜。本文在作者自己多年的研究成果基礎(chǔ)上,對整合分析從函數(shù)構(gòu)成上進行歸納、梳理,將整合分析分為同構(gòu)數(shù)據(jù)、異構(gòu)數(shù)據(jù)以及考慮網(wǎng)絡(luò)結(jié)構(gòu)下的整合分析,通過統(tǒng)計模擬,針對異構(gòu)數(shù)據(jù)對各種方法進行了比較,并將這些方法應(yīng)用到我國家庭醫(yī)療支出調(diào)查分析中。剩余部分安排如下:第二部分介紹模型的基本結(jié)構(gòu);第三部分分別整理了同構(gòu)數(shù)據(jù)、異構(gòu)數(shù)據(jù)下的懲罰整合分析方法,并對兩者都適用的網(wǎng)絡(luò)懲罰方法進行原理分析;第四部分總結(jié)了常用算法一一組坐標下降法的思路和流程,并對調(diào)整參數(shù)選擇的常用方法做了概述;第五部分做了三個模擬分析,對異構(gòu)數(shù)據(jù)的各種方法進行了比較;第六部分構(gòu)建懲罰異構(gòu)模型分析了家庭醫(yī)療支出數(shù)據(jù),并從預(yù)測角度驗證模型的有效性;第七部分總結(jié)全文。二、模型基本形式整合分析不僅適合分析多個獨立的數(shù)據(jù)集,還能分析具有多元互相關(guān)聯(lián)因變量的單一數(shù)據(jù)集。研究思路大同小異,故本文以前者為例展開分析。假設(shè)有M個數(shù)據(jù)集,p個解釋變量。第m個數(shù)據(jù)集的樣本量為n(m),因變量y(m)為n(m)x1向量,連續(xù)型和離散型均可,解釋變量X(m)為n(m)xp矩陣,并假設(shè)數(shù)據(jù)已被標準化。為了闡述方便,本文設(shè)因變量為連續(xù)型變量,考慮最簡單的線性回歸,對第m個數(shù)據(jù)集建立如下模型:y(m)=X(m)P(m)+8(m)(1)其中p(m)=(p(m),,P(m))t為回歸系數(shù);8(m)為隨機項,滿足E(8(m))=。、Var(8(m))=C2)。記解釋變量Xj在所有數(shù)據(jù)集中的回歸系數(shù)為巳=(腫),,Pjm))。與單數(shù)據(jù)集模型相比,這M個模型的變量顯著性有其特殊之處:每個變量具有M個回歸系數(shù),它們歸屬于同一解釋變量故會存在某種關(guān)聯(lián)性或相似性,故無法分別作參數(shù)估計和變量選擇,否則會忽略這種關(guān)聯(lián);它們的顯著性不盡相同,亦不能簡單地綜合作估計。懲罰整合分析正是充分利用了這種特殊性來研究數(shù)據(jù)的差異,模型一般形式為:P=argmin°?(X,y;P)+P(P;人)}(2)其中y=(y(1),,,y(my)是Xn(m)x1因變量,X=diag(X⑴,,X(M))是Xn(m)xMp設(shè)計矩陣,m=1m=1???P=(P(1),,,P(M))是Mp維未知參數(shù)向量。L(X,y;P)是建立在所有數(shù)據(jù)集上的損失函數(shù),通常可表示為L(X,y;P)=XL(X(m),y(m)R(m)),L(?)可取對數(shù)函數(shù)的負向變換、最小二乘函數(shù)等,下文分析以最i=1小二次函數(shù)為例,即L(X,y;P)=(y-XP)'(y-XP)。P(X;P)是懲罰函數(shù),通過調(diào)整參數(shù)冗的值平衡模型的擬合度和復(fù)雜度,估計參數(shù)并同步實現(xiàn)變量選擇。冗越大,P(人;P)的值越大,參數(shù)P被壓縮的越嚴重,估計為零的參數(shù)也就越多;反之,冗值越小,懲罰函數(shù)不足以將回歸系數(shù)壓縮為零,估計的參數(shù)非零的也就越多。因此如何合理地確定冗的值極為重要。三、懲罰整合分析方法根據(jù)數(shù)據(jù)產(chǎn)生背景中蘊含的先驗信息,數(shù)據(jù)集可分為同構(gòu)型(homogeneity)和異構(gòu)型(heterogeneity),本文將分別介紹這兩類數(shù)據(jù)的懲罰整合分析方法,同時概述了兩者在考慮網(wǎng)絡(luò)結(jié)構(gòu)(network)關(guān)系下的懲罰方法。整合分析的回歸系數(shù)具有兩層含義:第一是變量層面,這與普通的單數(shù)據(jù)集模型一致;其次是數(shù)據(jù)集層面,同一個解釋變量具有M個回歸系數(shù),各數(shù)據(jù)集的關(guān)聯(lián)正是通過這些回歸系數(shù)連接。這也是整合分析的特殊之處,變量的顯著性不再是針對一個回歸系數(shù),而是一組回歸系數(shù),因此需要特殊的變量選擇方法。(一)同構(gòu)數(shù)據(jù)的整合分析同構(gòu)數(shù)據(jù)模型中,解釋變量在M個模型中的顯著性是一致的,每個模型具有相同的顯著變量,即若Xj在數(shù)據(jù)集m中顯著,則它在所有數(shù)據(jù)集中都顯著。同構(gòu)數(shù)據(jù)常見于調(diào)查問卷相同、實驗設(shè)計相同等數(shù)據(jù)收集方式一致的情形中,在這種先驗信息下,建立的同構(gòu)模型顯然會減少未知參數(shù)個數(shù),降低計算量,模型結(jié)構(gòu)也將更簡潔。同構(gòu)模型的性質(zhì)可表示為:I(P⑴=0)=I(P(M)=0),j=1,,p(3)jj從式(3)可知;?向量P中各元素要么全為零,要么全非零。若將同一變量的M個系數(shù)視為一組參數(shù),j那么同構(gòu)模型的變量選擇為整組選擇,只需組間選擇,無需組內(nèi)選擇,具有“all-in-all-out”的特點。同構(gòu)數(shù)據(jù)的懲罰整合分析思想與單個數(shù)據(jù)集下的組選擇類似,包含兩層嵌套的懲罰函數(shù),由組間懲罰Poutr和組內(nèi)懲罰?訊頓構(gòu)成’具體形式為P(P;入)=P心(煎p_(叱頂)1;入))(4)k=1該懲罰函數(shù)的特點之一是組間Pg由懲罰函數(shù)具有變量選擇功能,特點之二是組內(nèi)Pinner只能壓縮而無選擇變量功能,通常組內(nèi)P用Ridge懲罰函數(shù)(Hoerl和Kennard,1970),利用它無法將系數(shù)壓縮至零的inner特點,保證了同組回歸系數(shù)同時非零。這兩個特點也是實現(xiàn)整組選擇而不在組內(nèi)選擇的原理。與單數(shù)據(jù)集的不同之處在于整合分析的組是同一個變量在不同數(shù)據(jù)集上的多個回歸系數(shù),每組僅對應(yīng)一個解釋變量,而后者的組由多個虛擬變量或者解釋變量群構(gòu)成。常用方法有L2GroupBridge、L2GroupMCP等。L2GroupBridgeMa等(2011a)[5]在Logistic回歸中提出復(fù)合型方法L2GroupBridge,建立同構(gòu)數(shù)據(jù)模型。懲罰函數(shù)為組內(nèi)Ridge、組間Bridge,形式為P(P;入,Y)=人習(xí)|pJ?Xfte(p(i))2j1/2[j=1j=1I'i=1/其中0<y<L文中以GroupLasso估計作為初始值進行迭代估計,并從理論上證明了GroupLasso會選擇過多,但L2GroupBridge滿足選擇一致性(Fan和Li,2001)[6]。Ma等(2012)[7]又將%GroupBridge用到了AFT(AcceleratedFailureTime)模型,并從理論上證明了選擇一致性。
L2GroupMCPL2GroupMCP最早用于單數(shù)據(jù)集中連續(xù)型因變量建模(Huang等,2010,2012)[8,9],解決以組形式分析復(fù)雜的刪失生存數(shù)據(jù)。它的懲罰函P(P;人,a)=£p(MCPJ=1出現(xiàn)的變量選擇問題。Ma等(2011b)[10]首次將其用于整合分析,數(shù)結(jié)構(gòu)為組內(nèi)Ridge分析復(fù)雜的刪失生存數(shù)據(jù)。它的懲罰函P(P;人,a)=£p(MCPJ=1其中PJ.)為MCP懲罰,屬于二次樣條型懲罰,形式為P(0;人P(0;人,a)=<MCPX0-g,2aaX2、,0<aX0,aXPmCP;X,a)=lX-0a00<aX0>aX其中a是正則化參數(shù),用于控制函數(shù)的凹性。MCP計算簡單因而在單數(shù)據(jù)集分析中備受歡迎。Liu等(2014)[11]的研究中再次提到了同構(gòu)模型下的L2GroupMCP,并將其作為模擬分析中主要方法。GroupLassoGroupLasso是單數(shù)據(jù)集中最早的群組變量選擇方法。它也適合同構(gòu)模型的整合分析,但未得到系統(tǒng)研究,僅在Zhang等(2015)[12]的研究中,有簡單的分析和理論論證。懲罰函數(shù)形式為P(P;X)=xX||P,||J=1該文并未提出新的方法,而是從理論上證明了已有方法的性質(zhì),證明了在一定條件下GroupLasso、L2GroupSCAD、L2GroupMCP滿足選擇一致性??偨Y(jié)同構(gòu)模型方法,先驗信息確定了同一解釋變量在所有數(shù)據(jù)集中顯著性一致,故將它伽個回歸系數(shù)視為一組,它不再是鑒別變量組,而是識別在所有數(shù)據(jù)集中都顯著的單個解釋變量。因此%GroupSCAD、CAP、adaptiveGroupLasso(Wang和Leng,2006)等在單數(shù)據(jù)集中具有組選擇功能的方法預(yù)期也是適用的。(二)異構(gòu)數(shù)據(jù)的整合分析與同構(gòu)數(shù)據(jù)模型不同的是,異構(gòu)數(shù)據(jù)模型中解釋變量在心個數(shù)據(jù)集中的顯著性不一定相同,即對給定的J,I(P(m=0)(m=1,,M)可以不全相等。異構(gòu)數(shù)據(jù)模型更一般化,同構(gòu)數(shù)據(jù)模型可以看作是異構(gòu)數(shù)j據(jù)模型的特殊情形。這類模型中變量顯著性不一致通常有兩方面的原因:一是各數(shù)據(jù)集的產(chǎn)生方式(或環(huán)境因素)引起的變量顯著性差異,如不同地區(qū)、不同時間點的數(shù)據(jù)集;二是研究問題的細分,如同種疾病的不同子類別數(shù)據(jù)。異構(gòu)模型的變量選擇不僅僅要考慮解釋變量是否顯著,還要考慮它在哪些模型中顯著,因此涉及到雙層選擇。已有的方法可分為復(fù)合函數(shù)類和稀疏組懲罰類。
1.復(fù)合懲罰類復(fù)合懲罰函數(shù)形式如式(4)所述,與同構(gòu)數(shù)據(jù)不同的是,此處組內(nèi)和組間函數(shù)都具有單變量選擇效果,組內(nèi)不再是諸如Ridge等不能選擇變量的函數(shù)。如L1GroupMCP(Liu等,2014)仔|P(m)I仔|P(m)Im=1j);人,aJP(p;人,a)=£pMCPj=1組內(nèi)是Lasso,組間是MCP函數(shù)。Lasso形式簡單,計算易實現(xiàn),但是在單數(shù)據(jù)集變量選擇中,它傾向選擇過多的變量,理論上不滿足Oracle性質(zhì)(Fan和Li,2001),效果不如MCP。因此Liu等(2014a)又提出了CompositeMCP懲罰,它的組內(nèi)組間都是MCP函數(shù),懲罰函數(shù)為、P(p;人,a,b)=£pMCPj=1Xp(p(m);人,a);人,bm=1CompositeMCP的理論性質(zhì)比%GroupMCP更好,Zhang等(2015)證明了在一定條件下,CompositeMCP在組內(nèi)和組間均滿足選擇一致性,而L1GroupMCP只滿足組選擇一致性。在單數(shù)據(jù)集的雙層選擇中,L^GroupBridge(Huang等,2009)是最早的方法,而它用于整合分析是在Shi等(2014)[13]的研究中。L^GroupBridge組內(nèi)是Lasso函數(shù)、組間是Bridge函數(shù),因此實現(xiàn)了兩層選擇。懲罰函數(shù)為P(p;人)=^p||p||yj=12.稀疏組懲罰類稀疏組懲罰是兩個懲罰函數(shù)的線性組合,一個具有組選擇功能,另一個具有單變量選擇功能,兩者共同實現(xiàn)兩層選擇。一般形式為P(P;人,人)=M£P(guān)(pII)+人XZP(p(m))1211jn22jj=1j=1m=1其中函數(shù)P。作用在系數(shù)組上,具有組選擇功能,無法在組內(nèi)選擇,因而能夠選擇重要的解釋變量;函數(shù)PP作用在每一個系數(shù)上,能夠進行單個系數(shù)選擇,故能識別解釋變量在哪些數(shù)據(jù)集中顯著。Zhang等(2015)從理論上證明了這類方法的選擇一致性。并建立SparseGroupMCP函數(shù)(p(。和均為MCP懲罰),模擬分析了它的整合分析效果。在單數(shù)據(jù)集分析中,已有學(xué)者提出了稀疏組懲罰方法SparseGroupLasso(SGL)(Simon等,2013)和adaptiveSparseGroupLasso(adSGL)(Fang等,2014)[14]。這兩者的懲罰函數(shù)形式分別為P(p;人,人)=X2L||p||+人||p||SGL121j21j=1P(P;人,人)=^XwII。II+人成IpIadSGL121jj22j=1SGL是Lasso和GroupLasso的線性組合,兩者在理論上都不滿足Oracle性質(zhì),預(yù)期SGL也不滿足,因此Fang等(2014)提出了更一般化的adSGL,通過引入組權(quán)重w和單個系數(shù)權(quán)重&,改進選擇一致性和估計一致性。兩個權(quán)重都由數(shù)據(jù)本身決定,與系數(shù)的真實值成反比,真實值越大,權(quán)重越小,壓縮越輕,估計越接近真實值。SGL和adSGL都是Lasso型懲罰,形式簡單,計算易實現(xiàn),可直接用組坐標下降法求解。這兩種方法還尚未用于異構(gòu)數(shù)據(jù)的整合分析,但是預(yù)期也是可行的。(三)考慮網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的整合分析傳統(tǒng)的計量建模中通常假設(shè)各觀察項是相互獨立的,但是在大數(shù)據(jù)時代各個變量間往往是相互關(guān)聯(lián),變量或回歸系數(shù)兩兩之間會存在相互影響,形成一張網(wǎng)絡(luò)結(jié)構(gòu)圖。以上方法考慮了變量在不同數(shù)據(jù)集中的顯著性關(guān)系,并未考慮回歸系數(shù)之間的關(guān)聯(lián)。同一數(shù)據(jù)集中不同解釋變量可能會相互作用,表現(xiàn)為它們在同一數(shù)據(jù)集中的系數(shù)具有某種關(guān)系,這稱為數(shù)據(jù)集內(nèi)部結(jié)構(gòu)(within-datasetstructure)o不同數(shù)據(jù)集具有相同的解釋變量甚至因變量,因此有理由相信,同一解釋變量在不同數(shù)據(jù)集中的系數(shù)存在某種相似性,稱為跨數(shù)據(jù)集結(jié)構(gòu)(across-datasetstructure)oLiu等(2013)[15建立了數(shù)據(jù)集內(nèi)部結(jié)構(gòu)下的網(wǎng)絡(luò)結(jié)構(gòu)懲罰方法,懲罰函數(shù)為P(P;人)=x£appi-5Xj(5)1刃心*Mj奶kJ該懲罰函數(shù)針對數(shù)據(jù)集內(nèi)部結(jié)構(gòu),將解釋變量的M個系數(shù)作為一個整體,懲罰其七范數(shù)差。其中ajk為權(quán)重,若變量Xj與Xk越相似,則懲罰越重,那么Pj與Pk的%范數(shù)差越小,它們的估計值越相近。Liu等(2013)將提出的懲罰與L2GroupMCP結(jié)合,用于同構(gòu)數(shù)據(jù)的建模。Shi等(2014)研究跨數(shù)據(jù)結(jié)構(gòu),提出了Contrast懲罰,通過對回歸系數(shù)的差進行懲罰,解決系數(shù)相似性問題。Contrast懲罰函數(shù)為(6)p(p)二人££a(ki)(p(k)-p(i))j=1k(6)它懲罰同一變量在不同數(shù)據(jù)集中的系數(shù)值之差,式(6)中a(K)=I(sgn(p(k)=sgnf?(l)))若sgn(p(k))=sgnpi),)則變量X在數(shù)據(jù)集k和1中的系數(shù)越相似;若sgn(p(k))牛sgn(p(/)),X在這兩jjjjjj個數(shù)據(jù)集中的系數(shù)符號相反,因此不存在相似性,相應(yīng)的Contrast懲罰值為零。估計sgn(p(k))的方法可有j多種,具體可參見文獻Shi等(2014)。Contrast懲罰與L2GroupBridge、?GroupBridge組合,可分別用于同構(gòu)數(shù)據(jù)和異構(gòu)數(shù)據(jù)的建模。四、計算(一)算法對于懲罰整合分析的計算,最常用的優(yōu)化方法是組坐標下降法(GroupCoordinateDescent,GCD)(Yuan和Lin,2006)。GCD是坐標下降法(CoordinateDescent,CD)(Fu等,1998)在組結(jié)構(gòu)下的擴展,它的思想是在固定其他參數(shù)的情形下,每次迭代只優(yōu)化一組參數(shù),直到所有參數(shù)收斂到給定精度°GCD在單數(shù)據(jù)集組變量選擇方法中十分常用,最早出現(xiàn)在線性模型的GroupLasso求解,Meier等(2008)也用該算法求解Logistic回歸下的GroupLasso,其中損失函數(shù)用二次函數(shù)逼近。在最小二乘框架下,其基本流程如下(Zhao等,2015)[詢Step1:給定初始值。[0=(。0(八,。了D和收斂精度,記已循環(huán)次數(shù)s=0,計算當前殘差r=y—邸[0];.…Step2:對每個j6(1,,p),固定Pto](k壬j),對Pj=(P(i),,PjM))進行估計;計算z=公+P[s],其中X是設(shè)計陣中與P有關(guān)的子矩陣;jnjjj更新Pjs+1]—F*人),F(xiàn)(Zj,人)是由目標函數(shù)求解而得優(yōu)化式子,例如由偏導(dǎo)數(shù)為零得到參數(shù)更新方程;更新當前殘差:r—r—X(P[s+1]-0[$])。Step3:更新s為s+1;Step4:重復(fù)Step2、Step3直到收斂。該算法的收斂性在Tseng(2001)中有嚴格的論證。當目標函數(shù)為嚴格凸函數(shù)時,顯然會得到全局最優(yōu)解。而以上方法的目標函數(shù)并不滿足凸性,只有損失函數(shù)滿足該性質(zhì),因此Tseng證明了即便如此,只要目標函數(shù)的不可微部分(懲罰函數(shù))是可分的,算法就會收斂。以GroupLasso為例,最小二次函數(shù)作為損失函數(shù)時,L(P;y,X)為嚴格凸函數(shù),而懲罰函數(shù)P(p;人)不可微,但是它在組組之間是可分的,即可拆分為p(P;荷三p1L(Pj),因此GCD算法在該問題中是收斂的。(二)調(diào)整參數(shù)的選擇調(diào)整參數(shù)冗連接損失函數(shù)和懲罰函數(shù),其取值直接影響建模效果。在選擇最優(yōu)值之前,通常要確定冗的大致范圍,以減少計算成本并提高建模準確率。第一步確定最大值人max,此時所有參數(shù)P=0,滿足這一條件的冗非常多,但是會存在一個下確界,該下確界可作為。第二步確定最小值人min,通常取接近0的數(shù),或者取入的很小比例,如入=0.00仇。粗略確定取值范圍[入,入]后,接著基于模型選擇maxminmaxminmax的思想確定最優(yōu)力。模型選擇中,常用的評價準則有交叉驗證(CrossValidation,CV)、廣義交叉驗證(GCV)、廣義信息準則(GIC)、AIC、BIC、風(fēng)險膨脹準則(RIC)、Cp準則等。鑒于CV的思想簡單而非常流行,且現(xiàn)有整合分析方法(Ma等,2011a,2011b,2012;)發(fā)現(xiàn)其他準則的效果不如它,本文只介紹k倍CV的基本思想:(1)構(gòu)建評價指標,例如預(yù)測誤差平方和,將樣本隨機劃分為等量k份;(3)k-1份作為訓(xùn)練集(Trainset),用于模型建立、模型估計,余下的樣本作為測試集(Testset),用于檢驗?zāi)P停嬎銣y試集上的評價指標值;(3)循環(huán)第(2)步,直到所有樣本都被作為測試集一次且僅一次;(4)對于每個人,計算它們的預(yù)測指標值,該值最小時的人即為最優(yōu)值。五、模擬分析由于異構(gòu)數(shù)據(jù)模型更具一般性,在實際應(yīng)用中更常見,并且同構(gòu)數(shù)據(jù)模型在某種角度上可以看作是異構(gòu)數(shù)據(jù)模型的特例。由于篇幅限制,本文對多種異構(gòu)模型進行統(tǒng)計模擬分析。每個模擬都包含三個數(shù)據(jù)集,樣本量都是80,解釋變量1000個:模擬1中各數(shù)據(jù)集分別有5、6、7個顯著變量,模型共有18個顯著系數(shù)。前兩個數(shù)據(jù)集的共同變量有3個,后兩者之間也是3個,而第一和第三個數(shù)據(jù)集無共同變量。模擬2中各數(shù)據(jù)集分別有7、8、9個顯著變量,三者共同的有5個,且各有2、3、4個特有變量,共24個顯著系數(shù)。模擬3中三個數(shù)據(jù)集各有10個顯著變量,且兩兩無重疊。顯著系數(shù)也是30個。以上三種情況包含部分重疊、完全重疊和不重疊。參考相關(guān)文獻(Zhang等,2015;Liu等,2014),數(shù)據(jù)產(chǎn)生方式如下:①X服從多元正態(tài)分布,滿足cov(X,,Xj)=p|fP為Xi與Xj的相關(guān)系數(shù);②非零系數(shù)從U[0.5,1]oU[-1,-0.5]中隨機產(chǎn)生,誤差項的標準差?=0.5。模擬方法包含MCP、LxGroupMCP、七GroupBridge以及CompositeMCP,MCP作為代表性的單變量選擇方法用于對比,后三者是典型的雙層選擇方法,都能用于異構(gòu)數(shù)據(jù)整合分析。評價指標有兩個:P表示選擇的非零系數(shù)數(shù)目,TP是正確選擇的個數(shù)。模擬100次的平均結(jié)果如表1所示。從模擬結(jié)果得出:①隨著相關(guān)系數(shù)增大,四種方法的P指標值越接近TP,說明假陽數(shù)隨之減少。②三種異構(gòu)數(shù)據(jù)方法在各例子中能較準確地識別非零系數(shù),尤其在弱相關(guān)和一般相關(guān)情形中能接近100%識別。③三種異構(gòu)數(shù)據(jù)方法在強相關(guān)數(shù)據(jù)中,明顯比MCP好;在相關(guān)系數(shù)為0.2或0.5時,平均來說MCP的假陰數(shù)是最高的,其他三種方法的假陰數(shù)基本為零。④三種異構(gòu)數(shù)據(jù)方法中,£GroupBridge的效果最好,它在所有模擬結(jié)果中假陽數(shù)都最低,且接近零,方差也最小,因而最穩(wěn)定;CompositeMCP的假陽數(shù)平均來說比七GroupMCP要少。表1模擬結(jié)果(括號內(nèi)數(shù)據(jù)為標準差)PMCPL1GroupMCPL1GroupBridgeCompositeMCPPTPPTPPTPPTP0.221.911830.121819.141829.9418(3.49)(0)(13.08)(0)(0.80)(0)(10.80)(0)模擬10.525.8617.9327.871818.621826.2518(5.45)(0.26)(9.57)(0)(0.72)(0)(8.00)(0)0.816.9010.5719.0016.9718.1917.0519.0216.95(4.92)(1.13)(2.34)(0.91)(1.10)(0.91)(2.40)(0.92)0.230.3423.9744.142425.302442.4824(5.44)(0.30)(14.11)(0)(0.95)(0)(12.87)(0)模擬20.528.1723.9034.322424.4023.7634.1424(4.05)(0.33)(7.64)(0)(1.01)(0.45)(6.27)(0)0.820.1012.4724.6622.1021.7921.4924.7222.09(4.70)(1.35)(2.36)(1.53)(1.46)(1.27)(2.26)(1.53)0.235.3029.9848.233031.0929.9848.1030(5.93)(0.20)(11.76)(0)(1.06)(0.14)(11.98)(0)模擬30.532.1829.1938.023030.2229.7937.8630(2.85)(1.46)(4.46)(0)(0.80)(0.41)(4.24)(0)0.822.3114.1925.7224.1527.6927.3725.6824.13(4.71)(1.51)(2.47)(2.54)(1.11)(1.05)(2.47)(2.50)六、新農(nóng)合家庭醫(yī)療支出分析新型農(nóng)村合作醫(yī)療制度(簡稱新農(nóng)合)是中國政府解決農(nóng)民基本醫(yī)療衛(wèi)生問題的大規(guī)模醫(yī)療保障制度。它在保障弱勢群體、確保農(nóng)民獲得基本衛(wèi)生服務(wù)、緩解農(nóng)民因病致貧和因病返貧方面發(fā)揮了重要作用YouX和Kobayashi,2009)。醫(yī)療支出在許多發(fā)展中國家是致貧的重要因素之一(Ruger和Kim,2007),政府對公共衛(wèi)生的投入、居民健康和經(jīng)濟狀況都是影響家庭醫(yī)療支出的重要因素(何平平,2007),它們的地區(qū)差異性致使醫(yī)療支出也存在地域上的區(qū)別。本文研究的數(shù)據(jù)由廈門大學(xué)數(shù)據(jù)挖掘中心于2012年7-9月份的農(nóng)村入戶調(diào)查所得,調(diào)查范圍包括福州、龍巖、三明、南平、漳州5個地級市。經(jīng)數(shù)據(jù)預(yù)處理后得到有效樣本688份,5個地區(qū)各含87、58、296、59、188份。因變量為家庭過去一年的農(nóng)村家庭實際醫(yī)療支出,也就是指醫(yī)保報銷后的家庭實際現(xiàn)金支出。自變量分為三類:一是基本信息,包括家庭人數(shù)、65歲以上人數(shù)、戶主年齡、戶主教育、戶主婚姻,共5個變量;二是經(jīng)濟指標,包括家庭總收入、家庭基本支出、家庭儲蓄、農(nóng)業(yè)支出、煙酒支出,共5個變量;三是健康相關(guān)指標,包含參保人數(shù)、健康自評、住院次數(shù)、門診次數(shù)等共8個變量。其中婚姻、教育、參合因素是多水平分類變量,通過虛擬變量處理后,最終得到24個解釋變量。由于每個地區(qū)對新農(nóng)合的投入、實施情況不同,而且每個調(diào)查地區(qū)的經(jīng)濟情況、生活水平、文化觀念等也有所不同,并且每個地區(qū)的調(diào)查是由不同的調(diào)查小組完成的,數(shù)據(jù)集的調(diào)查誤差也略有不同。如果簡單地合并所有數(shù)據(jù)進行分析,很可能會忽略數(shù)據(jù)集間的關(guān)聯(lián)性等信息。整合分析能有效分析來自不同地區(qū)的數(shù)據(jù)集,因此本文用異構(gòu)數(shù)據(jù)模型分析新農(nóng)合政策下醫(yī)療支出影響因素的地區(qū)差異。基于模擬分析中L1GroupBridge綜合表現(xiàn)最好,本文建立該方法下關(guān)于醫(yī)療支出的異構(gòu)數(shù)據(jù)模型,估計結(jié)果如表2所示,可得出:①5個地區(qū)對家庭醫(yī)療支出的影響因素都是不一樣的,這也進一步驗證了如果簡單地合并所有數(shù)據(jù)集再進行分析,很容易忽略了地區(qū)間的差異性和關(guān)聯(lián)性信息。②5個數(shù)據(jù)集共有15個顯著變量,其中“住院次數(shù)”為共同顯著變量,且在5個地區(qū)中對醫(yī)療支出都成正向影響,即住院次數(shù)越多,醫(yī)療支出越高。③“住院意愿是否改變”在南平外的四個地區(qū)都是顯著的,且在其中三個地區(qū)成正向影響,即選擇更好的醫(yī)院治療則。④“慢性病人數(shù)”在福州、三明、龍巖都是正向影響,家庭的慢性病人數(shù)越多,醫(yī)療支出越高。⑤“門診次數(shù)”、“醫(yī)院收費合理性”都在兩個地區(qū)顯著,且門診次數(shù)越多,支出就越高,而醫(yī)院收費是否合理對醫(yī)療支出的影響方向在不同地區(qū)是不同的。⑥4個經(jīng)濟指標顯著且呈正向影響,其中收入、農(nóng)業(yè)支出僅在三明市顯著,基本支出和儲蓄在龍巖市顯著。以上結(jié)論比較符合現(xiàn)實意義,也與已有的研究成果(Mcbride,2005;Fang等,2012)在不同程度上吻合。表2估計結(jié)果地區(qū)顯著變量系數(shù)值地區(qū)顯著變量系數(shù)值健康自評-0.065基本支出0.145慢性病人數(shù)0.191儲蓄0.435福州住院次數(shù)0.477龍巖慢性病人數(shù)0.259住院意愿是否改變-0.028住院次數(shù)0.414門診次數(shù)0.164—住院意愿是否改變0.015教育(大學(xué))-0.050參合人數(shù)-0.044收入0.083南平參合因素(老人)0.423慢性病人數(shù)0.172參合因素(成年人)0.348三明住院次數(shù)0.493住院次數(shù)0.206住院意愿是否改變0.067住院次數(shù)0.237婚姻(離婚)0.042漳州住院意愿是否改變0.057農(nóng)業(yè)支出0.118門診次數(shù)0.018醫(yī)院收費合理性0.009醫(yī)院收費合理性-0.011盡管上述模型估計的結(jié)果較為合理,但為了更進一步驗證異構(gòu)模型在本實證分析中的有效性,本文從預(yù)測角度將其與傳統(tǒng)模型進行比較。包含三個模型:LlGro
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)旅游的社會效益與可持續(xù)發(fā)展分析
- 2019-2025年消防設(shè)施操作員之消防設(shè)備高級技能通關(guān)題庫(附答案)
- 印刷裝訂合同范本
- 商住門面出售合同范例
- 代加工合同范本
- 合川倉儲配送合同范本
- 售酒銷售合同范本
- 商標融資合同范本
- 寫雙方合同范例
- 商場民間借貸合同范本
- 2024年版慢性阻塞性肺疾病(COPD)診療指南解讀課件
- 基本養(yǎng)老金核定表、職工退休、退職審批表
- 2024年世界職業(yè)院校技能大賽高職組“導(dǎo)游服務(wù)組”賽項參考試題庫(含答案)
- 2024解析:第八章牛頓第一定律、二力平衡-基礎(chǔ)練(解析版)
- 《傳媒法的原則》課件
- 2024解析:第十三章內(nèi)能-基礎(chǔ)練(解析版)
- 2024年網(wǎng)格員考試題庫含答案
- GB/Z 44047-2024漂浮式海上風(fēng)力發(fā)電機組設(shè)計要求
- (完整)2019年風(fēng)廉政建設(shè)主體責(zé)任落實情況監(jiān)督檢查記錄表
- 《selenium安裝教程》課件
- 2024年遼寧省中考數(shù)學(xué)真題卷及答案解析
評論
0/150
提交評論