下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、參賽隊(duì)員:郭屹峰學(xué)校:廣東實(shí)驗(yàn)中省份:廣東省指導(dǎo)教師:郭衛(wèi)東論文題目:多變量半?yún)?shù)有限混合模型的可識(shí)別性研究論文題目:多變量半?yún)?shù)有限混合模型的可識(shí)別性研究 摘要:任何一個(gè)統(tǒng)計(jì)模型在其應(yīng)用之前都要確定參數(shù)推斷是否有意義。如果一個(gè)模型不能由唯一的一組參數(shù)所確定, 那么這個(gè)模型是不可識(shí)別的。進(jìn)而也是沒 有實(shí)用價(jià)值的。有限混合模型為研究現(xiàn)實(shí)世界中的異質(zhì)性問題提供一個(gè)很好的方 法。在實(shí)際應(yīng)用中,參數(shù)有限混合模型被廣泛地應(yīng)用到生物、醫(yī)學(xué)、社會(huì)學(xué)、經(jīng) 濟(jì)、金融等領(lǐng)域。然而,參數(shù)有限混合模型的統(tǒng)計(jì)推斷嚴(yán)重依賴于混合分布族的 選擇,因而導(dǎo)致其缺乏靈活性。故非參數(shù)有限混合模型和半?yún)?shù)有限混合模型成為當(dāng)今統(tǒng)計(jì)前沿
2、的一個(gè)熱點(diǎn)和重點(diǎn)。統(tǒng)計(jì)頂級(jí)期刊Annals of Statistics于 2006年和2007年先后發(fā)表了兩篇關(guān)于單變量半?yún)?shù)有限混合模型的高質(zhì)量文章。然而,多變量半?yún)?shù)有限混合模型卻遲遲沒有結(jié)果發(fā)表。本論文重點(diǎn)關(guān)注多 變量參數(shù)有限混合模型的可識(shí)別性問題,為此模型的參數(shù)估計(jì)和假設(shè)檢驗(yàn)提供理 論保障。1. 有限混合模型的重要性在現(xiàn)實(shí)的復(fù)雜世界中,存在著大量的異質(zhì)性現(xiàn)象。例如在醫(yī)學(xué)中,由于自身?xiàng)l件 的差異,所有的病人事實(shí)上都是不完全一樣的。 而忽略這種異質(zhì)性所得到的醫(yī)學(xué) 數(shù)據(jù)分析結(jié)果展示的只是所謂的“平均”病人的結(jié)果。因此在醫(yī)學(xué)中,個(gè)性化醫(yī) 療變得越來越重要。而對(duì)于一名統(tǒng)計(jì)學(xué)家來說,辨別病人之間的
3、異質(zhì)性,并將這 些異質(zhì)性融入到統(tǒng)計(jì)模型中是一個(gè)重要的任務(wù)。 有限混合模型為處理這種帶有異 質(zhì)性問題提供了很好的思路。因此其在生物學(xué)、醫(yī)學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)和金融學(xué) 等眾多領(lǐng)域有著廣泛的應(yīng)用。在給出有限混合模型之前,我們首先展示兩個(gè)實(shí)際數(shù)據(jù)的例子。一個(gè)是R軟件包中的Old Faithful數(shù)據(jù)集。此數(shù)據(jù)集記錄了美國(guó)黃石國(guó)家公園(YellowstoneNational Park)里的Old Faithful間歇泉每次噴發(fā)所持續(xù)的時(shí)間以及兩次噴發(fā)之間的等待時(shí)間,單位均是:分鐘。由下面的直方圖(見圖 1的左圖)我們可以發(fā)現(xiàn):Old Faithful間歇泉兩次噴發(fā)之間的等待時(shí)間呈現(xiàn)雙峰分布,說明等待時(shí)間數(shù)
4、據(jù)中存在異質(zhì)性。故我們不能用一個(gè)單一分布來擬合,而要用混合分布擬合。同時(shí)我們還注意到每個(gè)混合分布是接近對(duì)稱分布的。另一個(gè)是瑞士心理學(xué)家Jean Piaget用于評(píng)價(jià)兒童對(duì)物質(zhì)世界理解力的實(shí)驗(yàn)數(shù)據(jù)。此實(shí)驗(yàn)首先發(fā)給每個(gè)兒童一張紙,紙上分別畫有指向11,4,2,7,10,5,1,8點(diǎn)鐘方向的8個(gè) 帶有蓋子的矩形器皿(見圖1的右圖)。然后要求每個(gè)兒童畫出每個(gè)器皿中液體的水平線,接下來度量出此條水平線與水平軸之間的夾角,用角度來表示。最后 給出一個(gè)帶有符號(hào)的角度值,其中符號(hào)對(duì)應(yīng)的是器皿中水平線斜率的符號(hào)。 與上 一個(gè)數(shù)據(jù)不同的是,此數(shù)據(jù)考慮的不再是一個(gè)變量,而不是八個(gè)變量。有限混合模型通過引進(jìn)一個(gè)離散的
5、潛在結(jié)構(gòu)來描述數(shù)據(jù)中的異質(zhì)性。假設(shè)一組隨 機(jī)樣本錯(cuò)誤!未找到引用源。來自下面的混合分布密度函數(shù):mj=i其中,m表示混合元的個(gè)數(shù),可以是已知的也可以是未知的。例如在Old Faithful間歇泉兩次噴發(fā)的等待時(shí)間可以認(rèn)為 m=2 ;而對(duì)于第二個(gè)數(shù)據(jù)混合元個(gè)數(shù)m很 難確定,盡管有文獻(xiàn)采用m=2或者m=3.混合比例錯(cuò)誤!未找到引用源。表示 第j個(gè)混合元的比例,滿足對(duì)所有的j,錯(cuò)誤!未找到引用源。并且錯(cuò)誤!未找到引用源。.錯(cuò)誤!未找到引用源。表示第j個(gè)混合元的密度函數(shù)。1M圖1 :左圖為Old Faithful間歇泉兩次噴發(fā)之間等待時(shí)間的直方圖;右圖為 Jean Piaget心理實(shí)驗(yàn)8個(gè)不同指向的矩
6、形器皿的示意圖。在有限混合分布(1)中,如果混合元錯(cuò)誤!未找到引用源。為某一參數(shù)分布族,則 這類有限混合模型稱為參數(shù)有限混合模型。例如,若 錯(cuò)誤!未找到引用源。為正 態(tài)分布錯(cuò)誤!未找到引用源。的密度函數(shù),貝U有限混合模型 為常見的高斯混合模型。此類模型的統(tǒng)計(jì)推斷問題只涉及到歐氏空間上的參數(shù)推斷,即關(guān)于錯(cuò)誤!未找到引用源。的推斷問題。在過去若干年中,研究者提出了關(guān)于參數(shù) 錯(cuò)誤!未找到引用源。的各種估計(jì)方法。這些方法主要有以下幾個(gè)類型:1)矩估計(jì)方法(見 Lindsay 和 Basak , 1993 ); 2)極大似然估計(jì)方法(見 Lindsay, 1983a,b );3) Bayes 方法(見
7、Diebolt 和 Robert , 1994 ; Escobar 和 West , 1995 ); 4)最小距離方法(見Titterington 等人,1985 )以及其他方法。盡管參數(shù)有限混合模型因其相對(duì)比較簡(jiǎn)單而得到廣泛的應(yīng)用,但是由于實(shí)際應(yīng)用 中對(duì)子總體通常知之甚少,故參數(shù)有限混合模型中混合元的選擇是非常困難的。因?yàn)閰?shù)有限混合模型的參數(shù)推斷非常依賴于分布族的假設(shè),故當(dāng)分布族選擇錯(cuò) 誤時(shí),參數(shù)推斷的結(jié)果是毫無意義的。因此參數(shù)有限混合模型是缺乏靈活性的。針對(duì)參數(shù)有限混合模型的缺陷,另一種思路是不假設(shè)混合元服從某個(gè)參數(shù)族而假 設(shè)其是完全未知的光滑函數(shù)。這種有限混合模型稱為非參數(shù)有限混合模型
8、。 值得 注意的是,如果沒有額外的假設(shè)或者信息,非參數(shù)有限混合模型通常是不可識(shí)別 的。所謂可識(shí)別性,是指由模型(1 )能夠唯一的確定所有的 錯(cuò)誤!未找到引用源。和錯(cuò)誤!未找到引用源。對(duì)于下面的非參數(shù)有限混合模型:mkj=i 戶 1其中,錯(cuò)誤!未找到引用源。為k變量的隨機(jī)向量。錯(cuò)誤!未找到引用源。為第j個(gè)混合元的第錯(cuò)誤!未找到引用源。個(gè)邊緣密度函數(shù),錯(cuò)誤!未找到引用源。,錯(cuò)誤!未找到引用源。Hettmansperger 和 Thomas (2000 )以及 Cru乙Medina和Hettmansperger(2004 )給出了非參數(shù)有限混合模型(2)中混合比例錯(cuò)誤!未找到引用源。的估計(jì)方法。對(duì)于
9、多變量非參數(shù)有限混合模型(2),模型的可識(shí)別性問題是一個(gè)重要的理論問 題。Hall和Zhou (2003 )證明了在m=2的情況下,只有當(dāng) 錯(cuò)誤味找到引用 源。同時(shí)滿足一些正則條件下,非參數(shù)有限混合模型(2)才是可識(shí)別的,進(jìn)而 才是可以被估計(jì)的;而當(dāng) 錯(cuò)誤!未找到引用源。時(shí),模型是不可識(shí)別的。Hall等 人(2005 )以及Kasahara和Shimotsu ( 2008 )試圖給出混合元個(gè)數(shù) m>2的一般性結(jié)果,卻發(fā)現(xiàn)一般性結(jié)果是相當(dāng)難以找到的。 后來,Aliman等人(2009 ) 利用Kruskal( 1977 )的一個(gè)定理給出了對(duì)于任何變量個(gè)數(shù) 錯(cuò)誤!未找到引用源。, 不論混合元
10、個(gè)數(shù)m為多少,非參數(shù)有限混合模型(2)的可識(shí)別性條件:只要邊 緣密度函數(shù)錯(cuò)誤!未找到引用源。在除一個(gè)Lebesgue測(cè)度為0的集合外是線性 獨(dú)立的。由上面的結(jié)果可以看出,對(duì)于非參數(shù)有限混合模型(2),至少需要變量個(gè)數(shù)錯(cuò)誤!未找到引用源。模型才可識(shí)別。而現(xiàn)實(shí)問題中很多涉及到k=1或者k=2,例如我們前面的Old Faithful間歇泉的噴發(fā)等待時(shí)間就是一個(gè)k=1的問題。為了使得單變量情況下能夠刻畫數(shù)據(jù)中的異質(zhì)性,建立的模型需要對(duì)混合元的分布加一 些適當(dāng)?shù)臈l件。Bordes等人(2006 )和Hunter等人(2007 )獨(dú)立的研究了下 面的單變量位置變化的半?yún)?shù)有限混合模型:G(町=AFx |i
11、j + (1 pj X e R 其中,錯(cuò)誤!未找到引用源。為混合比例,錯(cuò)誤!未找到引用源。為兩個(gè)位置參數(shù),錯(cuò)誤!未找到引用源。為一個(gè)未知的關(guān)于零對(duì)稱的分布函數(shù)。因?yàn)槟P停?)不僅涉及到未知參數(shù) 錯(cuò)誤!未找到引用源。,而且還有未知的分布函數(shù)F,因此其是一 個(gè)半?yún)?shù)模型。在F關(guān)于零對(duì)稱的假設(shè)下,Bordes等人(2006 )和Hunter等 人(2007 )采用不同的方法證明了模型(3)的可識(shí)別性。注意到,半?yún)?shù)有限混合模型(3)只能夠處理單變量的數(shù)據(jù)。而對(duì)于變量個(gè)數(shù) 錯(cuò)誤!未找到引用源。的情況,盡管可以轉(zhuǎn)化為模型(3 )一維一維來處理,但是 這樣做忽略了多變量之間的關(guān)聯(lián)信息, 勢(shì)必會(huì)影響到參數(shù)估
12、計(jì)的效率。因此本文 將研究下面多變量位置變化的半?yún)?shù)有限混合模型:Gfs) = AF(x |i J -1-(1 IjFfx ud X e Rk 其中,錯(cuò)誤!未找到引用源。為混合比例,錯(cuò)誤!未找到引用源。為兩個(gè)k維的位 置參數(shù),錯(cuò)誤!未找到引用源。為一個(gè)未知的關(guān)于原點(diǎn)對(duì)稱的多元分布函數(shù)。2. 可識(shí)別性在給出未知參數(shù)的估計(jì)之前,我們必須討論模型(4 )的可識(shí)別性問題。否則參 數(shù)估計(jì)是無意義的。首先注意到:若模型(4)是可識(shí)別的,則對(duì)于錯(cuò)誤!未找到 引用源。與錯(cuò)誤!未找到引用源。的置換,模型(4)所對(duì)應(yīng)的混合分布G(x)應(yīng)該是不變的。這個(gè)特殊的可識(shí)別性問題經(jīng)常稱為“標(biāo)簽轉(zhuǎn)換(label switch
13、i ng) ”問 題。在模型(4)中,此問題可以通過限制 錯(cuò)誤!未找到引用源。容易得到解決。F面為了表達(dá)方便,我們首先約定一些符號(hào)。記 錯(cuò)誤!未找到引用源。表示關(guān)于 原點(diǎn)對(duì)稱的所有分布函數(shù)的集合。對(duì)于兩個(gè) 錯(cuò)誤!未找到引用源。維向量錯(cuò)誤!未 找到引用源。和錯(cuò)誤!未找到引用源。,錯(cuò)誤!未找到引用源。意味著對(duì)于所有的 錯(cuò)誤!未找到引用源。,均有錯(cuò)誤!未找到引用源。;而錯(cuò)誤!未找到引用源。則意味 著至少存在一個(gè) 錯(cuò)誤!未找到引用源。,使得錯(cuò)誤!未找到引用源。記錯(cuò)誤!未找到引用源。為錯(cuò)誤!未找到引用源??臻g上所有滿足錯(cuò)誤!未找到引用源。的向量所構(gòu)成的集合。記 錯(cuò)誤!未找到引用源。則半?yún)?shù)有限混合模型(
14、4)的參數(shù)空間 為錯(cuò)誤!未找到引用源。對(duì)于模型(4),若存在另外一組參數(shù) 錯(cuò)誤!未找到引用源。也滿足它,即對(duì)任意 的錯(cuò)誤!未找到引用源。,有XFO-卩 J + (1-一瞼)二肝心一卩;)+ a 巧 FXx- hi)( S) 成立。那么如果模型(4)是可識(shí)別的,則必須有:錯(cuò)誤!未找到引用源。F面我們給出模型(4)可識(shí)別的主要結(jié)果:定理2.1.若存在錯(cuò)誤!未找到引用源。上的兩組參數(shù)向量 錯(cuò)誤!未找到引用源。和 錯(cuò)誤!未找到引用源。滿足方程(4),則有錯(cuò)誤!未找到引用源。證明:記隨機(jī)向量 錯(cuò)誤!未找到引用源。則由特征函數(shù)定義有:1 I 涉JxriFQr 如+ 1 I) f 5 仗陀)丿酒Jr*=骯L
15、鬥+CL-町云丿產(chǎn)=A+(1 A) coE(tpg)+ i伽in(円Q十(1 i) s= (j4 +畑G)其中:錯(cuò)誤!未找到引用源。表示關(guān)于原點(diǎn)對(duì)稱的隨機(jī)向量 錯(cuò)誤!未找到引用源。的特征函數(shù)。錯(cuò)誤!未找到引用源。,錯(cuò)誤!未找到引用源。由(5)式和特征函數(shù)的定義有:U +阿也(幼-(川+ i叫©式兩邊同時(shí)乘以錯(cuò)誤!未找到引用源。的共軛,得其中:錯(cuò)誤!未找到引用源。,錯(cuò)誤!未找到引用源。錯(cuò)誤!未找到引用源。(6)(7)因?yàn)殄e(cuò)誤!未找到引用源。和錯(cuò)誤!未找到引用源。均是關(guān)于原點(diǎn)對(duì)稱的隨機(jī)向量, 則相應(yīng)的特征函數(shù) 錯(cuò)誤!未找到引用源。和錯(cuò)誤!未找到引用源。均為實(shí)值函數(shù)。因此對(duì)于所有使得 錯(cuò)誤
16、!未找到引用源。的t,均有錯(cuò)誤!未找到引用源。也是一 個(gè)實(shí)值函數(shù)。由于在錯(cuò)誤!未找到引用源。的一個(gè)領(lǐng)域內(nèi)有錯(cuò)誤!未找到引用源。是不為0的,進(jìn)而,錯(cuò)誤!未找到引用源。的虛部在錯(cuò)誤!未找到引用源。的一個(gè) 領(lǐng)域內(nèi)是等于0的,即:W 血(4 - 口0 + Afl r sint(pi 一 A;) + (1 -仏)+ Cl-入)1 -巧血訃仏一礙) = 0(3)由正弦函數(shù)的解析性知其在整個(gè) 錯(cuò)誤!未找到引用源。上也是恒等于0的。假設(shè)錯(cuò)誤!未找到引用源。是關(guān)于錯(cuò)誤!未找到引用源。對(duì)稱的隨機(jī)向量,則丫可 以表示為錯(cuò)誤!未找到引用源。,其中錯(cuò)誤!未找到引用源。為關(guān)于原點(diǎn)對(duì)稱的隨 機(jī)向量。對(duì)于錯(cuò)誤!未找到引用源。
17、上的每個(gè)單位向量 錯(cuò)誤!未找到引用源。,錯(cuò) 誤!未找到引用源。記錯(cuò)誤!未找到引用源。,則錯(cuò)誤!未找到引用源。為一維隨機(jī) 變量,且其分布關(guān)于0對(duì)稱。由Bordes等人(2006)的定理2.1知,單變量的兩混合元的混合分布是可識(shí)別的。故選取一組線性無關(guān)的向量錯(cuò)誤!未找到引用 源。,由錯(cuò)誤!未找到引用源。,可知錯(cuò)誤!未找到引用源。將錯(cuò)誤!未找到引用源。帶回(8)式,則對(duì)所有的錯(cuò)誤!未找到引用源。,有Ml - A0 血0(應(yīng)-|ij= (1- 2l)卅血舊仏 一(9) 成立。因?yàn)殄e(cuò)誤!未找到引用源。非恒等于0,因此有錯(cuò)誤!未找到引用源。由錯(cuò)誤!未找到引用源。知錯(cuò)誤!未找到引用源。并且錯(cuò)誤!未找到引用源。從而到引用源。是一個(gè)離散的集合。對(duì)于連續(xù)函數(shù) 錯(cuò)誤!未找到引用源。和錯(cuò)誤!未找 到引用源。,在這個(gè)離散的集合之外具有是相等的, 從而有錯(cuò)誤
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度化妝品產(chǎn)品代言合同協(xié)議4篇
- 2025年度臨時(shí)餐飲場(chǎng)地租賃服務(wù)協(xié)議8篇
- 二零二五年度水電設(shè)施智能化改造合同3篇
- 二零二五版餐飲企業(yè)廚師招聘與人才輸送協(xié)議3篇
- 二零二四事業(yè)單位員工試用期人才引進(jìn)與培養(yǎng)合作協(xié)議3篇
- 2024石材荒料購(gòu)銷及石材產(chǎn)品安全檢測(cè)服務(wù)合同3篇
- 2024蔬菜種植與農(nóng)產(chǎn)品加工企業(yè)銷售合作協(xié)議范本3篇
- 2024進(jìn)出口食品貿(mào)易合同
- 二零二五版合同法擔(dān)保條款設(shè)計(jì)-企業(yè)風(fēng)險(xiǎn)控制策略3篇
- 二零二五年度在線教育平臺(tái)股權(quán)收購(gòu)合同3篇
- GB/T 37238-2018篡改(污損)文件鑒定技術(shù)規(guī)范
- 普通高中地理課程標(biāo)準(zhǔn)簡(jiǎn)介(湘教版)
- 河道治理工程監(jiān)理通知單、回復(fù)單范本
- 超分子化學(xué)簡(jiǎn)介課件
- 高二下學(xué)期英語閱讀提升練習(xí)(一)
- 易制爆化學(xué)品合法用途說明
- 【PPT】壓力性損傷預(yù)防敷料選擇和剪裁技巧
- 大氣喜慶迎新元旦晚會(huì)PPT背景
- DB13(J)∕T 242-2019 鋼絲網(wǎng)架復(fù)合保溫板應(yīng)用技術(shù)規(guī)程
- 心電圖中的pan-tompkins算法介紹
- 羊絨性能對(duì)織物起球的影響
評(píng)論
0/150
提交評(píng)論