第五章 統(tǒng)計方法_第1頁
第五章 統(tǒng)計方法_第2頁
第五章 統(tǒng)計方法_第3頁
第五章 統(tǒng)計方法_第4頁
第五章 統(tǒng)計方法_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五章統(tǒng)計方法第一頁,共二十頁,編輯于2023年,星期四式中分子是殘差和,分母是殘差的自由度。分析步驟:首先,計算模型所有輸入的S2,然后一一刪除這些輸入,若刪除一個有用的輸入,S2第二頁,共二十頁,編輯于2023年,星期四的估計值將會大幅度上升,若刪除一個多余的輸入,估計值不會有太大的變化。在上述步驟的迭代過程中,引入F比率和F統(tǒng)計檢驗,形式如下:若一個輸入被刪除后,F接近于1,新模型合適;若F值明顯大于1,說明新模型不合適。應(yīng)用迭代的方差分析方法,能識別哪一個輸入和輸出的相關(guān)的,哪些是不相關(guān)的。第三頁,共二十頁,編輯于2023年,星期四下表是有3個輸入的數(shù)據(jù)集的方差分析情況輸入集Si2F1x1,x2,x33.562x1,x23.98F21=1.123x1,x36.22F31=1.754x2,x38.34F41=2.345X19.02F52=2.276X29.89F62=2.48第四頁,共二十頁,編輯于2023年,星期四上述分析結(jié)果,只有刪除x3,F(xiàn)沒有明顯變化,其他情況F比值顯著增加,因此可以刪除,不影響模型的性能。方差的多元分析是方差分析的一個推廣,解決了輸出不是單個數(shù)值而是一個向量的數(shù)據(jù)分析問題。方差的多元分析基于這樣一個假設(shè),輸出變量間相互獨立,采用一個多元線性模型來建模:第五頁,共二十頁,編輯于2023年,星期四殘差矩陣R為:古典的多元分析也包含基本的分析方法,如一組樣本向量如何轉(zhuǎn)換為一組新的維數(shù)更少的樣本向量。數(shù)據(jù)歸約和數(shù)據(jù)轉(zhuǎn)換中用到。第六頁,共二十頁,編輯于2023年,星期四5.6對數(shù)回歸線性回歸用于對連續(xù)值函數(shù)進行建模。廣義回歸模型提供了將線性回歸用于分類響應(yīng)變量建模的理論基礎(chǔ),它最常見的形式是對數(shù)回歸。對數(shù)回歸將某些事件發(fā)生的概率建模為預(yù)測變量集的線性函數(shù)。它不是預(yù)測因變量的值,而是估計因變量取給定值的概率p。例如,對數(shù)回歸不預(yù)測顧客的信用等級是好是壞,而是試著估計顧客有好的信用等級的概率。第七頁,共二十頁,編輯于2023年,星期四對數(shù)回歸僅適用于輸出變量是二元分類變量的情況。但輸入變量也可以是定量的,它支持一般的輸入數(shù)據(jù)集。假設(shè)輸出Y有兩個分類值編碼為0和1,由數(shù)據(jù)集能計算出所給輸入樣本所產(chǎn)生的輸出值取0和取1的概率。對數(shù)回歸的模型表示為:輸出用對數(shù)據(jù)是為了結(jié)果輸出在[0,1]區(qū)間。第八頁,共二十頁,編輯于2023年,星期四假設(shè)有一訓(xùn)練數(shù)據(jù)集,用線性回歸建成模為:并假設(shè)給出一新的待分類的樣本,其輸入值{x1,x2,x3}={1.,0,1},用上面模型可估計出輸出值為1的概率。根據(jù)概率p的最終結(jié)果,可推出輸出值Y=1的可能性比分類值Y=0小。和挖掘的其他方法對比較。第九頁,共二十頁,編輯于2023年,星期四5.7對數(shù)-線性模型對數(shù)-線性建模是一種分類(或數(shù)量型)變量間關(guān)系的方法。對數(shù)-線性模型近似于離散的、多元的概率分布。它是一種假設(shè)輸出Yi具有泊松分布的的廣義線性模型,假設(shè)其期望值μj的自然對數(shù)是輸入的線性函數(shù):第十頁,共二十頁,編輯于2023年,星期四由于所感興趣的變量是分類變量,用表示數(shù)據(jù)總體分布的頻率表來表示它們。對數(shù)-線性建模的主要目的是識別分類變量間的關(guān)聯(lián)。因此,此類分類問題轉(zhuǎn)換成了求模型中所有β值為0的問題。如果對數(shù)-線性模式中變量間有相互作用,表示這些變量不是獨立的而是相關(guān)的,相應(yīng)的β值不為0。由于所研究的問題是變量間的關(guān)聯(lián),因此沒有必要將分類變量作為分析的輸出。如果需要輸出,可采用對數(shù)回歸來分析。此處僅解釋一個定義數(shù)據(jù)集時沒有輸出變量的對數(shù)-對性模型。第十一頁,共二十頁,編輯于2023年,星期四一致性分析是分析關(guān)聯(lián)矩陣(也稱列聯(lián)表)中的分類數(shù)據(jù)。其分析結(jié)果回答了“所分析的變量間是否有關(guān)聯(lián)”這個問題。例如,下表是一個2×2列聯(lián)表,有關(guān)男性和女性對墮胎態(tài)度的調(diào)查結(jié)果,樣本數(shù)=1100,兩個分類變量-性別(男性和女性)和贊同(是和否),每一種情況都有累積結(jié)果。贊同是否總計性別女309191500男319281600總計6284721100第十二頁,共二十頁,編輯于2023年,星期四對數(shù)-線性模型用于解決分類變量間的關(guān)聯(lián),分析步驟是它基于根據(jù)兩個列聯(lián)表的比較,定義變量間關(guān)聯(lián)的算法:

1.第一步,把所給的列聯(lián)表轉(zhuǎn)換成一個具有期望值的表,并假定這些變量間是在獨立的情況下來計算這些值。

2.第二步,用平均距離指標和卡方檢驗作為評價兩個分類變量關(guān)聯(lián)的標準,對這兩個矩陣進行比較。第十三頁,共二十頁,編輯于2023年,星期四算法思路:用Xm×n來表示這個列聯(lián)表。其行和為:其列和為:行和的總和為:列和的總和為:第十四頁,共二十頁,編輯于2023年,星期四假定各行和各列變量間沒有關(guān)聯(lián)。用這些和可以計算期望值的列聯(lián)表。期望值計算如下:由上式可得到期望值的新表,兩個表具有相同的維數(shù)。上例計算結(jié)果如下:j=1,…,m,i=1,…,n贊同是否總計性別女285.5214.5500男342.5257.5600總計6284721100第十五頁,共二十頁,編輯于2023年,星期四到此已完成算法的第一步,下一步是關(guān)聯(lián)卡方檢驗的應(yīng)用。初始假設(shè)H0是假設(shè)兩個變量是不相關(guān)的,可以用皮氏卡方公式來檢驗:χ2的值越大,拒絕假設(shè)H0的可能性越大。對于上例有如下檢驗結(jié)果:第十六頁,共二十頁,編輯于2023年,星期四按照m×n維表自由度的計算公式為:

d.f.(degreesofreedom)=(m-1)(n-1)=(2-1)(2-1)=1一般,在置信水平α下若χ2≥T(α),那么拒絕假設(shè)H0。其中T(α)是χ2分布表的閾值,本例中,選擇α=0.05,可得:作簡單的比較結(jié)論是拒絕假設(shè)H0,則男性和女性對墮胎的態(tài)度有很大的差異。第十七頁,共二十頁,編輯于2023年,星期四5.8線性判別分析線性判別分析(LDA)是解決因變量是類型的(名義類型或順序類型),自變量是數(shù)值型的分類問題,LDA的目標是構(gòu)造一個判別函數(shù),能夠通過對不同的輸出類中的數(shù)據(jù)進行計算產(chǎn)生不同的分數(shù)。線性判別函數(shù)的形式如下:式中x1,x2,…,xk是自變量,z是判別得分,w1,w2,…,wk是加權(quán)。第十八頁,共二十頁,編輯于2023年,星期四判別函數(shù)z的構(gòu)造是求出一組權(quán)值wi,這組權(quán)值能使預(yù)分類的樣本集的判別得分的類間方差和類內(nèi)方差的比率達到最大。構(gòu)造出判別函數(shù)z后,就可以用它來預(yù)測一個新的未被分類的樣本的類。分數(shù)線(cuttingscores)是判斷單個判別得分的標準。設(shè)za和zb分別是類A和類B中預(yù)分類的樣本的平均判別得分。如果兩類樣本一樣大且服從同一方差分布,那么分數(shù)線Zcut-ab的最佳選擇是:

zcut-ab=(za+zb)/2第十九頁,共二十頁,編輯于2023年,星期四當z>zcut-ab時,新樣本為A類;當z<zcut-ab時,新樣本為B類;當z=zcut

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論