概率密度函數(shù)的估計..ppt_第1頁
概率密度函數(shù)的估計..ppt_第2頁
概率密度函數(shù)的估計..ppt_第3頁
概率密度函數(shù)的估計..ppt_第4頁
概率密度函數(shù)的估計..ppt_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章概率密度函數(shù)的估計 概率密度估計的基礎(chǔ)知識參數(shù)估計理論極大似然估計 MLE 貝葉斯估計 或稱最大后驗估計 貝葉斯學(xué)習(xí)非參數(shù)估計理論密度估計Parzen窗估計K近鄰估計 KNE 4 1概率密度估計的基礎(chǔ)知識貝葉斯分類器中只要知道先驗概率 條件概率或后驗概概率P i P x i P i x 就可以設(shè)計分類器了 現(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計P i P x i P i x 一 參數(shù)估計與非參數(shù)估計參數(shù)估計 先假定研究的問題具有某種數(shù)學(xué)模型 如正態(tài)分布 二項分布 再用已知類別的學(xué)習(xí)樣本估計里面的參數(shù) 非參數(shù)估計 不假定數(shù)學(xué)模型 直接用已知類別的學(xué)習(xí)樣本的先驗知識直接估計數(shù)學(xué)模型 二 監(jiān)督參數(shù)估計與非監(jiān)督參數(shù)估計監(jiān)督參數(shù)估計 樣本所屬的類別及類條件總體概率概率密度函數(shù)的形式已知 而表征概率密度函數(shù)的某些參數(shù)是未知的 目的在于 由已知類別的樣本集對總體分布的某些參數(shù)進(jìn)行統(tǒng)計推斷 此種情況下的估計問題稱為監(jiān)督參數(shù)估計 非監(jiān)督參數(shù)估計 已知總體概率密度函數(shù)形式但未知樣本所屬類別 要求推斷出概率密度函數(shù)的某些參數(shù) 稱這種推斷方法為非監(jiān)督情況下的參數(shù)估計 注 監(jiān)督與非監(jiān)督是針對樣本所屬類別是已知還是未知而言的 三 參數(shù)估計的基本概念1 統(tǒng)計量 樣本中包含著總體的信息 總希望通過樣本集把有關(guān)信息抽取出來 也就是說 針對不同要求構(gòu)造出樣本的某種函數(shù) 該函數(shù)稱為統(tǒng)計量 2 參數(shù)空間 在參數(shù)估計中 總假設(shè)總體概率密度函數(shù)的形式已知 而未知的僅是分布中的參數(shù) 將未知參數(shù)記為 于是將總體分布未知參數(shù)的全部可容許值組成的集合稱為參數(shù)空間 記為 3 點估計 估計量和估計值 點估計問題就是構(gòu)造一個統(tǒng)計量作為參數(shù)的估計 在統(tǒng)計學(xué)中稱為的估計量 若是屬于類別的幾個樣本觀察值 代入統(tǒng)計量d就得到對于第i類的的具體數(shù)值 該數(shù)值就稱為的估計值 4 區(qū)間估計 除點估計外 還有另一類估計問題 要求用區(qū)間作為可能取值范圍得一種估計 此區(qū)間稱為置信區(qū)間 該類估計問題稱為區(qū)間估計 5 參數(shù)估計方法 參數(shù)估計是統(tǒng)計學(xué)的經(jīng)典問題 解決方法很多 在此只考慮兩種常用方法 一種是最大似然估計方法 另一種是貝葉斯估計方法 1 最大似然估計 把參數(shù)看作是確定而未知的 最好的估計值是在獲得實際觀察樣本的最大的條件下得到的 2 貝葉斯估計 把未知的參數(shù)當(dāng)作具有某種分布的隨機變量 樣本的觀察結(jié)果使先驗分布轉(zhuǎn)化為后驗分布 再根據(jù)后驗分布修正原先對參數(shù)的估計 6 參數(shù)估計的評價 評價一個估計的 好壞 不能按一次抽樣結(jié)果得到的估計值與參數(shù)真值的偏差大小來確定 而必須從平均和方差的角度出發(fā)進(jìn)行分析 即關(guān)于估計量性質(zhì)的定義 4 2參數(shù)估計理論一 極大似然估計假定 待估參數(shù) 是確定的未知量 按類別把樣本分成M類X1 X2 X3 XM其中第i類的樣本共N個Xi X1 X2 XN T并且是獨立從總體中抽取的 Xi中的樣本不包含 i j 的信息 所以可以對每一類樣本獨立進(jìn)行處理 第i類的待估參數(shù)根據(jù)以上四條假定 我們下邊就可以只利用第i類學(xué)習(xí)樣本來估計第i類的概率密度 其它類的概率密度由其它類的學(xué)習(xí)樣本來估計 1 一般原則 第i類樣本的類條件概率密度 P Xi i P Xi i i P Xi i 原屬于i類的學(xué)習(xí)樣本為Xi X1 X2 XN Ti 1 2 M求 i的極大似然估計就是把P Xi i 看成 i的函數(shù) 求出使它極大時的 i值 學(xué)習(xí)樣本獨立從總體樣本集中抽取的 N個學(xué)習(xí)樣本出現(xiàn)概率的乘積取對數(shù) 對 i求導(dǎo) 并令它為0 有時上式是多解的 上圖有5個解 只有一個解最大即 P Xi i 2 多維正態(tài)分布情況 已知 未知 估計 服從正態(tài)分布所以在正態(tài)分布時 代入上式得 所以 有 這說明未知均值的極大似然估計正好是訓(xùn)練樣本的算術(shù)平均 均未知A 一維情況 n 1對于每個學(xué)習(xí)樣本只有一個特征的簡單情況 n 1 由上式得即學(xué)習(xí)樣本的算術(shù)平均樣本方差 討論 1 正態(tài)總體均值的極大似然估計即為學(xué)習(xí)樣本的算術(shù)平均2 正態(tài)總體方差的極大似然估計與樣本的方差不同 當(dāng)N較大的時候 二者的差別不大 B 多維情況 n個特征 推導(dǎo)過程 作為練習(xí) 估計值 結(jié)論 的估計即為學(xué)習(xí)樣本的算術(shù)平均 估計的協(xié)方差矩陣是矩陣的算術(shù)平均 n n陣列 n n個值 二 貝葉斯估計極大似然估計是把待估的參數(shù)看作固定的未知量 而貝葉斯估計則是把待估的參數(shù)作為具有某種先驗分布的隨機變量 通過對第i類學(xué)習(xí)樣本Xi的觀察 通過貝葉斯準(zhǔn)則將概率密度分布P Xi 轉(zhuǎn)化為后驗概率P Xi 進(jìn)而求使得后驗概率分布最大的參數(shù)估計 也稱最大后驗估計 估計步驟 確定 的先驗分布P 待估參數(shù)為隨機變量 用第i類樣本xi x1 x2 xN T求出樣本的聯(lián)合概率密度分布P xi 它是 的函數(shù) 利用貝葉斯公式 求 的后驗概率 下面以正態(tài)分布的均值估計為例說明貝葉斯估計的過程 一維正態(tài)分布 已知 2 估計 假設(shè)概率密度服從正態(tài)分布P X N 2 P N 0 02 第i類學(xué)習(xí)樣本xi x1 x2 xN T i 1 2 M第i類概率密度P x i xi P x xi 所以由貝葉斯公式 則可得后驗概率 因為N個樣本是獨立抽取的 所以上式可以寫成其中為比例因子 只與x有關(guān) 與 無關(guān) P Xk N 2 P u N 0 02 其中a a 包含了所有與 無關(guān)的因子 P Xi 是u的二次函數(shù)的指數(shù)函數(shù) P Xi 仍然是一個正態(tài)函數(shù) P Xi N N N2 另外后驗概率可以直接寫成正態(tài)形式 比較以上兩個式子 對應(yīng)的系數(shù)應(yīng)該相等 解以上兩式得將 N 代入P Xi 可以得到后驗概率 再用公式 對 的估計為若令P N 0 02 N 0 1 即為標(biāo)準(zhǔn)正態(tài)分布 且總體分布的方差也為1 則此時估計與極大似然估計相似 只是分母不同 三 貝葉斯學(xué)習(xí)1 貝葉斯學(xué)習(xí)的概念 通過已有的概率分布和觀測數(shù)據(jù)推理求出 的后驗概率之后 直接去推導(dǎo)總體分布 形式已知 即當(dāng)觀察一個樣本時 N 1就會有一個 的估計值的修正值 當(dāng)觀察N 4時 對 進(jìn)行修正 向真正的 靠近 當(dāng)觀察N 9時 對 進(jìn)行修正 向真正的 靠的更近 當(dāng)觀察N個樣本后 N就反映了觀察到N個樣本后對 的最好推測 而 N2反映了這種推測的不確定性 N N2 N2隨觀察樣本增加而單調(diào)減小 且當(dāng)N N2 0 當(dāng)N P xi 越來越尖峰突起 于是N P xi 函數(shù) 即收斂于一個以真實參數(shù)為中心的函數(shù) 這個過程成為貝葉斯學(xué)習(xí) 2 類概率密度的估計在求出u的后驗概率P xi 后 可以直接利用式推斷類條件概率密度 即P x xi P x i xi 一維正態(tài) 已知 2 未知 的后驗概率為 結(jié)論 把第i類的先驗概率P i 與第i類概率密度P x xi 相乘可以得到第i類的后驗概率P i x 根據(jù)后驗概率可以分類 對于正態(tài)分布P x xi 用樣本估計出來的 N代替原來的 用代替原來的方差即可 把估計值 N作為 的實際值 那么使方差由原來的變?yōu)?使方差增大 也就是說 用 的估計值 N代替真實值 將引起不確定性增加 多維正態(tài) 已知 估計 設(shè)P x N P N 0 0 根據(jù)Bayes公式 仿上面步驟可以得到 N N有以下關(guān)系 其中a與 無關(guān) 這就是在多維情況下 對 的估計 4 3非參數(shù)估計參數(shù)估計要求密度函數(shù)的形式已知 但這種假定有時并不成立 常見的一些函數(shù)形式很難擬合實際的概率密度 經(jīng)典的密度函數(shù)都是單峰的 而在許多實際情況中卻是多峰的 因此用非參數(shù)估計 非參數(shù)估計 直接用已知類別樣本去估計總體密度分布 方法有 用樣本直接去估計類概率密度p x i 以此來設(shè)計分類器 如窗口估計 用學(xué)習(xí)樣本直接估計后驗概率p i x 作為分類準(zhǔn)則來設(shè)計分類器 如KN近鄰法 1 密度估計原理 一個隨機變量X落在區(qū)域R的概率為PP X 為P X 在R內(nèi)的變化值 P X 就是要求的總體概率密度 假設(shè)有N個樣本X X1 X2 XN T都是按照P X 從總體中獨立抽取的 若N個樣本中有k個落入在R內(nèi)的概率符合二項分布其中 P是樣本X落入R內(nèi)的概率 Pk是k個樣本落入R內(nèi)的概率數(shù)學(xué)期望 E k k NP 對概率P的估計 是P的一個比較好的估計設(shè)P x 在R內(nèi)連續(xù)變化 當(dāng)R逐漸減小的時候 小到使P x 在其上幾乎沒有變化時 則其中是R包圍的體積 條件密度的估計 V足夠小 討論 當(dāng)V固定的時候N增加 k也增加 當(dāng)時只反映了P x 的空間平均估計而反映不出空間的變化 N固定 體積變小當(dāng)時 k 0時時所以起伏比較大 噪聲比較大 需要對V進(jìn)行改進(jìn) 對體積V進(jìn)行改進(jìn) 為了估計X點的密度 我們構(gòu)造一串包括X的區(qū)域序列 R1 R2 RN 對R1采用一個樣本進(jìn)行估計 對R2采用二個樣本進(jìn)行估計 設(shè)VN是RN的體積 KN是N個樣本落入VN的樣本數(shù) 則 密度的第N次估計 其中 VN是RN的體積 KN是N個樣本落入VN的樣本數(shù) PN x 是P x 的第N次估計 若PN x 收斂于P x 應(yīng)滿足三個條件 當(dāng)N 時 VN N VN 0這時雖然樣本數(shù)多 但由于VN 落入VN內(nèi)的樣本KN也減小 所以空間變化才反映出來 N KN N與KN同向變化 KN的變化遠(yuǎn)小于N的變化 因此盡管在R內(nèi)落入了很多的樣本 但同總數(shù)N比較 仍然是很小的一部分 如何選擇VN滿足以上條件 使體積VN以N的某個函數(shù)減小 如 h為常數(shù) 窗口法 使KN作為N的某個函數(shù) 例VN的選擇使RN正好包含KN個近鄰V1 K1 V2 K2 VR KR KN近鄰法 2 Parzen窗口估計假設(shè)RN為一個d維的超立方體 hN為超立方體的長度 超立方體體積為 d 1 窗口為一線段d 2 窗口為一平面d 3 窗口為一立方體d 3 窗口為一超立方體窗口的選擇 方窗函數(shù) 指數(shù)窗函數(shù) 正態(tài)窗函數(shù) u u u hN 正態(tài)窗函數(shù) u 是以原點x為中心的超立方體 在xi落入方窗時 則有在VN內(nèi)為1不在VN內(nèi)為0落入VN的樣本數(shù)為所有為1者之和 密度估計 討論 每個樣本對估計所起的作用依賴于它到x的距離 即 x xi hN 2時 xi在VN內(nèi)為1 否則為0 稱為的窗函數(shù) 取0 1兩種值 但有時可以取0 0 1 0 2 多種數(shù)值 例如隨xi離x接近的程度 取值由0 0 1 0 2 到1 要求估計的PN x 應(yīng)滿足 為滿足這兩個條件 要求窗函數(shù)滿足 窗長度hN對PN x 的影響若hN太大 PN x 是P x 的一個平坦 分辨率低的估計 有平均誤差若hN太小 PN x 是P x 的一個不穩(wěn)定的起伏大的估計 有噪聲誤差為了使這些誤差不嚴(yán)重 hN應(yīng)很好選擇 例1 對于一個二類 1 2 識別問題 隨機抽取 1類的6個樣本X x1 x2 x6 1 x1 x2 x6 x1 3 2 x2 3 6 x3 3 x4 6 x5 2 5 x6 1 1 估計P x 1 即PN x 解 選正態(tài)窗函數(shù) 0 1 2 3 4 5 6 x6 x5 x3 x1 x2 x4 x x是一維的上式用圖形表示是6個分別以3 2 3 6 3 6 2 5 1 1為中心的丘形曲線 正態(tài)曲線 而PN x 則是這些曲線之和 由圖看出 每個樣本對估計的貢獻(xiàn)與樣本間的距離有關(guān) 樣本越多 PN x 越準(zhǔn)確 例2 設(shè)待估計的P x 是個均值為0 方差為1的正態(tài)密度函數(shù) 若隨機地抽取X樣本中的1個 16個 256個作為學(xué)習(xí)樣本xi 試用窗口法估計PN x 解 設(shè)窗口函數(shù)為正態(tài)的 1 0hN 窗長度 N為樣本數(shù) h1為選定可調(diào)節(jié)的參數(shù) 討論 由圖看出 PN x 隨N h1的變化情況 當(dāng)N 1時 PN x 是一個以第一個樣本為中心的正態(tài)形狀的小丘 與窗函數(shù)差不多 當(dāng)N 16及N 256時h1 0 25曲線起伏很大 噪聲大h1 1起伏減小h1 4曲線平坦 平均誤差 當(dāng)N 時 PN x 收斂于一平滑的正態(tài)曲線 估計曲線較好 例3 待估的密度函數(shù)為兩個均勻分布密度的混合密度解 此為多峰情況的估計設(shè)窗函數(shù)為正態(tài) 2 5 x 2 0 x 2 其它 當(dāng)N 1 16 256 時的PN x 估計如圖所示 當(dāng)N 1時 PN x 實際是窗函數(shù) 當(dāng)N 16及N 256時h1 0 25曲線起伏大 h1 1曲線起伏減小h1 4曲線平坦 當(dāng)N 時 曲線較好 結(jié)論 由上例知窗口法的優(yōu)點是應(yīng)用的普遍性 對規(guī)則分布 非規(guī)則分布 單鋒或多峰分布都可用此法進(jìn)行密度估計 要求樣本足夠多 才能有較好的估計 因此使計算量 存儲量增大 3 KN近鄰估計 在窗口法中存在一個問題是對hN的選擇問題 若hN選太小 則大部分體積將是空的 即不包含樣本 從而使PN x 估計不穩(wěn)定 若hN選太大 則PN x 估計較平坦 反映不出總體分布的變化 而KN近鄰法的思想是以x為中心建立空包 使V 直到捕捉到KN個樣本為止 因此稱其為KN 近鄰估計 V的改進(jìn)體現(xiàn)為 樣本密度大 VN 樣本密度小 VN P x 的估計為 使PN x 收斂于P x 的充分必要條件 N與KN同相變化 KN的變化遠(yuǎn)小于N的變化 V1為N 1時的VN值 KN近鄰估計對KN和VN都作了限制KN近鄰法作后驗概率的估計由KN近鄰估計知N個已知類別樣本落入VN內(nèi)為KN個樣本的概率密度估計為 N個樣本落入VN內(nèi)有KN個 KN個樣本內(nèi)有Ki個樣本屬于 i類則聯(lián)合概率密度 根據(jù)Bayes公式可求出后驗概率 類別為 i的后驗概率就是落在VN內(nèi)屬于 i的樣本ki與VN內(nèi)總樣本數(shù)KN的比值 K近鄰分類準(zhǔn)則 對于待分樣本x 找出它的k個近鄰 檢查它的類別 把x歸于樣本最多的那個類別 K近鄰分類的錯誤率隨K Pk 最低的錯誤率為Bayes分類 P PK

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論