Machine_Learning第5章課后習題_第1頁
Machine_Learning第5章課后習題_第2頁
Machine_Learning第5章課后習題_第3頁
Machine_Learning第5章課后習題_第4頁
Machine_Learning第5章課后習題_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、機器學習第五章課后習題1、在測試一假設h時,發(fā)現(xiàn)在一包含n=1000個隨機抽取樣例的樣本s上,它出現(xiàn)r=300個錯誤。Errors(h)的標準差是什么?將此結果與第5.3.4節(jié)末尾的例子中標準差相比會得出什么結論?由題意知errors(h)=r/n=300/1000=0.3,由于r是二項分布,它的方差為np(l-p),然而p未知,用r/p代替p得出r的估計方差為1000*0.3*(1-0.3)=210,相應的標準差為sqrt(210)=14.5,這表示errors(h)=r/n中的標準差為14.5/1000=0.0145,由此得出以下結論:一般來說,若在n個隨機選取的樣本中有r個錯誤,erro

2、rs(h)的標準差為sqrt(p(1-p)/n),它約等于用r/n=errors(h)來代替p.2、如果沒有更多的信息對真實錯誤率的評估也就是樣本錯誤率,則真實錯誤率的標準差為:17/100=0.17error(h)(1-error(h)error(h)+1.96ss-由95%的置信區(qū)間公式:Sn帶入數(shù)字得95%的置信區(qū)間為:0.17土(1.96x0.04).3如果假設h在n=65的獨立抽取樣本上出現(xiàn)r=10個錯誤,真實的錯誤率的90%的置信區(qū)間(雙側的)是多少?95%單側置信區(qū)間(即一個上界U,使得有95%置信區(qū)間errorD(h)U)是多少?90%單側區(qū)間是多少?解:樣本數(shù)為:n=65,假

3、設h在n個樣本上所犯的錯誤為r=10,所以樣本錯誤率為errors(h)TOC o 1-5 h zr102oh6513是:errorD(h)的N%的置信區(qū)間為:errorjh)土zNerror(h)(1-error(h)SSn當N=90時,查表5-1得:zN=1.64,可得真實錯誤率的90%的置信區(qū)間為:11土Z=0.160.07395%的單側置信區(qū)間為errorD(h)WU,其中U=+心沁0.2332290%的單側置信區(qū)間為:e叫(h)三U,其中U=右+1.2彳呼.0.211(Zn為置信度為80%的置信度時的值1.28)。4.要測試一假設h,其errorD(h)已知在0.2到0.6的范圍內,

4、要保證95%雙側置信區(qū)間的寬度小于0.1,最小應搜集的樣例數(shù)是多少?解:若使95%雙側置信區(qū)間的寬度小于0.1,貝I:2zJrOrs(h)(1-errS(h)0.1(其error(h)(1error(h)SSn中zN=1.96),島0-02551errors(h)(1旳化(h)SS=沁3010.0006510.0006510.000651上式中0.2errors(h)0.6因此最少應搜集的樣例數(shù)為3015.5對隨即變量為d,方差為Q2Udd=error(h)error(h),為待估參數(shù),服從N(0,1)分布,,均值error(h)1(11error(h2)2error(h)(1error(h)

5、S1S1豐S_2S_2HH122nn12其中:erorD(h1)-errorD(h2)單側置信區(qū)間下限:d-zNQ,+8)同理可求單側置信區(qū)間上限:(-8,d+ZnQ,把Q代入即可.5.6首先,先回顧一下抽樣樣本的數(shù)字特征,設X,X,X為總體X的一個樣本,則:12n樣本均值X=丄nii=1樣本方差S2=工(XX)2n1ii=13.樣本標準差S=.刀(X-X)2n1ii=1樣本(k階)原點矩A=1工Xk,k=1,2,knii=1樣本(k階)中心矩B=丄工(X-X)k,k=2,3,knii=1對于式5.14,Eerror(L(S)-errorDADBSuDS是從整個樣本空間上抽取的,因此樣本方差S

6、2=1蘭(SS)2n1i樣本均值nii=1式5.14的近似的N%的置信區(qū)間為:S+1S=S+工(S-S)2N,n-1i=1而對于式5.17error(L(S)-error(L(S)DADBSuDO則它的近似的其中,s代表一個大小為(K-1)/K)*1DO1且從D0中均勻抽取的樣本。N%的置信區(qū)間為:S+1S=S+:-N,n-1-一工(S-S)2i=1所以不能式5.14由于抽取的樣本方式不同,因此樣本分量之間的獨立程度也有很大差別,與式5.17的近似的N%的置信區(qū)間的估計方法混為一談。*期題2.5(b):打;卍例譙泊假設形式為,1-(該費訕屮例保證毘終收斂的假設在第-個屬性優(yōu)I偽male)mal

7、cbrcwnshortPortuguase?.maleblackshortUS.maleblm匚kshortPortLigues&,+(諫査詢示例惺證命終收敘的假設在第五個屬性值上為?)maleblackshortPortuguese沖fenaleblacktalllnclan十(該費訕屮例保證毘終收斂的假設在第六個屬性優(yōu)I偽?)malcblackshortrrtuguese,:VS3,VS.VS&1VSel,VS7lVSo,個非空集(S見對矗屈用的屈任值金集時兮成?S。好于任何一個屬性,如處在務個不同的材忤值An.,Ak的示例均為止例,則收斂到的假設在該屈忤們處IRAAw.vA皮Z,如果存在

8、某一個屬性位W為A)為匸例,但是月外個論忡值(假汝為B)為反例,則收席的假設在該屬性處的取值就只能址A。我布仍然假設耍收斂到的假設為v,塔查詢的方法就是対于每一個屬性A,保持貫他屈性的屬性值Q(b)中的值-樣,依次將屬性A中將所仃與(b)示例中該屬性的值不同的所著的屬性值均査詢次.與最終收斂到的假仗致的判為正例,不一菠的判為反例。如果按照這不方汶,、A資詢1(1)+1(5)+2(2)+2(3)+2(6)+2(7)+6(4)+6(8)=22次,其中括號內的數(shù)字表示要風性的序號,括號外的數(shù)字表示該加性需耍竹詢的次數(shù):比如6(4;良不第四個加低需耍丹詢6次,因為該屬性-決仃7個屬性值,Lj(b)小示例不-梓的屬性值一共冇6個,每個都要査詢一次,故需要査詢6次。因此査詢序列為:femaleblackshortPortuguese,vfemaleblondetallIndianmalebrownshortPo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論