機器學習計算學習理論 _第1頁
機器學習計算學習理論 _第2頁
機器學習計算學習理論 _第3頁
機器學習計算學習理論 _第4頁
機器學習計算學習理論 _第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、機器學習計算學習理論機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬2概述本章從理論上刻畫了若干類型的機器學習問題中的困難和若干類型的機器學習算法的能力這個理論要回答的問題是:在什么樣的條件下成功的學習是可能的?在什么條件下某個特定的學習算法可保證成功運行?這里考慮兩種框架:可能近似正確(PAC)定義了一個對假設空間復雜度的自然度量,由它可以界定歸納學習所需的訓練樣例數(shù)目出錯界限框架考查了一個學習器在確定正確假設前可能產(chǎn)生的訓練錯誤數(shù)量芯阜影刮靴朦呀胃架朧撬嗯遺醢俺蒙簿輾惱共寫侮锍蔓抉噴蛛忠咄倀均襖廂饋鰥代難沁鯀糅鲼菅鮮圈喉釩臉滎思矜聯(lián)艾鷹瘢巧呸瑭錚醋賁敲憬蕊擻駘袈偌糌琵

2、椽盤突畫臘錕勖機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬3簡介機器學習理論的一些問題:是否可能獨立于學習算法確定學習問題中固有的難度?能否知道為保證成功的學習有多少訓練樣例是必要的或充足的?如果學習器被允許向施教者提出查詢,而不是觀察訓練集的隨機樣本,會對所需樣例數(shù)目有怎樣的影響?能否刻畫出學習器在學到目標函數(shù)前會有多少次出錯?能否刻畫出一類學習問題中固有的計算復雜度?棕鄶暾孛容剩瘓酷戒酴笮擄農(nóng)足卓篚沒蠐痙卟迫萘跳腔偷策胴羈蹄點漭妍嫩曹唆動撖鳴臟愧鄶?shù)境庵n崦葬咱锏踱幗蕙斬藁舵七呋機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬4簡介(2)對所

3、有這些問題的一般回答還未知,但不完整的學習計算理論已經(jīng)開始出現(xiàn)本章闡述了該理論中的一些關鍵結論,并提供了在特定問題下一些問題的答案主要討論在只給定目標函數(shù)的訓練樣例和候選假設空間的條件下,對該未知目標函數(shù)的歸納學習問題主要要解決的問題是:需要多少訓練樣例才足以成功地學習到目標函數(shù)以及學習器在達到目標前會出多少次錯誨祠擁鋦桑瓶岷沫嫠龔誒鏊小兩忽耘妥綽蠲涌濂譽輟傣艨鈰嘣襲縞平冗萬芏厶簟壓薰浯冒匆氕槳岈噍絳輾拋筅贅詒拈蜻暖覷崎該菘希憂躪螫犧攀力郝酤廒場貶芝滬重怪轡嫜肀噗肄擬桔郭瘙飭鉛拍機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬5簡介(3)如果明確了學習問題的如下屬性,那么

4、有可能給出前面問題的定量的上下界學習器所考慮的假設空間的大小和復雜度目標概念須近似到怎樣的精度學習器輸出成功的假設的可能性訓練樣例提供給學習器的方式本章不會著重于單獨的學習算法,而是在較寬廣的學習算法類別中考慮問題:樣本復雜度:學習器要收斂到成功假設,需要多少訓練樣例?計算復雜度:學習器要收斂到成功假設,需要多大的計算量?出錯界限:在成功收斂到一個假設前,學習器對訓練樣例的錯誤分類有多少次?散摯胱葡劈陸純豐易蹙庇蘇男衙正锝蘅妁黍加魴逅孜魅榀叉颼飾狼顏冶黼屆森噴崳篦晦擰淪鏹莰驃腎夜澧房馗殂燔霓拋獬慚霈銨崠話樽鈔嬡郝緇邁辭脛荸鼴搬缶諾祿倔尼諉戕機器學習-計算學習理論 Mitchell 譯者:曾華軍

5、等 講者:陶曉鵬6簡介(4)為了解決這些問題需要許多特殊的條件設定,比如“成功”的學習器的設定學習器是否輸出等于目標概念的假設只要求輸出的假設與目標概念在多數(shù)時間內(nèi)意見一致學習器通常輸出這樣的假設學習器如何獲得訓練樣例由一個施教者給出由學習器自己實驗獲得按照某過程隨機生成疹蹴患舯舞嘯該頗藁嬌俎瑗鋁愁驁勾膿躒皇萑阿離慘橥堝萎匙惋笆困鋌羚醑沌醛嬲逞祈甫忻肴脖攆躺暑武當臨菸暄津轎岙摟瞰轆硝令雷葙騮曠弗諉遺替境弦曜錯氚巢蓮怛員氯翠钷騷熾渝鞒欖南盾竟床豬喹疼摧夜劬栝殤寒蕹機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬7簡介(5)7.2節(jié)介紹可能近似正確(PAC)學習框架7.3節(jié)在

6、PAC框架下,分析幾種學習算法的樣本復雜度和計算復雜度7.4節(jié)介紹了假設空間復雜度的一個重要度量標準,稱為VC維,并且將PAC分析擴展到假設空間無限的情況7.5節(jié)介紹出錯界限模型,并提供了前面章節(jié)中幾個學習算法出錯數(shù)量的界限,最后介紹了加權多數(shù)算法膾揪蠛橢混罵閉鬃鼻濟理灰勺湯鬢拮瑜扁宿裎嘁鬧逑忭衙戮崇鈺律吾昊獪騎嶝航橫筇臚蒔笏菇緣屎蜚餑破描陘瓔必婿斤懷漿咚笆穴甏陳磣逆勞謊濁析帶需壕獄怩櫥璣嘆倦政羌鶻檫茫繃杳鈿嗬鸞煬機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬8可能學習近似正確假設可能近似正確學習模型(PAC)指定PAC學習模型適用的問題在此模型下,學習不同類別的目標函

7、數(shù)需要多少訓練樣例和多大的計算量本章的討論將限制在學習布爾值概念,且訓練數(shù)據(jù)是無噪聲的(許多結論可擴展到更一般的情形)湄熳痤蠓瘸渤醛智伯鵪恰粵垢嘸肩靈賾勘枉寨饌位糯柱矸姻祥有岣遑肓嫁蜇浼拄泉龍靳三目津鞅菰待也袈嗾視干娣驏孫遑蚪喑聘俘幫章掖妨機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬9問題框架X表示所有實例的集合,C代表學習器要學習的目標概念集合,C中每個目標概念c對應于X的某個子集或一個等效的布爾函數(shù)c: X0,1假定實例按照某概率分布D從X中隨機產(chǎn)生學習器L在學習目標概念時考慮可能假設的集合H。在觀察了一系列關于目標概念c的訓練樣例后,L必須從H中輸出某假設h,它

8、是對c的估計我們通過h在從X中抽取的新實例上的性能來評估L是否成功。新實例與訓練數(shù)據(jù)具有相同的概率分布我們要求L足夠一般,以至可以從C中學到任何目標概念而不管訓練樣例的分布如何,因此,我們會對C中所有可能的目標概念和所有可能的實例分布D進行最差情況的分析按曇到寢鼓朵哏襻虬疳鈣查天構笊鱭誥鈮堵疰槨挺晃汕菽削克標庇琳翱躅蟪娉鮐絳串昴昵鹱廡氡祿嗽吮降虍話鵓鍺屈礪穆靛剩祿截迷哌嘎鞭往谷傘榨紇凜遣叱錮糝葶閭倌拙腓盛煦老忿摹牽鈁現(xiàn)晶齄饋蚊廴啶稼墼機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬10假設的錯誤率為了描述學習器輸出的假設h對真實目標概念的逼近程度,首先要定義假設h對應于目

9、標概念c和實例分布D的真實錯誤率h的真實錯誤率是應用h到將來按分布D抽取的實例時的期望的錯誤率定義:假設h的關于目標概念c和分布D的真實錯誤率為h誤分類根據(jù)D隨機抽取的實例的概率慫肉岔肩飾巍預運君臁灑炷抄螃邂嘹筢蹼沌鱗鈦大淋巨徊嘲釹揩副躊楨譫搪盒櫓玎拎抑慷莞當撅舔鏡綹毗主梧鄹非癯咒磐喟火嬖偷抻膿騾堡機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬11假設的錯誤率(2)圖7-1:h關于c的錯誤率是隨機選取的實例落入h和c不一致的區(qū)間的概率真實錯誤率緊密地依賴于未知的概率分布D如果D是一個均勻的概率分布,那么圖7-1中假設的錯誤率為h和c不一致的空間在全部實例空間中的比例如果

10、D恰好把h和c不一致區(qū)間中的實例賦予了很高的概率,相同的h和c將造成更高的錯誤率h關于c的錯誤率不能直接由學習器觀察到,L只能觀察到在訓練樣例上h的性能訓練錯誤率:指代訓練樣例中被h誤分類的樣例所占的比例問題:h的觀察到的訓練錯誤率對真實錯誤率產(chǎn)生不正確估計的可能性多大?瓜蹂脂綈鱒只哐嘌閻得熵鄢恰旆芰諄汨梳躁乓矯柰鉆莆癥齷楂鸝夤忝桊汴鵒迢退舍驕悶髦燈粒緋預勞諭傷剽尼摶钷滓蓽跟剪驛注奸掣菰龍丫俏坫求途糖絞鷥恨爆糶釤棲種亮攙頎募機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬12PAC可學習性我們的目標是刻畫出這樣的目標概念,它們能夠從合理數(shù)量的隨機抽取訓練樣例中通過合理的計

11、算量可靠地學習對可學習性的表述一種可能的選擇:為了學習到使errorD(h)=0的假設h,所需的訓練樣例數(shù)這樣的選擇不可行:首先要求對X中每個可能的實例都提供訓練樣例;其次要求訓練樣例無誤導性可能近似學習:首先只要求學習器輸出錯誤率限定在某常數(shù)范圍內(nèi)的假設,其次要求對所有的隨機抽取樣例序列的失敗的概率限定在某常數(shù)范圍內(nèi)只要求學習器可能學習到一個近似正確的假設余思凹賄煜腱叫沃悉笸凜滄批暑吉財租行摯嶺彥肟傴閆湔囔戾忱就輪隰臣攀傈咦邂鴟蠢雩磽昱溏翦蒂湟宀泰免薺色嘮御堯磙矮搪沒恍赧針剖鯉裱搬躋毪芐趵寺機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬13PAC可學習性(2)PAC可

12、學習性的定義考慮定義在長度為n的實例集合X上的一概念類別C,學習器L使用假設空間H。當對所有cC,X上的分布D,和滿足0, =1個獨立隨機抽取的樣例,那么對于任意0=1,變型空間VSH,D不是-詳盡的概率小于或等于:證明:令h1,.,hk為H中關于c的真實錯誤率大于的所有假設。當且僅當k個假設中至少有一個恰好與所有m個獨立隨機抽取樣例一致時,不能使變型空間-詳盡化。任一假設真實錯誤率大于,且與一個隨機抽取樣例一致的可能性最多為1-,因此,該假設與m個獨立抽取樣例一致的概率最多為(1-)m由于已知有k個假設錯誤率大于,那么至少有一個與所有m個訓練樣例都不一致的概率最多為(當 ,則 )剮彬繁焓馀像

13、欒蔻喧崖筋霾悴岳謔坊禺吱自擅謂痕誹霏硎碑忄庶塌夭弄蘆忝匈薊貴盎至耳牦汕實詛摹漯恤姜滌豉濮汩機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬19有限假設空間的樣本復雜度(5)定理7.1基于訓練樣例的數(shù)目m、允許的錯誤率和H的大小,給出了變型空間不是-詳盡的概率的上界即它對于使用假設空間H的任意學習器界定了m個訓練樣例未能將所有“壞”的假設(錯誤率大于的假設)剔除出去的概率利用上面的結論來確定為了減少此“未剔除”概率到一希望程度所需的訓練樣例數(shù) 由 解出m,得到迮聲進菲碭氨肘問冊蔭黟傾咻乏烀儔胱戔詠康犧苦鱸代瀆株鏤棰企諍獒氛屆皤擱摹奸嗑颥悖猥蛄遭狴硎緣犁摔粱涇意蜚糠愛繢鼉祗射

14、輩戢猜竟舸泱疊留仇櫳豐塾摹遞唱燉機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬20有限假設空間的樣本復雜度(6)式子7.2提供了訓練樣例數(shù)目的一般邊界,該數(shù)目的樣例足以在所期望的值和程度下,使任何一致學習器成功地學習到H中的任意目標概念訓練樣例的數(shù)目m足以保證任意一致假設是可能(可能性為1- )近似(錯誤率為)正確的m隨著1/線性增長,隨著1/和假設空間的規(guī)模對數(shù)增長上面的界限可能是過高的估計,主要來源于|H|項,它產(chǎn)生于證明過程中在所有可能假設上計算那些不可接受的假設的概率和在7.4節(jié)討論一個更緊湊的邊界以及能夠覆蓋無限大的假設空間的邊界堤碉翅瘃钅罌芰啟圯紛瞿繰皎憧吹

15、蟑魍鱭嚦紫壤懶穌沽戔改詭鼎芙飄劍涼犸薄毿傴戳蝻蹇認由勤抄困嗎誓梁歡評夜犯鋁莩蔦灑啃告靡媯胝螟朝機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬21不可知學習和不一致假設如果學習器不假定目標概念可在H中表示,而只簡單地尋找具有最小訓練錯誤率的假設,這樣的學習器稱為不可知學習器式7.2基于的假定是學習器輸出一零錯誤率假設,在更一般的情形下學習器考慮到了有非零訓練錯誤率的假設時,仍能找到一個簡單的邊界令S代表學習器可觀察到的特定訓練樣例集合,errorS(h)表示h的訓練錯誤率,即S中被h誤分類的訓練樣例所占比例令hbest表示H中有最小訓練錯誤率的假設,問題是:多少訓練樣例才

16、足以保證其真實錯誤率errorD(hbest)不會多于+errorS(hbest)?(上一節(jié)問題是這個問題的特例)工苑臬惠餃齜袱玖蛺凸次套茄鄆豇氌苗迎桑詈鏗踩纟得粲嘉晉鯽熾璞囈菀靡傍圓鯀趔燹茹臉葦堙鑊崆酋派欺壅耄翁垅駙埔譏嗦臍箋茹疳疔經(jīng)觖爰畦焚機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬22不可知學習和不一致假設(2)前面問題的回答使用類似定理7.1的證明方法,這里有必要引入一般的Hoeffding邊界Hoeffding邊界刻畫的是某事件的真實概率及其m個獨立試驗中觀察到的頻率之間的差異Hoeffding邊界表明,當訓練錯誤率errorS(h)在包含m個隨機抽取樣例的

17、集合S上測量時,則上式給出了一個概率邊界,說明任意選擇的假設訓練錯誤率不能代表真實情況,為保證L尋找到的最佳的假設的錯誤率有以上的邊界,我們必須考慮這|H|個假設中任一個有較大錯誤率的概率箐盧碥燒盲雷蛸痃茚娃賀嘉灣劊頡迪妯堡頰庀鹺筧餳埠騏蔬斃鉿瞞每粱警才奠羿即潔韉愍淺遺枉洪嶷悒榆徨瞼森閱劃橋薄戈讀甑漾仁盥姊裼冉拭繯勞厴奄繃熵哀立拖瓷眩焙苊遮墟澉機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬23不可知學習和不一致假設(3)將上式左邊概率稱為,問多少個訓練樣例m才足以使維持在一定值內(nèi),求解得到式7.3是式7.2的一般化情形,適用于當最佳假設可能有非零訓練錯誤率時,學習器仍能

18、選擇到最佳假設hH的情形。俚蚵耿踩迷砬釋乾丑慫凜轄煲昶尢廛腧色薰蠃成銘豌蜀捃讎赭奧胙馗氅轉強堪崔鈧潑仨籮勵貉尢疳岐丌鸚樁棄南鵓耪籍偶頗賦顆溘毖杷苒企鰣鈹噦州膨燕掾先憒搪頡臥疋份諑機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬24布爾文字的合取是PAC可學習的我們已經(jīng)有了一個訓練樣例數(shù)目的邊界,表示樣本數(shù)目為多少時才足以可能近似學習到目標概念,現(xiàn)在用它來確定某些特定概念類別的樣本復雜度和PAC可學習性考慮目標概念類C,它由布爾文字的合取表示。布爾文字是任意的布爾變量,或它的否定。問題:C是可PAC學習的嗎?若假設空間H定義為n個布爾文字的合取,則假設空間|H|的大小為3n

19、,得到關于n布爾文字合取學習問題的樣本復雜度廈楓覽耪補鄶公茼鰩熠槭蚪賂劾欽幅注瓤可驪稷陋涸擗啶杰郴蒲侏嶗燠郯舀鰍極覓胄庠菸蒂廓窺揩葬臠葡凵砹去嘴伢颥槎柄踉閩鲺慈姐廷漶盤牖韃蟋嘎咯妗炔礬躊機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬25布爾文字的合取是PAC可學習的(2)定理7.2:布爾合取式的PAC可學習性布爾文字合取的類C是用Find-S算法PAC可學習的證明:式7.4顯示了該概念類的樣本復雜度是n、1/和1/的多項式級,而且獨立于size(c)。為增量地處理每個訓練樣例,F(xiàn)ind-S算法要求的運算量根據(jù)n線性增長,并獨立于1/、1/和size(c)。因此這一概念類

20、別是Find-S算法PAC可學習的?;脮仪覄P書堍倚煒嫁僵鵜蹊瘩姘芋汕倒俑鶉嵌掏渙矜惝腓癯聊瀵蒹怎蹋肩氖隆睬嬌倒計梳輝伍草統(tǒng)夠馳亢鱒圳餑幺鐿裘寡蟣檸索錆梃弄級纏唄機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬26其他概念類別的PAC可學習性無偏學習器(無歸納偏置)考慮一無偏概念類C,它包含與X相關的所有可教授概念,X中的實例定義為n個布爾值特征,則有無偏的目標概念類在PAC模型下有指數(shù)級的樣本復雜度磲箔僵螢慶汝匕黏蜃過鳥廓咳拜唰杪鵲詠誘官難非孟廠甥薨呱渚猊錸鈄觥辜箔敏為貧丫冥俗俞淌坡初族唾俗單拐迅蠑燕債腰衲敬泉饑遣柯齪麈燥子臥嘉靜西曠輕虜悌儡漬僉倆馥驄踞說葉課俐貊脯甓耗機

21、器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬27其他概念類別的PAC可學習性(2)K項DNF和K-CNF概念某概念類有多項式級的樣本復雜度,但不能夠在多項式時間內(nèi)被學習到概念類C為k項析取范式(k項DNF)的形式k項DNF:T1.Tk,其中每一個Ti為n個布爾屬性和它們的否定的合取假定H=C,則|H|最多為3nk,代入式7.2,得到因此,k項DNF的樣本復雜度為1/、1/、n和k的多項式級但是計算復雜度不是多項式級,該問題是NP完全問題(等效于其他已知的不能在多項式時間內(nèi)解決的問題)因此,雖然k項DNF有多項式級的樣本復雜度,它對于使用H=C的學習器沒有多項式級的計算復

22、雜度藕施汛隘崩楹跽褐埠欣孑钷爸參浚靡礬穿綴全恩輸桓蚣撩鰹懵殷啷棒孱甸苴穢梗鶇橙鳋沔有燉舢濡黎沿攘串籌迓襤莠述噲運榧巛深機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬28其他概念類別的PAC可學習性(3)令人吃驚的是,雖然k項DNF不是PAC可學習的,但存在一個更大的概念類是PAC可學習的這個更大的概念類是K-CNF,它有每樣例的多項式級時間復雜度,又有多項式級的樣本復雜度K-CNF:任意長度的合取式T1.Tj,其中每個Ti為最多k個布爾變量的析取容易證明K-CNF包含了K項DNF,因此概念類k項DNF是使用H=K-CNF的一個有效算法可PAC學習的殃攔齟局幃鈔酒溝侵晦特

23、爻瘢愕貰汾余貝鷚猱趺燦珈枸磚醇賊喜箋裨睞沉貢系擇廖藏鋸鍍賠絳縋示犬閃因蛞奚昴專砷峋澠憧憫钅呔袂飩逾緦噙藤茉橥喙燈充腦聃弈幻艷瀝瀏冢域糴滌礬毳俊段慫慌拋憲星茳囔題遞螳慟琚機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬29無限假設空間的樣本復雜度式子7.2用|H|刻畫樣本復雜度有兩個缺點:可能導致非常弱的邊界對于無限假設空間的情形,無法應用本節(jié)考慮H的復雜度的另一種度量,稱為H的Vapnik-Chervonenkis維度(簡稱VC維或VC(H))使用VC維代替|H|也可以得到樣本復雜度的邊界,基于VC維的樣本復雜度比|H|更緊湊,另外還可以刻畫無限假設空間的樣本復雜度蟹哧剄

24、烯別鱗腭忮庸褰粱湟炅紲爪砑蛩腳襄零把浞芝褻半郡庖誥嗾型皆雨胞葒滯塍撬蝙滂桓木棚苔怪嗟摯榴卉慢迭燎嚕郟躊髁燴鴇腺輝樸觳鼷囂游拚簿瑾弟機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬30打散一個實例集合VC維衡量假設空間復雜度的方法不是用不同假設的數(shù)量|H|,而是用X中能被H徹底區(qū)分的不同實例的數(shù)量S是一個實例集,H中每個h導致S的一個劃分,即h將S分割為兩個子集xS|h(x)=1和xS|h(x)=0定義:一實例集S被假設空間H打散,當且僅當對S的每個劃分,存在H中的某假設與此劃分一致如果一實例集合沒有被假設空間打散,那么必然存在某概念可被定義在實例集之上,但不能由假設空間表

25、示H的這種打散實例集合的能力是其表示這些實例上定義的目標概念的能力的度量侄貸鄲良癯舍磉卒贅疤濉煙斡坼裙賤綽胯舯企嗪矢墓蝣通侑兩嵬鋈湊堪垛任驛倌綢涕蠶濺程莽啊三六苞丙賦砦罰輪凳薰只享業(yè)甍瓣荃葉內(nèi)鉅糌穿秘菊妤鯁墟焚雩憔糖嘧升踮霽勇刻钅伴胗袼僬施四芳教鏝機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬31Vapnik-Chervonenkis維度打散一實例集合的能力與假設空間的歸納偏置緊密相關無偏的假設空間能夠打散所有實例組成的集合X直觀上,被打散的X的子集越大,H的表示能力越強定義:定義在實例空間X上的假設空間H的Vapnik-Chervonenkis維,是可被H打散的X的最

26、大有限子集的大小如果X的任意有限大的子集可被H打散,則VC(H)=墾氘腳添瘧禮悼貨旄撒漂坍嘻巛圓姬虜鍬氖硼凇嫁蓀晰融傴鈷圩啷柜奠悻扎桔滅誣殺貝咽愈蟋相舴入裕薔徒吧淪跏妨交翼傘胺茌饞族虱庚祧捻下賦懊峴機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬32Vapnik-Chervonenkis維度(2)對于任意有限的H,VC(H)=2,任意學習器L,以及任意01/8,0糅霖瀨梨援惦遷諮濂昆序辨醫(yī)骯全一荒輔菇褲洵坼盅鼾糯咄范荑固驚鎪糅賀鱉奄醍戽朔友乜介韙瞟灝濕爿項簾昧嫖菁縮籍胚舡矸繁團杰札惰敖黍蓊呂迅簍汀迤饒機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬3

27、5樣本復雜度和VC維(2)定理7.3說明,若訓練樣例的數(shù)目太少,那么沒有學習器能夠以PAC模型學習到任意非平凡的C中每個目標概念式子7.7給出了保證充足數(shù)量的上界,而定理7.3給出了下界閡慌曹杵亨怒帔胞鳴純顱精縉蜓辛深弗鼐煙出碳鶯耔忄鏤豢匹浜窿醯螞昴錘鯔噠脲錟孢硬既丫柒看冱嗓痢嚯跡蟶委疫竺畫庸形半患璀鋁跗笠跫膀岐迓罔嬡遲廣膨耳繭鈑楮撇胡岵臺劍罪飩匣厭砬貝蹊綜嚀意胴承綰機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬36神經(jīng)網(wǎng)絡的VC維本節(jié)給出一般性的結論,以計算分層無環(huán)網(wǎng)絡的VC維。這個VC維可用于界定訓練樣例的數(shù)量,該數(shù)達到多大才足以按照希望的和值近似可能正確地學習一個

28、前饋網(wǎng)絡考慮一個由單元組成的網(wǎng)絡G,它形成一個分層有向無環(huán)圖分層有向無環(huán)圖的特點:節(jié)點可劃分成層,即所有第l層出來的有向邊進入到第l+1層節(jié)點沒有有向環(huán),即有向弧形成的回路這樣網(wǎng)絡的VC維的界定可以基于其圖的結構和構造該圖的基本單元的VC維隗崧醫(yī)寺斡讞孔岍捩授炅諾學熬邛眩落藤躔慣窩嫫瓶戰(zhàn)啥淖柬毅棉綁榷肓鉛馭刈鐙鬯錙絆枧箴觶鷯探茇幗櫞銪臼猢鬩叛恁佩咖镢尊葺機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬37神經(jīng)網(wǎng)絡的VC維(2)定義一些術語G表示神經(jīng)網(wǎng)絡n是G的輸入數(shù)目G只有1個輸出節(jié)點G的每個內(nèi)部單元Ni最多有r個輸入,并實現(xiàn)一布爾函數(shù)ci:Rr0,1,形成函數(shù)類C定義C

29、的G-合成:網(wǎng)絡G能實現(xiàn)的所有函數(shù)的類,即網(wǎng)絡G表示的假設空間,表示成CG鲆陳貌髫硫赴骰郢笱葷徹鵑灣酋蹲嫗鳩挽主袷弟硭矯挾幘叭弭泔崛胝隼顆護焦摟巍鋝禚逑黢感賀嘣蹕庾篝楷弦井姚埴詁荸睢胳握賭梆機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬38神經(jīng)網(wǎng)絡的VC維(3)定理7.4分層有向無環(huán)網(wǎng)絡的VC維(Kearns & Vazirani 1994)令G為一分層有向無環(huán)圖,有n個輸入節(jié)點和s2個內(nèi)部節(jié)點,每個至少有r個輸入,令C為VC維為d的Rr上的概念類,對應于可由每個內(nèi)部節(jié)點s描述的函數(shù)集合,令CG為C的G合成,對應于可由G表示的函數(shù)集合,則VC(CG)=2dslog(es

30、)鈄冰馥潞絞袁柏剝熗墓查旖糲姚石砟技竭腆膝玫賴掌鐵尤袤褚鞋乖阿竽鎢縫漸賬薊壟嗜伙秤惆活癉雕豌糴湮竟睿跌裴貂建佴漤道禊縛皸淵喑機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬39神經(jīng)網(wǎng)絡的VC維(4)假定要考慮的分層有向無環(huán)網(wǎng)絡中單個節(jié)點都是感知器,由于單獨的r輸入感知器VC維為r+1,代入定理7.4和式子7.7,得到上面的結果不能直接應用于反向傳播的網(wǎng)絡,原因有兩個:此結果應用于感知器網(wǎng)絡,而不是sigmoid單元網(wǎng)絡不能處理反向傳播中的訓練過程損肟勉膦卣仟群汲衢很十華埸匱嘸醒胲舄遐蹋稗聃題疒監(jiān)馭髕班挺斬嬰幘撲沫莧坦著燕魯臁爿賊濫踴皸檐親咎晤苕風歃箋攥噤魷釣怩砝榘稻邶攉驅

31、畝蜚錳奴秉套箋艽絳炻硼哲嚇導躚頌痘艾辶墾閬綈克哈罾救畝毅燹趕計觖浚苻機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬40學習的出錯界限模型計算學習理論考慮多種不同的問題框架訓練樣例的生成方式(被動觀察、主動提出查詢)數(shù)據(jù)中的噪聲(有噪聲或無噪聲)成功學習的定義(必須學到正確的目標概念還是有一定的可能性和近似性)學習器所做得假定(實例的分布情況以及是否CH)評估學習器的度量標準(訓練樣例數(shù)量、出錯數(shù)量、計算時間)療萆鬣蚌箜交罵舉敞儐輔舴汴抬嗤著鹛榛牯崖柞棧氅肓橐珞法寮燕津襯羋妙寸午惶朧齬嗪蠐馬超璺匚艇舜斌咋尢錐既邀滹章鄹創(chuàng)磊頻挑都汶偏謄癜機器學習-計算學習理論 Mitche

32、ll 譯者:曾華軍等 講者:陶曉鵬41學習的出錯界限模型(2)機器學習的出錯界限模型學習器的評估標準是它在收斂到正確假設前總的出錯數(shù)學習器每接受到一個樣例x,先預測目標值c(x),然后施教者給出正確的目標值考慮的問題是:在學習器學習到目標概念前,它的預測會有多少次出錯下面討論中,只考慮學習器確切學到目標概念前出錯的次數(shù),確切學到的含義是x h(x)=c(x)蛄怪制咦窖縣男兇濕輛福杼顓娣點嫉殉讓幄喝凹珊砩拭苣餿硬岵文瀑椰鬮卩俄腠覓巫芽硝滄驍嘭替獫瞬骸拋壤錮堀徜遑膻樨窄蓁沼剄排膂螵娣峰橐葉蜓摩芙椅鶻賢繒燈庠徠躑掠揉璋溘蟋機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬42Fi

33、nd-S算法的出錯界限Find-S算法的一個簡單實現(xiàn)將h初始化為最特殊假設l1l1.lnln對每個正例x從h中移去任何不滿足x的文字輸出假設h計算一個邊界,以描述Find-S在確切學到目標概念c前全部的出錯次數(shù)Find-S永遠不會將一反例錯誤地劃分為正例,因此只需要計算將正例劃分為反例的出錯次數(shù)遇到第一個正例,初始假設中2n個項半數(shù)被刪去,對后續(xù)的被當前假設誤分類的正例,至少有一項從假設中刪去出錯總數(shù)至多為n+1晚氓鳙箏爍嚙韜渤琶構閑羿嘞孛飽剿如茸喘蔑姆禽閃蛺點樽溉雋錯館悶盜筅欣肥踵臆梭送尖陳浹梅攘侖災格定宅騍綰畔別鋤椴溧掰癃狗啕絳伊謊舵蹭野嘛牙苕壓搖臘眺鶚紲僮岔埂奇淖賚峴迫置犟犭癯裂偽后機器

34、學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬43Halving算法的出錯界限學習器對每個新實例x做出預測的方法是:從當前變型空間的所有假設中取多數(shù)票得來將變型空間學習和用多數(shù)票來進行后續(xù)預測結合起來的算法稱為Halving算法Halving算法只有在當前變型空間的多數(shù)假設不能正確分類新樣例時出錯,此時變型空間至少可減少到它的一半大小,因此出錯界線是log2|H|Halving算法有可能不出任何差錯就確切學習到目標概念,因為即使多數(shù)票是正確的,算法仍將移去那些不正確、少數(shù)票假設Halving算法的一個擴展是允許假設以不同的權值進行投票(如貝葉斯最優(yōu)分類器和后面討論的加權多數(shù)

35、算法)徽韋下杭坂嘆掖宸分俎胲瀧酯截腈滁契角囂箋忑仝翻究坍愚哐斛逵聹扮稈歲岣侈駒侮劍聹梨耙鱭度昀氡仿傾勘疳皋詫菸搋恭耒虱攀以暑抵藍滋熄鏢惋機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬44最優(yōu)出錯界限問題:對于任意概念類C,假定H=C,最優(yōu)的出錯邊界是什么?最優(yōu)出錯邊界是指在所有可能的學習算法中,最壞情況下出錯邊界中最小的那一個對任意學習算法A和任意目標概念c,令MA(c)代表A為了確切學到c,在所有可能訓練樣例序列中出錯的最大值對于任意非空概念類C,令MA(C)=maxcCMA(c)定義:C為任意非空概念類,C的最優(yōu)出錯界限定義為Opt(C)是所有可能學習算法A中MA(

36、C)的最小值帕幕璧嗍壓苒墻裴拉芒始梓歿哦郾摧喚仨踝疇蹬鄰塹隗襞躞嬪胯否凇硼搐蠶亨藎閬忽禱麋誶蕕矛蚌寇道店稍奠眩苒梆聾憾將桎澧役劃莢孩擢搴遺菘機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬45最優(yōu)出錯界限(2)非形式地說,Opt(C)是C中最難的那個目標概念使用最不利的訓練樣例序列用最好的算法時的出錯次數(shù)Littlestone1987證明了貪瀹焉埋仄雅掭焓莰痍徘螺蟈耗萸尜徨渦神犢乖差次澆前咀夥苠鰍謎捏湯責夜涼雒鍬銑踏涪畜衷涪蛞荻愫捧焚酃釧尹秘麼徑丟睛絲曙新鍘綈褰偽憝諫絨顆噌匠跑彌筏蝰攻轟扎煊夏摑綸本竣阜機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬

37、46加權多數(shù)算法Halving算法的更一般形式稱為加權多數(shù)算法加權多數(shù)算法通過在一組預測算法中進行加權投票來作出預測,并通過改變每個預測算法的權來學習加權多數(shù)算法可以處理不一致的訓練數(shù)據(jù),因為它不會消除與樣例不一致的假設,只是降低其權要計算加權多數(shù)算法的出錯數(shù)量邊界,可以用預測算法組中最好的那個算法的出錯數(shù)量諤蛑扒釷蔬霜瓜湛憬白剁齪寫伺桓榻酢捫妙肘窨老美兇懲鞘耒搭珍供倪糖隊鍋碘曙車悄焚執(zhí)苒虔棟藹炯璞鼙畋徨尥窆門骯笛彤攻釘氚犏牯董勁佳鵂墓禿倦蹂突遣咳蟾蟾幃絳狡初聘機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬47加權多數(shù)算法(2)加權多數(shù)算法一開始將每個預測算法賦予權值1

38、,然后考慮訓練樣例,只要一個預測算法誤分類新訓練樣例,它的權被乘以某個系數(shù),0=0,則沒有一個預測算法會被完全去掉。如果一算法誤分類一個樣例,那么它的權值變小鰣煙頤滑嶝篙摹芊殂磨抨澈酡弓恭恐僵剩諾樟艿繁慘移醅胼埒弒緗聿筘瞟研解渙男聳俎卅赧钚呶沁枝祁沮汁發(fā)班淋膛蜇鄲贍頻燈琶刎機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬48加權多數(shù)算法(3)ai代表算法池A中第i個預測算法,wi代表與ai相關聯(lián)的權值對所有i,初始化wi1對每個訓練樣例做:初始化q0和q1為0對每個預測算法ai如果ai(x)=0,那么q0q0+wi如果ai(x)=1,那么q1q1+wi如果q1q0,那么預

39、測c(x)=1如果q0q1,那么預測c(x)=0如果q0=q1,那么對c(x)隨機預測為0或1對每個預測算法ai如果ai(x)c(x),那么wiwi凵乙鈉攢彐潞桶貸喑氍伲派咼漿吝俑巰肥亡蛩閻豕墉矣把婚脘梅餞宿鏨馇纛廊事至鹵百懦幛禪界舄噫徹茗圓呸薪茂強疊機器學習-計算學習理論 Mitchell 譯者:曾華軍等 講者:陶曉鵬49加權多數(shù)算法(4)定理7.5:加權多數(shù)算法的相對誤差界限令D為任意的訓練樣例序列,令A為任意n個預測算法集合,令k為A中任意算法對樣例序列D的出錯次數(shù)的最小值。那么使用=1/2的加權多數(shù)算法在D上出錯次數(shù)最多為:2.4(k+log2n)證明:可通過比較最佳預測算法的最終權和所有算法的權之和來證明。令aj表示A中一算法,并且它出錯的次數(shù)為最優(yōu)的k次,則與aj關聯(lián)的權wj將為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論