版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
關于機器學習的幾點思考
1機器學習的現(xiàn)狀和面臨的挑戰(zhàn)過去20年來,機械工具的研究取得了快速發(fā)展,取得了許多著名的研究成果,面臨著許多挑戰(zhàn)。為了深入研究和解決機械工具的現(xiàn)狀和挑戰(zhàn),我們需要討論和解決這些問題,以便引起更深入的思考。2機械學的挑戰(zhàn)雖然機器學習取得了令人矚目的成果,但是仍然面臨很多困難和問題.下面列舉其中的一些問題.2.1高維數(shù)對于概率密度估計的困境在很多實際應用問題中,得到的特征維數(shù)是比較高的,有的甚至是非常高的.例如,在圖像識別中如果提取SIFT特征,特征維數(shù)是128維,如果提取其他特征,維數(shù)也往往是幾十維,或者幾百維.還有,在文本分類問題中,如果把每一個單詞當作一個特征,特征的維數(shù)可能是幾千維,或者上萬維,這依賴于所使用的字典大小.下面以概率密度函數(shù)的估計為例討論特征維數(shù)和所需要的樣本之間的關系.對于一維的概率密度函數(shù)估計來說,通常在具有幾十個以上的樣本時可以得到一個比較好的函數(shù)估計,這是因為在每一個點附近應該有一定量的樣本(也就是說,數(shù)據(jù)要具有一定的密度)才能得到好的估計結果.我們假設至少需要10個樣本,這是一個保守的數(shù)字.如果要估計的是一個二維概率密度函數(shù),就需要把二維空間等分成一些小網(wǎng)格,需要每一個小網(wǎng)格中有足夠多的樣本.因此,可能需要102=100個樣本.當維數(shù)增加的時候,空間中小的格子的數(shù)量隨維數(shù)的增加而指數(shù)上升.假設維數(shù)為d,需要的樣本數(shù)是10d.按照這種方法計算,在圖像識別問題中,至少需要10100個樣本,而在文本分類中,需要101000個以上的樣本.可我們知道,這是不可能的一件事情.由于樣本數(shù)不足導致了高維數(shù)據(jù)學習的困難,這個現(xiàn)象被稱作“維數(shù)災難”.維數(shù)災難的核心問題是,高維函數(shù)實事上遠比低維函數(shù)復雜,而我們對其還沒有有效的方法進行分析.利用具體分類問題的先驗知識,或者利用得到的訓練數(shù)據(jù),可能在一定程度上減少維數(shù)災難帶來的困難.例如,如果知道兩組特征x和y之間是獨立的,那么就有因此,對于p(x,y)的估計就可以通過分別對p(x)和p(y)估計來完成.由于單獨的x或y的維數(shù)要小于它們聯(lián)合在一起的(x,y)的維數(shù),因此,所需要的樣本數(shù)就會少很多.概率圖模型研究的就是如何利用隨機變量之間的條件獨立性對問題建模、學習、推理的理論、算法和應用.概率圖模型在解決高維樣本學習方面有很多貢獻.另外,對實際問題中的數(shù)據(jù)分析表明,大量的實際問題的高維數(shù)據(jù)實際上嵌入在一個低維的流形上,也就是說,數(shù)據(jù)并沒有充滿整個高維空間.其主要原因就是各個特征之間存在很強的相關性.因此,實際上并不需要那么多的數(shù)據(jù)來估計概率密度函數(shù).盡管如此,目前的研究表明,圖像數(shù)據(jù)的本質維數(shù)至少有幾十維,這對樣本數(shù)的需求還是非常大的.上面討論的維數(shù)對樣本量的需求是以非參數(shù)概率密度函數(shù)估計為例.實際上,維數(shù)災難不僅僅出現(xiàn)在概率密度函數(shù)的估計中,也存在于其他的學習問題中.上面談到的特征獨立和流形分布的知識同樣有助于緩解在其他學習問題中遇到的維數(shù)災難困難.2.2優(yōu)化問題的求解目前很多的機器學習研究沿著這樣的思路進行:把要解決的問題形式化為一個目標函數(shù),然后通過優(yōu)化這個目標函數(shù)達到對數(shù)據(jù)學習的目的.例如:支持向量機就是把要解決的兩類分類問題形式化為最小化如下目標函數(shù):其中xi,yi(i=1,...,N)是樣本的特征和標簽,N是樣本個數(shù),w是線性分類器的權向量,L是損失函數(shù),C是折衷系數(shù).當L是二次,或者一次函數(shù)時,函數(shù)f是一個凸函數(shù),存在一個極值,可以通過凸優(yōu)化算法尋優(yōu).我們要解決的實際問題非常復雜,將其形式化后的目標函數(shù)也非常復雜,往往在目前還不存在一個有效的算法能找到這樣復雜目標函數(shù)的最優(yōu)值.因此,需要通過一些優(yōu)化技術尋找次優(yōu)值.這樣做通常有兩個方面的問題存在,一個是所使用的優(yōu)化技術可能非常復雜費時,效率很低;另一個是得到的局部極值可能距離我們希望的解很遠,不能滿足要求.機器學習領域中有一些優(yōu)化問題具有一些特殊性.因此,有一些研究工作集中在如何求解這些優(yōu)化問題以及分析所得到的解的性能分析.但是,為了解決機器學習領域的問題,研究針對性的有效優(yōu)化算法是必要的.由于求解全局最優(yōu)是非常困難的,所以,通常人們只是采用簡單的局部極值求解算法,例如梯度下降方法.采用局部極值算法時,當算法的初值不同,得到的解也不同.而要優(yōu)化的函數(shù)往往有非常多(可能成千上萬,或者更多)的局部極值,通過算法得到的解只是其中一個.我們會關心下面的問題:這么多的局部極值都是我們所希望的解嗎?如果不是,其中哪些局部極值是?如何得到這些解?另外,在對要解決的問題建模時,目標函數(shù)有時候只是一種“近似”的建模.例如:把要解決的問題形式化成優(yōu)化下面的函數(shù):其中L(w)是損失函數(shù),r(w)是正則項,C是折衷系數(shù).目前經(jīng)常使用的正則項有很多,例如:光滑性正則函數(shù),稀疏性正則函數(shù),函數(shù)復雜性正則函數(shù).光滑性正則函數(shù)假設函數(shù)具有光滑性質;稀疏性正則函數(shù)假設要學習的模型具有稀疏性;函數(shù)復雜性正則函數(shù)則要求要學習的函數(shù)不能太復雜.這些正則函數(shù)的使用基礎是假定所要研究的問題滿足這樣的條件.但是實際問題是否滿足,在什么程度上滿足這樣的條件,我們并不知道.目標函數(shù)的這種“近似”性質,需要考慮下面這些問題,一定需要求解目標函數(shù)的全局最優(yōu)值嗎?局部極值(全部局部極值都)能滿足要求嗎?2.3大數(shù)據(jù)時代的可解釋性從上文的討論中可知,機器學習領域里要解決的問題很難用一個容易優(yōu)化的函數(shù)來建模.對于一個實際問題,可以構建不同的目標函數(shù)來表示要解決的同一個問題.這樣,也就會得到很多不同的解.機器學習的另一個問題是得到的模型的可解釋性差.可解釋性是和實際應用密切相關的.機器學習在解決一些具體的問題時,需要領域的專家能夠理解模型,能夠理解“為什么”這個模型能夠對未知樣本做預測.例如,在分子生物學的蛋白質結構分析中,一個只在輸入輸出意義下對數(shù)據(jù)是正確的模型對于分子生物學家還遠遠不夠.他們需要獲得的模型在分子生物學意義下可解釋.同時,由于所提供的訓練數(shù)據(jù)是不充分的,機器學習還需要為他們提供進一步工作的線索和可能.他們需要的是可解釋的數(shù)據(jù)理解工具或工具集.機器學習應該考慮模型對問題世界的可解釋性.機器學習一直以來所遵循的“輸入輸出滿足”原則對某些問題而言可能是遠遠不夠了.正如上文所討論的,在求解機器學習問題時可能得到多個解,如果使用“輸入輸出滿足”原則,可能建立的多個模型獲得多個解,則需要以對問題世界可解釋性來分辨其優(yōu)劣.大數(shù)據(jù)時代一書強調(diào)了在大數(shù)據(jù)時代相關關系的發(fā)現(xiàn)和使用更為重要,而不應該那么追求因果關系.我認為,在某些商業(yè)領域他們這樣做是對的.但是當我們關注科學問題時,情況就會不同.尋根溯源,或者說追求因果關系是科學研究的一個動力.關于因果關系和相關關系,馬頌德老師給了意見:“因果關系是一個相對的概念”.對此的一個解釋是:“牛頓看到蘋果掉在地上,發(fā)現(xiàn)了萬有引力定理,可以說發(fā)現(xiàn)了蘋果掉在地上的因果關系.但也可以說,這是個相關關系,因為它沒有說明萬物之間為什么有引力.”可以說,大數(shù)據(jù)時代一書更強調(diào)相關關系,而我們的科學研究更強調(diào)因果性.就機器學習而言,因不同的應用問題不同,對因果關系的需求程度也是不同的.對于更商業(yè)化的應用問題,即在輸入輸出意義下對數(shù)據(jù)是正確的,可預測性非常重要.而對于更基礎的科學研究問題而言,可解釋性就更為重要.2.4算法的基本思想這里討論的是數(shù)據(jù)量這樣一個問題,而不是大數(shù)據(jù)時代一書中談到的大數(shù)據(jù)問題.下文會討論大數(shù)據(jù)問題.數(shù)據(jù)量大是機器學習在應用階段面臨的重要問題.實際上,在機器學習領域近些年一直關注這個問題,被稱之為“大規(guī)模數(shù)據(jù)的學習”(largescaledatalearning,或biglearning).在過去的十幾年中,人們關注的更多的是好的機器學習算法的設計,學習算法的性能分析等,我們統(tǒng)稱為學習理論和學習方法.這是因為當時有太多的問題需要研究和解決,而機器學習的突飛猛進,吸引了大部分研究人員的注意力,很多人沉浸在機器學習的理論方法研究的喜悅中.而當學習理論和學習方法都已經(jīng)建立,幾個有代表性的學習算法在實際問題中成功應用后,大規(guī)模數(shù)據(jù)的學習開始成為了一個受到關注的問題.大規(guī)模數(shù)據(jù)的學習之所以在近幾年才開始受到關注,主要是因為實際中數(shù)據(jù)量很大.而十幾年來發(fā)展起來的很多學習算法面臨的一個尷尬就是:都很難用于大數(shù)據(jù)的學習,主要的問題是時間復雜性和空間復雜性.例如:當訓練數(shù)據(jù)超過10000時,支持向量機算法代碼(libsvm)因為內(nèi)存不夠而無法在一臺普通的臺式機上運行,即使擴大內(nèi)存后,也需要幾個小時才能完成訓練.因此,不能想象訓練數(shù)據(jù)是十萬、百萬量級下的支持向量機的學習(而libsvm計算復雜度是樣本量的平方).類似的情況也出現(xiàn)在其他的一些機器學習算法中,如:EM算法、主成分分析、線性判別、聚類算法.因此,出現(xiàn)了一些工作來解決這個問題.其基本思路有下面幾個:快速算法近似計算法補充學習和在線學習在線學習,在線學習算法加速效率o在大規(guī)模數(shù)據(jù)的計算方面有一些很好的研究工作發(fā)表.有些研究工作解決的問題非常吸引人,例如:如果訓練數(shù)據(jù)不能一次放到內(nèi)存怎么辦?有些算法的加速結果很誘人.例如:把最大間隔聚類算法的原算法(計算復雜度O(n7),n是樣本數(shù))加速到O(sn),s是高維數(shù)據(jù)的稀疏度.值得說明的是,并非數(shù)據(jù)量一定要非常大才叫做大數(shù)據(jù)的學習問題.從算法角度看,只要數(shù)據(jù)量大,解空間(模型空間、參數(shù)空間)就極其大.因此,做機器學習研究的人對大數(shù)據(jù)的體會更深,壓力更大.3一些重要問題除了上面討論的機器學習面臨的挑戰(zhàn)外,下面一些問題也很重要.3.1信息支撐的拓展—大數(shù)據(jù)大數(shù)據(jù)是當前一個熱點問題.大數(shù)據(jù)涉及很多方面的研究,這包括:數(shù)據(jù)的獲取、傳輸、存儲、分析等.這里主要討論大數(shù)據(jù)給機器學習的挑戰(zhàn)和機遇.這里的所說的大數(shù)據(jù)主要是針對由于互聯(lián)網(wǎng)等技術的發(fā)展而出現(xiàn)的大數(shù)據(jù)問題,而不僅僅是指數(shù)據(jù)量比較大(大數(shù)據(jù)量的學習已經(jīng)在前面討論過了).這里的“大數(shù)據(jù)”一詞代表了:數(shù)據(jù)多,不夠精確,數(shù)據(jù)混雜,自然產(chǎn)生等特點,這些都在文獻中做了總結.大數(shù)據(jù)給機器學習帶來的問題不僅僅是因為數(shù)據(jù)量大而計算上非常困難,其帶來的更大的困難在于:數(shù)據(jù)可能是在不同的服務器上獲取的,這些分布在不同服務器上的數(shù)據(jù)之間存在某些聯(lián)系,但是基本上不滿足同分布的假設,而我們也不可能把所有數(shù)據(jù)集中起來進行處理和學習.經(jīng)典的機器學習理論和算法要求數(shù)據(jù)是獨立同分布的.當這個條件不滿足時,這時我們的學習模型和學習算法怎么辦?是修改算法從這些數(shù)據(jù)中學習,還是整理數(shù)據(jù)以適應目前的學習算法?這些服務器上的數(shù)據(jù)之間的關系如何建模和分析?另外,我們已經(jīng)知道,在網(wǎng)絡上獲取的很多數(shù)據(jù)的分布通常會隨著時間的推移發(fā)生變化(稱之為演化數(shù)據(jù),在網(wǎng)絡的論壇中稱之為概念漂移),這時我們的學習模型和學習算法怎么辦?在數(shù)據(jù)分布發(fā)生變化時,數(shù)據(jù)的獨立同分布的假設也不再滿足,這時還有什么數(shù)學性質可以滿足?如果不滿足任何的數(shù)據(jù)性質或者可以利用的數(shù)學性質很少,其依賴的數(shù)學理論是什么?如何確定給出的模型和算法是可靠的,而不僅僅是實驗室里的算法游戲呢?大數(shù)據(jù)除了給機器學習帶來了計算上的困難和挑戰(zhàn)外,也帶來了一些好處.其中一個好處體現(xiàn)在數(shù)據(jù)多了以后,呈現(xiàn)出小數(shù)據(jù)情況下沒有呈現(xiàn)出的現(xiàn)象,這被稱之為“涌現(xiàn)”(emergence).實際上,1990年后曾經(jīng)有幾年人們很集中的研究過這個問題.人們發(fā)現(xiàn):“微觀”地了解每一個個體,并不能預測“宏觀”的整體行為.例如:我們知道每個水分子的運動規(guī)律和運動方程,但是你無法知道水的沸騰是什么樣子,沸騰的水是“涌現(xiàn)”出來的現(xiàn)象.在應用領域,研究人員曾經(jīng)僅僅使用三條規(guī)則來描述一只鳥的飛行.這樣當一群鳥的每一個個體都僅僅遵循這三條規(guī)則飛行時,就“涌現(xiàn)”出看到過的鳥在天空翱翔的景象.“涌現(xiàn)”一詞很生動表達了這一含義.人們也做過很多類似的實驗證明了這一點.因此,出現(xiàn)了被稱之為群體智能(collectiveintelligence,wisdomofthecrowd)這樣的術語.當然,機器學習研究領域對此研究不多.大數(shù)據(jù)的另一個好處是:在某些應用條件下,數(shù)據(jù)變得稠密了.多年以來,因為很多眾所周知的原因機器學習一直在研究小樣本的學習問題.在實際中,分類器性能不夠好的一個原因就是樣本太少.理論上,我們知道在樣本數(shù)趨于無窮的時候,很多算法具有很多良好的性質.實踐中也有這樣的體會,當樣本數(shù)很多時,使用簡單的模型往往能夠取得好的泛化性能.而在大數(shù)據(jù)時代,當樣本數(shù)量很大的時候,在樣本空間的某些區(qū)域會出現(xiàn)稠密的現(xiàn)象,這些稠密的數(shù)據(jù)給分類器設計實際上提供了很多的信息.因此,在這些局部稠密區(qū)域,分類器的性能有可能接近理論上的極限性能.大數(shù)據(jù)的再一個好處是:大數(shù)據(jù)使得樣本空間原來“空曠”的區(qū)域出現(xiàn)了樣本,原來“稀疏”的區(qū)域變得不再稀疏,這在很大程度上為提高分類器性能提供了很好的數(shù)據(jù)基礎.直觀地說,就是數(shù)據(jù)本身的多樣性能夠更多的展現(xiàn)出來.例如:在語音識別問題中,大數(shù)據(jù)情況下,人們各種的發(fā)音習慣才能更多地體現(xiàn)出來;在圖像識別中,大數(shù)據(jù)情況下,物體在不同情況(變形、光照、背景等變化)下的外觀表現(xiàn)才更豐富.而這些數(shù)據(jù)的缺失很難通過建模和學習算法彌補,同時,這些數(shù)據(jù)也很難(可以說是不可能)通過專家、算法設計人員的設計來獲取.因此數(shù)據(jù)產(chǎn)生的自發(fā)性就很重要.正是基于上面的原因,很多從事語音識別的研究人員希望在盡可能多的數(shù)據(jù)上進行訓練:從幾個小時,到幾十個小時,到幾百個小時,乃至幾萬個小時的語音數(shù)據(jù);計算機視覺的研究人員也在盡可能多的收集和標注數(shù)據(jù):從幾萬,到幾十萬,到Fei-FeiLi的八千萬圖像數(shù)據(jù),到幾百億乃至幾千億的語音數(shù)據(jù).八千萬圖像的ImageNet的建立是一個了不起的工作,然而這些數(shù)據(jù)對于計算機視覺的任務還遠遠不夠.而事實上,Hinton在使用ImageNet圖像進行物體識別訓練時,把每張圖像進行了很多微小的變換(旋轉、光照變化等)從而生成了比原圖像多幾倍,十幾倍的訓練數(shù)據(jù)情況下,識別率又提高了幾個百分點.這充分說明了我們的訓練數(shù)據(jù)在通常情況下還很不夠.大數(shù)據(jù)時代數(shù)據(jù)的自發(fā)性導致了數(shù)據(jù)本身的不精確性.不精確意味著數(shù)據(jù)有錯誤.和傳統(tǒng)的精確標注的數(shù)據(jù)相比,不精確是一個大問題.而實際上,對于不精確性的一個補償就是大量的數(shù)據(jù),由于數(shù)據(jù)量的巨大,這一問題變得沒有那么嚴重,因為其中還有很多高質量的數(shù)據(jù).在機器學習領域幾乎沒有對這種數(shù)據(jù)的不精確性做過工作.可能是因為統(tǒng)計機器學習方法已經(jīng)對噪聲進行了建模,這噪聲也可以包含數(shù)據(jù)的不精確性.另外,針對某些實際應用中的不精確性很難建模,所以分析算法的性能就太困難.相比機器學習領域,數(shù)據(jù)挖掘領域對此有過一些研究工作.這些研究工作討論了當標注數(shù)據(jù)存在錯誤時,是否能夠構建好的分類器.基本結論是:當大部分標注數(shù)據(jù)是正確的時候,少數(shù)(小于50%)的錯誤標注樣本對分類器的影響不大,錯誤標注數(shù)據(jù)的比例越小,分類器的準確性越高.當然,如果大部分標注樣本存在錯誤時怎么辦?對于某些具體的應用問題,當數(shù)據(jù)量很大的時候,可以有針對性地設計算法解決這個問題.我們曾經(jīng)考慮一種特殊情況,在這種情況下,即使大部分標注數(shù)據(jù)是錯誤的,仍然可以設計出好的分類器.看起來不精確性對機器學習是個不利的方面,而實際上,它并非全是壞處.例如:在互聯(lián)網(wǎng)上搜索時,百度和google會給出一些檢索結果.當用戶看到這些結果時,會點擊其中的一條,然后也許會再點擊另外一條.這些點擊信息告訴我們,用戶點擊的第一條可能不是他要找的網(wǎng)頁,或者第二條讓他更滿意.這些點擊信息雖然沒有明確做好網(wǎng)頁和查詢數(shù)據(jù)之間的標注,但是告訴我們一些可能的信息.這樣的數(shù)據(jù)如果足夠多,就有利用價值.一些研究組報告說,這些“弱標注”數(shù)據(jù)給他們的系統(tǒng)提供了很多有用的信息,而改進了他們的系統(tǒng).混雜性是大數(shù)據(jù)的另一個特性,是因為數(shù)據(jù)是自發(fā)生成的而帶來的一個特性.混雜性給我們提出的一個課題就是要把這些數(shù)據(jù)進行分離和整理,從而為進一步的機器學習做準備.這個過程是數(shù)據(jù)挖掘要完成的任務.3.2深度學習———多個含層的缺少在上個世紀八十年代和九十年代,反向傳播算法(BP算法)的出現(xiàn)使得人工神經(jīng)網(wǎng)絡的研究東山再起,得到了很大的重視和快速發(fā)展.然而經(jīng)過幾年的快速發(fā)展后,又迅速進入研究的低谷.2006年Hilton發(fā)現(xiàn)了深層神經(jīng)網(wǎng)絡的學習算法.這之后,人工神經(jīng)網(wǎng)絡又逐漸得到了重視,成為近年來的研究熱點.人工神經(jīng)網(wǎng)絡的這次東山又起,以一個新的面貌出現(xiàn):深度學習.這里的深度指網(wǎng)絡的層數(shù)多.二十年前的神經(jīng)網(wǎng)絡研究的大多是三層的神經(jīng)網(wǎng)絡:一個輸入層,一個隱含層,一個輸出層.反向傳播算法的出現(xiàn)讓多層神經(jīng)網(wǎng)絡的學習成為可能.當時出現(xiàn)了很多令人振奮的研究成果,其中一個就是關于多層神經(jīng)網(wǎng)絡的表達能力的結果:只含有一個隱層的前饋網(wǎng)絡是一個通用的函數(shù)逼近器,在一定條件下,它可以逼近任何一個連續(xù)函數(shù).這個結果說明有一個隱層的前饋網(wǎng)絡對于表達非線性函數(shù)來說已經(jīng)足夠,當然這并不說明一個隱層是最好的.也有研究結果表明,要逼近相同輸入維數(shù)的函數(shù),兩個隱層的網(wǎng)路可能比單個隱層的網(wǎng)絡所需隱單元數(shù)要少得多.盡管如此,因學習算法不令人滿意,很少有人使用兩層以上的神經(jīng)網(wǎng)絡結構.大量的研究表明,反向傳播算法嚴重過學習(overfitting).毫無疑問,反向傳播算法是一個貪婪優(yōu)化算法,其收斂到目標函數(shù)的一個局部極值.而目標函數(shù)是一個非凸的復雜的目標函數(shù),存在大量的局部極值.看起來,其中很多的局部極值不是我們想要的結果,而我們又無法提前選擇一個好的初值通過反向傳播算法得到理想的局部極值.樣本量太少也是導致神經(jīng)網(wǎng)絡嚴重過學習的一個重要原因.當時人們沒有使用那么多樣本有很多原因.一個是獲取足夠的樣本的代價太高,另外,計算能力的不足也限制了人們對于大樣本量學習的探索.因此,探討一個以上的隱含層的學習的研究工作非常少,發(fā)表的一些研究工作也不讓人樂觀.而這次深度學習的出現(xiàn)是通過逐層學習的方式解決了多個隱含層神經(jīng)網(wǎng)絡的初值選擇問題.圖2給出的是一個具有三個隱含層的逐層監(jiān)督學習示意圖.不僅如此,研究工作表明,非監(jiān)督數(shù)據(jù)在多個隱含層神經(jīng)網(wǎng)絡的初值學習中也起到了很重要的作用.這是一個很有意思的結果.在監(jiān)督學習中,需要具有樣本標號的監(jiān)督數(shù)據(jù).然而,獲取大量標注的樣本的代價過于昂貴.例如:語音信號數(shù)據(jù)庫、圖像數(shù)據(jù)庫的建立工作都說明了這一點.但是,如果不要求數(shù)據(jù)是監(jiān)督的,其數(shù)據(jù)獲取代價就小得多.例如:獲取大量的語音信號較為容易,因為每個人每天要說很多話,也可以從電視、廣播中得到這些語音信號.另外也可以在網(wǎng)絡上收集大量的圖像,或者通過手機、照相機拍攝大量的圖像.非監(jiān)督數(shù)據(jù)也可以用來通過類似監(jiān)督的逐層學習方式解決多個隱含層神經(jīng)網(wǎng)絡的初值選擇問題.仔細研究可以知道,深層網(wǎng)絡的逐層學習方法是個非?!按植凇钡膶W習方法,這其中有太多的近似.不過,這個學習過程給我們一些啟示:雖然這是個非常近似的算法,但是卻能得到如此好的泛化能力.這是什么原因?另外,近些年深度學習的研究表明,深層網(wǎng)絡的隱含節(jié)點學習到的是所研究問題的特征.這和機器學習、模式識別之前的研究非常不同.傳統(tǒng)的研究中,特征提取都是領域專家的工作.從輸入信號中經(jīng)過怎樣的變換來提取特征通常需要很多的領域知識.而在深度學習中,學習到的網(wǎng)絡的隱含節(jié)點對應于從輸入信號中經(jīng)過變換后的特征,并且這些特征是逐層越來越抽象的.圖3是以人臉識別為例,深層網(wǎng)絡隱含節(jié)點所學習到的特征的示意圖.在網(wǎng)絡的輸入層是每一個圖像塊,每個像素對應于一個神經(jīng)元.在第一個隱含層學習到的是一些非常簡單的模式,即一些帶有方向性的各種邊緣,這些模式與計算機視覺多年研究得到的視覺底層特征很類似.在更高層的隱含節(jié)點對應于更高一層,更抽象的特征.到最高層,對應于圖像的高級語義特征.而網(wǎng)絡結構逐層學習到更為抽象的特征,和神經(jīng)科學中對視神經(jīng)研究得到的結果也很吻合.因此,深度網(wǎng)絡學習的不僅僅是分類器,而且包含了需要的特征.讓深度學習成為熱點的另一個重要原因是其在實際應用方面的貢獻.語音識別是一個經(jīng)過多年研究的課題.在使用深度學習方法之前的若干年中,其識別性能沒有大的提高.而在使用了深度學習方法后,其性能有了一個飛躍(見表1).表1中GMM-HMM是使用深度網(wǎng)絡之前的最好的算法,DNN-HMM是使用深度網(wǎng)絡的算法.可以看到在這兩個測試中,錯誤率有了大幅度降低.這大大推進了語音識別的產(chǎn)業(yè)化進程.到目前為止,一些最好的語音識別系統(tǒng)都采用了深度學習技術,這包括微軟、谷歌、百度等公司的語音識別系統(tǒng).下面再以圖像目標識別為例看深度學習的貢獻.在使用ImageNet圖像數(shù)據(jù)庫進行的圖像中的物體識別競賽中,在2010和2011年最好的系統(tǒng)識別率分別為72%和74%.Hinton帶領的研究小組使用了深度學習技術,2012年獲得了競賽的冠軍,其識別率為85%.由此可以看到深度學習的貢獻.目前,對深度學習還存在不同的意見.主要存在下面的批評,一個是深度學習沒有理論.機器學習領域研究人員非常關心深度學習的理論進展.人們很想知道深度神經(jīng)網(wǎng)絡為什么可以具有這樣好的性能?其理論依據(jù)是什么?如果從統(tǒng)計學習的角度看,其泛化能力如何?這是深度學習目前需要研究和解決的問題.對深度學習的另一個批評是深度學習中需要太多的經(jīng)驗和人工嘗試和技巧.和傳統(tǒng)的神經(jīng)網(wǎng)絡的研究類似,深度學習中需要確定網(wǎng)絡的層數(shù),每層的節(jié)點數(shù),節(jié)點的激發(fā)函數(shù)等因素.因此,不容易掌握和使用.此外,大規(guī)模數(shù)據(jù)的學習對于深度學習也是一個不小的挑戰(zhàn).目前要解決的圖像識別和語音識別的學習數(shù)據(jù)往往幾十萬、幾百萬以上的樣本量,利用通常的計算機運行深度學習方法學習一遍數(shù)據(jù)通常需要幾天,或者是幾十天的時間.這完全不能滿足人們的需要.因此,一些研究人員做了一些深度學習加速算法的工作.3.3網(wǎng)絡模型仿真的應用概率圖模型是對隨機變量之間的條件獨立性建模的工具.概率圖模型一直受到關注,只是Kollar的書的出版,讓概率圖模型變得更受重視.概率圖模型的一個貢獻是讓很多的模型有了更為簡潔的表示,因此,我們對于很多模型有了更為直觀和深刻的認識.這包括了很多常見模型:主成分分析、高斯混合模型、隱馬爾科夫模型、獨立成分分析等.特別是在解決實際問題時,從概率圖模型的角度建模,模型表示簡單易理解,其推理也變得容易理解.因而,在計算機視覺、語音識別、文本分析的文章中常常見到用概率圖模型建模.深層神經(jīng)網(wǎng)絡也同樣可以用概率圖模型表示和分析.因為對條件獨立性建模,當所研究的問題中很多變量之間滿足條件獨立性時,采用概率圖模型建模有助于緩解維數(shù)災難帶來的困難.對此,上文中已經(jīng)討論過.和基于向量空間數(shù)據(jù)的建模相比,概率圖模型較好的結合了領域知識,即隨機變量(特征)之間的條件獨立性.機器學習通常把研究對象看作一個黑盒子,這是因為在很多情況下不清楚研究對象的輸入輸出關系.當對于這個輸入輸出關系有所認識時,充分利用這些知識有利于對于問題的解決.而概率圖模型是充分利用了隨機變量之間的條件獨立關系這一知識.概率圖模型的一個主要問題在于推理的困難.在精確推理時,其算法計算復雜度是指數(shù)爆炸的.因此,一些近似推理方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)化通風空調(diào)安裝項目協(xié)議2024版A版
- 三方債務責任轉移協(xié)議2024版
- 2025年度農(nóng)業(yè)園區(qū)場地租賃安全管理合同范本4篇
- 專業(yè)勞務分包協(xié)議(2024年版)樣本版A版
- 二零二四實習生就業(yè)權益與培訓協(xié)議范本規(guī)范5篇
- 2025年度測繪數(shù)據(jù)安全保密協(xié)議4篇
- 專業(yè)標識標牌定制及施工服務協(xié)議版B版
- 專業(yè)攝影委托協(xié)議細則(2024年)版B版
- 2024物業(yè)管理權轉讓服務合同
- 2024版食品安全購銷合作合同范本一
- 微機原理與接口技術考試試題及答案(綜合-必看)
- 勞務投標技術標
- 研發(fā)管理咨詢項目建議書
- 濕瘡的中醫(yī)護理常規(guī)課件
- 轉錢委托書授權書范本
- 一種配網(wǎng)高空作業(yè)智能安全帶及預警系統(tǒng)的制作方法
- 某墓園物業(yè)管理日常管護投標方案
- 蘇教版六年級數(shù)學上冊集體備課記載表
- 內(nèi)蒙古匯能煤電集團有限公司長灘露天煤礦礦山地質環(huán)境保護與土地復墾方案
- 22S702 室外排水設施設計與施工-鋼筋混凝土化糞池
- 2013日產(chǎn)天籟全電路圖維修手冊45車身控制系統(tǒng)
評論
0/150
提交評論