機器人的學習研究進展:深度學習及應用匯編_第1頁
機器人的學習研究進展:深度學習及應用匯編_第2頁
機器人的學習研究進展:深度學習及應用匯編_第3頁
機器人的學習研究進展:深度學習及應用匯編_第4頁
機器人的學習研究進展:深度學習及應用匯編_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、機器(j q)人的學習研究進展:深度學習及應用共八十六頁內 容 1.深度(shnd)學習概述 2.深度學習應用研究共八十六頁1.深度(shnd)學習概述1.1 概述1.2 背景1.3 人腦視覺機理1.4 關于特征1.5 深度(shnd)學習的基本思想1.6 淺層學習(Shallow Learning)和深度學習(Deep Learning)共八十六頁1.深度(shnd)學習概述1.7 Deep learning與Neural Network1.8 Deep learning訓練過程(guchng)1.9 Deep Learning的常用模型或者方法共八十六頁1.1 概述(i sh)Artifi

2、cial Intelligence,也就是人工智能,就像長生不老和星際漫游一樣,是人類最美好的夢想之一。雖然計算機技術已經(y jing)取得了長足的進步,但是到目前為止,還沒有一臺電腦能產生“自我”的意識。的確如此,在人類和大量現(xiàn)成數(shù)據(jù)的幫助下,電腦可以表現(xiàn)的十分強大,但是離開了這兩者,它甚至都不能分辨一個喵星人和一個汪星人。共八十六頁1.1 概述(i sh)圖靈(計算機和人工智能的鼻祖,分別對應于其著名的“圖靈機”和“圖靈測試”)在 1950 年的論文里,提出圖靈試驗的設想,即,隔墻對話,你將不知道與你談話的,是人還是電腦。這無疑給計算機,尤其是人工智能,預設了一個很高的期望值。但是半個世

3、紀過去了,人工智能的進展,遠遠沒有達到圖靈試驗的標準。這不僅讓多年翹首以待的人們,心灰意冷,認為人工智能是忽悠,相關(xinggun)領域是“偽科學”。共八十六頁1.1 概述(i sh)但是自 2006 年以來,機器學習領域,取得了突破性的進展(jnzhn)。圖靈試驗,至少不是那么可望而不可及了。至于技術手段,不僅僅依賴于云計算對大數(shù)據(jù)的并行處理能力,而且依賴于算法。這個算法就是,Deep Learning。借助于 Deep Learning 算法,人類終于找到了如何處理“抽象概念”這個亙古難題的方法。共八十六頁1.1 概述(i sh)2012年6月,紐約時報披露了Google Brain項目

4、,吸引了公眾的廣泛關注。這個(zh ge)項目是由著名的斯坦福大學的機器學習教授Andrew Ng和在大規(guī)模計算機系統(tǒng)方面的世界頂尖專家Jeff Dean共同主導,用16000個CPU Core的并行計算平臺訓練一種稱為“深度神經網(wǎng)絡”(DNN,Deep Neural Networks)的機器學習模型(內部共有10億個節(jié)點。共八十六頁1.1 概述(i sh)這一網(wǎng)絡自然是不能跟人類的神經網(wǎng)絡相提并論的。要知道,人腦中可是有150多億個神經元,互相(h xing)連接的節(jié)點也就是突觸數(shù)更是如銀河沙數(shù)。曾經有人估算過,如果將一個人的大腦中所有神經細胞的軸突和樹突依次連接起來,并拉成一根直線,可從地

5、球連到月亮,再從月亮返回地球)?!吧疃壬窠浘W(wǎng)絡”在語音識別和圖像識別等領域獲得了巨大的成功。共八十六頁1.1 概述(i sh)項目負責人之一Andrew稱:“我們沒有像通常做的那樣自己框定邊界,而是直接把海量數(shù)據(jù)投放到算法中,讓數(shù)據(jù)自己說話,系統(tǒng)會自動從數(shù)據(jù)中學習?!绷硗庖幻撠熑薐eff則說:“我們在訓練的時候從來不會告訴機器(j q)說:這是一只貓。系統(tǒng)其實是自己發(fā)明或者領悟了“貓”的概念?!惫舶耸?.1 概述(i sh)2012年11月,微軟在中國天津的一次活動上公開演示了一個全自動的同聲傳譯系統(tǒng),講演者用英文演講,后臺的計算機一氣呵成自動完成語音識別、英中機器翻譯和中文語音合成,效

6、果非常流暢。據(jù)報道,后面支撐的關鍵技術也是DNN,或者深度學習(DL,DeepLearning)。2013年1月,在百度年會上,創(chuàng)始人兼CEO李彥宏高調(godio)宣布要成立百度研究院,其中第一個成立的就是“深度學習研究所”(IDL,Institue of Deep Learning)。共八十六頁1.1 概述(i sh)為什么擁有大數(shù)據(jù)的互聯(lián)網(wǎng)公司爭相投入大量資源研發(fā)深度學習(xux)技術。聽起來感覺deeplearning很牛那樣。那什么是deep learning?為什么有deep learning?它是怎么來的?又能干什么呢?目前存在哪些困難呢?這些問題的簡答都需要慢慢來。咱們先來了解

7、下機器學習(人工智能的核心)的背景。共八十六頁1.2 背景(bijng)機器學習(Machine Learning)是一門專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能的學科。1959年美國的塞繆爾(Samuel)設計了一個(y )下棋程序,這個程序具有學習能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設計者本人。又過了3年,這個程序戰(zhàn)勝了美國一個(y )保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學習的能力,提出了許多令人深思的社會問題與哲學問題。共八十六頁1.2 背景(bijng)機器學習雖然發(fā)展(

8、fzhn)了幾十年,但還是存在很多沒有良好解決的問題:共八十六頁1.2 背景(bijng)例如圖像識別、語音識別、自然語言理解、天氣預測、基因表達、內容(nirng)推薦等等。目前我們通過機器學習去解決這些問題的思路都是這樣的(以視覺感知為例子):共八十六頁1.2 背景(bijng)從開始的通過傳感器(例如(lr)CMOS)來獲得數(shù)據(jù)。然后經過預處理、特征提取、特征選擇,再到推理、預測或者識別。最后一個部分,也就是機器學習的部分,絕大部分的工作是在這方面做的,也存在很多的學術論文和研究。而中間的三部分,概括起來就是特征表達。良好的特征表達,對最終算法的準確性起了非常關鍵的作用,而且系統(tǒng)主要的計

9、算和測試工作都耗在這一大部分。但是這塊實際中一般都是人工完成的,即靠人工提取特征。共八十六頁1.2 背景(bijng)截止(jizh)現(xiàn)在,也出現(xiàn)了不少優(yōu)秀特征表示方式(好的特征應具有不變性(大小、尺度和旋轉等)和可區(qū)分性)。例如Sift的出現(xiàn),是局部圖像特征描述子研究領域一項里程碑式的工作。由于SIFT對尺度、旋轉以及一定視角和光照變化等圖像變化都具有不變性,并且SIFT具有很強的可區(qū)分性,的確讓很多問題的解決變?yōu)榭赡?。但它也不是萬能的。共八十六頁1.2 背景(bijng)然而,手工地選取特征是一件非常費力、啟發(fā)式(需要專業(yè)知識)的方法,能不能選取好很大程度上靠經驗和運氣,而且它的調節(jié)需要大

10、量的時間。既然手工選取特征不太好,那么能不能自動地學習一些特征呢?答案是能!Deep Learning就是用來干這個事情的,看它的一個別名Unsupervised Feature Learning,就可以顧名思義了,Unsupervised的意思(y s)就是不要人參與特征的選取過程。共八十六頁1.2 背景(bijng)那它是怎么學習的呢?怎么知道哪些特征好哪些不好呢?我們說機器學習是一門專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為的學科。那人類的視覺系統(tǒng)是怎么工作的呢?為什么在茫茫人海,蕓蕓眾生,滾滾紅塵中我們都可以找到另一個她(因為(yn wi),你存在我深深的腦海里,我的夢里、我的心里、我

11、的歌聲里)。共八十六頁1.2 背景(bijng)人腦那么優(yōu)秀,我們能不能參考(cnko)人腦,模擬人腦呢?(注:好像和人腦扯上點關系的特征、算法,都不錯,但不知道是不是人為強加的,為了使自己的研究變得神圣和高雅。)近幾十年以來,認知神經科學、生物學等等學科的發(fā)展,讓我們對自己這個神秘的而又神奇的大腦不再那么的陌生。也給人工智能的發(fā)展推波助瀾。共八十六頁1.3 人腦視覺(shju)機理1981年的諾貝爾醫(yī)學/生理學獎,頒發(fā)(bnf)給了 David Hubel(出生于加拿大的美國神經生物學家) 和Torsten Wiesel以及 Roger Sperry。前兩位的主要貢獻,是“發(fā)現(xiàn)了視覺系統(tǒng)的信

12、息處理機制”,發(fā)現(xiàn)可視皮層是分級的。如“人見到蛇的情景”。共八十六頁共八十六頁1.3 人腦視覺(shju)機理我們看看他們做了什么。1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University研究了瞳孔區(qū)域與大腦皮層神經元的對應關系。他們在貓的后腦頭骨上開了一個3 毫米的小洞,向洞里插入電極(dinj),測量神經元的活躍程度。然后,他們在小貓的眼前,展現(xiàn)各種形狀、各種亮度的物體。并且,在展現(xiàn)每一件物體時,還改變物體放置的位置和角度。他們期望通過這個辦法,讓小貓瞳孔感受不同類型、不同強弱的刺激。共八十六頁1.3 人腦視覺(shju)機理之所

13、以做這個試驗,目的是去證明一個猜測:位于后腦皮層的不同視覺神經元,與瞳孔所受刺激之間,存在某種對應關系。一旦瞳孔受到某一種刺激,后腦皮層的某一部分神經元就會活躍。經歷了很多天反復的枯燥的試驗,同時犧牲了若干只可憐的小貓,David Hubel 和Torsten Wiesel 發(fā)現(xiàn)了一種被稱為“方向選擇性細胞(Orientation Selective Cell)”的神經元細胞。當瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個邊緣指向某個方向時,這種神經元細胞就會活躍。這個發(fā)現(xiàn)激發(fā)了人們對于神經系統(tǒng)的進一步思考。神經-中樞(zhngsh)-大腦的工作過程,或許是一個不斷迭代、不斷抽象的過程。共八十六頁1.

14、3 人腦視覺(shju)機理這里的關鍵詞有兩個,一個是抽象,一個是迭代。從原始信號(xnho),做低級抽象,逐漸向高級抽象迭代。人類的邏輯思維,經常使用高度抽象的概念。例如,從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進一步抽象(大腦進一步判定該物體是只氣球)。再比如人臉識別,如下圖:共八十六頁共八十六頁1.3 人腦視覺(shju)機理這個生理學的發(fā)現(xiàn),促成了計算機人工智能在四十年后的突破性發(fā)展??偟膩碚f,人的視覺系統(tǒng)的信息處理是分級的。從低級的V1區(qū)提取邊緣特征,再到V2區(qū)的形狀或者

15、目標的部分等,再到更高層,整個目標、目標的行為等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖。而抽象層面越高,存在的可能猜測就越少,就越利于分類。例如,單詞集合和句子的對應(duyng)是多對一的,句子和語義的對應(duyng)又是多對一的,語義和意圖的對應(duyng)還是多對一的,這是個層級體系。共八十六頁1.3 人腦視覺(shju)機理敏感的人注意到這個關鍵詞了:分層。而Deep learning的deep是不是就表示我存在多少層,也就是多深呢?對。那Deep learning是如何借鑒這個過程的呢?畢竟是歸于(guy)計算機來處理,面

16、對的一個問題就是怎么對這個過程進行建模?因為我們要學習的是特征的表達,那么關于特征,或者說關于這個層級特征,我們需要了解地更深入點。所以在說Deep Learning之前,我們下面有必要解釋一下特征。共八十六頁1.4 關于(guny)特征特征是機器學習系統(tǒng)的原材料,對最終模型的影響是毋庸置疑的。如果數(shù)據(jù)被很好地表達成了特征,通常(tngchng)線性模型就能達到滿意的精度。那對于特征,我們需要考慮什么呢?共八十六頁1.4 關于(guny)特征1.4.1 特征表示的粒度1.4.2 初級(chj)(淺層)特征表示1.4.3 結構性特征表示1.4.4 需要有多少個特征共八十六頁1.4.1 特征(tz

17、hng)表示的粒度學習(xux)算法在一個什么粒度上的特征表示,才有能發(fā)揮作用?就一個圖片來說,像素級的特征根本沒有價值。例如上面的摩托車,從像素級別,根本得不到任何信息,其無法進行摩托車和非摩托車的區(qū)分。共八十六頁1.4.1 特征(tzhng)表示的粒度而如果特征是一個具有結構性(或者說有含義)的時候,比如是否具有車把手(handle),是否具有車輪(wheel),就很容易把摩托車和非摩托車區(qū)分(qfn)開來,學習算法才能發(fā)揮作用。共八十六頁1.4.2 初級(chj)(淺層)特征表示既然像素(xin s)級的特征表示方法沒有作用,那怎樣的表示才有用呢?1995 年前后,Bruno Olsha

18、usen和 David Field 兩位學者任職 Cornell University,他們試圖同時用生理學和計算機的手段,雙管齊下,研究視覺問題。他們收集了很多黑白風景照片,從這些照片中,提取出400個小碎片,每個小碎片的尺寸均為 16x16 像素,不妨把這400個碎片標記為 Si, i = 0,. 399。接下來,再從這些黑白風景照片中,隨機提取另一個碎片,尺寸也是 16x16 像素,不妨把這個碎片標記為 T。共八十六頁1.4.2 初級(chj)(淺層)特征表示他們提出的問題是,如何從這400個碎片中,選取一組碎片Sk, 通過疊加的辦法,合成出一個新的碎片,而這個新的碎片應當與隨機選擇的目

19、標碎片T盡可能相似,同時(tngsh),Sk的數(shù)量盡可能少。用數(shù)學的語言來描述,就是:Sum_k (ak * Sk) - T, 其中 ak 是在疊加碎片 Sk 時的權重系數(shù)。為解決這個問題,Bruno Olshausen和 David Field 發(fā)明了一個算法,稀疏編碼(Sparse Coding)。共八十六頁1.4.2 初級(淺層)特征(tzhng)表示稀疏編碼是一個重復迭代的過程,每次迭代分兩步:1)選擇一組 Sk,然后調整 ak,使得Sum_k (ak * Sk) 最接近 T ;2)固定(gdng)住 ak,在 400 個碎片中,選擇其它更合適的碎片Sk,替代原先的 Sk,使得Sum_

20、k (ak * Sk) 最接近 T 。經過幾次迭代后,最佳的 Sk 組合被遴選出來。令人驚奇的是,被選中的 Sk基本上都是照片上不同物體的邊緣線,這些線段形狀相似,區(qū)別在于方向。共八十六頁1.4.2 初級(淺層)特征(tzhng)表示Bruno Olshausen和 David Field 的算法結果,與 David Hubel 和Torsten Wiesel 的生理發(fā)現(xiàn),不謀而合!也就是說,復雜圖形往往由一些基本結構組成。比如下圖:一個圖可以通過(tnggu)用64種正交的edges(可以理解成正交的基本結構)來線性表示。比如樣例的x可以用1-64個edges中的三個按照0.8,0.3,0.

21、5的權重調和而成。而其他基本edge沒有貢獻,因此均為0 。共八十六頁共八十六頁1.4.2 初級(淺層)特征(tzhng)表示另外,許多專家還發(fā)現(xiàn),不僅(bjn)圖像存在這個規(guī)律,聲音也存在。他們從未標注的聲音中發(fā)現(xiàn)了20種基本的聲音結構,其余的聲音可以由這20種基本結構合成。共八十六頁共八十六頁1.4.3 結構性特征(tzhng)表示小塊的圖形可以由基本edge構成,更結構化,更復雜的,具有(jyu)概念性的圖形如何表示呢?這就需要更高層次的特征表示,比如V2,V4。因此V1看像素級是像素級。V2看V1是像素級,這個是層次遞進的,高層表達由底層表達的組合而成。專業(yè)點說就是基basis。V1區(qū)

22、提出的basis是邊緣,然后V2層是V1層這些basis的組合,這時候V2區(qū)得到的又是高一層的basis,上上層又是上一層的組合basis結果.所以有專家說Deep learning就是“搞基”,因為難聽,所以美其名曰Deep learning或者Unsupervised Feature Learning.共八十六頁1.4.3 結構性特征(tzhng)表示直觀上說,就是找到有意義(yy)的小碎片(patch),再將其進行組合(combine),就得到了上一層的特征(feature),遞歸地向上學習特征(learning feature)。共八十六頁1.4.3 結構性特征(tzhng)表示在不同

23、對象(object)上做訓練(xnlin)時,所得的邊緣基(edge basis)是非常相似的,但對象部分(object parts)和模式(models) 完全不同。這樣便于圖像的準確識別。共八十六頁1.4.3 結構性特征(tzhng)表示從文本來說,一個doc文檔表示什么意思?我們描述一件事情,用什么來表示比較合適?用一個一個字嘛?不是,字就是像素級別了,起碼應該是term(術語/詞組),換句話說每個doc都由term構成;但這樣表示概念的能力就夠了嘛,可能也不夠,需要再上一步(y b),達到topic級,有了topic,再到doc就合理。但每個層次的數(shù)量差距很大,比如doc表示的概念-t

24、opic(千-萬量級)-term(10萬量級)-word(百萬量級)。一個人在看一個doc的時候,眼睛看到的是word,由這些word在大腦里自動切詞形成term,在按照概念組織的方式,先驗的學習,得到topic,然后再進行高層次的learning。共八十六頁1.4.4 需要有多少(dusho)個特征我們知道需要層次的特征(tzhng)構建,由淺入深,但每一層該有多少個特征(tzhng)呢?任何一種方法,特征越多,給出的參考信息就越多,準確性會得到提升。但特征多意味著計算復雜,探索的空間大,可以用來訓練的數(shù)據(jù)在每個特征上就會稀疏,都會帶來各種問題,并不一定特征越多越好。共八十六頁共八十六頁小

25、結上面我們談到為什么會有Deep learning(讓機器自動學習良好的特征,而免去人工選取過程。還有參考人的分層視覺處理系統(tǒng)),我們得到一個結論就是Deep learning需要多層來獲得更抽象的特征表達。那么多少層才合適呢?用什么架構(ji u)來建模呢?怎么進行非監(jiān)督訓練呢?共八十六頁1.5 深度(shnd)學習的基本思想假設我們有一個系統(tǒng)S,它有n層(S1,Sn),它的輸入是I,輸出是O,形象地表示為: I =S1=S2=.=Sn = O,如果輸出O等于輸入I,即輸入I經過這個系統(tǒng)變化之后沒有任何的信息損失。這意味著輸入I經過每一層Si都沒有任何的信息損失,即在任何一層Si,它都是原有

26、信息(即輸入I)的另外一種表示。現(xiàn)在回到我們的主題Deep Learning,我們需要自動地學習特征,假設我們有一堆輸入I(如一堆圖像或者文本),假設我們設計了一個系統(tǒng)S(有n層),我們通過調整(tiozhng)系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么我們就可以自動地獲取得到輸入I的一系列層次特征,即S1,, Sn。共八十六頁1.5 深度(shnd)學習的基本思想對于深度學習(xux)來說,其思想就是對堆疊多個層,也就是說這一層的輸出作為下一層的輸入。通過這種方式,就可以實現(xiàn)對輸入信息進行分級表達了。另外,前面是假設輸出嚴格地等于輸入,這個限制太嚴格,我們可以略微地放松這個限制,例如我們只要

27、使得輸入與輸出的差別盡可能地小即可,這個放松會導致另外一類不同的Deep Learning方法。上述就是Deep Learning的基本思想。共八十六頁1.6 淺層學習(xux)和深度學習(xux)1.6.1 淺層學習(xux)(Shallow Learning):機器學習第一次浪潮1.6.2 深度學習(Deep Learning):機器學習第二次浪潮共八十六頁1.6.1 淺層學習:機器(j q)學習第一次浪潮20世紀80年代末期,用于人工神經網(wǎng)絡的反向傳播算法(也叫Back Propagation算法或者BP算法)的發(fā)明,給機器學習帶來了希望,掀起了基于統(tǒng)計模型的機器學習熱潮。這個熱潮一直持

28、續(xù)(chx)到今天。人們發(fā)現(xiàn),利用BP算法可以讓一個人工神經網(wǎng)絡模型從大量訓練樣本中學習統(tǒng)計規(guī)律,從而對未知事件做預測。這種基于統(tǒng)計的機器學習方法比起過去基于人工規(guī)則的系統(tǒng),在很多方面顯出優(yōu)越性。這個時候的人工神經網(wǎng)絡,雖也被稱作多層感知機(Multi-layer Perceptron),但實際是一種只含有一層隱層節(jié)點的淺層模型。共八十六頁1.6.1 淺層學習:機器(j q)學習第一次浪潮20世紀90年代,各種各樣的淺層機器學習模型相繼被提出,例如支撐向量機(SVM,Support Vector Machines)、 Boosting、最大熵方法(如LR,Logistic Regression

29、)等。這些模型的結構基本上可以看成帶有一層隱層節(jié)點(如SVM、Boosting),或沒有隱層節(jié)點(如LR)。這些模型無論是在理論分析還是應用中都獲得了巨大的成功。相比之下,由于理論分析的難度大,訓練方法又需要很多經驗和技巧,這個時期(shq)深度人工神經網(wǎng)絡反而相對沉寂。共八十六頁1.6.2 深度學習(xux):機器學習第二次浪潮2006年,加拿大多倫多大學教授、機器學習領域的泰斗Geoffrey Hinton和他的學生Ruslan Salak hutdinov在國際頂級期刊科學上發(fā)表了一篇文章,開啟了深度學習在學術界和工業(yè)界的浪潮。這篇文章有兩個主要觀點:1)多隱層的人工神經網(wǎng)絡具有優(yōu)異的特

30、征學習能力,學習得到(d do)的特征對數(shù)據(jù)有更本質的刻畫,從而有利于可視化或分類;2)深度神經網(wǎng)絡在訓練上的難度,可以通過“逐層初始化”(layer-wise pre-training)來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學習實現(xiàn)的。共八十六頁當前多數(shù)分類、回歸(hugu)等學習方法為淺層結構算法,其局限性在于有限樣本和計算單元情況下對復雜函數(shù)的表示能力有限,針對復雜分類問題其泛化能力受到一定制約。深度學習可通過學習一種深層非線性網(wǎng)絡結構,實現(xiàn)復雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強大的從少數(shù)樣本中集中學習數(shù)據(jù)集本質特征的能力。(多層的好處是可以用較少的參數(shù)表示復雜的函數(shù)

31、)1.6.2 深度學習:機器(j q)學習第二次浪潮共八十六頁1.6.2 深度學習(xux):機器學習第二次浪潮共八十六頁深度學習的實質,是通過構建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特征學習”是目的。區(qū)別于傳統(tǒng)的淺層學習,深度學習的不同在于:1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節(jié)點;2)明確突出了特征學習的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易。與人工規(guī)則構造特征的方法相比,利用大數(shù)據(jù)來學習特征,更能夠刻畫(kh

32、u)數(shù)據(jù)的豐富內在信息。1.6.2 深度(shnd)學習:機器學習第二次浪潮共八十六頁1.7 Deep learning與Neural Network深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學習是無監(jiān)督學習的一種(y zhn)。深度學習的概念源于人工神經網(wǎng)絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。共八十六頁Deep learning本身算是machine learning的一個分支,簡單可以理解

33、為neural network的發(fā)展。大約二三十年前,neural network曾經是ML領域特別火熱的一個方向,但是后來確慢慢淡出了,原因包括以下幾個方面:1)比較容易過擬合,參數(shù)比較難調整,而且需要不少竅門;2)訓練速度比較慢,在層次比較少(小于等于3)的情況下效果(xiogu)并不比其它方法更優(yōu);1.7 Deep learning與Neural Network共八十六頁所以中間有大約20多年(du nin)的時間,神經網(wǎng)絡被關注很少,這段時間基本上是SVM和boosting算法的天下。但是,一個癡心的老先生Hinton,他堅持了下來,并最終(和其它人一起B(yǎng)engio、Yann.lecu

34、n等)提成了一個實際可行的deep learning框架。1.7 Deep learning與Neural Network共八十六頁Deep learning與傳統(tǒng)(chuntng)的神經網(wǎng)絡之間有相同的地方也有很多不同。相同點:deep learning采用了神經網(wǎng)絡相似的分層結構,系統(tǒng)由包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡,只有相鄰層節(jié)點之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個邏輯回歸模型;這種分層結構,是比較接近人類大腦的結構的。1.7 Deep learning與Neural Network共八十六頁1.7 Deep learning與Neural

35、Network共八十六頁而為了克服神經網(wǎng)絡訓練中的問題,DL采用了與神經網(wǎng)絡很不同的訓練機制。傳統(tǒng)神經網(wǎng)絡中,采用的是反向傳播(BP)的方式進行。即采用迭代的算法來訓練整個網(wǎng)絡,隨機設定初值,計算(j sun)當前網(wǎng)絡的輸出,然后根據(jù)當前計算的輸出值和實際的標記值之間的差去改變前面各層的參數(shù),直到收斂(整體是一個梯度下降法)。deep learning整體上是一個layer-wise的訓練機制。這樣做的原因是因為,如果采用back propagation的機制,對于一個deep network(7層以上),殘差傳播到最前面的層已經變得太小,出現(xiàn)所謂的gradient diffusion(梯度擴

36、散)。這個問題在后面有所討論。Deep learning與Neural Network異同(ytng)共八十六頁1.8 Deep learning訓練(xnlin)過程1.8.1 傳統(tǒng)(chuntng)神經網(wǎng)絡的訓練方法為什么不能用在深度神經網(wǎng)絡1.8.2 deep learning訓練過程共八十六頁1.8.1 傳統(tǒng)(chuntng)神經網(wǎng)絡的訓練方法為什么不能用在深度神經網(wǎng)絡BP算法作為傳統(tǒng)訓練多層網(wǎng)絡的典型算法,實際上對僅含幾層網(wǎng)絡,該訓練方法就已經很不理想(lxing)。深度結構(涉及多個非線性處理單元層)非凸目標代價函數(shù)中普遍存在的局部最小是訓練困難的主要來源。共八十六頁BP算法存在的

37、問題:(1)梯度越來越稀疏:從頂層越往下,誤差校正信號越來越小;(2)收斂(shulin)到局部最小值:尤其是從遠離最優(yōu)區(qū)域開始的時候(隨機值初始化會導致這種情況的發(fā)生);(3)一般,我們只能用有標簽的數(shù)據(jù)來訓練:但大部分的數(shù)據(jù)是沒標簽的,而大腦可以從沒有標簽的數(shù)據(jù)中學習;1.8.1 傳統(tǒng)(chuntng)神經網(wǎng)絡的訓練方法為什么不能用在深度神經網(wǎng)絡共八十六頁1.8.2 deep learning訓練(xnlin)過程如果對所有層同時訓練,時間復雜度會太高;如果每次訓練一層,偏差就會逐層傳遞。這會面臨跟上面(shng min)監(jiān)督學習中相反的問題,會嚴重欠擬合(因為深度網(wǎng)絡的神經元和參數(shù)太多了

38、)。共八十六頁1.8.2 deep learning訓練(xnlin)過程2006年,hinton提出(t ch)了在非監(jiān)督數(shù)據(jù)上建立多層神經網(wǎng)絡的一個有效方法,簡單的說,分為兩步,一是每次訓練一層網(wǎng)絡,二是調優(yōu),使原始表示x向上生成的高級表示r和該高級表示r向下生成的x盡可能一致。方法是:1)首先逐層構建單層神經元,這樣每次都是訓練一個單層網(wǎng)絡。2)當所有層訓練完后,Hinton使用wake-sleep算法進行調優(yōu)。共八十六頁1.8.2 deep learning訓練(xnlin)過程將除最頂層的其它層間的權重變?yōu)殡p向的,這樣最頂層仍然是一個單層神經網(wǎng)絡,而其它層則變?yōu)榱藞D模型。向上的權重用

39、于“認知”,向下的權重用于“生成”。然后使用(shyng)Wake-Sleep算法調整所有的權重。讓認知和生成達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。比如頂層的一個結點表示人臉,那么所有人臉的圖像應該激活這個結點,并且這個結果向下生成的圖像應該能夠表現(xiàn)為一個大概的人臉圖像。共八十六頁1.8.2 deep learning訓練(xnlin)過程Wake-Sleep算法(sun f)分為醒(wake)和睡(sleep)兩個部分。1)wake階段:認知過程(從現(xiàn)實到概念),通過外界的特征和向上的權重(認知權重)產生每一層的抽象表示(結點狀態(tài)),并且使用梯度下降修改層間的下

40、行權重(生成權重)。如:“如果現(xiàn)實跟我想象的不一樣,改變我的權重使得我想象的東西就是這樣的”。共八十六頁1.8.2 deep learning訓練(xnlin)過程2)sleep階段:生成過程(從概念到現(xiàn)實),通過頂層表示(醒時學得的概念)和向下權重(生成權重),生成底層的狀態(tài),同時修改(xigi)層間向上的權重。如:“如果夢中的景象不是我腦中的相應概念,改變我的向上的權重(認知權重)使得這種景象在我看來就是這個概念”。共八十六頁deep learning具體(jt)訓練過程1)使用(shyng)自下上升非監(jiān)督學習(就是從底層開始,一層一層的往頂層訓練)2)自頂向下的監(jiān)督學習(就是通過帶標簽的

41、數(shù)據(jù)去訓練,誤差自頂向下傳輸,對網(wǎng)絡進行微調)共八十六頁1)使用(shyng)自下上升非監(jiān)督學習采用無標定數(shù)據(jù)(有標定數(shù)據(jù)也可)分層訓練各層參數(shù),這一步可以看作是一個無監(jiān)督訓練過程,是和傳統(tǒng)神經網(wǎng)絡區(qū)別最大的部分(這個過程可以看作是feature learning過程):具體的,先用無標定數(shù)據(jù)訓練第一層,訓練時先學習第一層的參數(shù)(這一層可以看作是得到一個使得輸出和輸入差別最小的三層神經網(wǎng)絡的隱層),由于模型capacity的限制以及稀疏性約束,使得得到的模型能夠學習到數(shù)據(jù)本身的結構,從而得到比輸入更具有表示能力(nngl)的特征;在學習得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓練第

42、n層,由此分別得到各層的參數(shù);共八十六頁2)自頂向下的監(jiān)督(jind)學習基于第一步得到的各層參數(shù)進一步調整整個多層模型的參數(shù),這一步是一個有監(jiān)督訓練過程(guchng);第一步類似神經網(wǎng)絡的隨機初始化初值過程(guchng),由于DL的第一步不是隨機初始化,而是通過學習輸入數(shù)據(jù)的結構得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果;所以,deep learning效果好很大程度上歸功于第一步的feature learning過程。共八十六頁1.9 Deep Learning的常用模型(mxng)或者方法1.9.1 AutoEncoder 自動編碼器1.9.2 Sparse Codi

43、ng 稀疏(xsh)編碼1.9.3 Restricted Boltzmann Machine (RBM) 限制波爾茲曼機1.9.4 Deep Belief Networks 深度信念網(wǎng)絡1.9.5 Convolutional Neural Networks卷積神經網(wǎng)絡共八十六頁1.9.1 AutoEncoder 自動(zdng)編碼器Deep Learning最簡單的一種方法是利用人工神經網(wǎng)絡的特點,人工神經網(wǎng)絡(ANN)本身就是具有層次結構的系統(tǒng),如果給定一個神經網(wǎng)絡,我們假設其輸出與輸入是相同的,然后訓練調整其參數(shù),得到每一層中的權重。自然地,我們就得到了輸入I的幾種不同表示(每一層代表一

44、種表示),這些表示就是特征。自動編碼器就是一種盡可能復現(xiàn)輸入信號的神經網(wǎng)絡。為了實現(xiàn)這種復現(xiàn),自動編碼器就必須(bx)捕捉可以代表輸入數(shù)據(jù)的最重要的因素,就像PCA那樣,找到可以代表原信息的主要成分。共八十六頁具體(jt)過程1)給定無標簽數(shù)據(jù),用非監(jiān)督學習學習特征2)通過編碼器產生特征,然后訓練(xnlin)下一層,這樣逐層訓練3)有監(jiān)督微調共八十六頁1)給定無標簽數(shù)據(jù),用非監(jiān)督學習(xux)學習(xux)特征在我們(w men)之前的神經網(wǎng)絡中,如第一個圖,我們(w men)輸入的樣本是有標簽的,即(input, target),這樣我們(w men)根據(jù)當前輸出和target(label

45、)之間的差去改變前面各層的參數(shù),直到收斂。但現(xiàn)在我們(w men)只有無標簽數(shù)據(jù),也就是右邊的圖。那么這個誤差怎么得到呢?共八十六頁1)給定無標簽數(shù)據(jù),用非監(jiān)督學習(xux)學習(xux)特征如下圖,我們將input輸入一個encoder編碼器,就會得到一個code,這個code也就是輸入的一個表示,那么我們怎么知道這個code表示的就是input呢?我們加一個decoder解碼器,這時候decoder就會輸出一個信息,那么如果輸出的這個信息和一開始的輸入信號input是很像的(理想情況下就是一樣的),那很明顯,我們就有理由相信這個code是靠譜的。所以,我們就通過調整encoder和deco

46、der的參數(shù),使得重構誤差最小,這時候我們就得到了輸入input信號的第一個表示了,也就是編碼code了。因為是無標簽(bioqin)數(shù)據(jù),所以誤差的來源就是直接重構后與原輸入相比得到。共八十六頁1.9.4 Deep Belief Networks 深度信念(xnnin)網(wǎng)絡DBNs是一個概率生成模型,與傳統(tǒng)的判別模型的神經網(wǎng)絡相對,生成模型是建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅評估了后者而已,也就是P(Label|Observation)。對于(duy)在深度神經網(wǎng)絡應用傳統(tǒng)的BP算法的時候,DBNs遇到了以下問題:(1)需要為訓練提供一個有標簽的樣本集;(2)學習過程較慢;(3)不適當?shù)膮?shù)選擇會導致學習收斂于局部最優(yōu)解。共八十六頁1.9.4 Deep Belief Networks 深度(shnd)信念網(wǎng)絡共八十六頁1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論