深度學習方法在圖像處理中的應用與研究總結(jié)_第1頁
深度學習方法在圖像處理中的應用與研究總結(jié)_第2頁
深度學習方法在圖像處理中的應用與研究總結(jié)_第3頁
深度學習方法在圖像處理中的應用與研究總結(jié)_第4頁
深度學習方法在圖像處理中的應用與研究總結(jié)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、深度學習方法在圖像處理中的應用與研究1. 概述和背景12.人腦視覺機理33.深度學習的基本思想64.深度學習的常用方法75. 總結(jié)與展望9深度學習方法在圖像處理中的應用與研究 1. 概述和背景 Artificial Intelligence,也就是人工智能,就像長生不老和星際漫游一樣,是人類最美好的夢想之一。雖然計算機技術已經(jīng)取得了長足的進步,但是到目前為止,還沒有一臺電腦能產(chǎn)生“自我”的意識。是的,在人類和大量現(xiàn)成數(shù)據(jù)的幫助下,電腦可以表現(xiàn)的十分強大,但是離開了這兩者,它甚至都不能分辨一個喵星人和一個汪星人。 圖靈(圖靈,大家都知道吧。計算機和人工智能的鼻祖,分別對應于其著名的“圖靈機”和“

2、圖靈測試”)在 1950 年的論文里,提出圖靈試驗的設想,即,隔墻對話,你將不知道與你談話的,是人還是電腦。這無疑給計算機,尤其是人工智能,預設了一個很高的期望值。但是半個世紀過去了,人工智能的進展,遠遠沒有達到圖靈試驗的標準。這不僅讓多年翹首以待的人們,心灰意冷,認為人工智能是忽悠,相關領域是“偽科學”。 但是自 2006 年以來,機器學習領域,取得了突破性的進展。圖靈試驗,至少不是那么可望而不可及了。至于技術手段,不僅僅依賴于云計算對大數(shù)據(jù)的并行處理能力,而且依賴于算法。這個算法就是,Deep Learning。借助于 Deep Learning 算法,人類終于找到了如何處理“抽象概念”這

3、個亙古難題的方法。 在實際應用中,例如對象分類問題如對象的分類(對象可是文檔、圖像、音頻等),我們不得不面對的一個是問題是如何用數(shù)據(jù)來表示這個對象,當然這里的數(shù)據(jù)并非初始的像素或者文字,也就是這些數(shù)據(jù)是比初始數(shù)據(jù)具有更為高層的含義,這里的數(shù)據(jù)往往指的就是對象的特征。例如人們常常將文檔、網(wǎng)頁等數(shù)據(jù)用詞的集合來表示,根據(jù)文檔的詞集合表示到一個詞組短語的向量空間 (vector space model, VSM模型)中,然后才能根抓不同的學習方法設計出適用的分類器來對目標對象進行分類;又如在圖像處理中,像素強度的集合的表示方法可以最初淺的表示一幅圖像,這也是我們視覺意義上的圖像,一可是由于各種原因人

4、們提出了更高層的語義的特征,如SIFT為經(jīng)典的幾何特征、以LBP為經(jīng)典的紋理特征、以特征臉為經(jīng)典的統(tǒng)計特征等,像SIFT,特征在很多圖像處理的應用中突顯出其優(yōu)越性,因此特征選取得好壞對于實際應用的影響是很深刻的。因此,選取什么特征或者用什么特征來表示某一對象對于解決一個實際問題非常的重要。然而,人為地選取特征的時間代價是非常昂貴,另外勞動成本也高,而所謂的啟發(fā)式的算法得到的結(jié)果往往不穩(wěn)定,結(jié)果好壞經(jīng)常是依靠經(jīng)驗和運氣。既然如此,人們自然考慮到自動學習來完成特征抽取這一任務。Deep Learning的產(chǎn)生就是緣于此任務,它又被稱為無監(jiān)督的特征學習(Unsupervised Feature Le

5、arning ),一顯然從這個名稱就可以知道這是一個沒有人為參與的特征選取方法。 深度學習(Deep Learning)的概念是2006年左右由 Geoffrey Hinton等人在science上發(fā)表的一篇文章(Reducing the dimensionality of data with neural networks提出來的,主要通過神經(jīng)網(wǎng)絡(Neural Network NN)來模擬人的大腦的學習過程,希望借鑒人腦的多層抽象機制來實現(xiàn)對現(xiàn)實對象或數(shù)抓(圖像、語音及文木等)的抽象表達,整合特征抽取和分類器到一個學習框架下,特征的抽取過程中應該盡量少地減少人為的干預。 深度學習是通過大量

6、的簡單神經(jīng)元組成,每層的神經(jīng)元接收更低層的神經(jīng)元的輸入,通過輸入與輸出之間的非線性關系,將低層特征組合成更高層的抽象表示,并發(fā)現(xiàn)觀測數(shù)據(jù)的分布式特征。通過自下而上的學習形成多層的抽象表示,并多層次的特征學習是大連理卜大學碩十學位論文一個自動地無人工干預的過程。根據(jù)學習到的網(wǎng)絡結(jié)構,系統(tǒng)將輸入的樣本數(shù)據(jù)映射到各種層次的特征,并利用分類器或者匹配算法對頂層的輸出單元進行分類識別等。2.人腦視覺機理研究表明,哺乳動物的大腦皮層,處理輸入信息時是采用了一種分層機制,信息從感知器官輸入后,經(jīng)過多層的神經(jīng)元,在經(jīng)過每一層神經(jīng)元時,神經(jīng)元會將能夠體現(xiàn)對象本質(zhì)的特征抽取出來,然后將這些特征繼續(xù)傳遞到下一層神經(jīng)

7、元上,同樣地,后繼的各層神經(jīng)元都是以類似的方式處理和傳遞信息,最后傳至大腦。深層的人工神經(jīng)網(wǎng)絡的誕生很大程度上受這一發(fā)現(xiàn)的啟示,即構建一種包含多層結(jié)點,并且使得信息、得以逐層處理抽象的神經(jīng)網(wǎng)絡。換言之,哺乳動物的大腦是以深度方式組織的,這一類深層的結(jié)構組織里的每一層會對于輸入進行不同層次的信息處理或者抽象表示,因此,實際生活中,層次化的方法經(jīng)常被用于表示一些抽象的語義概念。與哺乳動物一樣,人類的大腦處理信矛息時也是采用逐層傳輸和表達的方式,人腦的初級視覺系統(tǒng),首先利用某些神經(jīng)元探測物體邊界、元形狀,然后又利用其他的神經(jīng)元組織,逐步向上處理形成更復雜的視覺形狀。人腦識別物體的原理是:外部世界中的

8、物體先在視網(wǎng)膜上進行投影,然后大腦的視皮層對于聚集在視網(wǎng)膜上的投影進行分解處理,最后利用這些分解處理后的信息進行物體識別。因此視皮層的功能不是僅限于簡單的重現(xiàn)視網(wǎng)膜圖像,而是提取和計算感知信號。視覺系統(tǒng)的輸入數(shù)據(jù)量在人類感知系統(tǒng)的層次結(jié)構進行了維數(shù)減約,并剔除了與物體個性無關的信息;例如對于處理潛在結(jié)構是復雜的豐富數(shù)據(jù)(如圖像、視頻、主意等),深度學習應該與人類視覺系統(tǒng)一樣可以精準地獲取對象的本質(zhì)特征。深度學習的構想是借鑒大腦的分層組織方式,通過由下向上、由簡單到高級的逐層抽象的特征學習,研究者們期望深度網(wǎng)絡結(jié)構能通過模擬大腦來解決復雜的模式識別難題。因此,深層的人工神經(jīng)網(wǎng)絡是一種人工定義用于

9、模擬人腦組織形式的多層神經(jīng)網(wǎng)絡。從文本來說,一個doc表示什么意思?我們描述一件事情,用什么來表示比較合適?用一個一個字嘛,我看不是,字就是像素級別了,起碼應該是term,換句話說每個doc都由term構成,但這樣表示概念的能力就夠了嘛,可能也不夠,需要再上一步,達到topic級,有了topic,再到doc就合理。但每個層次的數(shù)量差距很大,比如doc表示的概念->topic(千-萬量級)->term(10萬量級)->word(百萬量級)。 一個人在看一個doc的時候,眼睛看到的是word,由這些word在大腦里自動切詞形成term,在按照概念組織的方式,先驗的學習,得到top

10、ic,然后再進行高層次的learning。那我們需要有多少個特征呢?我們知道需要層次的特征構建,由淺入深,但每一層該有多少個特征呢?任何一種方法,特征越多,給出的參考信息就越多,準確性會得到提升。但特征多意味著計算復雜,探索的空間大,可以用來訓練的數(shù)據(jù)在每個特征上就會稀疏,都會帶來各種問題,并不一定特征越多越好。一些淺層的算法(指僅含一個隱層的神經(jīng)網(wǎng)絡、核回歸、支撐向量機等),當給定有限數(shù)量的樣本和計算單元時,淺層結(jié)構難以有效地表示復雜函數(shù),并且對于復雜分類問題表現(xiàn)性能及泛化能力針均有明顯的不足,尤其當目標對象具有豐富的含義。深度學習通過大量的簡單神經(jīng)元組成的網(wǎng)絡,利用輸入與輸出之間的非線性關

11、系,對復雜函數(shù)進行近似,對觀測樣本進行擬合,并在學習輸入樣本本質(zhì)特征的抽取上體現(xiàn)了強大的能力。有文獻中就列舉出一系列無法使用淺層網(wǎng)絡表示的函數(shù),這些研究成果揭示了淺層網(wǎng)絡的局限性,從而也激發(fā)了人們探尋深度網(wǎng)絡在一些復雜函數(shù)表示和復雜分類的應用前景。指出深度學習結(jié)構在對于復雜函數(shù)的表示問題上具有非常高的效率及效果,而一個不適用的結(jié)構模型否(如淺層網(wǎng)絡)對數(shù)據(jù)建模時可能需要數(shù)目非常大的計算單元。3.深度學習的基本思想假設一個系統(tǒng)S,它是一個n層(S1,Sn)的結(jié)構,I是系統(tǒng)的輸入,O是系統(tǒng)輸出,形象地表示為:I =>S1=>S2=>.=>Sn=>O,如果輸出O等于輸入

12、I,物理意義也就是表明在經(jīng)過系統(tǒng)變化之后,輸入I的信息量沒有任何損失,和原始的輸入保持了不變,這表明了輸入I經(jīng)過每一層S;均沒有丟失任何信息,,即在任何一層S;,它都是輸入I也就是原始信息的另外一種表示。簡單說,深度學習的精髓也就是,在一個n層的神經(jīng)網(wǎng)絡中,任何一層的輸入I和輸出O是“相等.的。學習過程中,我們希望它是不需要人為干預的,它能夠自動地學習對象的特征。在給定一組原始的輸入I(可以理解為是一堆圖像或者文本、一段語音之類),經(jīng)過一個包含n層的系統(tǒng)S時,我們通過調(diào)整系統(tǒng)中參數(shù),使得輸出與輸出相等,即輸出O仍然是輸入I,這樣,我們就獲取了輸入I(原始數(shù)據(jù))的一系列的層次特征,記為S, .S

13、n。另外,前面是假設輸出嚴格地等于輸入,即這個地方“相等”有兩個含義在里面:第一個是說O和I不是在絕對形式上的相等,而是在抽象意義上的相等;另外一點指的是限制的約束的程度,比如說是不會造成歧義的完全“相等”還是有適當寬松條件的“相等”。而絕對意義上的“相等”這個限制太嚴格,我們可以略微地放松這個限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個放松會形成另外一類不同的深度學習的方法。舉個不太恰當?shù)睦?,比如說對“交通工具”這個概念上,I是“可以駕駛的四個輪子”,O是“車”,這樣雖然對兩者的描述不一致,但是我們都一可以理解為“交通工具”了。上述就是深度學習的基本思想,而上述中的兩個思想也

14、對應了深度學習中的兩個經(jīng)典的方法AutoEncoder和Sparse Coding,還有一個很常用的方法就是受限玻爾茲曼機(Restrict Boltzmann Machine, RBM )。4. 深度學習的常用方法4.1AutoEncoder自動編碼器最簡單的一種方法是利用人工神經(jīng)網(wǎng)絡的特點,人工神經(jīng)網(wǎng)絡(ANN)本身就是具有層次結(jié)構的系統(tǒng),如果給定一個神經(jīng)網(wǎng)絡,我們假設其輸出與輸入是相同的,然后訓練調(diào)整其參數(shù),得到每一層中的權重,自然地,我們就得到了輸入I的兒種不同表示(每一層是輸入的一種表示),這些表示就是特征,在研究中可以發(fā)現(xiàn),如果在原有的特征中加入這些自動學習得到的特t正可以大大提高

15、精確度,甚至在分類問題中比前址好的分類算法效果還要好,這種方法稱為自動編碼(AutoEncoder )。4.2、Sparse Coding稀疏編碼如果我們把輸出必須和輸入相等的限制放松,同時利用線性代數(shù)中基的概念,即O=Wx B, +硯x B, +.+W,x B, , B是基,W;是系數(shù),我們可以得到這樣一個優(yōu)化問題:Min 11一Olo通過求解這個最優(yōu)化式子,我們可以求得系數(shù)W和基B;,這些系數(shù)和基礎就是輸入的另外一種近似表達,因此,它們可以被當成特征來表達輸入I,這個過程也是自動學習得到的。如果我們在上述式子上加上L1的Regularity限制,得到: MinI一O+u*(IW卜硯I+W,

16、)。(2. 1)種方法被稱為Sparse Coding,它是一種對對象的簡潔表征的方法,這種方法可以自動地學習到隱藏在對象數(shù)據(jù)潛在的基函數(shù)。4.3、Restricted Boltzmann Machine(RBM)限制波爾茲曼機假設有一個二部圖,每一個相同層的節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱層(h),如果假設所有的節(jié)點都是二值變量節(jié)點(只能取0或者1值),同時假設聯(lián)合概率分布p(v, h)滿足Boltzmann分布,我們稱這個模型是受限玻爾茲曼機(RBM)。下面我們來看看為什么它是Deep Learning方法。首先,這個模型因為是二部圖,所以在己知v的情況下,所有

17、的隱藏節(jié)點之間是條件獨立的,即p(hIv卜p(h, I 1,) . p(h I v)。同理,在己知隱藏層h的情況下,所有的可視節(jié)點都是條件獨立的,同時又由于所有的v和h滿足Boltzmann分布,因此,當輸入v的時候,通過p(hlv)可以得到隱藏層h,而得到隱藏層h之后,通過p(vlh)又能重構可視層,通過調(diào)整參數(shù),我們就是要使得從隱藏層得到的可視層VI與原來的可視層v如果一樣,那么得到的隱藏層就是可視層的另外一種表達,因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征,所以它就是一種Dcep Learning方法。文獻X32從理論一上證明,當隱層節(jié)點足夠多時,深度網(wǎng)絡就可以表示任意離散分布;文獻33指出

18、受限玻爾茲曼機中的隱層節(jié)點與可視節(jié)點可以為任意的指數(shù)族單元(即給定隱單元(可見單元),可見單元(隱單元)的分布的形式一可以為任意的指數(shù)族分布),如高斯單元、softmax單元、泊松單元等等。4.4、Deep BeliefNetworks深信度網(wǎng)絡 DBNs是一個概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡相對,生成模型是建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了后者,也就是P(Label|Observation)。對于在深度神經(jīng)網(wǎng)絡應用傳統(tǒng)的BP算法的時候,DBNs遇到了以下問題:

19、(1)需要為訓練提供一個有標簽的樣本集;(2)學習過程較慢;(3) 不適當?shù)膮?shù)選擇會導致學習收斂于局部最優(yōu)解。 目前,和DBNs有關的研究包括堆疊自動編碼器,它是通過用堆疊自動編碼器來替換傳統(tǒng)DBNs里面的RBMs。這就使得可以通過同樣的規(guī)則來訓練產(chǎn)生深度多層神經(jīng)網(wǎng)絡架構,但它缺少層的參數(shù)化的嚴格要求。與DBNs不同,自動編碼器使用判別模型,這樣這個結(jié)構就很難采樣輸入采樣空間,這就使得網(wǎng)絡更難捕捉它的內(nèi)部表達。但是,降噪自動編碼器卻能很好的避免這個問題,并且比傳統(tǒng)的DBNs更優(yōu)。它通過在訓練過程添加隨機的污染并堆疊產(chǎn)生場泛化性能。訓練單一的降噪自動編碼器的過程和RBMs訓練生成模型的過程一樣

20、。 4.5 Networks卷積神經(jīng)網(wǎng)絡 卷積神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網(wǎng)絡結(jié)構使之更類似于生物神經(jīng)網(wǎng)絡,降低了網(wǎng)絡模型的復雜度,減少了權值的數(shù)量。該優(yōu)點在網(wǎng)絡的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡是為識別二維形狀而特殊設計的一個多層感知器,這種網(wǎng)絡結(jié)構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。 CNNs是受早期的延時神經(jīng)網(wǎng)絡(TDNN)的影響。延時神經(jīng)網(wǎng)絡通過在時間維度上共享權值降低學習復雜度,適用于語音和時間序列信號的處理。 CNNs

21、是第一個真正成功訓練多層網(wǎng)絡結(jié)構的學習算法。它利用空間關系減少需要學習的參數(shù)數(shù)目以提高一般前向BP算法的訓練性能。CNNs作為一個深度學習架構提出是為了最小化數(shù)據(jù)的預處理要求。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級結(jié)構的最低層的輸入,信息再依次傳輸?shù)讲煌膶?,每層通過一個數(shù)字濾波器去獲得觀測數(shù)據(jù)的最顯著的特征。這個方法能夠獲取對平移、縮放和旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征,因為圖像的局部感受區(qū)域允許神經(jīng)元或者處理單元可以訪問到最基礎的特征,例如定向邊緣或者角點。5. 總結(jié)與展望1)Deep learning總結(jié) 深度學習是關于自動學習要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復雜)表達的算

22、法。換句話來說,深度學習算法自動的提取分類需要的低層次或者高層次特征。高層次特征,一是指該特征可以分級(層次)地依賴其他特征,例如:對于機器視覺,深度學習算法從原始圖像去學習得到它的一個低層次表達,例如邊緣檢測器,小波濾波器等,然后在這些低層次表達的基礎上再建立表達,例如這些低層次表達的線性或者非線性組合,然后重復這個過程,最后得到一個高層次的表達。 Deep learning能夠得到更好地表示數(shù)據(jù)的feature,同時由于模型的層次、參數(shù)很多,capacity足夠,因此,模型有能力表示大規(guī)模數(shù)據(jù),所以對于圖像、語音這種特征不明顯(需要手工設計且很多沒有直觀物理含義)的問題,能夠在大規(guī)模訓練數(shù)據(jù)上取得更好的效果。此外,從模式識別特征和分類器的角度,deep learning框架將feature和分類器結(jié)合到一個框架中,用數(shù)據(jù)去學習feature,在使用中減少了手工設計feature的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來也有很多方便之處,因此,是十

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論