視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)

上傳人：2*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁(yè)數(shù)：126 大小：18.91MB 積分：30 舉報(bào) 版權(quán)申訴

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)_第2頁(yè)

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)_第3頁(yè)

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)_第4頁(yè)

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)_第5頁(yè)

已閱讀5頁(yè)，還剩121頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十四章：深度學(xué)習(xí)2015.9于深圳視頻監(jiān)控與視頻分析目錄概述動(dòng)機(jī)深度學(xué)習(xí)簡(jiǎn)介深度學(xué)習(xí)的訓(xùn)練過程深度學(xué)習(xí)的具體模型及方法深度學(xué)習(xí)的性能比較深度學(xué)習(xí)的應(yīng)用展望參考文獻(xiàn)相關(guān)程序軟件及鏈接概述深度學(xué)習(xí)：一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法可能的的名稱：深度學(xué)習(xí)特征學(xué)習(xí)無監(jiān)督特征學(xué)習(xí)動(dòng)機(jī)良好的特征表達(dá)，對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用；識(shí)別系統(tǒng)主要的計(jì)算和測(cè)試工作耗時(shí)主要集中在特征提取部分；特征的樣式目前一般都是人工設(shè)計(jì)的，靠人工提取特征。Low-levelsensingPre-processingFeatureextract.FeatureselectionInference:prediction,recognition傳統(tǒng)的模式識(shí)別方法：動(dòng)機(jī)——為什么要自動(dòng)學(xué)習(xí)特征實(shí)驗(yàn)：LP-βMultipleKernelLearningGehlerandNowozin,OnFeatureCombinationforMulticlassObjectClassification,ICCV’09采用39個(gè)不同的特征PHOG,SIFT,V1S+,

RegionCov.Etc.在普通特征上MKL表現(xiàn)有限結(jié)論：特征更重要?jiǎng)訖C(jī)——為什么要自動(dòng)學(xué)習(xí)特征機(jī)器學(xué)習(xí)中，獲得好的特征是識(shí)別成功的關(guān)鍵目前存在大量人工設(shè)計(jì)的特征，不同研究對(duì)象特征不同，特征具有多樣性，如：SIFT,HOG,LBP等手工選取特征費(fèi)時(shí)費(fèi)力，需要啟發(fā)式專業(yè)知識(shí)，很大程度上靠經(jīng)驗(yàn)和運(yùn)氣是否能自動(dòng)地學(xué)習(xí)特征？中層特征中層信號(hào)：動(dòng)機(jī)——為什么要自動(dòng)學(xué)習(xí)特征“Tokens”fromVisionbyD.Marr:連續(xù)平行連接拐角物體部件:他們對(duì)于人工而言是十分困難的，那么如何學(xué)習(xí)呢？動(dòng)機(jī)——為什么要自動(dòng)學(xué)習(xí)特征一般而言，特征越多，給出信息就越多，識(shí)別準(zhǔn)確性會(huì)得到提升；但特征多，計(jì)算復(fù)雜度增加，探索的空間大，可以用來訓(xùn)練的數(shù)據(jù)在每個(gè)特征上就會(huì)稀疏。結(jié)論：不一定特征越多越好！需要有多少個(gè)特征，需要學(xué)習(xí)確定。動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)人腦視覺機(jī)理1981年的諾貝爾醫(yī)學(xué)獎(jiǎng)獲得者DavidHubel和TorstenWiesel發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機(jī)制發(fā)現(xiàn)了一種被稱為“方向選擇性細(xì)胞的神經(jīng)元細(xì)胞，當(dāng)瞳孔發(fā)現(xiàn)了眼前的物體的邊緣，而且這個(gè)邊緣指向某個(gè)方向時(shí)，這種神經(jīng)元細(xì)胞就會(huì)活躍動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)人腦視覺機(jī)理人的視覺系統(tǒng)的信息處理是分級(jí)的高層的特征是低層特征的組合，從低層到高層的特征表示越來越抽象，越來越能表現(xiàn)語義或者意圖抽象層面越高，存在的可能猜測(cè)就越少，就越利于分類動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)視覺的層次性屬性學(xué)習(xí)，類別作為屬性的一種組合映射Lampertetal.CVPR’09類別標(biāo)簽屬性圖像特征動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)特征表示的粒度具有結(jié)構(gòu)性（或者語義）的高層特征對(duì)于分類更有意義動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)初級(jí)（淺層）特征表示高層特征或圖像，往往是由一些基本結(jié)構(gòu)（淺層特征）組成的動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)性特征表示動(dòng)機(jī)——為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu)淺層學(xué)習(xí)的局限人工神經(jīng)網(wǎng)絡(luò)（BP算法）—雖被稱作多層感知機(jī)，但實(shí)際是種只含有一層隱層節(jié)點(diǎn)的淺層模型SVM、Boosting、最大熵方法（如LR，LogisticRegression）—帶有一層隱層節(jié)點(diǎn)（如SVM、Boosting），或沒有隱層節(jié)點(diǎn)（如LR）的淺層模型局限性：有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限，針對(duì)復(fù)雜分類問題其泛化能力受限。深度學(xué)習(xí)2006年，加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗GeoffreyHinton在《科學(xué)》上發(fā)表論文提出深度學(xué)習(xí)主要觀點(diǎn)：1）多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力，學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類；2）深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度，可以通過“逐層初始化”（layer-wisepre-training）來有效克服，逐層初始化可通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。深度學(xué)習(xí)本質(zhì)：通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù)（可為無標(biāo)簽數(shù)據(jù)），來學(xué)習(xí)更有用的特征，從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性?！吧疃饶Ｐ汀笔鞘侄危疤卣鲗W(xué)習(xí)”是目的。與淺層學(xué)習(xí)區(qū)別：1）強(qiáng)調(diào)了模型結(jié)構(gòu)的深度，通常有5-10多層的隱層節(jié)點(diǎn)；2）明確突出了特征學(xué)習(xí)的重要性，通過逐層特征變換，將樣本在原空間的特征表示變換到一個(gè)新特征空間，從而使分類或預(yù)測(cè)更加容易。與人工規(guī)則構(gòu)造特征的方法相比，利用大數(shù)據(jù)來學(xué)習(xí)特征，更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。深度學(xué)習(xí)好處：可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)，實(shí)現(xiàn)復(fù)雜函數(shù)逼近，表征輸入數(shù)據(jù)分布式表示。深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)：深度學(xué)習(xí)：深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)相同點(diǎn)：二者均采用分層結(jié)構(gòu)，系統(tǒng)包括輸入層、隱層（多層）、輸出層組成的多層網(wǎng)絡(luò)，只有相鄰層節(jié)點(diǎn)之間有連接，同一層以及跨層節(jié)點(diǎn)之間相互無連接，每一層可以看作是一個(gè)logistic回歸模型。不同點(diǎn)：神經(jīng)網(wǎng)絡(luò)：采用BP算法調(diào)整參數(shù)，即采用迭代算法來訓(xùn)練整個(gè)網(wǎng)絡(luò)。隨機(jī)設(shè)定初值，計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出，然后根據(jù)當(dāng)前輸出和樣本真實(shí)標(biāo)簽之間的差去改變前面各層的參數(shù)，直到收斂；深度學(xué)習(xí)：采用逐層訓(xùn)練機(jī)制。采用該機(jī)制的原因在于如果采用BP機(jī)制，對(duì)于一個(gè)deepnetwork（7層以上），殘差傳播到最前面的層將變得很小，出現(xiàn)所謂的gradientdiffusion（梯度擴(kuò)散）。深度學(xué)習(xí)vs.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的局限性：1）比較容易過擬合，參數(shù)比較難調(diào)整，而且需要不少技巧；2）訓(xùn)練速度比較慢，在層次比較少（小于等于3）的情況下效果并不比其它方法更優(yōu)；深度學(xué)習(xí)訓(xùn)練過程不采用BP算法的原因（1）反饋調(diào)整時(shí)，梯度越來越稀疏，從頂層越往下，誤差校正信號(hào)越來越?。唬?）收斂易至局部最小，由于是采用隨機(jī)值初始化，當(dāng)初值是遠(yuǎn)離最優(yōu)區(qū)域時(shí)易導(dǎo)致這一情況；（3）BP算法需要有標(biāo)簽數(shù)據(jù)來訓(xùn)練，但大部分?jǐn)?shù)據(jù)是無標(biāo)簽的；深度學(xué)習(xí)訓(xùn)練過程第一步：采用自下而上的無監(jiān)督學(xué)習(xí)1）逐層構(gòu)建單層神經(jīng)元。2）每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層，逐層調(diào)整。這個(gè)過程可以看作是一個(gè)featurelearning的過程，是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。深度學(xué)習(xí)訓(xùn)練過程wake-sleep算法:1）wake階段：認(rèn)知過程，通過下層的輸入特征（Input）和向上的認(rèn)知（Encoder）權(quán)重產(chǎn)生每一層的抽象表示（Code），再通過當(dāng)前的生成（Decoder）權(quán)重產(chǎn)生一個(gè)重建信息（Reconstruction），計(jì)算輸入特征和重建信息殘差，使用梯度下降修改層間的下行生成（Decoder）權(quán)重。也就是“如果現(xiàn)實(shí)跟我想象的不一樣，改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實(shí)一樣”。2）sleep階段：生成過程，通過上層概念（Code）和向下的生成（Decoder）權(quán)重，生成下層的狀態(tài)，再利用認(rèn)知（Encoder）權(quán)重產(chǎn)生一個(gè)抽象景象。利用初始上層概念和新建抽象景象的殘差，利用梯度下降修改層間向上的認(rèn)知（Encoder）權(quán)重。也就是“如果夢(mèng)中的景象不是我腦中的相應(yīng)概念，改變我的認(rèn)知權(quán)重使得這種景象在我看來就是這個(gè)概念”。深度學(xué)習(xí)訓(xùn)練過程EncoderDecoderInputImageClasslabele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:深度學(xué)習(xí)訓(xùn)練過程第二步：自頂向下的監(jiān)督學(xué)習(xí)

這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上，在最頂?shù)木幋a層添加一個(gè)分類器（例如羅杰斯特回歸、SVM等），而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí)，利用梯度下降法去微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù)。深度學(xué)習(xí)的第一步實(shí)質(zhì)上是一個(gè)網(wǎng)絡(luò)參數(shù)初始化過程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)初值隨機(jī)初始化，深度學(xué)習(xí)模型是通過無監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的，因而這個(gè)初值更接近全局最優(yōu)，從而能夠取得更好的效果。深度學(xué)習(xí)的具體模型及方法自動(dòng)編碼器（AutoEncoder）稀疏自動(dòng)編碼器(SparseAutoEncoder)降噪自動(dòng)編碼器(DenoisingAutoEncoders)深度學(xué)習(xí)的具體模型及方法EncoderDecoderInput(Image/Features)OutputFeaturese.g.Feed-back/

generative/

top-downpathFeed-forward/

bottom-uppath自動(dòng)編碼器（AutoEncoder）深度學(xué)習(xí)的具體模型及方法σ(Wx)σ(WTz)(Binary)Inputx(Binary)Featuresze.g.自動(dòng)編碼器（AutoEncoder）EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersWTSigmoidfunctionσ(.)深度學(xué)習(xí)的具體模型及方法稀疏自動(dòng)編碼器(SparseAutoEncoder)限制每次得到的表達(dá)code盡量稀疏限制每次得到的表達(dá)code盡量稀疏深度學(xué)習(xí)的具體模型及方法稀疏自動(dòng)編碼器(SparseAutoEncoder)FiltersFeaturesSparseCodingInput

Patch深度學(xué)習(xí)的具體模型及方法σ(Wx)DzInputPatchxSparseFeaturesze.g.EncoderfiltersWSigmoidfunctionσ(.)DecoderfiltersDL1SparsityTraining稀疏自動(dòng)編碼器(SparseAutoEncoder)深度學(xué)習(xí)的具體模型及方法稀疏自動(dòng)編碼器(SparseAutoEncoder)1）Training階段：給定一系列的樣本圖片[x1,x2,…]，我們需要學(xué)習(xí)得到一組基[Φ1,Φ2,…]，也就是字典。

可使用K-SVD方法交替迭代調(diào)整a[k]，Φ[k]，直至收斂，從而可以獲得一組可以良好表示這一系列x的字典。深度學(xué)習(xí)的具體模型及方法稀疏自動(dòng)編碼器(SparseAutoEncoder)2）Coding階段：給定一個(gè)新的圖片x，由上面得到的字典，利用OMP算法求解一個(gè)LASSO問題得到稀疏向量a。這個(gè)稀疏向量就是這個(gè)輸入向量x的一個(gè)稀疏表達(dá)。深度學(xué)習(xí)的具體模型及方法稀疏自動(dòng)編碼器(SparseAutoEncoder)深度學(xué)習(xí)的具體模型及方法降噪自動(dòng)編碼器(DenoisingAutoEncoders)在自動(dòng)編碼器的基礎(chǔ)上，對(duì)訓(xùn)練數(shù)據(jù)加入噪聲，自動(dòng)編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此，這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá)，這也是它的泛化能力比一般編碼器強(qiáng)的原因。深度學(xué)習(xí)的具體模型及方法Autoencoder(mostDeepLearningmethods)RBMs/DBMs [Lee/Salakhutdinov]Denoisingautoencoders [Ranzato]Predictivesparsedecomposition

[Ranzato]Decoder-onlySparsecoding [Yu]DeconvolutionalNets [Yu]

Encoder-onlyNeuralnets(supervised) [Ranzato]深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）定義：假設(shè)有一個(gè)二部圖，同層節(jié)點(diǎn)之間沒有鏈接，一層是可視層，即輸入數(shù)據(jù)層（v)，一層是隱藏層(h)，如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值（0，1值）變量節(jié)點(diǎn)，同時(shí)假設(shè)全概率分布p(v,h)滿足Boltzmann分布，我們稱這個(gè)模型是RestrictedBoltzmannMachine(RBM)。深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）限制波爾茲曼機(jī)（RBM）是一種深度學(xué)習(xí)模型。深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）定義聯(lián)合組態(tài)（jointconfiguration）能量：這樣某個(gè)組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布和這個(gè)組態(tài)的能量來確定：深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）給定隱層h的基礎(chǔ)上，可視層的概率確定：（可視層節(jié)點(diǎn)之間是條件獨(dú)立的）給定可視層v的基礎(chǔ)上，隱層的概率確定：深度學(xué)習(xí)的具體模型及方法限制波爾茲曼機(jī)（RestrictedBoltzmannMachine）

待求問題：給定一個(gè)滿足獨(dú)立同分布的樣本集：D={v(1),v(2),…,v(N)}，需要學(xué)習(xí)模型參數(shù)θ={W,a,b}。

求解：

最大似然估計(jì)：我們需要選擇一個(gè)參數(shù)，讓我們當(dāng)前的觀測(cè)樣本的概率最大對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo)，即可得到L最大時(shí)對(duì)應(yīng)的參數(shù)W：若隱藏層層數(shù)增加，可得到DeepBoltzmannMachine(DBM)深度學(xué)習(xí)的具體模型及方法DeepBoltzmannMachine(DBM)深度學(xué)習(xí)的具體模型及方法深信度網(wǎng)絡(luò)（DeepBeliefNetworks）DeepBeliefNetworks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(luò)（即有向圖模型），而在最遠(yuǎn)離可視層的部分使用RestrictedBoltzmannMachine的模型。深度學(xué)習(xí)的具體模型及方法深信度網(wǎng)絡(luò)（DeepBeliefNetworks）深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）

CRBM是為識(shí)別二維圖像信息而特殊設(shè)計(jì)的一個(gè)多層感知器。概念示范：輸入圖像通過與m個(gè)可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積，在C1層產(chǎn)生m個(gè)特征映射圖，然后特征映射圖中每組的n個(gè)像素再進(jìn)行求和，加權(quán)值，加偏置，通過一個(gè)Sigmoid函數(shù)得到m個(gè)S2層的特征映射圖。這些映射圖再進(jìn)過濾波得到C3層。這個(gè)層級(jí)結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終，這些像素值被光柵化，并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，得到輸出。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）權(quán)值共享減少參數(shù)的方法：每個(gè)神經(jīng)元無需對(duì)全局圖像做感受，只需感受局部區(qū)域（FeatureMap），在高層會(huì)將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。每個(gè)神經(jīng)元參數(shù)設(shè)為相同，即權(quán)值共享，也即每個(gè)神經(jīng)元用同一個(gè)卷積核去卷積圖像。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）隱層神經(jīng)元數(shù)量的確定神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動(dòng)步長(zhǎng)有關(guān)。例如，輸入圖像是1000x1000像素，濾波器大小是10x10，假設(shè)濾波器間沒有重疊，即步長(zhǎng)為10，這樣隱層的神經(jīng)元個(gè)數(shù)就是(1000x1000)/(10x10)=10000個(gè)深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）多濾波器情形不同的顏色表示不同種類的濾波器每層隱層神經(jīng)元的個(gè)數(shù)按濾波器種類的數(shù)量翻倍每層隱層參數(shù)個(gè)數(shù)僅與濾波器大小、濾波器種類的多少有關(guān)例如：隱含層的每個(gè)神經(jīng)元都連接10x10像素圖像區(qū)域，同時(shí)有100種卷積核（濾波器）。則參數(shù)總個(gè)數(shù)為：（10x10+1）x100=10100個(gè)深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）卷積過程：用一個(gè)可訓(xùn)練的濾波器fx去卷積一個(gè)輸入的圖像（第一階段是輸入的圖像，后面的階段就是FeatureMap了），然后加一個(gè)偏置bx，得到卷積層Cx。子采樣過程：每鄰域n個(gè)像素通過池化（pooling）步驟變?yōu)橐粋€(gè)像素，然后通過標(biāo)量Wx+1加權(quán)，再增加偏置bx+1，然后通過一個(gè)sigmoid激活函數(shù)，產(chǎn)生一個(gè)大概縮小n倍的特征映射圖Sx+1。深度學(xué)習(xí)的具體模型及方法卷積波爾茲曼機(jī)（ConvolutionalRBM）CNN的關(guān)鍵技術(shù)：局部感受野、權(quán)值共享、時(shí)間或空間子采樣CNN的優(yōu)點(diǎn)：1、避免了顯式的特征抽取，而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)；2、同一特征映射面上的神經(jīng)元權(quán)值相同，從而網(wǎng)絡(luò)可以并行學(xué)習(xí)，降低了網(wǎng)絡(luò)的復(fù)雜性；3、采用時(shí)間或者空間的子采樣結(jié)構(gòu)，可以獲得某種程度的位移、尺度、形變魯棒性；3、輸入信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能很好的吻合，在語音識(shí)別和圖像處理方面有著獨(dú)特優(yōu)勢(shì)。深度學(xué)習(xí)的具體模型及方法基于CRBM的深度學(xué)習(xí)框架深度學(xué)習(xí)性能比較DeepnetsVS.Boosting深度學(xué)習(xí)性能比較DeepnetsVS.ProbabilisticModels深度學(xué)習(xí)性能比較隨機(jī)文法模型SetofproductionrulesforobjectsZhu&Mumford,StochasticGrammarofImages,F&T2006自動(dòng)學(xué)習(xí)人工指定[S.C.Zhuetal.]深度學(xué)習(xí)性能比較基于文法模型的物體檢測(cè)-R.Girshick,P.Felzenszwalb,D.McAllester,NIPS2011-Learnlocalappearance

&shape人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較部件和結(jié)構(gòu)模型DefinedconnectivitygraphLearnappearance/relativeposition[Felzenszwalb&HuttenlocherCVPR’00][FischlerandR.Elschlager1973]人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較基于部件與結(jié)構(gòu)的分層模型-Fidleretal.ECCV’10-Fidler&LeonardisCVPR’07人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較遞歸和與圖模型-LeoZhu,YuanhaoChen,AlanYuille&collaboratorsRecursivecomposition,AND/ORgraphLearn#unitsatlayer人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較自動(dòng)編碼模型[Hintonetal.ICANN’11]反卷積網(wǎng)絡(luò)模型[Zeileretal.ICCV’11]-Explicitrepresentationofwhat/where人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較神經(jīng)網(wǎng)絡(luò)Dedicated

pooling/LCN

layersNoseparationof

what/whereModality

independent

(e.g.speech,

images)[Leetal.,ICML’12]人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)性能比較波爾茲曼機(jī)Homogenous

architectureNoseparationof

what/whereModality

independent

(e.g.speech,images)[Salakhutdinov&HintonAISTATS’09]人工指定自動(dòng)學(xué)習(xí)深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用空間金字塔（SpatialPyramids）深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用實(shí)驗(yàn)在Caltech256數(shù)據(jù)集上，利用單特征識(shí)別，SparseCRBM性能最優(yōu)深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用ConvolutionalDBNforaudioMaxpoolingnode

DetectionnodesMaxpoolingnode

Detectionnodes深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用ConvolutionalDBNforaudio深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在視頻識(shí)別上的應(yīng)用SPACE-TIMEDEEPBELIEFNETWORKS深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在視頻識(shí)別上的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用如果模態(tài)間存在著內(nèi)在的聯(lián)系，即存在sharedRepresentation，那么理論上模型應(yīng)支持訓(xùn)練一個(gè)模態(tài)，而測(cè)試另一個(gè)模態(tài)時(shí)，仍能獲得好的分類性能。深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用在深度學(xué)習(xí)模型中，對(duì)于相關(guān)任務(wù)的聯(lián)合學(xué)習(xí)，往往會(huì)取得較好的特征表達(dá)；多任務(wù)聯(lián)合學(xué)習(xí)，能夠增強(qiáng)損失函數(shù)的作用效能；比如：?jiǎn)为?dú)進(jìn)行人臉檢測(cè)會(huì)比較難（光照、遮擋等因素），但是當(dāng)人臉檢測(cè)與人臉識(shí)別這兩個(gè)相關(guān)的任務(wù)聯(lián)合學(xué)習(xí)時(shí)，人臉檢測(cè)的難度反而降低了。深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用特征共享深度學(xué)習(xí)的應(yīng)用基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用大尺度數(shù)據(jù)集：樣本總數(shù)>100M,類別總數(shù)>10K,特征維度>10K深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用模型的并行運(yùn)算化深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用分布式深度學(xué)習(xí)模型深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用分布式深度學(xué)習(xí)模型深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用參數(shù)個(gè)數(shù)達(dá)到1.15billion，若不能并行優(yōu)化參數(shù)，任務(wù)無法完成！深度學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)的State-of-the-art展望未來需解決的問題：對(duì)于一個(gè)特定的框架，多少維的輸入它可以表現(xiàn)得較優(yōu)？對(duì)捕捉短時(shí)或者長(zhǎng)時(shí)間的時(shí)間依賴，哪種架構(gòu)才是有效的？如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu)，融合多種感知的信息？如何分辨和利用學(xué)習(xí)獲得的中、高層特征語義知識(shí)？有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu)，以改進(jìn)其魯棒性和對(duì)變形及數(shù)據(jù)丟失的不變性？模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法？是否存在更有效的可并行訓(xùn)練算法？參考文獻(xiàn)Tutorials&BackgroundMaterial–YoshuaBengio,LearningDeepArchitecturesforAI,FoundationsandTrendsinMachineLearning,2(1),pp.1-127,2009.–LeCun,Chopra,Hadsell,Ranzato,Huang:ATutorialonEnergy-BasedLearning,inBakir,G.andHofman,T.andScholkopf,B.andSmola,A.andTaskar,B.(Eds),PredictingStructuredData,MITPress,2006ConvolutionalNets–LeCun,Bottou,BengioandHaffner:Gradient-BasedLearningAppliedtoDocumentRecognition,ProceedingsoftheIEEE,86(11):2278-2324,November1998–Jarrett,Kavukcuoglu,Ranzato,LeCun:WhatistheBestMulti-StageArchitectureforObjectRecognition?,Proc.InternationalConferenceonComputerVision(ICCV'09),IEEE,2009

–Kavukcuoglu,Sermanet,Boureau,Gregor,Mathieu,LeCun:LearningConvolutionalFeatureHierachiesforVisualRecognition,AdvancesinNeuralInformationProcessingSystems(NIPS2010),23,2010參考文獻(xiàn)UnsupervisedLearning–ICAwithReconstructionCostforEfficientOvercompleteFeatureLearning.Le,Karpenko,Ngiam,Ng.InNIPS2011–Rifai,Vincent,Muller,Glorot,Bengio,ContractingAuto-Encoders:Explicitinvarianceduringfeatureextraction,in:ProceedingsoftheTwenty-eightInternationalConferenceonMachineLearning(ICML'11),2011-Vincent,Larochelle,Lajoie,Bengio,Manzagol,StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion,JournalofMachineLearningResearch,11:3371--3408,2010.-Gregor,Szlam,LeCun:StructuredSparseCodingviaLateralInhibition,AdvancesinNeuralInformationProcessingSystems(NIPS2011),24,2011-Kavukcuoglu,Ranzato,LeCun."FastInferenceinSparseCodingAlgorithmswithApplicationstoObjectRecognition".ArXiv1010.34672008-Hinton,Krizhevsky,Wang,TransformingAuto-encoders,ICANN,2011Multi-modalLearning–Multimodaldeeplearning,Ngiam,Khosla,Kim,Nam,Lee,Ng.InProceedingsoftheTwenty-EighthInternationalConferenceonMachineLearning,2011.參考文獻(xiàn)LocallyConnectedNets

–Gregor,LeCun“Emergenceofcomplex-likecellsinatemporalproductnetworkwithlocalreceptivefields”Arxiv.2009–Ranzato,Mnih,Hinton“GeneratingmorerealisticimagesusinggatedMRF's”NIPS2010–Le,Ngiam,Chen,Chia,Koh,Ng“Tiledconvolutionalneuralnetworks”NIPS2010DistributedLearning–Le,Ranzato,Monga,Devin,Corrado,Chen,Dean,Ng."BuildingHigh-LevelFeaturesUsingLargeScaleUnsupervisedLearning".InternationalConferenceofMachineLearning(ICML2012),Edinburgh,2012.PapersonSceneParsing–Farabet,Couprie,Najman,LeCun,“SceneParsingwithMultiscaleFeatureLearning,PurityTrees,andOptimalCovers”,inProc.oftheInternationalConferenceonMachineLearning(ICML'12),Edinburgh,Scotland,2012.-Socher,Lin,Ng,Manning,“ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks”.InternationalConferenceofMachineLearning(ICML2011)2011.參考文獻(xiàn)PapersonObjectRecognition-Boureau,LeRoux,Bach,Ponce,LeCun:Askthelocals:multi-waylocalpoolingforimagerecognition,Proc.ICCV2011-Sermanet,LeCun:TrafficSignRecognitionwithMulti-ScaleConvolutionalNetworks,ProceedingsofInternationalJointConferenceonNeuralNetworks(IJCNN'11)-Ciresan,Meier,Gambardella,Schmidhuber.ConvolutionalNeuralNetworkCommitteesForHandwrittenCharacterClassification.11thInternationalConferenceonDocumentAnalysisandRecognition(ICDAR2011),Beijing,China.-Ciresan,Meier,Masci,Gambardella,Schmidhuber.Flexible,HighPerformanceConvolutionalNeuralNetworksforImageClassification.InternationalJointConferenceonArtificialIntelligenceIJCAI-2011.PapersonActionRecognition–Learninghierarchicalspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis,Le,Zou,Yeung,Ng.CVPR2011PapersonSegmentation–Turaga,Briggman,Helmstaedter,Denk,SeungMaximinlearningofimagesegmentation.NIPS,2009.參考文獻(xiàn)PapersonVisionforRobotics–Hadsell,Sermanet,Scoffier,Erkan,Kavackuoglu,Muller,LeCun:LearningLong-RangeVisionforAutonomousOff-RoadDriving,JournalofFieldRobotics,26(2):120-144,February2009,DeepConvexNets&Deconv-Nets–Deng,Yu.“DeepConvexNetwork:AScalableArchitectureforSpeechPatternClassification.”Interspeech,2011.-Zeiler,Taylor,Fergus"AdaptiveDeconvolutionalNetworksforMidandHighLevelFeatureLearning."ICCV.2011PapersonBiologicalInspiredVision–Serre,Wolf,Bileschi,Riesenhuber,Poggio.RobustObjectRecognitionwithCortex-likeMechanisms,IEEETransactionsonPatternAnalysisandMachineIntelligence,29,3,411-426,2007.-Pinto,Doukhan,DiCarlo,Cox"Ahigh-throughputscreeningapproachtodiscoveringgoodformsofbiologicallyinspiredvisualrepresentation."{PLoS}ComputationalBiology.2009參考文獻(xiàn)PapersonEmbeddedConvNetsforReal-TimeVisionApplications–Farabet,Martini,Corda,Akselrod,Culurciello,LeCun:NeuFlow:ARuntimeReconfigurableDataflowProcessorforVision,WorkshoponEmbeddedComputerVision,CVPR2011PapersonImageDenoisingUsingNeuralNets–Burger,Schuler,Harmeling:ImageDenoisng:CanPlainNeuralNetworksCompetewithBM3D?,ComputerVisionandPatternRecognition,CVPR2012,相關(guān)程序軟件及鏈接DeepLearningwebsite

–/MatlabcodeforR-ICAunsupervisedalgorithm–/Python-basedlearninglibrary–/C++codeforConvNets

–/software/theano/LushlearninglibrarywhichincludesConvNets–/~quocle/rica_release.ziplearninglibrarythatsupportsneuralnettraining–http://www.torch.chCodeusedtogeneratedemoforthistutorialRanzato–/~fergus/tutorials/deep_learning_cvpr12/GlobalContrastbasedSalientRegionDetectionMing-MingCheng,TsinghuaUniversityitCVPR2011GlobalContrastbasedSalientRegionDetection自動(dòng)化學(xué)院匯報(bào)人：付忠敏MainContents1

234基于直方圖對(duì)比度的檢測(cè)方法基于區(qū)域?qū)Ρ榷鹊臋z測(cè)方法總結(jié)與展望顯著區(qū)域檢測(cè)及分析方法SalientRegionofimage顯著性源于視覺的獨(dú)特性、不可預(yù)測(cè)性、稀缺性以及奇異性，并且是由顏色、梯度、邊緣、邊界等圖像所致。人們普遍認(rèn)為，大腦更容易響應(yīng)圖像中的高對(duì)比度區(qū)域的刺激。文章作者主要依據(jù)圖像的對(duì)比度來進(jìn)行顯著性區(qū)域檢測(cè)。什么是圖像的顯著性區(qū)域?SalientRegionDetectionThreePrinciples1全局對(duì)比傾向于將大范圍的目標(biāo)和周圍環(huán)境分離，這種對(duì)比優(yōu)于只在輪廓附近產(chǎn)生較高顯著性的局部對(duì)比度。3一個(gè)區(qū)域的對(duì)比度，主要由它和周圍區(qū)域的對(duì)比度決定，相距很遠(yuǎn)的區(qū)域起的作用較小。2全局的考慮可以為圖像中相似的區(qū)域分配一個(gè)相近的顯著性值，并且均勻的突出目標(biāo)。Twomethodsofsalientregiondetection1HC（HistogramContrast）算法視覺系統(tǒng)對(duì)圖像中像素的色彩差異很敏感。據(jù)此，根據(jù)源圖像的顏色統(tǒng)計(jì)特征提出了基于直方圖對(duì)比的圖像像素顯著性值檢測(cè)方法。2RC（RegionContrast）算法人們會(huì)更加注意圖像中與周圍物體對(duì)比度大的區(qū)域，除對(duì)比度外，相鄰區(qū)域的高對(duì)比度比很遠(yuǎn)區(qū)域的高對(duì)比度更容易導(dǎo)致一個(gè)區(qū)域引起人類的注意。

Saliencyvalueofpixel

一個(gè)像素的顯著性值用它和圖像中其他像素的顏色的對(duì)比度來定義；上式展開得：什么是Lab顏色空間？

在這種定義下，相同顏色的像素點(diǎn)具有相同的顯著性值，對(duì)式子進(jìn)行重排，將相同顏色的像素歸到一起，得到每種顏色的顯著性值。Cl表示像素Ik的顏色；n為圖像所含顏色總數(shù)目；fj為Cj在圖像的所有顏色中出現(xiàn)的概率；D(cl,cj)表示Lab顏色空間中的顏色距離。Saliencyvalueofcolor

Saliencyvalueofcolor國(guó)旗中像素Ik的顏色是黃色或者紅色，圖像所含顏色總數(shù)目2；根據(jù)公式計(jì)算：黃色出現(xiàn)的概率接近于0紅色出現(xiàn)的概率接近于1Zhai和Shah僅僅使用了亮度來減少顏色的數(shù)量，在這個(gè)基礎(chǔ)上他們提出了用于圖像顯著區(qū)域檢測(cè)的LC檢測(cè)。先將每個(gè)顏色通道量化成12個(gè)份，將顏色減少到12*12*12，再將出現(xiàn)頻率較小的顏色丟掉，保留高頻出現(xiàn)的顏色。然而，真彩色空間包含256*256*256種可能的顏色（16萬色），比圖像的像素總數(shù)還多，計(jì)算代價(jià)太高。方法1方法2Saliencyvalueofcolor

LC算法缺陷在于忽略了顏色信息的可區(qū)別性。自然圖像中的顏色只占據(jù)整個(gè)色彩空間很小的一部分，將出現(xiàn)頻率很低的顏色丟掉，保留高頻出現(xiàn)的顏色。量化后的圖像顏色更少，但仍能保證顯著性檢測(cè)所需的視覺質(zhì)量。Colorhistogramquantize顏色量化樣例

HC方法速度快，并且產(chǎn)生細(xì)節(jié)精確的結(jié)果，均勻地突出了整個(gè)顯著性區(qū)域。SalientregiondetectionbasedonhistogramcontrastHC算法檢測(cè)顯著區(qū)域樣例

空間關(guān)系在引起人類注意力方面也起到非常大的作用。相鄰區(qū)域的高對(duì)比度比很遠(yuǎn)區(qū)域的高對(duì)比度更容易導(dǎo)致一個(gè)區(qū)域引起人類的注意?；诖?，提出基于區(qū)域?qū)Ρ榷鹊娘@著性區(qū)域檢測(cè)算法。（1）先將圖像分割為若干區(qū)域(參考文獻(xiàn)：Efficientgraph-basedimagesegmentation.2004，IJCV),再為每個(gè)區(qū)域建立顏色直方圖；（2）計(jì)算各個(gè)區(qū)域之間的顏色對(duì)比度，用每個(gè)區(qū)域和其他區(qū)域的對(duì)比度加權(quán)和來定義其顯著性值（權(quán)值由兩個(gè)區(qū)域的空間距離決定）。RegionContrast

圖像分割得到左圖，不考慮距離權(quán)值得到中-左圖，考慮距離權(quán)值得到中-右圖，二值化得到右圖。Region

contrastbasedsalientregiondetectionSaliencyvalueofregion

兩個(gè)區(qū)域r1和r2的顏色距離：對(duì)每個(gè)區(qū)域rk定義顯著性值：Saliencyvalueofregion

引入空間權(quán)值，將空間信息加進(jìn)來，增加區(qū)域的空間影響效果。對(duì)于任意區(qū)域rk,基于空間加權(quán)區(qū)域?qū)Ρ?/p>

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

視頻監(jiān)控與視頻分析-第十四章 深度學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

視頻監(jiān)控與視頻分析-第十四章深度學(xué)習(xí)