版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
智能計算系統(tǒng)
第三章深度學習應用中國科學院軟件研究所李玲研究員liling@DrivingExample2輸入輸出建模實現(xiàn)運行深度學習基礎深度學習應用上一章學習了神經(jīng)網(wǎng)絡的基本知識,多層感知機的正反向計算過程,以及基礎優(yōu)化方法。本章通過分析經(jīng)典深度學習算法,學習將基礎神經(jīng)網(wǎng)絡應用到實際場景,并逐步優(yōu)化實現(xiàn)工業(yè)級應用的過程。讓機器更好的理解和服務人類3人獲得的輸入是什么?圖像信息序列信息任務:理解圖像內容方法:卷積神經(jīng)網(wǎng)絡任務:理解語音/文字/視頻方法:循環(huán)神經(jīng)網(wǎng)絡提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡適合語音/文本處理的循環(huán)神經(jīng)網(wǎng)絡從深度學習到大模型神經(jīng)網(wǎng)絡量化DrivingExample本章小結本章實驗4提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡總體結構深度神經(jīng)網(wǎng)絡的優(yōu)化應用于圖像分類的卷積神經(jīng)網(wǎng)絡應用于目標檢測的卷積神經(jīng)網(wǎng)絡應用于圖像生成的卷積神經(jīng)網(wǎng)絡5一個例子計算機視覺6輸入圖像輸入圖像大小為32x32,輸入數(shù)據(jù)量為32x32x3=3072隱層神經(jīng)元個數(shù)為100,第一層權重數(shù)量為3072x100=307200一個例子實際場景中,往往需要更大的輸入圖像以及更深的網(wǎng)絡結構。7輸入圖像大小為1024x1024,第一層隱層神經(jīng)元個數(shù)為1000第一層權重數(shù)量級為10^9,過多的參數(shù)會導致過擬合卷積神經(jīng)網(wǎng)絡可以有效減少權重數(shù)量輸入圖像卷積神經(jīng)網(wǎng)絡(CNN)8全連接卷積局部連接權重共享所有神經(jīng)元之間的連接都使用不同權重。輸出層神經(jīng)元共用同一組權重,進一步減少權重數(shù)量。權重數(shù)量CNN組成VGG16卷積層(conv)池化層(max
pool)全連接層(FC)Softmax9卷積層10卷積層如何檢測特征檢測復雜邊緣w0w1w2w3w4w5w6w7w8filter/kernel將權重作為參數(shù),在訓練中學習卷積神經(jīng)網(wǎng)絡的兩個重要特征:局部連接、權重共享
可有效減少權重參數(shù),避免過擬合,為增加卷積層數(shù)提供可能。卷積層數(shù)學:11卷積運算
神經(jīng)網(wǎng)絡:實際為計算矩陣內積(相關系數(shù))(“*”表示卷積)231523745231396042064712410806702163*1014-3230-1=321014-3230-1卷積層12231523745231396042064712410806702163*1014-3230-1=32401014-3230-1231523745231396042064712410806702163*1014-3230-1=324037751014-3230-1卷積層13多輸入特征圖單輸出特征圖的卷積運算*輸入特征圖卷積核=輸出特征圖6x6x33x3x34x4卷積層14*=6x6x33x3x34x40000110020000020120000220121-1-1-1-10-1111-1-1-10-1-101-111-11-11-11C=0C=1C=2*=2-2-1+2+0-2+0+2+(-1)+0+0+2=2卷積層15卷積層16多輸入特征圖多輸出特征圖的卷積運算*輸入特征圖卷積核1=output6x6x32x3x3x34x4x2不同的濾波器可檢測不同特征卷積核2輸出特征圖卷積層17卷積運算可轉換為矩陣相乘卷積的相乘再相加過程可轉換為向量內積多輸入輸出通道卷積可轉換為矩陣相乘卷積層18卷積層如何檢測特征10-110-110-1101010000101010000101010000101010000101010000101010000030300030300030300030300*=11010-10-1-110101010100101010100010101000010100
0001000000
0000000
1030301030301030
30100301000*=檢測垂直邊緣檢測對角線邊緣卷積層19邊界擴充(padding)擴大輸入圖像/特征圖的尺寸并填充像素防止深度神經(jīng)網(wǎng)絡中特征圖被動持續(xù)減小強化圖像邊緣信息卷積步長(stride)滑動卷積窗口時每次移動的像素點個數(shù)與pad共同確定輸出特征圖尺寸
卷積層20總結:卷積層參數(shù)*輸入特征圖卷積核1=output
卷積核2輸出特征圖+bias
卷積核:可訓練bias:可訓練,使分類器偏離激活函數(shù)原點,更靈活
卷積層
21池化層22PoolingMaxPooling/AvgPooling/L2Pooling主動減小圖片尺寸,從而減少參數(shù)的數(shù)量和計算量,控制過擬合不引入額外參數(shù)231523745231396042064712410806702163753974786Maxpooling
Maxpooling可保留特征最大值,提高提取特征的魯棒性。全連接層23FullyConnect卷積層和池化層構成特征提取器,全連接層則為分類器將特征提取得到的高維特征圖映射成一維特征向量,該特征向量包含
所有特征信息,可轉化為各個類別的概率Softmax
各層如何排布組成一個網(wǎng)絡?24特征提取分類VGG16卷積神經(jīng)網(wǎng)絡結構25層排列規(guī)律Conv+ReLUpoolFC+ReLUFC/softmaxNMP…dog常見卷積神經(jīng)網(wǎng)絡由卷積層(激活)、池化層和全連接層構成;各層的常見排列方式如圖所示,其中N、M、P為重復次數(shù);例如:N=3,M=1,P=2情況下的網(wǎng)絡結構為:
其中卷積和池化部分可包含分支和連接結構,將在具體網(wǎng)絡分析中介紹。淺層學習局部特征,深層學習整體特征26神經(jīng)網(wǎng)絡可視化:conv6conv9Springenberg,J.T.;Dosovitskiy,A.;Brox,T.&Riedmiller,M.Strivingforsimplicity:theallconvolutinalnetICML,2015,1-12卷積神經(jīng)網(wǎng)絡結構27為何選擇“深”而非“廣”的網(wǎng)絡結構即使只有一層隱層,只要有足夠的神經(jīng)元,神經(jīng)網(wǎng)絡理論上可以擬合任意連續(xù)函數(shù)。為什么還要使用深層網(wǎng)絡結構?深度網(wǎng)絡可從局部到整體“理解圖像”學習復雜特征時(例如人臉識別),淺層的卷積層感受野小,學習到局部特征,深層的卷積層感受野大,學習到整體特征。以寬度換深度,用多個小卷積替代一個大卷積,在獲得更多樣特征的同時所需權重數(shù)量也更少。深度網(wǎng)絡可減少權重數(shù)量卷積神經(jīng)網(wǎng)絡訓練28N=1,M=1,P=1情況下的網(wǎng)絡結構為:Conv+ReLUpoolFC+ReLUFC/softmaxNMP…dog正向傳播L反向傳播y
29
反向傳播卷積神經(jīng)網(wǎng)絡訓練:Softmax
30
卷積神經(jīng)網(wǎng)絡訓練:Softmax
31
反向傳播卷積神經(jīng)網(wǎng)絡訓練:ReLU
32
反向傳播
卷積神經(jīng)網(wǎng)絡訓練:全連接層
33
反向傳播卷積神經(jīng)網(wǎng)絡訓練:池化層34
反向傳播
卷積神經(jīng)網(wǎng)絡訓練:ReLU35
反向傳播
WinHin
CinCoutWoutHout……
卷積神經(jīng)網(wǎng)絡訓練:卷積層
36WinHin
CinCoutWoutHout……
卷積神經(jīng)網(wǎng)絡訓練:卷積層
37WinHin
CinCoutWoutHout……
卷積
full卷積**Xavier初始化(1/3)
38Xavier初始化(2/3)
39Xavier初始化(3/3)實驗結果:采用tanh(x)激活函數(shù)40激活值標準直方圖采用Xavier方法的網(wǎng)絡,各層的激活值較為一致反向傳播梯度標準直方圖采用Xavier方法的網(wǎng)絡,各層的梯度較為一致Kaiming初始化(1/2)
41Kaiming初始化(2/2)
42梯度下降法GD
方法更新梯度計算梯度的樣本特點Gradient
Descent
(GD)全部訓練樣本計算復雜度高Stochastic
Gradient
Descent
(SGD)隨機抽取一個樣本隨機性過大,優(yōu)化效率低mini-batch
Stochastic
Gradient
Descent
隨機抽取的mini-batch樣本計算復雜度低,優(yōu)化效率高
Mini-batch隨機梯度下降法mini-batch隨機梯度下降法目前深度學習領域的SGD通常指mini-batch隨機梯度下降法每次迭代隨機選取一個mini-batch的樣本計算梯度并進行參數(shù)更新SGD的缺點選擇合適的學習率十分困難SGD容易收斂到局部最優(yōu)點,
且可能困在鞍點
動量Momentum帶動量的隨機梯度下降法目的:通過積累歷史梯度,減小梯度方向的改變,抑制梯度的震蕩,加快收斂速度
Rumelhart,DavidE.;Hinton,GeoffreyE.;Williams,RonaldJ.(8October1986)."Learningrepresentationsbyback-propagatingerrors".
Nature.
323
(6088):533–536.Nesterov
acceleratedgradient(NAG)NAG:添加矯正因子的Momentum原理:先用當前的速度更新一遍參數(shù),再用更新的臨時參數(shù)計算梯度優(yōu)勢:相比Momentum梯度方向更加穩(wěn)定,進一步減少震蕩MomentumNAG
Sutskever,I.,Martens,J.,Dahl,G.,andHinton,G.(2013).Ontheimportanceofinitializationandmomentumindeeplearning.InICML學習率47From:https://cs231n.github.io/neural-networks-3/AdaGradAdaGrad:使每個參數(shù)獲得不同的學習率原理:設置全局學習率,每次通過全局學習率逐參數(shù)的除以歷史梯度平方和的平方根,使得每個參數(shù)的學習率不同效果:對更新頻率高的參數(shù)使用較小的學習率,對更新頻率低的參數(shù)使用較大的學習率優(yōu)勢:對于稀疏梯度的效果較好,穩(wěn)定性高局限性:梯度的平方和使訓練后期學習率會快速縮小,導致參數(shù)更新提前停止
Duchi,John;Hazan,Elad;Singer,Yoram(2011).
"Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization"
(PDF).
JMLR.
12:2121–2159.AdaDeltaAdaDelta:AdaGrad的改進原理:不是累積所有過去的梯度,而是將累積的過去梯度的窗口限制在某個固定大小優(yōu)勢:使用最近梯度的局部估計,確保了在進行了多次更新迭代之后,緩解學習率快速衰減的問題
Zeiler,M.D.(2012).ADADELTA:AnAdaptiveLearningRateMethod.
/abs/1212.5701
RMSPropRMSProp:AdaGrad的改進原理:增加了一個衰減系數(shù)控制歷史梯度的積累量,對梯度計算指數(shù)衰減的移動平均,丟棄時間靠前的歷史梯度優(yōu)勢:可以緩解AdaGrad訓練后期學習率快速減小的問題,善于處理非平穩(wěn)目標,目前常用在訓練RNN相關的深度學習模型中
Hinton,G.(2012).Neuralnetworksformachinelearning.Coursera,videolecturesAdamAdam:帶有動量項的RMSProp原理:利用梯度的一階矩估計和二階矩估計動態(tài)調整每個參數(shù)的學習率Adam結合了AdaGrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標的優(yōu)點,為不同的參數(shù)計算不同的自適應學習率適用于大多非凸優(yōu)化,適用于大數(shù)據(jù)集和高維空間
Kingma,Diederik;Ba,Jimmy(2014)."Adam:AMethodforStochasticOptimization".
arXiv:1412.6980不同優(yōu)化方法的結果對比Imagecredit:AlecRadford應用于圖像分類的卷積神經(jīng)網(wǎng)絡53對卷積神經(jīng)網(wǎng)絡的研究可追溯至日本學者福島邦彥提出的neocognition模型。在其1979和1980年發(fā)表的論文中,福島參照生物的視覺皮層(visualcortex)設計了以“neocognition”命名的神經(jīng)網(wǎng)絡。
AlexNet使用卷積神經(jīng)網(wǎng)絡解決圖像分類問題,在ILSVRC2012中取得獲勝并大大提高了state-of-art的準確率。自此卷積神經(jīng)網(wǎng)絡在圖像分類領域獲得快速發(fā)展。應用于圖像分類的卷積神經(jīng)網(wǎng)絡54AlexNetVGGInception系列ResNet網(wǎng)絡深度參數(shù)量(Millions)AlexNet860VGG1616138VGG1919143GoogleNet227InceptionV34823.9ResNet181811.7ResNet15215260.2AlexNet55Paper:ImageNetClassificationwithDeepConvolutionalNeuralNetworks(NIPS’2012)Author:AlexKrizhevsky,IlyaSutskever,GeoffreyE.HintonTest:errorrateonImageNet,top5:15.3%論文中給出的網(wǎng)絡結構(用兩臺GPU訓練)AlexNet56What‘sNew?Dropout:隨機舍棄部分隱層節(jié)點,避免過擬合LRN局部歸一化:提升較大響應,抑制較小響應ReLU激活函數(shù):訓練中收斂速度更快MaxPool:避免特征被平均池化模糊,提升特征魯棒性AlexNet57LocalResponseNormalization(LRN)局部響應歸一化
對圖像的每個“位置”,提升高響應特征,抑制低響應特征減少高激活神經(jīng)元數(shù)量,提高訓練速度,抑制過擬合被后來研究者發(fā)現(xiàn)無明顯效果,故現(xiàn)在很少使用。AlexNet58Dropout隨機丟棄部分神經(jīng)元在模型訓練過程中,以一定概率隨機地舍棄某些隱層神經(jīng)元。在反向傳播更新權重時,不更新與該神經(jīng)元相關的權重但是與被舍棄神經(jīng)元相關的權重得保留下來(只是暫時不更新),另一批樣本輸入時繼續(xù)使用與該神經(jīng)元相關的權重防止訓練數(shù)據(jù)中復雜的co-adaptation,抑制過擬合AlexNet59AlexNet成功的原因使用多個卷積層,有效提取圖像特征ReLU幫助提高訓練速度Dropout、數(shù)據(jù)增強擴大訓練集,防止過擬合使用更多卷積層是否能進一步提升效果?VGG60Paper:VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition(ICLR2015)Author:K.Simonyan,
A.ZissermanTest:errorrateonImageNet,top1:24.7%,top5:7.5%VGG16VGG61由簡單到復雜的網(wǎng)絡結構訓練VGG11(A)訓練更深神經(jīng)網(wǎng)絡收斂后的前4個卷積層和后3個全連接層的權重作為更深神經(jīng)網(wǎng)絡的前4個卷積層和后3個全連接層權重的初始值,其余層的權重隨機初始化;VGG62實驗結果A/A-LRN:加LRN準確率無明顯提升;A/B/D/E:層數(shù)越多準確率越高;C/D:conv3x3比conv1x1得到的準確率高VGG63規(guī)整的卷積-池化結構
Conv所有卷積層kernel大小/stride/pad相同kernel=3*3,stride=1,pad=SAMEpad=SAME:補pad至輸出圖像大小等于輸入圖像大小pad=VALID:pad=0Maxpool所有池化層kernel大小/stride/pad相同kernel=2*2,stride=2,pad=0卷積層:負責數(shù)據(jù)體深度變換(控制特征圖數(shù)量)池化層:負責數(shù)據(jù)體長寬變換
(控制特征圖大?。¬GG64規(guī)整的<卷積-池化>結構多層小卷積比單層大卷積效果好實驗:對VGG13(上表B),使用5x5conv代替兩層3x3conv,進行訓練和測試原因:一個5x5conv和兩個3x3conv的感受野大小相同;每個卷積層加入ReLU,兩層3x3conv決策函數(shù)的區(qū)分能力更強結果:5x5conv網(wǎng)絡比兩個3x3conv網(wǎng)絡top-1準確率低7%。Conv7x7
Conv3x3Conv3x3Conv3x3
65相同感受野,多層網(wǎng)絡權重更少VGG66VGG成功的原因更深的卷積神經(jīng)網(wǎng)絡,更多的卷積層和非線性激活函數(shù),提升分類準確率使用規(guī)則的多層小卷積替代大卷積,減少參數(shù)數(shù)量,提高訓練收斂速度部分網(wǎng)絡層參數(shù)的預初始化,提高訓練收斂速度卷積核還能不能更?。烤W(wǎng)絡還能不能更深?Inception67Inception-v1(GoogLeNet):SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions,CVPR2015:1-9.BN-Inception:IoffeS,SzegedyC.Batchnormalization:acceleratingdeepnetworktrainingbyreducinginternalcovariateshift.ICML,2015:448-456.Inception-v2,Inception-v3:SzegedyC,VanhouckeV,IoffeS,etal.RethinkingtheInceptionArchitectureforComputerVision[C]//CVPR,2016:2818-2826.Inception-v4:SzegedyC,IoffeS,VanhouckeV,etal.Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning,AAAI’2017.網(wǎng)絡主要創(chuàng)新Top5錯誤率網(wǎng)絡層數(shù)GoogLeNet提出inception結構6.67%22BN-Inception提出BatchNormalization,
用3x3代替5x54.82%—Inception-v3將一個二維卷積拆成兩個一維卷積,輔助分類器的全連接層做BN3.5%42Inception-v4inception模塊化,
結合ResNet的跳轉結構3.08%—Inception-v168Inception模塊Na?veversion:疊加多種尺寸的卷積層和池化層,獲得不同尺度的特征,提高網(wǎng)絡對不同尺寸特征的適應性Dimensionreductions:使用1x1的卷積層來縮減維度(減小channel),形成“瓶頸層”,減少參數(shù)Inception-v169作用:跨通道聚合,進一步可以起到降維(或者升維)的作用,減少參數(shù)1x1卷積
*=
11…
相當于在輸入和輸出之間做了一個特征上的全連接,提取得到非線性特征同時,當co<ci時,維度降低,參數(shù)減少擴展:NetworkinNetworkInception-v1701x1卷積使用1x1卷積,形成“瓶頸層”,可有效減少計算量和參數(shù)數(shù)量outputinput5x5conv
outputinput5x5conv1x1conv
乘加次數(shù):28×28×96×5×5×256≈4.8×10^8參數(shù)數(shù)量:96×5×5×256≈6.1×10^5乘加次數(shù):28×28×32×256+28×28×96×5×5×32≈6.7×10^7參數(shù)數(shù)量:32×256+96×5×5×32≈8.5×10^4Inception-v171GoogLeNet網(wǎng)絡結構Inception-v172Softmax輔助分類網(wǎng)絡訓練時,讓中間某一層的輸出經(jīng)過softmax得到分類結果,并按較小的權重加到最終分類結果中,相當于模型融合。防止多層神經(jīng)網(wǎng)絡訓練過程中梯度消失。推斷時,softmax輔助分類網(wǎng)絡會被去掉。BN-Inception73具體分析見VGG部分,不再贅述。學習VGG用兩個3x3卷積代替一個5x5卷積使用BatchNorm,并在每個卷積層之后、激活函數(shù)之前插入BN層BN-Inception74BatchNormnormalize將激活層的輸入調整為標準正態(tài)分布(均值為0,方差為1);激活層輸入分布在激活函數(shù)敏感部分,輸入有小變化就能是損失函數(shù)有較大的反應,避免梯度消失,加快訓練速度。Scaleandshift標準化后的輸入使得網(wǎng)絡的表達能力下降;為保持網(wǎng)絡的表達能力,增加兩個可訓練參數(shù)。BN-Inception75BN可替代LRN/Dropout/L2Normalization可提高收斂速度、訓練速度可選擇更高的學習率,方便調參BatchNorm效果-x5表示學習率設為inception初始學習率的5倍。Inception-v376將3x3卷積拆分成1x3和3x1卷積;減少參數(shù)數(shù)量,同時通過非對稱的卷積結構拆分增加特征多樣性;Factorization
思想Figure5Figure6Figure7Inception-v377將前面三種inception結構組合起來GoogLeNet中7x7卷積拆分成3x3卷積卷積層和輔助分類器的全連接層做BN網(wǎng)絡結構ResNet78Paper:DeepResidualLearningforImageRecognition,CVPR’2016
(Bestpaper).Authors:KaimingHe,XiangyuZhang,ShaoqingRen,JianSunTest:errorrateonImageNet,top5:3.57%(ResNet152)ResNet79問題:卷積層堆積就能提升圖像分類準確率嗎?實驗:分別用20層和56層卷積神經(jīng)網(wǎng)絡在CIFAR-10數(shù)據(jù)集上進行訓練和測試,發(fā)現(xiàn)更深的網(wǎng)絡錯誤率更高,在ImageNet數(shù)據(jù)集上也同樣如此。原因:梯度消失?No,使用BatchNorm可有效緩解梯度消失;
過擬合?No,更深的網(wǎng)絡在訓練集上的誤差同樣更高;神經(jīng)網(wǎng)絡退化:收斂到極值點而非最值,誤差大。ResNet80Plainnetwork(普通網(wǎng)絡):直接用多項式擬合輸出;Residualnetwork(殘差網(wǎng)絡):建立在BN之上,用多項式擬合差值;優(yōu)點:對數(shù)據(jù)波動更靈敏,更容易學習獲得最優(yōu)解。什么是“殘差”inputCNNoutputplainnetworkinputCNNoutputresidualnetwork+(output–input)ResNet81殘差塊殘差網(wǎng)絡在訓練時更容易收斂將殘差塊應用到普通網(wǎng)絡改造VGG得到plain-networkplain-network:無跳轉連接的普通網(wǎng)絡;基本全部由卷積層構成:kernel=3*3,stride=1,pad=SAME;特征圖尺寸的減小由stride=2的卷積層完成;若特征圖的尺寸不變,則特征的數(shù)量也不變;若特征圖的尺寸減半,則特征圖的數(shù)量翻倍;增加跳轉連接得到ResNet實線:特征圖尺寸和特征數(shù)量不變,直接相連;虛線:特征圖尺寸減半,特征圖數(shù)量翻倍;特征圖數(shù)量翻倍的兩種方法:a.以stride=2直接取值,不夠的特征補0(不引入額外參數(shù))b.用stride=2,特征數(shù)量翻倍的1x1卷積做映射,卷積的權重經(jīng)過學習得到,會引入額外參數(shù);82圖像分類算法83圖像分類CNNAlexNetZF-NetVGG網(wǎng)絡中的網(wǎng)絡GoogLeNetInception-v2Inception-v3Inception-v4層與層的連接ResNetResNextDenseNet通道注意力SENet輕量化可分離卷積MobileNetEfficientNetTransformer注意力機制ViTSwinTransformerDeiT多模態(tài)對齊CLIPCoOpMLPMLP-Mixer分類定位+分類目標檢測圖示輸入singleandbigobjectsingleandbigobjectmultiandsmallobject輸出labellabel&boundingboxmultilabel&boundingbox評價accuracy(top1/top5)IoU(交并比)mAP(MeanAveragePrecision)目標檢測算法84評測指標——IoUIoU(交并比)85用于衡量定位準確度,一般IoU≥0.5可認為定位成功(truedetection);boundingbox評測指標——mAPmAP(meanAveragePrecision平均精度均值)86在計算機視覺領域,用于衡量模型在測試集上檢測精度的優(yōu)劣程度;綜合考慮檢測結果的召回率/查全率和精度/查準率,mAP值越高表示檢測結果越好;召回率/查全率(recall):選的N個樣本里選對的k個正樣本占總的M個正樣本的比例k/M;精度/查準率(precision):選的N個樣本里選對的k個正樣本比例k/N;選擇的樣本數(shù)N越多,召回率越高,查準率越低;mAP計算原理召回率Recall=k/M=TP/(TP+FN)精度Precision=k/N=TP/(TP+FP)假設一個圖像檢測任務,共有5種類別,有100張圖像作為測試集;假設對于類A,100張測試圖像中共有25個事先人為將類別標記為A的框;假設算法對100張測試圖像共檢測出20個分類為A的候選框;評測指標——mAP87例如:confidence_threshold=0.5時:第3,7,11,20號框(score>0.5)被認為是positive,實際只有3,7,20號框(label=1)是truepositive,那么此時precision=3/4,又因為總共應該有25個類別為A的框,那么recall=3/25confidence_threshold=0.2時:共有12個框(score>0.2)被認為是positive,實際只有5個框是truepositive,此時precision=5/12,recall=5/25閾值越小,選中樣本越多,精度越低,召回率越高評測指標——mAP88類A的AP值計算方法(VOC2012):對每個recall值,取最大的precision求平均;例如:recall=4/25時,取precision=6/13;recall=6/25時,取precision=6/13;評測指標——mAP89類A的AP值計算方法(VOC2012):對每個recall值,取最大的precision求平均;例如:recall=4/25時,取precision=6/13;recall=6/25時,取precision=6/13;AP(類A)=(1+1+3/4+6/13+6/13+6/13+7/17)/25=0.1819評測指標——mAP90基于CNN的目標檢測算法91R-CNN系列YOLOSSD目前,基于深度學習的目標檢測算法大致分為兩類:
1.兩階段(two-stage)算法:基于候選區(qū)域方法,先產(chǎn)生邊界框,再做CNN分類(R-CNN系列)
2.一階段(one-stage)算法:對輸入圖像直接處理,同時輸出定位及其類別(YOLO系列)
R-CNN系列92R-CNN:GirshickR,DonahueJ,DarrellT,etal.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation[C].CVPR’2014.FastR-CNN:GirshickR.FastR-CNN[C].ICCV’2015.FasterR-CNN:RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C],NeurIPS’2015.網(wǎng)絡主要特點mAP(VOC2012)單幀檢測時間R-CNN結合RegionProposal區(qū)域提取和CNN特征提取;SVM分類,BoundingBox回歸;53.3%50sFastR-CNN提出ROIPooling;softmax分類;65.7%2sFasterR-CNN使用RPN(RegionProposalNetwork)生成候選區(qū)域67.0%0.2sR-CNN93R-CNN的主要步驟:候選區(qū)域提?。菏褂肧electiveSearch從輸入圖片中提取2000個左右候選區(qū)域特征提?。菏紫葘⑺泻钸x區(qū)域裁切縮放為固定大小,再用AlexNet(5conv+2FC)提取圖像特征線性分類:用特定類別的線性SVMs對每個候選區(qū)域做分類邊界框回歸:用線性回歸修正邊界框的位置與大小,其中每個類別單獨訓練一個邊界框回歸器R-CNN候選區(qū)域(RegionProposal)94UijlingsJRR,K.E.A.vandeSande….SelectiveSearchforObjectRecognition[J].InternationalJournalofComputerVision,2013,104(2):154-171.意義:經(jīng)典的目標檢測算法使用滑動窗法依次判斷所有可能的區(qū)域(窮舉),而R-CNN采用RegionProposal預先提取一系列較可能是物體的候選區(qū)域,之后僅在這些候選區(qū)域上提取特征,大大減少了計算量。方法:帶多樣性策略的選擇性搜索(SelectiveSearch)R-CNN95候選區(qū)域提取步驟層次化分組算法用基于圖的圖像分割方法創(chuàng)建初始區(qū)域計算所有相鄰區(qū)域間的相似度每次合并相似度最高的兩個相鄰圖像區(qū)域,并計算合并后的區(qū)域與其相鄰區(qū)域的相似度。重復該過程,直到所有圖像區(qū)域合并為一張完整圖像提取所有圖像區(qū)域的目標位置框,并按層級排序(覆蓋整個圖像的區(qū)域的層級為1)在不同圖像分割閾值、不同色彩空間、以及不同的相似度(綜合考慮顏色、紋理、大小、重疊度)下,調用層次化分組算法,對所有合并策略下得到的位置框按層級*RND排序,去掉冗余框取一定個數(shù)的候選區(qū)域作為后續(xù)卷積神經(jīng)網(wǎng)絡的輸入(R-CNN取2000個)Uijlings,J.R.R.;vandeSande,K.E.A.;Gevers,T.&Smeulders,A.W.M.SelectiveSearchforObjectRecognition.InternationalJournalofComputerVision,2013,104,154-171.R-CNN分類與回歸961.SVM分類2.非極大值抑制3.BoundingBox回歸
…
…
每個類別一個SVM分類器21個分類(包括背景)NMS回歸
R-CNN非極大值抑制(Non-MaximumSuppression,NMS)97
R-CNN98R-CNN的缺點:重復計算:需要對兩千個候選框做CNN,計算量很大,而且有很多重復計算SVM模型:在標注數(shù)據(jù)足夠的時候不是最好的選擇多個步驟:候選區(qū)域提取、特征提取、分類、回歸都要單獨訓練,大量中間數(shù)據(jù)需要保存檢測速度慢:GPU
K40上處理一張圖片需要13秒,CPU上則需要53秒能否避免候選框特征提取過程的重復計算?FastR-CNN99FastR-CNN的主要步驟:候選區(qū)域提?。和ㄟ^SelectiveSearch從原始圖片提取2000個左右區(qū)域候選框;特征提?。涸紙D像輸入CNN網(wǎng)絡,得到特征圖;ROI-Pooling:根據(jù)映射關系,將不同尺寸的候選框在特征圖上的對應區(qū)域池化為維度相同的特征圖(因為全連接層要求輸入尺寸固定);全連接層:將維度相同的特征圖轉化為ROI特征向量(ROIfeaturevector);分類與回歸:經(jīng)過全連接層,再用softmax分類器進行識別,用回歸器修正邊界框的位置與大小,最后對每個類別做NMS。FastR-CNNROIPooling100ROI:regionsofinterest,對應前文中經(jīng)過regionproposal得到的候選框目的:將不同尺寸的ROI對應的卷積特征圖轉換為固定大小的特征圖。一方面ROI可以復用卷積層提取的特征圖,提高圖像處理速度;另一方面向全連接層提供固定尺寸的特征圖。特點:輸出尺寸與輸入尺寸無關。對每個特征圖通道,根據(jù)輸出尺寸(HxW)將輸入(hxw)均分成多塊(h/Hxw/W大小/塊),取每塊的最大值作為輸出。FastR-CNN101FastR-CNN改進之處:直接對整張圖像做卷積,不再對每個候選區(qū)域分別做卷積,從而減少大量的重復計算。用ROIpooling對不同候選框的特征進行尺寸歸一化。將邊界框回歸器放進網(wǎng)絡一起訓練,每個類別對應一個回歸器;用softmax代替SVM分類器。FastR-CNN缺點:候選區(qū)域提取仍使用selectivesearch,目標檢測時間大多消耗在這上面(regionproposal2~3s,而特征分類只需0.32s);尋找更高效的候選區(qū)域生成方法?FasterR-CNN102FasterR-CNN網(wǎng)絡結構:FasterR-CNN=候選區(qū)域生成網(wǎng)絡RPN+FastR-CNNFasterR-CNN103FasterR-CNN主要步驟:4.分類與回歸:同F(xiàn)astR-CNN,用softmax分類器判斷圖像類別,同時用邊界框回歸修正邊界框的位置和大小卷積層:輸入圖片經(jīng)過多層卷積神經(jīng)網(wǎng)絡(ZF、VGG),提取出卷積特征圖,供RPN網(wǎng)絡和FastR-CNN使用。RPN網(wǎng)絡和FastR-CNN共享特征提取網(wǎng)絡可大大減小計算時間;2.RPN層:生成候選區(qū)域,并用softmax判斷候選框是前景還是背景,從中選取前景候選框并利用boundingboxregression調整候選框的位置,得到候選區(qū)域;3.ROIPooling層:同F(xiàn)astR-CNN,將不同尺寸的候選框在特征圖上的對應區(qū)域池化為維度相同的特征圖FasterR-CNNRPN(regionproposalnetworks)104目的:輸入特征圖,輸出候選區(qū)域集合,包括各候選區(qū)域屬于前/背景的概率、以及位置坐標。RPN采用Anchor機制能夠從特征圖上直接提取候選區(qū)域的特征,相對于selectivesearch大大減少運算量,且整個過程融合到一個網(wǎng)絡中,方便訓練和測試。步驟及方法:先經(jīng)過一個3x3卷積,使每一個點對應256維(ZF模型)或512維(VGG16)特征向量。然后分兩路處理:一路經(jīng)過1x1卷積之后做softmax處理輸出候選框為前景或背景的概率;另一路用bboxregression來確定候選框的位置。兩路計算結束后,計算得到前景候選框(因為物體在前景中),再用NMS去除冗余候選框,最后輸出候選區(qū)域。FasterR-CNN關于anchorbox105在RPN中,featuremap每個位置輸出2k個得分,分別表示該位置的k個anchor為前景/背景的概率;同時每個位置輸出4k個框位置參數(shù),用[x,y,w,h]四個坐標來表示anchor的位置。對于featuremap的每個位置,考慮9個可能的候選框:三種面積分別是128×128,256×256,512×512,每種面積又分成3種長寬比,分別是2:1,1:2,1:1,這些候選框稱為anchors。R-CNN系列R-CNN系列106從R-CNN到FastR-CNN,再到FasterR-CNN,目標檢測的四個基本步驟(候選區(qū)域生成,特征提取,分類,位置調整)終于被統(tǒng)一到一個深度網(wǎng)絡框架之內,大大提高了運行速度。網(wǎng)絡mAP(VOC2012)單幀檢測時間R-CNN53.3%50sFastR-CNN65.7%2sFasterR-CNN67.0%0.2s拓展:R-CNN訓練相關,RossGirshick在ICCV15的演講,TrainingR-CNNsofvariousvelocities(Slow,fast,andfaster)YOLO107YOLO(v1):RedmonJ,DivvalaS,GirshickR,etal.YouOnlyLookOnce:Unified,Real-TimeObjectDetection[C].CVPR’2016.主要思想:將目標檢測問題轉換為直接從圖像中提取boundingboxes和類別概率的單回歸問題,只需看一眼(youonlylookonce,YOLO)就可以檢測出目標的類別和位置。YOLO算法開創(chuàng)了one-stage檢測的先河,將目標分類和邊界框定位合二為一,實現(xiàn)了端到端的目標檢測。YOLO的運行速度非??欤_到45幀/秒,滿足實時性要求。YOLO108統(tǒng)一檢測(UnifiedDetection)具體實現(xiàn)
將輸入圖像分為S×S個格子,每個格子都預測B個Boundingbox,每個bbox包含五個預測值:x,y,w,h和confidence;x,y,w,h用于表示bbox的位置和大小,且都被歸一化到(0,1);confidence(置信度分數(shù))綜合考慮了當前bbox內存在目標的可能性Pr(Object)以及預測目標位置的準確性IoU(pred|truth),定義為:
YOLO109網(wǎng)絡結構網(wǎng)絡結構基于GoogleNet;對于PASCALVOC數(shù)據(jù)集,采用S=7,B=2,C=20,
最終輸出tensor維度為7×7×30(其中30=B*5+C)。激活函數(shù)用的是LeakyReLU:f(x)=max(x,0.1x),在x小于0的時候,用0.1x,避免使用ReLU的時候有些單元永遠得不到激活(DeadReLUProblem),在不增加計算法復雜度的前提下提升了模型的擬合能力。YOLO110YOLO(v1)的優(yōu)點1、檢測速度快。YOLO將目標檢測重建為單一回歸問題,對輸入圖像直接處理,同時輸出邊界框坐標和分類概率,而且每張圖像只預測98個bbox,檢測速度非常快,在TitanX的GPU上能達到45FPS,F(xiàn)astYOLO檢測速度可以達到155FPS。2、背景誤判少。以往基于滑窗或候選區(qū)域提取的目標檢測算法,只能看到圖像的局部信息,會出現(xiàn)把背景當前景的問題。而YOLO在訓練和測試時每個cell都使用全局信息做預測,因此不容易把背景誤認為目標。3、泛化性更好。YOLO能夠學習到目標的泛化表示,能夠遷移到其它領域。例如,當YOLO在自然圖像上做訓練,在藝術品上做測試時,YOLO的性能遠優(yōu)于DPM、R-CNN等。YOLO111YOLO(v1)的缺點1、鄰近物體檢測精度低。YOLO對每個cell只預測兩個bbox和一個分類,如果多個物體的中心都在同一cell內,檢測精度低。2、損失函數(shù)的設計過于簡單。用坐標和分類的MSE作為損失函數(shù)不合理3、訓練不易收斂。直接預測的bbox位置,相較于預測物體的偏移量,模型收斂不穩(wěn)定。表示目標出現(xiàn)在celli中表示celli中第j個邊框預測目標在該cell中YOLO112YOLO-v2:RedmonJ,FarhadiA.YOLO9000:Better,Faster,Stronger[C]//IEEEConferenceonComputerVision&PatternRecognition.2017.拓展提高了訓練圖像的分辨率;引入了FasterRCNN中anchorbox的思想;對網(wǎng)絡結構的設計進行了改進(Darknet-19);輸出層使用卷積層替代YOLO的全連接層,聯(lián)合使用COCO物體檢測標注數(shù)據(jù)和ImageNet物體分類標注數(shù)據(jù)訓練物體檢測模型。類似FPN的多尺度預測;更好的基礎分類網(wǎng)絡(Darknet-53,結合ResNet);Sigmoid代替Softmax用于多標簽分類。YOLO-v3:RedmonJ,FarhadiA.YOLOv3:AnIncrementalImprovement[J].2018.113YOLOv9Fromhttps://images.app.goo.gl/HJ6A5in33HQaoVVt52024114SSD115LiuW,AnguelovD,ErhanD,etal.SSD:SingleShotMultiBoxDetector[C]//EuropeanConferenceonComputerVision.2016.主要思想:基于YOLO直接回歸bbox和分類概率的one-stage檢測方法,結合FasterR-CNN中的anchor-box思想產(chǎn)生先驗框,并且采用特征金字塔進行多尺度預測,在滿足檢測速度快的同時,大大提高了檢測準確度。SSD116多尺度特征圖檢測CNN網(wǎng)絡一般前面的特征圖比較大,后面會逐漸采用stride=2的卷積或者pool來降低特征圖大小,在大的和小的特征圖都提取anchorbox用來做檢測,可找到最合適的anchorbox尺寸,提高檢測準確度。比較大的特征圖可以用來檢測相對較小的目標,而小的特征圖負責檢測大目標,例如左圖中8x8的特征圖可以劃分成更多單元,其每個單元的先驗框尺度較小,適合用于檢測較小的目標。SSD117Anchorbox(論文中為defaultbox)
第k層scale:
第k層defaultbox的寬:
高:
SSD118同時對多層特征圖上的默認框計算IoU,可以找到與真實框大小和位置最接近(即IoU最大)的框,在訓練時能達到最好的精度。較低層級的特征圖中間層級的特征圖較高層級的特征圖目標檢測算法119/p/33277354目標檢測TwostageR-CNNSPP-NetFastR-CNNFasterR-CNN更好的特征網(wǎng)絡HyperNetMS-CNNPVANetLight-HeadR-CNN更精確的RPNMR-CNNFPNCRAFT更完善的ROI分類R-FCNCoupleNetMask
R-CNNCascadeR-CNN目標后處理OHEMSoft-NMSA-Fast-RCNNOnestageOverFeatYOLOYOLOv2YOLOv3YOLOv4YOLOv7YOLOv5YOLOv8YOLOv6YOLOXYOLORSSDR-SSDDSSDDSODFSSDRetinaNetEfficientDet圖像生成120圖像識別判別模型圖像生成網(wǎng)絡學習到的是數(shù)據(jù)的模式/特征網(wǎng)絡學習到的是數(shù)據(jù)的分布生成模型Cat√Dog×生成模型121
生成對抗網(wǎng)絡GAN2014年,IanGoodfellow提出生成式對抗網(wǎng)絡GANGoodfellowIJ,Pouget-AbadieJ,MirzaM,etal.Generativeadversarialnets.NeurIPS’2014.20年來機器學習領域最酷的想法——YannLeCun解決的問題:從訓練樣本中學習出新樣本。為無監(jiān)督、預測學習提供算法框架。和蘇格拉底的辯證法有相似之處122GAN學習到了真實樣本集的數(shù)據(jù)分布/generative-models/生成對抗網(wǎng)絡GAN模型由兩部分組成生成器(偽裝者):找出觀測數(shù)據(jù)內部的統(tǒng)計規(guī)律,盡可能生成能夠以假亂真的樣本,使判別網(wǎng)絡輸出接近0.5,難以區(qū)分真假。判別器(警察):判斷輸入數(shù)據(jù)是來自真實樣本集還是生成樣本集。如果輸入是真樣本,輸出接近1;如果輸入是生成樣本,輸出接近0。123生成模型G真實樣本x生成樣本G(z)判別模型D隨機噪聲z或真?假?GAN訓練過程124更新判別網(wǎng)絡權值參數(shù),使其能分清真假樣本。更新生成網(wǎng)絡權值參數(shù),使其生成的假樣本被判別網(wǎng)絡識別為真樣本。判別網(wǎng)絡訓練過程生成網(wǎng)絡訓練過程交替迭代交替迭代生成網(wǎng)絡G真實樣本x生成樣本G(z)判別網(wǎng)絡D隨機噪聲z或真?假?生成網(wǎng)絡G生成樣本G(z)判別網(wǎng)絡D隨機噪聲z真?假?(label=1)(label=0)參數(shù)共享參數(shù)共享GAN訓練過程GAN訓練是極小極大博弈問題(或零和博弈)125優(yōu)化判別器D優(yōu)化目標:輸入真樣本x時,輸出接近1;輸入生成樣本G(z)時,輸出接近0。優(yōu)化生成器G優(yōu)化目標:生成的假樣本G(z),被判別器判斷為接近1,即(1-D(G(z))越小越好。生成對抗網(wǎng)絡GANGAN有一個整體的損失函數(shù),而不需要對生成網(wǎng)絡和對抗網(wǎng)絡分別指定具體的損失函數(shù),有較強的通用性。問題梯度消失:當判別器以高置信度成功判斷生成器生成的樣本為假樣本時,生成器的梯度會消失。訓練早期,會飽和應對方法:修改生成器的代價函數(shù)模式崩潰:生成器只生成幾種模式的樣本,生成樣本缺乏多樣性126模式崩潰(modelcollapse)127產(chǎn)生原因:GAN的損失函數(shù)使判別器假樣本的懲罰是巨大的,一旦生成的某一類假樣本成功騙過判別器,生成器就趨向于生成相似的樣本。應對方法(WGAN):采用更加平滑的損失函數(shù),參見Wasserstein
GANMNIST數(shù)據(jù)集的t-SNE圖,10個團簇對應10種模式。模式崩潰時,只生成其中的幾種模式,生成樣本缺乏多樣性。vanderMaaten,L.&Hinton,G.VisualizingDatausingt-SNE.JournalofMachineLearningResearch,2008,2579-2605
GAN相關研究/hindupuravinash/the-gan-zoo128卷積GANDCGAN:將GAN中全連接神經(jīng)網(wǎng)絡擴展到卷積神經(jīng)網(wǎng)絡ResGAN:圖像恢復,ResNetSRGAN:超分辨率,ResNetCycleGAN:圖像轉換條件GANCGANInfoGAN集成推斷模型的GANBiGAN對抗自編碼器VAE-GAN129GAN結構DCGAN特點判別器用stridedconv,生成器用fractional-stridedconv,來取代所有池化層,做空間下采樣和上采樣生成器和判別器使用batchnorm,進行深度神經(jīng)網(wǎng)絡訓練,防止模式崩潰生成器用Tanh作為輸出的激活函數(shù),用ReLU作為其它層的激活函數(shù)判別器的所有層都使用LeakyReLU作為激活函數(shù)去掉較深結構中的全連接隱層130Radford,A.;Metz,L.&Chintala,S.UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarialNetworks,ICLR,2016.原始GAN生成器的輸入是隨機噪聲,因此輸出數(shù)據(jù)的模式是不可控的。如果在輸入中增加類別條件,可以獲得預期的輸出。131條件GANinput:0123output:input:output:
132CGANMirza,M.&Osindero,S.ConditionalGenerativeAdversarialNets.arXiv:1411.1784v1,2014,1-7
GAN應用人臉生成風格轉換Superresolution…133GANzoo:https://deephunt.in/the-gan-zoo-79597dc8c347GAN代碼合集:
/zhangqianhui/AdversarialNetsPapersGAN應用合集:/nashory/gans-awesome-applications
生成對抗網(wǎng)絡vs擴散模型134生成對抗網(wǎng)絡存在的問題生成圖像缺乏多樣性模式崩潰由對抗性帶來的難以訓練擴散模型的優(yōu)勢擴散模型訓練過程中沒有對抗,訓練更容易不會受到模式崩潰的影響能夠產(chǎn)生多樣化圖像擴散模型135J.Ho,A.Jain,andP.Abbeel.Denoisingdiffusionprobabilisticmodels[C].NeurIPS,2020.DDPM在圖像合成方面擊敗了GAN擴散模型136基本原理正向過程和反向過程擴散模型137
擴散模型138
擴散模型139噪聲預測網(wǎng)絡擴散模型的關鍵在于構建一個噪聲預測網(wǎng)絡,能在反向過程的每一步預測合理的去噪?yún)?shù)需要進行像素級的預測,因此采用常用于圖像分割任務的U-NetU-Net完全對稱的全卷積網(wǎng)絡,由左側的編碼器(encoder)和右側的解碼器(decoder)組成編碼器通過一系列的下采樣,去除輸入圖像中的冗余信息,并壓縮轉換到小尺寸的圖像特征解碼器通過對稱的上采樣(反卷積),將圖像特征還原到原圖尺寸RonnebergerO,FischerP,andBroxT.U-Net:Convolutionalnetworksforbiomedicalimagesegmentation.MICCAI,
2015擴散模型140噪聲預測網(wǎng)絡擴散模型的關鍵在于構建一個噪聲預測網(wǎng)絡,能在反向過程的每一步預測合理的去噪?yún)?shù)需要進行像素級的預測,因此采用常用于圖像分割任務的U-NetDDPM改進了原始U-Net將每個尺度的卷積塊替換為殘差塊,并增加自注意力層來增強關系感知能力將當前時間t編碼為向量,作為網(wǎng)絡的條件輸入,來為不同的時間步預測噪聲擴散模型141訓練過程損失函數(shù)推理過程Palette142CSaharia,WChan,HChang,CLee,JHo,TSalimans,DFleet,MNorouzi,Palette:Image-to-ImageDiffusionModels,ACMSIGGRAPH’2022.將擴散模型應用到圖像翻譯領域,實現(xiàn)圖像著色、圖像修復、圖像剪裁恢復、圖像解壓縮等任務在不同任務里,均能產(chǎn)出多樣化的圖像DALL-E2143ARamesh,PDhariwal,ANichol,CChu,etal,HierarchicalText-ConditionalImageGenerationwithCLIPLatents,2022.給定文本text,生成與文本高度對應的圖片訓練1、訓練CLIP的文本和圖像編碼器(讓文本和圖像轉化為對應的embedding)2、訓練prior(讓文本embedding能轉化為圖像embedding)3、
訓練decoder[擴散模型,比如GLIDE](用圖像embedding引導生成真實圖片)123DALL-E2144推理1、使用CLIP文本編碼器生成文本embedding2、使用prior將文本embedding轉換成圖像embedding3、使用decoder(擴散模型)通過圖像embedding的引導生成真實圖像優(yōu)點:能生成遵循文本指引的多樣的圖像不足:計算資源需求高。因其直接在圖像空間做擴散和逆擴散過程,導致需要生成高分辨圖像時,需要先生成64*64的小圖像,再級聯(lián)一個放大擴散模型生成256*256的圖像,再級聯(lián)一個放大擴散模型生成1024*1024的圖像StableDiffusion145RRombach,ABlattmann,DLorenz,PEsser,BOmmer,High-ResolutionImageSynthesiswithLatentDiffusionModels,CVPR’2022.訓練和推理的擴散和逆擴散過程都在隱空間中進行,大大減小了顯存使用量和計算量VAE的編碼器和解碼器主要用于將原始圖片轉換到隱空間中比如:512x512x3轉換后變成64x64x4StableDiffusion146
StableDiffusion147RRombach,ABlattmann,DLorenz,PEsser,BOmmer,High-ResolutionImageSynthesiswithLatentDiffusionModels,CVPR’2022.ControlNet148LZhang,ARao,MAgrawala,Addingconditionalcontroltotext-to-imagediffusionmodels,ICCV2023.原始StableDiffusion對于每一種多模態(tài)輸入控制條件,都需要在龐大的數(shù)據(jù)集上更新全部模型參數(shù)核心思想:對大型擴散模型的權重進行克隆,并劃分為“可訓練副本”和“鎖定副本”,通過旁路微調可訓練副本來實現(xiàn)特定輸入的控制ControlNet149LZhang,ARao,MAgrawala,Addingconditionalcontroltotext-to-imagediffusionmodels,ICCV2023.提綱適合圖像處理的卷積神經(jīng)網(wǎng)絡適合語音/文本處理的循環(huán)神經(jīng)網(wǎng)絡從深度學習到大模型神經(jīng)網(wǎng)絡量化DrivingExample本章小結本章實驗150151人獲得的輸入是什么?圖像信息序列信息任務:理解圖像內容方法:卷積神經(jīng)網(wǎng)絡任務:理解語音/文字/視頻方法:循環(huán)神經(jīng)網(wǎng)絡任務特點:按時序輸入的數(shù)據(jù)之間不是相互獨立的,前后數(shù)據(jù)之間有相關性,所以網(wǎng)絡要有“存儲”信息的能力。循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡主要應用場景:機器翻譯、圖片描述、視頻標注、視覺問答等152機器翻譯圖片描述主要應用場景GitHubProject:AwesomeRecurrentNeuralNetworksAcuratedlistofresourcesdedicatedtorecurrentneuralnetworks(closelyrelatedtodeeplearning)./kjw0612/awesome-rnn
153循環(huán)神經(jīng)網(wǎng)絡結構
154=unfold輸入輸出層隱層(記憶單元)
循環(huán)神經(jīng)網(wǎng)絡結構155=unfold輸入輸出層隱層(記憶單元)
循環(huán)神經(jīng)網(wǎng)絡結構RNN的多種輸入-輸出結構156序列作為輸出imagecaptioning序列作為輸入sentimentanalysis
序列轉化為序列machinetranslationvideocaption同步序列轉化為序列videoclassification
(標注每一幀)對序列的長度(綠色塊塊多少個)無要求,不用預先定義http://karpathy.github.io/2015/05/21/rnn-effectiveness/循環(huán)神經(jīng)網(wǎng)絡結構正向計算過程157
一般時刻:
RNNcellX+XfXsoftmax
循環(huán)神經(jīng)網(wǎng)絡結構反向傳播BPTT(back-propagationthroughtime)某個時刻的損失函數(shù)為:整個序列的損失函數(shù)為:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作實踐心得體會范文-文檔
- 大學境內非學歷教育培訓項目合同
- 2025申報納稅服務合同
- 二零二五年度環(huán)保型工廠整體資產(chǎn)轉讓合同3篇
- 2025年度農村土地承包經(jīng)營權租賃與農業(yè)科技成果轉化合同
- 2025年度分手后共同債務重組與和解協(xié)議3篇
- 2025年度風力發(fā)電項目承包租賃合同3篇
- 二零二五年度文化創(chuàng)意產(chǎn)業(yè)借款合同范本3篇
- 二零二五年度人工智能產(chǎn)業(yè)合作合同模板3篇
- 2025年度建筑工程施工安全培訓三方合作協(xié)議3篇
- 臨床藥理學(完整課件)
- 吉林省2023年中考英語真題
- 公關專業(yè)團隊建設方案
- 玻璃幕墻更換玻璃施工方案
- 小學五年級體育全冊教學設計及教學反思
- 單片集成MEMS技術中英文翻譯、外文文獻翻譯、外文翻譯
- 水晶能量療愈指南百度百科
- 客戶退款申請表
- 汽車概論論文-混合動力汽車的發(fā)展現(xiàn)狀和發(fā)展趨勢
- 《輔酶q10》教學講解課件
- SMT工程師工作簡歷
評論
0/150
提交評論