




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
課程簡介深度學(xué)習(xí)歡迎選課選課動(dòng)機(jī)大模型AIGCActive(主動(dòng))Concentrated(專注)Telligent(理解)Inquisitive(勤學(xué)好問)Vigorous(活力)Extreme(極致)MindandHand(MIT校訓(xùn),既要?jiǎng)幽X,也要?jiǎng)邮郑┤绾稳プ??課程團(tuán)隊(duì)1課程基本信息2教材3課程內(nèi)容4目錄Contents課程評(píng)估5課程團(tuán)隊(duì)首席教授徐俊剛,xujg@主講教師******助教
************課程類型:
專業(yè)課學(xué)時(shí)/學(xué)分:40/2預(yù)修課程:Python程序設(shè)計(jì),機(jī)器學(xué)習(xí),計(jì)算機(jī)算法與分析課程網(wǎng)站:***微信群:***課程基本信息徐俊剛.深度學(xué)習(xí).北京:機(jī)械工業(yè)出版社,2024.教材課程內(nèi)容第一章引言第二章
卷積神經(jīng)網(wǎng)絡(luò)第三章
循環(huán)神經(jīng)網(wǎng)絡(luò)第四章Transformer第五章
生成對(duì)抗網(wǎng)絡(luò)第六章深度生成模型第七章
正則化與優(yōu)化第八章
深度學(xué)習(xí)框架課程內(nèi)容課堂筆試:**%(閉卷/開卷)實(shí)驗(yàn)(必做和可選):**%課程評(píng)估計(jì)算機(jī)視覺實(shí)驗(yàn)(供參考)
必做實(shí)驗(yàn)(每個(gè)人):(1)基于CNN的手寫數(shù)字識(shí)別;(2)基于ViT的CIFAR10圖像分類。
可選實(shí)驗(yàn)(每組,不超過3人):(1)基于YOLOv5的目標(biāo)檢測;(2)基于SegNet的街景分割。注:部分實(shí)驗(yàn)需基于GPU進(jìn)行,可基于學(xué)校教學(xué)實(shí)驗(yàn)室或者外部在線GPU資源進(jìn)行。課程評(píng)估自然語言處理實(shí)驗(yàn)(供參考)必做實(shí)驗(yàn)(每個(gè)人):(1)基于LSTM的自動(dòng)寫詩;(2)基于Transformer的神經(jīng)機(jī)器翻譯??蛇x實(shí)驗(yàn)(每組,不超過3人):(1)基于LSTM的語言模型;(2)基于CNN-Transformer的圖像描述。注:部分實(shí)驗(yàn)需基于GPU進(jìn)行,可基于學(xué)校教學(xué)實(shí)驗(yàn)室或者外部在線GPU資源進(jìn)行。課程評(píng)估祝愿第一章引言深度學(xué)習(xí)深度學(xué)習(xí)的起源與發(fā)展12深度學(xué)習(xí)與機(jī)器學(xué)習(xí)、AI的關(guān)系3深度學(xué)習(xí)的基本概念與典型算法45目錄Contents本章人物深度學(xué)習(xí)的主要應(yīng)用概述196中英文術(shù)語對(duì)照深度學(xué)習(xí)的起源與發(fā)展1“深度學(xué)習(xí)(DeepLearning)”的概念是2006年由多倫多大學(xué)(UniversityofToronto)的GeoffreyHinton教授與他的同事們提出的,他也因此被稱為“深度學(xué)習(xí)之父”。但是,由于深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)息息相關(guān),它的起源可以追溯到更早的時(shí)間。21深度學(xué)習(xí)的起源HintonGE,OsinderoSandTehY.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18:1527-1554.HintonGE,SalakhutdinovRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-507.22深度學(xué)習(xí)的起源深度學(xué)習(xí)的起源23第一階段(1943-1969)1943年:WarrenMcCulloch和WalterPitts提出了M-P神經(jīng)元模型,模擬了人類神經(jīng)元的結(jié)構(gòu)和工作原理。1949年:生理心理學(xué)家DonaldOldingHebb提出了Hebb學(xué)習(xí)規(guī)則,奠定了人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的基礎(chǔ)。1957年:FrankRosenblatt提出了由兩層神經(jīng)元組成的感知機(jī)(Perceptron)。1969年:MarvinMinsky和SeymourPapert指出感知器無法解決XOR運(yùn)算這樣的線性不可分問題,導(dǎo)致人工神經(jīng)網(wǎng)絡(luò)的研究陷入低谷。深度學(xué)習(xí)的起源24第二階段(1980-1998)1980年:KunihikoFukushima(福島邦彥)提出了模擬生物視覺傳導(dǎo)通路的神經(jīng)認(rèn)知機(jī),被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的原始模型。1982年:JohnHopfield提出了Hopfield神經(jīng)網(wǎng)絡(luò),有連續(xù)型和離散型兩種類型,分別用于優(yōu)化計(jì)算和聯(lián)想記憶。1986年:DavidRumelhart、GeoffreyHinton和RonaldWilliams重新獨(dú)立提出了誤差反向傳播算法(ErrorBackPropagation,BP)(1974年P(guān)aulWerbos首次提出了BackPropagation算法),并指出多層感知機(jī)可以解決異或操作(XOR)這樣的線性不可分問題。1986年與1990年,分別出現(xiàn)了JordanNetwork與ElmanNetwork兩種循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN)。深度學(xué)習(xí)的起源25第二階段(1980-1998)1995年:CorinnaCortes和VladimirVapnik提出了支持向量機(jī)(SupportVectorMachine,SVM),除了其簡單的訓(xùn)練方法與優(yōu)越的性能超過了人工神經(jīng)網(wǎng)絡(luò)之外,其良好的可解釋性使得人工神經(jīng)網(wǎng)絡(luò)研究再次進(jìn)入低谷期。1997年:JurgenSchmidhuber和SeppHochreiter提出了長短期記憶網(wǎng)絡(luò)(Long-ShortTermMemory,LSTM),極大地提高了循環(huán)神經(jīng)網(wǎng)絡(luò)的效率和實(shí)用性。1998年:YannLeCun提出了稱作LeNet-5的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN),率先將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像識(shí)別任務(wù),但在當(dāng)時(shí)也沒有引起大的轟動(dòng)。深度學(xué)習(xí)的起源26第三階段(2006-)2006年:GeoffreyHinton和他的同事們提出了一種稱作深度信念網(wǎng)絡(luò)(DeepBeliefNetworks,DBN)的多層網(wǎng)絡(luò)并進(jìn)行了有效的訓(xùn)練,同時(shí)提出了一種通過多層神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)降維的方法,正式提出了深度學(xué)習(xí)的概念。深度學(xué)習(xí)在2012年之后在業(yè)界引起了巨大的反響。深度學(xué)習(xí)的發(fā)展27深度學(xué)習(xí)的發(fā)展282012年:FrankSeide等人使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識(shí)別,相比于傳統(tǒng)的GMM和HMM,識(shí)別錯(cuò)誤率下降了20%-30%,取得了突破性的進(jìn)展。2012年:AlexKrizhevsky等人提出了AlexNet,它引入了ReLU激活函數(shù),并使用GPU進(jìn)行加速。在著名的ImageNet圖像識(shí)別大賽中,AlexNet使得圖像識(shí)別錯(cuò)誤率從26%左右下降到了15%左右,并奪得2012年的冠軍。在隨后幾年的ImageNet圖像識(shí)別大賽中,又出現(xiàn)了一些經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),如VGGNet、GoogleNet、ResNet和SENet等,圖像識(shí)別錯(cuò)誤率繼續(xù)下降。2017年:SENet的圖像識(shí)別錯(cuò)誤率已經(jīng)下降到了2.25%,由于錯(cuò)誤率已經(jīng)到了極限,這也導(dǎo)致ImageNet圖像識(shí)別大賽從2018年開始不再舉辦。深度學(xué)習(xí)的發(fā)展292014年起:R-CNN、FastR-CNN、FasterR-CNN等一系列目標(biāo)檢測模型的提出,極大地提升了目標(biāo)檢測的精度,但是它們需要兩個(gè)階段才能完成,模型訓(xùn)練效率較低。2016年:YOLO目標(biāo)檢測模型被提出,由于它是一個(gè)端到端的模型,大大提高了模型訓(xùn)練與推理效率,但模型的精度不如R-CNN系列高,之后YOLO的后續(xù)版本陸續(xù)被推出,目前已經(jīng)到了第八版。2014年:生成對(duì)抗網(wǎng)絡(luò)由當(dāng)時(shí)還在蒙特利爾大學(xué)讀博士的IanJ.Goodfellow提出,由于它無需標(biāo)注大量的數(shù)據(jù)即可進(jìn)行訓(xùn)練,在學(xué)術(shù)界迅速掀起了研究熱潮。深度學(xué)習(xí)的發(fā)展30在自然語言處理領(lǐng)域,LSTM、門限循環(huán)單元(GatedRecurrentUnit,GRU)等循環(huán)神經(jīng)網(wǎng)絡(luò)在語言模型、機(jī)器翻譯等任務(wù)上也取得了很大的進(jìn)展。特別是隨著Transformer的出現(xiàn),使得BERT、GPT等預(yù)訓(xùn)練大模型進(jìn)入人們的視野,這些大模型在自然語言處理領(lǐng)域多個(gè)任務(wù)上都超越了已有方法。2022年以來:ChatGPT、GPT4.0的相繼問世更是使得大型通用語言模型達(dá)到了前所未有的高度,被譽(yù)為信息技術(shù)領(lǐng)域里程碑式的突破。2023年:百度公司在國內(nèi)也率先推出了大型通用語言模型“文心一言”,之后清華大學(xué)、復(fù)旦大學(xué)、華為公司、阿里公司、科大訊飛也都發(fā)布了自己的大模型,開啟了大型中文語言模型的新時(shí)代。深度學(xué)習(xí)的發(fā)展31當(dāng)前,深度學(xué)習(xí)仍然是人工智能領(lǐng)域關(guān)注度最高的主題之一,研究如火如荼,應(yīng)用也是多點(diǎn)開花。在研究方面:基于AI的內(nèi)容生成、多模態(tài)數(shù)據(jù)分析、深度強(qiáng)化學(xué)習(xí)等工作正在火熱進(jìn)行。在應(yīng)用方面:深度學(xué)習(xí)已經(jīng)在安防、醫(yī)療、金融、智能制造、無人駕駛等多個(gè)領(lǐng)域取得了顯著的成果。深度學(xué)習(xí)與機(jī)器學(xué)習(xí)、AI的關(guān)系2深度學(xué)習(xí)與機(jī)器學(xué)習(xí)、AI的關(guān)系FromNvidia33深度學(xué)習(xí)與機(jī)器學(xué)習(xí)、AI的關(guān)系34人工智能人工智能定義“人工智能”的概念最早在1956年的美國達(dá)特茅斯會(huì)議(DartmouthConference)上提出,當(dāng)時(shí)會(huì)議的主題是“用機(jī)器來模仿人類學(xué)習(xí)以及其它方面的智能”。因此,1956年被認(rèn)為是人工智能的元年。一般認(rèn)為,人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新興學(xué)科。35人工智能已實(shí)現(xiàn)基本實(shí)現(xiàn)未來熱點(diǎn)36人工智能分類人工智能人工智能技術(shù)搜索理論、知識(shí)表示與推理方法、機(jī)器學(xué)習(xí)算法、感知、決策與控制技術(shù)等。參考書史忠植.高級(jí)人工智能.北京:科學(xué)出版社.[美]史蒂芬·盧奇(StephenLucci),丹尼·科佩克(DannyKopec)著,林賜譯.人工智能(第2版).北京:人民郵電出版社,2018.37機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)定義讓計(jì)算機(jī)具有像人一樣的學(xué)習(xí)和思考能力的技術(shù)的總稱。具體來說是從已知數(shù)據(jù)中獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測的技術(shù)。一個(gè)簡單的例子:利用機(jī)器學(xué)習(xí)算法對(duì)往年的天氣預(yù)報(bào)數(shù)據(jù)進(jìn)行學(xué)習(xí),就能夠預(yù)測未來的天氣預(yù)報(bào)數(shù)據(jù)。38機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)分類有監(jiān)督學(xué)習(xí)(跟學(xué)師評(píng)):有老師(環(huán)境)的情況下,學(xué)生(計(jì)算機(jī))從老師(環(huán)境)那里獲得對(duì)錯(cuò)指示、最終答案的學(xué)習(xí)方法。包含線性回歸、多項(xiàng)式回歸、決策樹和隨機(jī)森林等回歸算法,以及KNN、邏輯回歸、貝葉斯和支持向量機(jī)等分類算法。無監(jiān)督學(xué)習(xí)(自學(xué)標(biāo)評(píng)):沒有老師(環(huán)境)的情況下,學(xué)生(計(jì)算機(jī))自學(xué)的過程,一般使用一些既定標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),或無評(píng)價(jià)。包含K-Means聚類、主成分分析、關(guān)聯(lián)分析和密度估計(jì)等算法。弱監(jiān)督學(xué)習(xí):僅有少量環(huán)境提示(教師反饋)或者少量數(shù)據(jù)(試題)標(biāo)簽(答案)的情況下,機(jī)器(學(xué)生)不斷進(jìn)行學(xué)習(xí)的方法。包含強(qiáng)化學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和多示例學(xué)習(xí)等算法。3940有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)41強(qiáng)化學(xué)習(xí)42機(jī)器學(xué)習(xí)常見算法43機(jī)器學(xué)習(xí)參考書周志華.機(jī)器學(xué)習(xí).北京:清華大學(xué)出版社,2016.李航.統(tǒng)計(jì)學(xué)習(xí)方法(第2版).北京:清華大學(xué)出版社,2019.深度學(xué)習(xí)的基本概念與典型算法3為什么需要深度學(xué)習(xí)?45深度學(xué)習(xí)基本概念46深度學(xué)習(xí)定義深度學(xué)習(xí)是指通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)數(shù)據(jù)的特征,以便于進(jìn)行數(shù)據(jù)分類、回歸與生成。深度學(xué)習(xí)與淺層學(xué)習(xí)相比,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)更多(一般大于或等于4層),通過多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以學(xué)習(xí)得到更豐富的數(shù)據(jù)特征。深度學(xué)習(xí)基本概念47淺層前饋神經(jīng)網(wǎng)絡(luò)和深度前饋神經(jīng)網(wǎng)絡(luò)典型深度學(xué)習(xí)算法48典型深度學(xué)習(xí)算法49有監(jiān)督學(xué)習(xí)的淺層學(xué)習(xí)算法:決策樹、支持向量機(jī)、感知機(jī)和Boosting等。無監(jiān)督學(xué)習(xí)的淺層學(xué)習(xí)算法:自編碼器、受限玻爾茲曼機(jī)、高斯混合模型和稀疏自編碼器等有監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)算法:深度前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer、膠囊網(wǎng)絡(luò)和深度森林等。無監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)算法:深度自編碼器、生成對(duì)抗網(wǎng)絡(luò)、深度玻爾茲曼機(jī)和深度信念網(wǎng)絡(luò)等。典型深度學(xué)習(xí)算法50深度前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)典型深度學(xué)習(xí)算法51循環(huán)神經(jīng)網(wǎng)絡(luò)Transformer典型深度學(xué)習(xí)算法52生成對(duì)抗網(wǎng)絡(luò)深度信念網(wǎng)絡(luò)與深度玻爾茲曼機(jī)典型深度學(xué)習(xí)算法53深度自編碼器深度學(xué)習(xí)的主要應(yīng)用概述4深度學(xué)習(xí)的主要應(yīng)用55計(jì)算機(jī)視覺領(lǐng)域主要應(yīng)用(基礎(chǔ)任務(wù))圖像分類:整幅圖像的分類或識(shí)別。目標(biāo)檢測:檢測圖像中物體的位置進(jìn)而識(shí)別物體。圖像分割:對(duì)圖像中的特定物體按邊緣進(jìn)行分割,并識(shí)別物體類別或個(gè)體。圖像回歸:預(yù)測圖像中物體或者物體組成部分的坐標(biāo)。細(xì)化深度學(xué)習(xí)的主要應(yīng)用56圖像分類圖像分割目標(biāo)檢測圖像回歸深度學(xué)習(xí)的主要應(yīng)用57計(jì)算機(jī)視覺領(lǐng)域主要應(yīng)用(高級(jí)任務(wù))人臉識(shí)別:首先通過目標(biāo)檢測提取人的正臉,然后通過人臉識(shí)別人員身份。行人重識(shí)別:檢測視頻序列中的行人,并識(shí)別特定人員的身份。目標(biāo)跟蹤:在連續(xù)的視頻幀中定位某一行人或者其他運(yùn)動(dòng)目標(biāo)。動(dòng)作識(shí)別:識(shí)別視頻中人體的動(dòng)作/行為。產(chǎn)品缺陷檢測:檢測工業(yè)產(chǎn)品存在的缺陷。深度學(xué)習(xí)的主要應(yīng)用58語音識(shí)別領(lǐng)域主要應(yīng)用語音識(shí)別:將人類說話的語音轉(zhuǎn)換成文字。聲紋識(shí)別:根據(jù)說話人的聲波特性進(jìn)行身份識(shí)別,又稱為說話人識(shí)別。語音合成:將文本轉(zhuǎn)換為語音。深度學(xué)習(xí)的主要應(yīng)用59自然語言處理領(lǐng)域主要應(yīng)用(基礎(chǔ)任務(wù))詞法分析:以詞為單位進(jìn)行分析,包括詞性標(biāo)注、拼寫校正等。句法分析:以句子為單位進(jìn)行分析,主要包括句法結(jié)構(gòu)分析和依存句法分析等。語義分析:分析自然語言的深層含義,包括詞匯級(jí)語義分析、句子級(jí)語義分析和篇章級(jí)語義分析。信息抽?。簭淖匀徽Z言中抽取出結(jié)構(gòu)化信息,包括實(shí)體抽取、事件抽取等。語言模型:根據(jù)之前的單詞預(yù)測下一個(gè)單詞。深度學(xué)習(xí)的主要應(yīng)用60自然語言處理領(lǐng)域主要應(yīng)用(高級(jí)任務(wù))情感分析:分析文本體現(xiàn)的情感,可包含正負(fù)向、正負(fù)中或多態(tài)度等類型。神經(jīng)機(jī)器翻譯:基于神經(jīng)網(wǎng)絡(luò)語言模型的多語種互譯。神經(jīng)自動(dòng)摘要:根據(jù)單文檔或者多文檔自動(dòng)生成文檔摘要。機(jī)器閱讀理解:通過閱讀文本回答問題、完成選擇題或完型填空。自動(dòng)問答:用戶給出問題,機(jī)器可以進(jìn)行回答,也稱單輪對(duì)話。人機(jī)對(duì)話:通過訓(xùn)練大量語料,支持人與機(jī)器之間的自由對(duì)話,通常指的是多輪對(duì)話。深度學(xué)習(xí)主要應(yīng)用61多模態(tài)處理領(lǐng)域的應(yīng)用圖像描述:機(jī)器可以根據(jù)圖像給出描述圖像的句子,也稱看圖說話??梢晢柎穑簷C(jī)器可以回答特定圖像或視頻相關(guān)的問題。圖像生成:機(jī)器可以根據(jù)文本描述生成相應(yīng)的圖像。視頻生成:機(jī)器可以根據(jù)文字描述自動(dòng)生成相應(yīng)的視頻。虛擬主播:自動(dòng)播報(bào)新聞的虛擬人物。本章人物5本章人物63GeoffreyHinton多倫多大學(xué)杰出教授,英國皇家科學(xué)院院士,美國國家工程院外籍院士,美國藝術(shù)與科學(xué)院外籍院士,2018圖靈獎(jiǎng)獲得者。在BP算法、玻爾茲曼機(jī)、時(shí)間延遲神經(jīng)網(wǎng)絡(luò)、變分學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域做出杰出文獻(xiàn),被譽(yù)為“深度學(xué)習(xí)之父”。個(gè)人主頁:/~hinton/。中英文術(shù)語對(duì)照6中英文術(shù)語對(duì)照65深度學(xué)習(xí):DeepLearning人工神經(jīng)網(wǎng)絡(luò):ArtificialNeuralNetworks,ANNM-P神經(jīng)元模型:McCulloch-PittsNeuronModel感知機(jī):Perceptron神經(jīng)認(rèn)知機(jī):Neocognitron反向傳播算法:BackPropagation,BP循環(huán)神經(jīng)網(wǎng)絡(luò):RecurrentNeuralNetworks,RNN支持向量機(jī):SupportVectorMachine,SVM長短期記憶網(wǎng)絡(luò):Long-ShortTermMemory,LSTM中英文術(shù)語對(duì)照66卷積神經(jīng)網(wǎng)絡(luò):ConvolutionalNeuralNetworks,CNN深度信念網(wǎng)絡(luò):DeepBeliefNetworks,DBN高斯混合模型:GaussianMixtureModel,GMM隱馬爾可夫模型:HiddenMarkovModel,HMM生成對(duì)抗網(wǎng)絡(luò):GenerativeAdversarialNetworks,GAN門限循環(huán)單元:GatedRecurrentUnit,GRU基于Transformer的雙向編碼器表示模型:BidirectionalEncoderRepresentationfromTransformers,BERT生成式預(yù)訓(xùn)練Transformer:GenerativePre-trainingTransformer,GPT中英文術(shù)語對(duì)照67計(jì)算智能:ComputationalIntelligence感知智能:PerceptualIntelligence認(rèn)知智能:CognitiveIntelligenceK-近鄰:K-NearestNeighbor,KNN深度前饋神經(jīng)網(wǎng)絡(luò):DeepFeedforwardNeuralNetworks,DFNN多層感知機(jī):Multi-LayerPerceptron,MLP自注意力:Self-attention編碼器-解碼器結(jié)構(gòu):Encoder-DecoderSigmoid信念網(wǎng):SigmoidBeliefNetworks,SBN中英文術(shù)語對(duì)照68受限玻爾茲曼機(jī):RestrictedBoltzmannMachines,RBM深度玻爾茲曼機(jī):DeepBoltzmannMachine,DBM自編碼器:Autoencoder,AE深度自編碼器:DeepAutoencoder,DAE時(shí)間延遲神經(jīng)網(wǎng)絡(luò):Time-delayNeuralNetworks變分學(xué)習(xí):VariationalLearning對(duì)比散度算法:ContrastiveDivergence,CD膠囊網(wǎng)絡(luò):CapsuleNetworks前向-前向算法:Forward-ForwardAlgorithm69第二章卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練3典型卷積神經(jīng)網(wǎng)絡(luò)45目錄Contents中英文術(shù)語對(duì)照7卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用6本章人物卷積神經(jīng)網(wǎng)絡(luò)的起源與發(fā)展1卷積神經(jīng)網(wǎng)絡(luò)的起源73D.H.Hubel(1926-2013)andT.N.Wiesel(1924-).
Receptivefields,binocularinteractionandfunctionalarchitectureinthecat‘svisualcortex.
JournalofPhysiology,1962,160(1):106-154.Hubel-Weisel實(shí)驗(yàn)(1959年)卷積神經(jīng)網(wǎng)絡(luò)的起源74。簡單細(xì)胞(SimpleCell):對(duì)光束的位置有反應(yīng)。復(fù)雜細(xì)胞(ComplexCell):對(duì)光束的位置和移動(dòng)有反應(yīng)。超級(jí)復(fù)雜細(xì)胞(Hyper-complexCell):對(duì)有端點(diǎn)的光束移動(dòng)有反應(yīng)。層次關(guān)系:通過對(duì)光束特征的不斷提取和綜合實(shí)現(xiàn)整個(gè)光束的識(shí)別。Hubel-Weisel實(shí)驗(yàn)(1959年)卷積神經(jīng)網(wǎng)絡(luò)的起源75KunihikoFukushima.Neocognitron:Aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition.BiologicalCybernetics,1980,36:193–202.福島邦彥神經(jīng)認(rèn)知機(jī)(1980年)卷積神經(jīng)網(wǎng)絡(luò)的起源76
神經(jīng)認(rèn)知機(jī)(1980年)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)2卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)79典型的卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層(含激活函數(shù))、池化層、全連接層和輸出層構(gòu)成,其中卷積層與池化層一般交替排列,之后接一層或者多層全連接層,最后是輸出層。卷積層80卷積運(yùn)算卷積運(yùn)算(Convolution)是數(shù)學(xué)中的常見運(yùn)算,分為離散卷積與連續(xù)卷積。
例子:求兩個(gè)骰子之和為4的概率81例子:求兩個(gè)骰子之和為4的概率82
例子:求兩個(gè)骰子之和為4的概率83例子:求兩個(gè)骰子之和為4的概率84兩枚骰子點(diǎn)數(shù)加起來為4的概率為:
f(1)g(3)+f(2)g(2)+f(3)g(1)
寫成標(biāo)準(zhǔn)的形式:
卷積公式
85一維連續(xù)卷積一維離散卷積卷積公式二維卷積:86二維連續(xù)卷積二維離散卷積87卷積層
88卷積層卷積核相當(dāng)于傳統(tǒng)計(jì)算機(jī)視覺領(lǐng)域中的特征算子,用于提取圖像特征。傳統(tǒng)的Sobel梯度算子45°方向模板被設(shè)計(jì)為:89卷積層數(shù)據(jù)填充:
p=1s=190卷積層在使用PyTorch等深度學(xué)習(xí)框架時(shí),卷積層有Padding參數(shù),有三種選擇:‘Full’、‘Valid’和‘Same’。‘Full’表示需要填充,當(dāng)卷積核與輸入開始接觸時(shí)進(jìn)行卷積操作,‘Valid’表示不需要填充,‘Same’表示需要填充并保證輸出與輸入具有相同的尺寸。91卷積層步幅:
p=1s=292卷積層通道(Channel):一般指的圖像的顏色通道。單通道圖像:一般指的灰度圖像。多通道圖像:一般指的基于RGB的圖像,有R、G、B三個(gè)通道。特征圖(Featuremap):經(jīng)卷積和激活函數(shù)處理后的圖像。93卷積層單通道卷積:單通道圖像的卷積。單卷積核單通道卷積多卷積核單通道卷積94卷積層多通道卷積:多通道圖像的卷積。單卷積核多通道卷積(一般不這樣做)多卷積核多通道卷積95卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(卷積計(jì)算)96卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(求和)97卷積層多通道卷積:多通道圖像的卷積。多卷積核多通道卷積(偏置(bias))98卷積層
CS231N:http://cs231n.github.io/convolutional-networks/多通道卷積99卷積層卷積層的主要作用淺層卷積層:提取的是圖像基本特征,如邊緣、方向和紋理等特征。深層卷積層:提取的是圖像高階特征,出現(xiàn)了高層語義模式,如“車輪”、“人臉”等特征。100卷積層卷積層的主要作用101卷積層卷積層的主要作用102激活函數(shù)激活函數(shù)的引入,增強(qiáng)了人工神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,從而提高了模型的學(xué)習(xí)能力。在人工神經(jīng)網(wǎng)絡(luò)發(fā)展的初期,Sigmoid激活函數(shù)起到了十分重要的作用,但隨著人工神經(jīng)網(wǎng)絡(luò)層數(shù)的增加以及反向傳播算法的使用,會(huì)產(chǎn)生梯度消失問題。在卷積神經(jīng)網(wǎng)絡(luò)中,為了緩解梯度消失問題,常用的激活函數(shù)有ReLU、PReLU、ERU和Maxout等。
103激活函數(shù)Sigmoid激活函數(shù)存在“梯度飽和效應(yīng)”問題,即Sigmoid激活函數(shù)兩端梯度都趨于0,因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),該區(qū)域的誤差無法傳遞到前一層,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。104激活函數(shù)105激活函數(shù)
Tanh激活函數(shù)同樣存在“梯度飽和效應(yīng)”問題,即Tanh激活函數(shù)兩端梯度也都趨于0,因此在使用誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),該區(qū)域的誤差也無法傳遞到前一層,從而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗。106激活函數(shù)107激活函數(shù)
與Sigmoid激活函數(shù)相比,ReLU在x≥0部分消除了“梯度飽和效應(yīng)”,且ReLU的計(jì)算更簡單,計(jì)算速度更快。但ReLU本身也存在缺陷,如果輸入為負(fù)值,其梯度等于0,導(dǎo)致“神經(jīng)元死亡”,將無法進(jìn)行權(quán)重更新,進(jìn)而無法完成網(wǎng)絡(luò)訓(xùn)練。即便如此,ReLU仍然是當(dāng)前深度學(xué)習(xí)領(lǐng)域中最為常用的激活函數(shù)之一。108激活函數(shù)109激活函數(shù)
110激活函數(shù)111激活函數(shù)
ELU激活函數(shù)的優(yōu)點(diǎn)是處理含有噪聲的數(shù)據(jù)有優(yōu)勢,與Sigmoid激活函數(shù)相比更容易收斂。ELU激活函數(shù)的缺點(diǎn)是計(jì)算量較大,與ReLU激活函數(shù)相比,收斂速度較慢。112激活函數(shù)113激活函數(shù)
Maxout激活函數(shù)的優(yōu)點(diǎn)是能夠緩解梯度消失問題,規(guī)避了ReLU激活函數(shù)“神經(jīng)元死亡”的缺點(diǎn)。Maxout激活函數(shù)的缺點(diǎn)是增加了一層神經(jīng)網(wǎng)絡(luò),無形中增加了參數(shù)和計(jì)算量。114激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)選擇CNN在卷積層盡量不要使用Sigmoid和Tanh,將導(dǎo)致梯度消失。首先選用ReLU,使用較小的學(xué)習(xí)率,以免造成神經(jīng)元死亡的情況。如果ReLU失效,考慮使用LeakyReLU、PReLU、ELU或者M(jìn)axout,此時(shí)一般情況都可以解決。115激活函數(shù)116池化層池化操作使用某位置相鄰輸出的總體統(tǒng)計(jì)特征作為該位置的輸出。常用類型:最大池化(max-pooling)和均值池化(average-pooling)。池化層不包含需要訓(xùn)練學(xué)習(xí)的參數(shù),僅需指定池化操作的核大小、步幅以及池化類型。117池化層池化層的作用對(duì)輸入對(duì)象進(jìn)行“降采樣(Downsampling)”操作,一定程度上提高了模型的容錯(cuò)能力。保證了當(dāng)輸入出現(xiàn)少量平移時(shí),輸出近似不變,增強(qiáng)了網(wǎng)絡(luò)對(duì)輸入圖像中的小變形、扭曲、平移的魯棒性(輸入里的微小扭曲不會(huì)改變池化輸出)。池化核的指定相當(dāng)于在空間范圍內(nèi)對(duì)特征圖的特征進(jìn)行了維度約減,同時(shí)縮小了下一層輸入的特征圖尺寸,進(jìn)而在一定程度上減少了網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)和計(jì)算量。118全連接層全連接層一般由一到多層的全連接神經(jīng)網(wǎng)絡(luò)組成,功能是對(duì)卷積層或池化層輸出的特征圖(二維)進(jìn)行降維。119全連接層可以將不同的區(qū)域特征合并為一個(gè)完整的特征。/weixin_40903337/article/details/100074878120輸出層分類問題:使用Softmax函數(shù)遞歸問題:使用線性函數(shù)
121卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以圖像分類任務(wù)為例用隨機(jī)數(shù)初始化網(wǎng)絡(luò)需訓(xùn)練的參數(shù)(如權(quán)重、偏置)。將訓(xùn)練圖像作為輸入,進(jìn)行卷積層、ReLU、池化層以及全連接層的前向傳播,并計(jì)算每個(gè)類別的對(duì)應(yīng)輸出概率。計(jì)算輸出層的總誤差:總誤差=-∑(目標(biāo)概率×log?(輸出概率))。使用BP算法計(jì)算總誤差相對(duì)于所有參數(shù)的梯度,并用梯度下降法或其他優(yōu)化算法更新所有參數(shù)的值,以使輸出誤差最小。卷積核個(gè)數(shù)、卷積核大小以及網(wǎng)絡(luò)架構(gòu),是在步驟1之前就已經(jīng)確定的,且不會(huì)在訓(xùn)練過程中改變,只有網(wǎng)絡(luò)的其他參數(shù),如神經(jīng)元的權(quán)重、偏置會(huì)更新。122卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練:把池化層改為多層神經(jīng)網(wǎng)絡(luò)的形式。123卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練池化層的訓(xùn)練:最大池化和均值池化的誤差反向傳播。最大池化均值池化124卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練卷積層的訓(xùn)練:首先把卷積層也改為多層神經(jīng)網(wǎng)絡(luò)的形式,之后使用BP算法進(jìn)行訓(xùn)練。125卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
126卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
127卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
典型卷積神經(jīng)網(wǎng)絡(luò)4LeNet-5AlexNetVGGNetGoolgeNetResNet129經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)130LeNet-5LeNet-5由LeCun等人提出于1998年提出。主要進(jìn)行手寫數(shù)字識(shí)別和英文字母識(shí)別。LetNet雖小,各模塊齊全,是學(xué)習(xí)CNN的基礎(chǔ)。/exdb/lenet/。Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,November1998.131LeNet-5132LeNet-5輸入層:尺寸大小為32×32的圖像。C1層(卷積層):選用6個(gè)5×5的卷積核,步長為1,得到6個(gè)大小為28×28的特征圖(32-5+1=28),神經(jīng)元的個(gè)數(shù)為6×28×28=4704。133LeNet-5S2層(下采樣層):對(duì)C1所得6個(gè)28×28的特征圖進(jìn)行均值池化,池化核大小選擇2×2,步長為2,得到的均值乘上一個(gè)權(quán)重加上一個(gè)偏置作為Sigmoid激活函數(shù)的輸入,得到6個(gè)14×14的特征圖,神經(jīng)元個(gè)數(shù)為6×14×14=1176。134LeNet-5C3層(卷積層):選用16個(gè)5×5卷積核組(前6個(gè)卷積核組中的卷積核個(gè)數(shù)為3,中間6個(gè)為4,之后3個(gè)為4,最后1個(gè)為6)對(duì)S2層輸出的特征圖進(jìn)行卷積,加偏置和激活函數(shù)(Sigmoid)后得到16張10×10(14-5+1=10)新特征圖。此時(shí)神經(jīng)元個(gè)數(shù)為16×10×10=1600。……135LeNet-5S4層(下采樣層):對(duì)C3的16張10×10特征圖進(jìn)行最大池化,池化核大小為2×2,步長為2,得到的最大值乘以一個(gè)權(quán)重參數(shù),再加上一個(gè)偏置參數(shù)作為激活函數(shù)(Sigmoid)的輸入,得到16張5×5的特征圖,神經(jīng)元個(gè)數(shù)已經(jīng)減少為16×5×5=400。136LeNet-5C5層(卷積層):選用16個(gè)5×5的卷積核進(jìn)行卷積,乘以一個(gè)權(quán)重參數(shù)并求和,再加上一個(gè)偏置參數(shù)作為激活函數(shù)(Sigmoid)的輸入,得到1×1(5-5+1=1)的特征圖。然后我們希望得到120個(gè)特征圖,就要用總共120個(gè)5×5卷積核組(每個(gè)組16個(gè)卷積核)進(jìn)行卷積,神經(jīng)元減少為120個(gè)。137LeNet-5F6層(全連接層):與C5層全連接,有84個(gè)神經(jīng)元,對(duì)應(yīng)于一個(gè)7×12的比特圖。將輸入乘以一個(gè)權(quán)重并求和,再加上一個(gè)偏置作為Sigmoid函數(shù)的輸入,得到84個(gè)值。ASCII編碼圖(每個(gè)字符7X12像素)C5層120個(gè)138LeNet-5Output層(全連接層):與F6層全連接,共有10個(gè)神經(jīng)元,分別代表數(shù)字0到9。輸出層采用徑向基函數(shù)(RadialBasisFunction,RBF)的網(wǎng)絡(luò)連接方式。139LeNet-5
140LeNet-5總結(jié):卷積核大小、卷積核個(gè)數(shù)(特征圖需要多少個(gè))、池化核大小和步長等這些參數(shù)都是變化的,這就是所謂的CNN調(diào)參,需要學(xué)會(huì)根據(jù)需要進(jìn)行不同的選擇。141AlexNetAlexNet由Hinton的學(xué)生AlexKrizhevsky于2012年提出。獲得ImageNetLSVRC-2012(物體識(shí)別挑戰(zhàn)賽)的冠軍,數(shù)據(jù)集包含1000個(gè)類別120萬幅高清圖像,Error:26.2%(2011)→15.3%(2012)。通過AlexNet確定了CNN在計(jì)算機(jī)視覺領(lǐng)域的王者地位。A.Krizhevsky,I.Sutskever,andG.Hinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InNIPS,2012.142AlexNet首次成功應(yīng)用ReLU作為CNN的激活函數(shù)。使用Dropout丟棄部分神元,避免了過擬合。使用重疊MaxPooling(讓池化層的步長小于池化核的大?。?,提升了特征的豐富性。首次使用CUDA加速訓(xùn)練過程。使用了數(shù)據(jù)增強(qiáng),在原始圖像大小為256×256的原始圖像中重復(fù)截取224×224大小的區(qū)域,大幅增加了數(shù)據(jù)量。對(duì)圖像數(shù)據(jù)通過主成分分析方法進(jìn)行降維處理。143AlexNetAlexNet的原始結(jié)構(gòu)144AlexNetAlexNet的簡化結(jié)構(gòu)145AlexNetAlexNet可分為8層(池化層未單獨(dú)算作一層),包括5個(gè)卷積層以及3個(gè)全連接層。輸入層:AlexNet首先使用大小為224×224×3圖像作為輸入,后改為227×227×3。146AlexNet第一個(gè)卷積層(含池化):包含96個(gè)大小為11×11的卷積核組,卷積步長為4,因此第一層輸出大小為55×55×96((227-11)/4+1=55),分為兩組,每組48個(gè);然后構(gòu)建一個(gè)核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,進(jìn)而輸出大小為27×27×96((55-3)/2+1=27),每組48個(gè)。147AlexNet第二個(gè)卷積層(含池化):包含256個(gè)大小為5×5的卷積核組,卷積步長為1,同時(shí)利用padding保證輸出尺寸不變,因此該層輸出大小為27×27×256;然后再次通過核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,進(jìn)而輸出大小為13×13×256((27-3)/2+1=13)。148AlexNet第三層與第四層(卷積層):均為卷積核大小為3×3、步長為1的same卷積,共包含384個(gè)卷積核,因此兩層的輸出大小都為13×13×384。149AlexNet第五層(卷積層):同樣為卷積核大小為3×3、步長為1的same卷積,但包含256個(gè)卷積核,進(jìn)而輸出大小為13×13×256;在數(shù)據(jù)進(jìn)入全連接層之前再次通過一個(gè)核大小為3×3、步長為2的最大池化層進(jìn)行數(shù)據(jù)降采樣,數(shù)據(jù)大小降為6×6×256((13-3)/2+1=6),并將數(shù)據(jù)扁平化處理展開為9216個(gè)單元。150AlexNet第一個(gè)、第二個(gè)和第三個(gè)全連接層:第一個(gè)全連接層與第二個(gè)全連接層的神經(jīng)元個(gè)數(shù)都是4096,第三個(gè)全連接層神經(jīng)元個(gè)數(shù)為1000個(gè),使用Softmax分類器輸出1000類的分類結(jié)果。151VGG-16
K.SimonyanandA.Zisserman.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.InICLR,2015.152VGG-16153VGG-16
Conv1Conv2Conv3Conv4Conv5卷積層數(shù)22333卷積核數(shù)64128256512512154VGG-16兩個(gè)卷積核大小為3*3的卷積層串聯(lián)后的感受野尺寸為5*5,相當(dāng)于單個(gè)卷積核大小為5*5的卷積層。兩者參數(shù)數(shù)量比值為(2*3*3)/(5*5)=72%
,前者參數(shù)量更少。此外,兩個(gè)卷積層串聯(lián)可使用兩次ReLU激活函數(shù),而一個(gè)卷積層只使用一次。155GoogleNet由Google公司2014年提出,獲得ImageNetLSVRC-2014冠軍。它的主要思想是除了在網(wǎng)絡(luò)深度上加深(22層)之外,在寬度上也加寬。GoogleNet的核心是Inception模塊,Inception模塊包含4個(gè)分支,每個(gè)分支均使用了1×1卷積,它可以跨通道組織信息,提高網(wǎng)絡(luò)的表達(dá)能力,同時(shí)還可以對(duì)輸出通道進(jìn)行升維和降維。Inception模塊中包含了1×1、3×3、5×5三種不同尺寸的卷積和1個(gè)3×3最大池化,增強(qiáng)了網(wǎng)絡(luò)對(duì)不同尺度特征圖的適應(yīng)性。156GoogleNet深度:層數(shù)更深,采用了22層。寬度:InceptionModule包含4個(gè)分支,在卷積核3x3、5x5之前、maxpooling之后分別加上了1x1的卷積核,起到了降低特征圖厚度的作用。157InceptionNetInception四個(gè)版本所對(duì)應(yīng)的論文及ILSVRC中的Top-5錯(cuò)誤率:[v1]GoingDeeperwithConvolutions:6.67%testerror。[v2]BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift:4.8%testerror。[v3]RethinkingtheInceptionArchitectureforComputerVision:3.5%testerror。[v4]Inception-v4,Inception-ResNetandtheImpactofResidualConnectionsonLearning:3.08%testerror。
參考鏈接:/p/cc830a6ed54b
158ResNetResNet(ResidualNeuralNetwork),又叫做殘差神經(jīng)網(wǎng)絡(luò),是由微軟研究院的何凱明等人2015年提出。獲得ImageNetILSVRC2015比賽冠軍。獲得CVPR2016最佳論文獎(jiǎng)。KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.DeepResidualLearningforImageRecognition.CVPR2016:770-778159ResNet隨著卷積網(wǎng)絡(luò)層數(shù)的增加,誤差的逆?zhèn)鞑ミ^程中存在的梯度消失和梯度爆炸問題同樣也會(huì)導(dǎo)致模型的訓(xùn)練難以進(jìn)行。甚至?xí)霈F(xiàn)隨著網(wǎng)絡(luò)深度的加深,模型在訓(xùn)練集上的訓(xùn)練誤差會(huì)出現(xiàn)先降低再升高的現(xiàn)象。殘差網(wǎng)絡(luò)的引入則有助于解決梯度消失和梯度爆炸問題。160ResNet梯度消失和梯度爆炸問題原因深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練問題。激活函數(shù)問題。/qq_25737169/article/details/78847691。161ResNetResNet的核心是叫做殘差塊(Residualblock)的小單元,殘差塊可以視作在標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加入了跳躍連接(Skipconnection)。
162ResNet卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用5164卷積神經(jīng)網(wǎng)絡(luò)的主要應(yīng)用目標(biāo)檢測:R-CNN系列,YOLO系列圖像分割:FCN,SegNet,UNet姿態(tài)估計(jì):DeepPose,基于沙漏網(wǎng)絡(luò)的姿態(tài)估計(jì)人臉識(shí)別:DeepFace,DeepID/DeepID2,F(xiàn)aceNet165目標(biāo)檢測目標(biāo)檢測是指將圖像或者視頻中的目標(biāo)物體用邊框(BoundingBox)標(biāo)記并識(shí)別出該目標(biāo)物體的類別。目前目標(biāo)檢測任務(wù)有兩類模型一類是以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN,R-CNN)系列為代表的兩階段模型一類是以YOLO系列為代表的一階段模型166R-CNN系列R-CNN由RossGirshick等人2014年提出。首先在ImageNet上訓(xùn)練模型,然后在PASCALVOC數(shù)據(jù)集上進(jìn)行Fine-tuning。在PascalVOC2012的數(shù)據(jù)集上,能夠?qū)⒛繕?biāo)檢測的驗(yàn)證指標(biāo)mAP提升到53.7%,這相對(duì)于之前最好的結(jié)果提升了整整13.3%。RossB.Girshick,JeffDonahue,TrevorDarrell,JitendraMalik.RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation.CVPR2014:580-587167R-CNN系列168R-CNN系列實(shí)現(xiàn)過程區(qū)域劃分:給定一張輸入圖片,采用SelectiveSearch算法從圖片中提取2000左右類別獨(dú)立的候選區(qū)域。特征提取:對(duì)于每個(gè)區(qū)域利用Alexnet抽取一個(gè)固定長度的特征向量。目標(biāo)分類:對(duì)每個(gè)區(qū)域利用SVM
進(jìn)行分類。邊框回歸:使用BoundingboxRegression(Bbox回歸)進(jìn)行邊框坐標(biāo)偏移優(yōu)化和調(diào)整。169R-CNN系列Crop就是從一個(gè)大圖摳出網(wǎng)絡(luò)輸入大小的patch,比如227×227Warp把一個(gè)邊界框boundingbox的內(nèi)容resize成227×227170R-CNN系列區(qū)域劃分SelectiveSearch算法的核心思想:圖像中物體可能存在的區(qū)域應(yīng)該有某些相似性或者連續(xù)性的,算法采用子區(qū)域合并的方法提取候選邊界框。首先,通過圖像分割算法將輸入圖像分割成許多小的子區(qū)域。其次,根據(jù)這些子區(qū)域之間的相似性(主要考慮顏色、紋理、尺寸和空間交疊4個(gè)方面的相似性)
進(jìn)行區(qū)域迭代合并。每次迭代過程中對(duì)這些合并的子區(qū)域做Boundingboxes(外切矩形),這些子區(qū)域的外切矩形就是通常所說的候選框。SelectiveSearch算法相似度計(jì)算考慮了顏色、紋理、尺寸和是否交疊四個(gè)方面:171R-CNN系列[1]PedroF.Felzenszwalb,DanielP.Huttenlocher.EfficientGraph-BasedImageSegmentation.IJCV,200459(2):167-181JasperR.R.Uijlings,KoenE.A.vandeSande,TheoGevers,ArnoldW.M.Smeulders.SelectiveSearchforObjectRecognition.IJCV,2013,104(2):154-171層次分組算法(HierarchicalGroupAlgorithm)輸入:(彩色)圖像輸出:目標(biāo)定位假設(shè)L的集合EndEnd172R-CNN系列173R-CNN系列174R-CNN系列SVM分類(二分類)訓(xùn)練時(shí),把Ground-truth作為該類別的正例,把IoU小于0.3的Proposal作為該類別的負(fù)例。調(diào)優(yōu)CNN時(shí),把IoU大于0.5的Proposal作為該類別的正例,其他作為負(fù)例(所有類別的背景)。IntersectionoverUnionIoU=(A∩B)/(A∪B)175R-CNN系列邊框回歸GroundtruthProposal176R-CNN系列邊框回歸:是使得預(yù)測的邊框盡可能與人工標(biāo)定的邊框越接近越好。177R-CNN系列
178R-CNN系列
179R-CNN系列
基于邊長的歸一化尺度比例的對(duì)數(shù)180R-CNN系列
181R-CNN系列邊框回歸182R-CNN系列mAP:meanAveragePrecision,是多標(biāo)簽圖像分類任務(wù)中的評(píng)價(jià)指標(biāo)。AP衡量的是學(xué)出來的模型在給定類別上的好壞,而mAP衡量的是學(xué)出的模型在所有類別上的好壞。/xw_2_xh/article/details/88190806183SPPNet
KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.
SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)184SPPNet
KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.
SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition.IEEETrans.PatternAnal.Mach.Intell.37(9):1904-1916(2015)185R-CNN系列SPPnet如圖所示,在conv5層得到的特征圖是256個(gè),每個(gè)都做一次spatialpyramidpooling。先把每個(gè)特征圖分割成多個(gè)不同尺寸的網(wǎng)格,比如網(wǎng)格分別為4*4、2*2、1*1,然后對(duì)每個(gè)網(wǎng)格做maxpooling,這樣256個(gè)特征圖就形成了16*256,4*256,1*256維特征。它們連起來就形成了一個(gè)固定長度的特征向量,將這個(gè)向量輸入到后面的全連接層。186R-CNN系列FastR-CNN使用Softmax分類替換R-CNN中的SVM分類。將候選框目標(biāo)分類與邊框回歸同時(shí)放入全連接層,形成一個(gè)多任務(wù)學(xué)習(xí)(Multi-taskLearning)模型,設(shè)計(jì)了聯(lián)合損失函數(shù),將Softmax分類、邊框回歸一起訓(xùn)練。添加感興趣區(qū)域池化(RegionofInterestPooling,RoIPooling)層,實(shí)現(xiàn)了不同大小區(qū)域特征圖的池化。訓(xùn)練時(shí)所有的特征存在緩存中,不再存到硬盤上,提升了速度。RossB.Girshick.
FastR-CNN.ICCV2015:1440-1448187R-CNN系列訓(xùn)練時(shí):RoI共64個(gè)測試時(shí):RoI共2000個(gè)188R-CNN系列189R-CNN系列ROIPooling層:將每個(gè)候選區(qū)域均勻分成M×N塊,對(duì)每塊進(jìn)行maxpooling。將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的數(shù)據(jù),送入下一層。190R-CNN系列在R-CNN中的流程是先提proposal,然后CNN提取特征,之后用SVM分類器,最后再做Bbox回歸進(jìn)行候選框的微調(diào)。FastR-CNN在CNN提取特征后,做一個(gè)RoIpooling,再將候選框目標(biāo)分類與Bbox回歸同時(shí)放入全連接層,形成一個(gè)multi-task模型。191R-CNN系列
即對(duì)真實(shí)分類的概率取負(fù)log192R-CNN系列
193R-CNN系列194R-CNN系列195R-CNN系列FasterR-CNNRPN(RegionProposalNetwork):使用全卷積神經(jīng)網(wǎng)絡(luò)來生成區(qū)域建議(Regionproposal),替代之前的Selectivesearch。
ShaoqingRen,KaimingHe,RossB.Girshick,JianSun.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks.IEEETrans.PatternAnal.Mach.Intell.39(6):1137-1149(2017)196R-CNN系列/p/31426458197R-CNN系列FasterR-CNN卷積層(Convlayers):首先使用一組Conv+ReLU+Pooling組合提取Image的特征圖(Featuremaps),特征圖被共享用于后續(xù)的RPN和RoIPooling。區(qū)域建議網(wǎng)絡(luò)(RegionProposalNetworks,RPN):RPN用于生成regionproposals。它通過Softmax判斷區(qū)域是有目標(biāo)的正例(Positive)還是沒有目標(biāo)的負(fù)例(Negative),再利用邊框回歸獲得候選區(qū)域。198R-CNN系列FasterR-CNNRoIPooling:該層接收卷積層的featuremaps和RPN層的proposals,綜合這些信息后提取proposalfeaturemaps,送入全連接層判定目標(biāo)類別。Classification:利用proposalfeaturemaps計(jì)算proposal的類別,同時(shí)再次使用Bbox回歸獲得檢測框最終的精確位置。199R-CNN系列RPNAnchor:矩形框。RPN中使用了長寬比為1:1,1:2和2:1三種矩形框。輸入圖像需要reshape適應(yīng)Anchor大小。200R-CNN系列RPNClslayer用Softmax計(jì)算Anchor內(nèi)是某個(gè)object的概率。Reglayer實(shí)現(xiàn)Anchor邊界框回歸輸出。201R-CNN系列RPN通過Softmax分類anchors獲得positive和negative分類。計(jì)算anchors的Bbox回歸的偏移量。最后的Proposal綜合positiveanchors和對(duì)應(yīng)Bbox回歸偏移量獲取proposals,同時(shí)剔除太小和超出邊界的proposals。202R-CNN系列
203R-CNN系列
204R-CNN系列FasterR-CNN訓(xùn)練方式Alternatingtraining。Approximatejointtraining。Non-approximatejointtraining。205R-CNN系列206R-CNN系列207R-CNN系列208YOLO系列YOLO與R-CNN系列最大的區(qū)別是用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(one-stage)就可以從輸入圖像直接預(yù)測boundingbox和類別概率,實(shí)現(xiàn)了End2End訓(xùn)練。可以學(xué)到物體的全局信息,背景誤檢率比R-CNN降低一半,泛化能力強(qiáng)。準(zhǔn)確率不如R-CNN高,小物體檢測效果較差。速度非???,實(shí)時(shí)性好。JosephRedmon,SantoshKumarDivvala,RossB.Girshick,AliFarhadi.YouOnlyLookOnce:Unified,Real-TimeObjectDetection.CVPR2016:779-788209YOLO系列210YOLO系列若某個(gè)物體的中心位置的坐標(biāo)落入到某個(gè)格子,那么這個(gè)格子就負(fù)責(zé)檢測出這個(gè)物體211YOLO系列x,y是boundingbox中心位置相對(duì)于當(dāng)前格子位置的偏移值,并且被歸一化到[0,1]內(nèi)。w和h的值根據(jù)圖像的寬度和高度把boundingbox寬度和高度歸一化到[0,1]內(nèi)。212YOLO系列
xy213YOLO系列214YOLO系列215YOLO系列
216YOLO系列
217YOLO系列
218YOLO系列
219YOLO系列YOLO損失函數(shù)位置誤差含有目標(biāo)的置信度誤差不含目標(biāo)的置信度誤差分類誤差第i個(gè)Cell的第j個(gè)Bbox負(fù)責(zé)object,與groundtruthBbox的IoU值最大的負(fù)責(zé)220YOLO系列221YOLO系列YOLO2和YOLO9000JosephRedmon,AliFarhadi.YOLO9000:Better,Faster,Stronger.CVPR2017:6517-6525222YOLO系列YOLOv2Batchnormalization:在每一個(gè)卷積層后添加batchnormalization,極大的改善了收斂速度同時(shí)減少了對(duì)其它regularization方法的依賴,使得mAP獲得了2%的提升。分辨率修改:YOLOv2首先修改預(yù)訓(xùn)練分類網(wǎng)絡(luò)的分辨率為448*448,在ImageNet數(shù)據(jù)集上訓(xùn)練10輪(10epochs),mAP獲得了4%的提升。多尺度訓(xùn)練:YOLO使用全連接層數(shù)據(jù)進(jìn)行boundingbox預(yù)測(要把1470*1的全鏈接層reshape為7*7*30的最終特征),這會(huì)丟失較多的空間信息導(dǎo)致定位不準(zhǔn),丟棄全連接層使用RPN中的anchorbox去做Bbox回歸。223YOLO系列BatchnormalizationSergeyIoffe,
ChristianSzegedy.BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift./abs/1502.03167v3224YOLO系列YOLO2225YOLO系列YOLO9000首先基于Wordnet構(gòu)建WordTree層次分類。基于WordTree進(jìn)行圖像分類和目標(biāo)檢測的聯(lián)合訓(xùn)練。226YOLO系列YOLOV3更好的主干網(wǎng)Darknet-53。多尺度預(yù)測。更好的分類器:Softmax不適用于多標(biāo)簽分類使用獨(dú)立的多個(gè)logistic分類器,準(zhǔn)確率不會(huì)下降227YOLO系列YOLOV3228YOLO系列YOLOv4使用CSPDarknet-53作為骨干網(wǎng)絡(luò),并引入特征金字塔池化、Mosaic數(shù)據(jù)增強(qiáng)和Mish激活函數(shù)等改進(jìn)方法,與YOLOv3相比,檢測準(zhǔn)確率有較大的提升。YOLOv5與YOLOv4相比,改進(jìn)不大,主要是把最大池化由并行改為了串行。YOLOv6的改進(jìn)也不大,主要的改進(jìn)是骨干網(wǎng)絡(luò)由CSPDarknet-53改為了EfficientRep。229YOLO系列Mosaic數(shù)據(jù)增強(qiáng):將四張圖片進(jìn)行拼接到一張圖上作為訓(xùn)練樣本隨機(jī)選取四張圖片。對(duì)每張圖片進(jìn)行數(shù)據(jù)增強(qiáng),翻轉(zhuǎn)、縮放、色域變化。進(jìn)行圖片的組合和候選框的組合,形成一張圖片。Mish激活函數(shù):光滑函數(shù),比ReLU泛化能力更好230圖像分割全卷積網(wǎng)絡(luò)(FullyConvolutionalNetworks,F(xiàn)CN)是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割的開山之作。FCN與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,僅包含卷積層和池化層,不再包含全連接層和輸出層。因此,它也不再對(duì)整幅圖像進(jìn)行分類,而是實(shí)現(xiàn)了像素級(jí)的分類,進(jìn)而輸出圖像分割的結(jié)果。J.Long,E.Shelhamer,andT.Darrell,“Fullyconvolutionalnetworksforsemanticsegmentation,”inProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.3431–3440.FCN231FCN與傳統(tǒng)CNN的區(qū)別FCN232FCN中的卷積過程和上采樣過程FCN233image經(jīng)過多個(gè)conv和一個(gè)maxpooling變?yōu)閜ool1feature,特征圖的寬高變?yōu)?/2。pool1feature再經(jīng)過多個(gè)conv和一個(gè)maxpooling變?yōu)閜ool2feature,特征圖的寬高變?yōu)?/4。pool2feature再經(jīng)過多個(gè)conv和一個(gè)maxpooling變?yōu)閜ool3feature,特征圖的寬高變?yōu)?/8。直到pool5feature,寬高變?yōu)?/32。FCN中的卷積過程FCN234對(duì)于FCN-32s,直接對(duì)pool5feature進(jìn)行32倍上采樣獲得32xupsampledfeature,再對(duì)32xupsampledfeature每個(gè)點(diǎn)做softmaxprediction獲得32xupsampledfeatureprediction(即分割圖)。對(duì)于FCN-16s,首先對(duì)pool5feature進(jìn)行2倍上采樣獲得2xupsampledfeature,再把pool4feature和2xupsampledfeature逐點(diǎn)相加,然后對(duì)相加的feature進(jìn)行16倍上采樣,并softmaxprediction,獲得16xupsampledfeatureprediction。對(duì)于FCN-8s,首先進(jìn)行pool4+2xupsampledfeature逐點(diǎn)相加,然后又進(jìn)行pool3+2xupsampledfeature逐點(diǎn)相加,即進(jìn)行更多次特征融合。FCN中的上采樣過程FCN235上采樣(upsampling)一般包括2種方式:調(diào)整尺寸(Resize),如使用雙線性插值進(jìn)行圖像放大。逆卷積(Deconvolution),也叫TransposedConvolution。FCN236
FCN237SegNet238V.Badrinarayanan,A.Kendall,andR.Cipolla.
Segnet:Adeepconvolutionalencoder-decoderarchitectureforimagesegmentation,arXivpreprintarXiv:1511.00561,2016.http://mi.eng.cam.ac.uk/projects/segnet/EncoderVGG-16,13個(gè)卷積層(卷積+BatchNormalization+ReLU),不含全連接層。5個(gè)最大池化層。進(jìn)行2×2最大池化時(shí),存儲(chǔ)相應(yīng)的最大池化索引(位置)。239SegNetDecoderVGG-16,13個(gè)卷積層(卷積+BatchNo-rmalization+ReLU),不含全連接層。5個(gè)上采樣層,采用Encoder的最大池化索引進(jìn)行上采樣。使用K類Softmax分類器來預(yù)測每個(gè)像素的類別。240SegNetSegNet241SegNet242SegNet243UNet244OlafRonneberger,PhilippFischer,andThomasBrox.
U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation.arXiv:1505.04597v1[cs.CV]18May2015Encoder-Decoder架構(gòu)Encoder:左半部分,由兩個(gè)3x3的卷積層(RELU)再加上一個(gè)2x2的Maxpooling層組成,一共下采樣4次。Decoder:右半部分,由一個(gè)上采樣的逆卷積層加上特征拼接再加上兩個(gè)3x3的卷積層(ReLU)組成,也相應(yīng)上采樣4次。245UNetSkipconnection在同一個(gè)層次進(jìn)行了特征Copy,保證了最后恢復(fù)出來的特征圖融合了更多的底層特征,也使得不同尺度(scale)的特征得到了的融合,從而可以進(jìn)行多尺度預(yù)測,4次上采樣也使得分割圖恢復(fù)邊緣等信息更加精細(xì)。246UNetUNet247UNet248基于UNet的眼球血管圖像分割DRIVE數(shù)據(jù)集,/UNet249基于UNet的醫(yī)學(xué)圖像分割姿態(tài)估計(jì)250姿態(tài)估計(jì)(PoseEstimation):可視為圖像或視頻中人體關(guān)節(jié)位置(也稱為關(guān)鍵點(diǎn),如手肘、膝蓋、肩膀等)的定位問題,因此也被稱為人體關(guān)鍵點(diǎn)檢測。MSCOCO人體姿態(tài)關(guān)鍵點(diǎn)格式人體姿態(tài)識(shí)別示例0:nose1:neck2:rightshoulder3:rightelbow4:rightwrist5:leftshoulder6:leftelbow7:leftwrist8:righthip9:rightknee10:rightankle11:lefthip12:leftknee13:leftankle14:righteye15:lefteye16:rightear17:leftear姿態(tài)估計(jì)251姿態(tài)估計(jì)分類單人姿態(tài)估計(jì)(SinglePersonPoseEstimation,SPPE)。多人姿態(tài)估計(jì)(MultiplePersonPoseEstimation,MPPE)。姿態(tài)估計(jì)方法最初集中于SPPE,但MPPE更
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)管理風(fēng)險(xiǎn)識(shí)別試題及答案
- 防排水考試題及答案
- 2025年靈活財(cái)務(wù)管理策略試題及答案
- 廠長招聘面試題及答案
- 上海安全員考試試題及答案
- 茶包機(jī)培訓(xùn)試題及答案
- 大型船舶考試題及答案
- 吧雙11活動(dòng)策劃方案
- 單車培訓(xùn)考試題及答案
- 電工五級(jí)試題及答案
- 平面設(shè)計(jì)需求表、流程表
- GB/T 12962-2015硅單晶
- 11471勞動(dòng)爭議處理(第8章)
- 蘇教版三年級(jí)科學(xué)下冊(cè)單元測試卷及答案(全冊(cè))
- 完整版醫(yī)院體檢報(bào)告范本
- 文學(xué)欣賞電子教案(全)完整版課件整套教學(xué)課件
- 我的高三成長檔案
- 130種常用中藥偽品和混淆品目錄
- 《中國字中國人》歌詞
- DBJ51∕T 153-2020 四川省附著式腳手架安全技術(shù)標(biāo)準(zhǔn)
- 毽球校本課程
評(píng)論
0/150
提交評(píng)論