版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二章機(jī)器視覺相關(guān)理論
本章知識(shí)點(diǎn):機(jī)器視覺系統(tǒng)組成機(jī)器視覺常用數(shù)學(xué)方法卷積神經(jīng)網(wǎng)絡(luò)2.1機(jī)器視覺系統(tǒng)組成機(jī)器視覺即讓機(jī)器具有像人一樣看的能力,所以為了實(shí)現(xiàn)這種“能力”,就要搭建模擬人類視覺的系統(tǒng),即機(jī)器視覺系統(tǒng)。該系統(tǒng)以計(jì)算機(jī)為核心控制器,通過(guò)攝像設(shè)備采集圖像(視頻),通過(guò)機(jī)器視覺技術(shù),自動(dòng)從圖像中提取有用信息,實(shí)現(xiàn)類似人類視覺的功能。機(jī)器視覺系統(tǒng)主要由中央處理系統(tǒng)(計(jì)算機(jī)、服務(wù)器等)、圖像采集系統(tǒng)(相機(jī)、鏡頭、光源等)、圖像分析與處理系統(tǒng)(軟件算法)和控制執(zhí)行系統(tǒng)(工控機(jī)、單片機(jī)等)組成,如圖2-1所示:
系統(tǒng)中各部分的功能如下:圖2-1機(jī)器視覺系統(tǒng)的組成中央處理系統(tǒng):它是整個(gè)系統(tǒng)運(yùn)行的核心控制器,系統(tǒng)動(dòng)作邏輯以程序的形式裝載在中央處理系統(tǒng)中,包括操作系統(tǒng)、接口程序、圖像分析與處理系統(tǒng)等。圖像采集系統(tǒng):它的作用類似人的眼睛,即采集圖像。其核心設(shè)備是相機(jī),為了采集圖像更清晰,需配備鏡頭、光源等設(shè)備。圖像分析與處理系統(tǒng):它的作用是識(shí)別圖像采集系統(tǒng)傳輸過(guò)來(lái)的圖像,是機(jī)器視覺系統(tǒng)的核心技術(shù)內(nèi)容??刂茍?zhí)行系統(tǒng):根據(jù)圖像分析與處理系統(tǒng)的分析結(jié)果,控制執(zhí)行機(jī)構(gòu)完成既定的操作,達(dá)成控制目標(biāo)。2.1.1圖像采集系統(tǒng)1.工業(yè)相機(jī)
工業(yè)相機(jī)是機(jī)器視覺系統(tǒng)的核心組件之一,有著比傳統(tǒng)相機(jī)拍攝精度更高、速度更快、穩(wěn)定性更強(qiáng)的優(yōu)點(diǎn),是圖像輸入端的關(guān)鍵環(huán)節(jié),決定著系統(tǒng)后續(xù)工作能否正常進(jìn)行。目前工業(yè)相機(jī)根據(jù)不同標(biāo)準(zhǔn)可以分為多種類型,常見如下分類:
芯片類型:按照芯片類型可以分為CCD相機(jī)和CMOS相機(jī)。CCD相機(jī)具有較為統(tǒng)一的信號(hào)節(jié)點(diǎn)輸出,噪聲影響較小、輸出圖像質(zhì)量較高,但相對(duì)功耗大、傳輸速度慢、工藝復(fù)雜、價(jià)位較高;CMOS相機(jī)結(jié)構(gòu)相機(jī)結(jié)構(gòu)相對(duì)簡(jiǎn)單,功耗低、傳輸速度快、性價(jià)比高,但獨(dú)立的像素信號(hào)放大輸出,導(dǎo)致噪聲影響大、輸出圖像質(zhì)量相對(duì)較低。、傳感器結(jié)構(gòu)特性:按照傳感器的結(jié)構(gòu)特性可以分為線陣相機(jī)和面陣相機(jī)。線陣相機(jī)采集的圖像呈現(xiàn)線條狀,屬于長(zhǎng)寬比極大的二維圖像,一般適合于視野細(xì)長(zhǎng)或連續(xù)運(yùn)動(dòng)的應(yīng)用場(chǎng)景,例如紙張、纖維、塑料等;面陣相機(jī)拍攝的圖像較為直觀,可以快速精準(zhǔn)的獲取二維圖像信息。輸出圖像色彩:按照輸出色彩可以分為單色(黑白)相機(jī)和彩色相機(jī)。單色相機(jī)輸出為只有灰度值的圖像,不含顏色信息;彩色相機(jī)輸出為RGB彩色圖像,相同分辨率情況下,彩色相機(jī)精度低于單色相機(jī)。2.鏡頭工業(yè)相機(jī)采集圖像質(zhì)量的優(yōu)劣,除相機(jī)本身硬件和環(huán)境等因素外,還受鏡頭與光源搭配的影響,它們也是圖像采集系統(tǒng)中的關(guān)鍵組件之一。鏡頭的功能是將光束進(jìn)行可控的調(diào)制,使拍攝目標(biāo)呈現(xiàn)在傳感器的感光面上,所以鏡頭的選型至關(guān)重要,一般需要考慮焦距、分辨率、光圈、像面尺寸、接口等。3.光源工業(yè)相機(jī)和鏡頭是圖像采集系統(tǒng)的關(guān)鍵組件,而合適的光源起到了輔助拍攝的作用,決定著圖像的實(shí)際清晰度,所以為了保證圖像采集的質(zhì)量,光源的選型方案至關(guān)重要。光源的選型要素較多,一個(gè)合格的光源至少需要滿足光照分布均勻、光譜范圍寬、光源亮度足夠、良好的穩(wěn)定性和耐久度等條件,實(shí)際光源選型時(shí),需要結(jié)合應(yīng)用場(chǎng)景下的整體要素,在合適的范圍內(nèi)進(jìn)行選取。常見的光源類型有LED燈、鹵素?zé)簟晒鉄?、氙燈、激光等,詳?xì)參數(shù)如表2-1所示:
表2-2各類型光源的參數(shù)類型色溫/K平均壽命/h特點(diǎn)LED燈全系列100000功耗低、穩(wěn)定性強(qiáng)、響應(yīng)時(shí)間快、耐久度好、安全性高、適應(yīng)性強(qiáng)、價(jià)格實(shí)惠鹵素?zé)?800-30001000發(fā)熱量大、顯色性好、響應(yīng)時(shí)間慢、耐久度差、價(jià)格較低熒光燈3000-60001500-3000光源擴(kuò)散性強(qiáng)、光線柔和、價(jià)格低氙燈5500-120001000穩(wěn)定性強(qiáng)、光效高、啟動(dòng)快、耐久度差激光全系列50000單色性好、方向性強(qiáng)、光亮度高、耐久度好除了光源的類型,光源也具有多種形狀。特定的形狀具有特定的效果,在實(shí)際使用中,也需要進(jìn)行合理的選擇。光源按形狀不同可分為環(huán)形光源、條形光源、同軸光源、背光源、點(diǎn)光源、DOME光源等,具體特點(diǎn)如下:環(huán)形光源:將LED按圓環(huán)陣列緊密排布,節(jié)省了安裝空間,使高亮度的光線均勻分布在待檢測(cè)范圍內(nèi)。條形光源:將高密度的LED按長(zhǎng)方形陣列排布,光源角度穩(wěn)定,可以自由搭配組合多個(gè)光源。同軸光源:也是高密度LED排列,部分也采用分光鏡設(shè)計(jì),使光源的亮度大幅提高。背光源:也是高密度LED陣列設(shè)計(jì),擁有高強(qiáng)度的背光照明效果,能夠突顯物體的外形輪廓。
點(diǎn)光源:采用大功率的LED,濃縮了光源體積,提供高強(qiáng)度的光線。DOME光源:采用半球結(jié)構(gòu)的設(shè)計(jì)方式,通過(guò)球壁多次反射,使光線在物體上分布均勻,消除了陰影的影響。根據(jù)實(shí)際情況確定光源的形狀之后,光源的打光方式也需充分考慮。常見的打光方式有高角度照射、低角度照射、垂直照射、背光照射等。2.1.2圖像分析與處理系統(tǒng)圖像分析與處理系統(tǒng)作為整個(gè)系統(tǒng)的核心,負(fù)責(zé)分析、處理采集的圖像。在機(jī)器視覺系統(tǒng)中主要提供算法模型的訓(xùn)練、測(cè)試、運(yùn)行、部署所需的硬件基礎(chǔ)和軟件框架,保障視覺檢測(cè)的準(zhǔn)確、實(shí)時(shí)運(yùn)行。1.服務(wù)器
服務(wù)器作為關(guān)鍵的硬件設(shè)備,決定著圖像分析與處理系統(tǒng)的運(yùn)行質(zhì)量和速度,是軟件算法框架的主要支撐載體。服務(wù)器的性能主要由CPU、顯卡(GraphicProcessingUnit,GPU)、內(nèi)存、硬盤等決定。
CPU:服務(wù)器的核心處理器,代表服務(wù)器的運(yùn)算能力,控制服務(wù)器
的有效運(yùn)行,可以集成多個(gè)獨(dú)立或協(xié)同運(yùn)算單元,提高處理器的工作效率。
GPU:服務(wù)器的圖像處理器,擁有多于CPU的處理核心,能將CPU難以處理的海量復(fù)雜數(shù)據(jù)轉(zhuǎn)移計(jì)算,提供遠(yuǎn)超CPU性能的計(jì)算能力,尤其適合圖像處理的相關(guān)運(yùn)算。
內(nèi)存:服務(wù)器的重要部件,負(fù)責(zé)暫存CPU中計(jì)算的數(shù)據(jù),所以內(nèi)存也影響計(jì)算機(jī)的計(jì)算性能。
硬盤:服務(wù)器的數(shù)據(jù)存儲(chǔ)設(shè)備,有機(jī)械硬盤和固態(tài)硬盤之分。固態(tài)硬盤相對(duì)于機(jī)械硬盤傳輸更快、更穩(wěn)定,適合長(zhǎng)期的數(shù)據(jù)存儲(chǔ)和讀取。2.算法環(huán)境框架算法運(yùn)行的環(huán)境框架基于服務(wù)器操作系統(tǒng)構(gòu)建,由于深度學(xué)習(xí)算法的運(yùn)行環(huán)境復(fù)雜,需要利用現(xiàn)有軟硬件環(huán)境逐步搭建?,F(xiàn)階段的開源深度學(xué)習(xí)框架大多基于CUDAToolkit、CUDNN、Python和OpenCV等。CUDA:NVIDIA構(gòu)建的通用GPU算法平臺(tái)。CUDAToolkit:CUDA的完整工具包,包含開發(fā)程序運(yùn)行和調(diào)用的庫(kù)文件、分析器、調(diào)試器等,是深度學(xué)習(xí)算法調(diào)用GPU訓(xùn)練的基礎(chǔ)保障。CUDNN:專為深度學(xué)習(xí)而設(shè)計(jì)的軟件庫(kù),是深度學(xué)習(xí)算法研究不可或缺的一部分。
Python:一個(gè)開源且功能強(qiáng)大的程序語(yǔ)言,可用C系列語(yǔ)言擴(kuò)展功能和數(shù)據(jù)庫(kù),因其具有豐富的功能庫(kù)、編程思想簡(jiǎn)單,常用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域OpenCV:開源的計(jì)算機(jī)視覺軟件庫(kù),由C系列語(yǔ)言構(gòu)成,支持多系統(tǒng)運(yùn)行和多語(yǔ)言接口調(diào)用,實(shí)現(xiàn)了圖像處理方面的簡(jiǎn)易運(yùn)行。常用的深度學(xué)習(xí)開源框架有Pytorch、Tensorflow、Caffe、Keras、百度飛槳(Paddle)等。2.2常用數(shù)學(xué)方法為了準(zhǔn)確實(shí)現(xiàn)圖像識(shí)別,圖像處理系統(tǒng)需要用到一些數(shù)學(xué)方法對(duì)圖像進(jìn)行處理、分析,常用數(shù)學(xué)方法有歸一化、正則化、標(biāo)準(zhǔn)化、梯度等。2.2.1歸一化
歸一化是一種簡(jiǎn)化計(jì)算的方法,它將有量綱的表達(dá)式,經(jīng)過(guò)變換,轉(zhuǎn)化為無(wú)量綱的表達(dá)式。通俗地講,就是將不同范圍區(qū)間的特征量統(tǒng)一變換到相同區(qū)間,避免由于數(shù)據(jù)范圍不同對(duì)分析結(jié)果的影響。具體做法是:將不同范圍的數(shù)據(jù)轉(zhuǎn)換為[0,1]或[-1,1]區(qū)間的數(shù)值,數(shù)據(jù)被映射到有限的范圍之內(nèi),有利于無(wú)關(guān)聯(lián)的數(shù)據(jù)進(jìn)行對(duì)比分析,加快數(shù)據(jù)處理的速度。常用的歸一化公式為
式中,表示待歸一化的數(shù)據(jù);表示歸一化后的結(jié)果數(shù)據(jù);和分別表示待歸一化數(shù)據(jù)的最大值和最小值。2.2.2正則化正則化是線性代數(shù)中的概念,通過(guò)對(duì)原問題最小化經(jīng)驗(yàn)誤差函數(shù),即損失函數(shù)加上某種約束,縮小解空間,從而減小數(shù)據(jù)噪聲對(duì)結(jié)果的影響,有效避免錯(cuò)誤解的可能,提高模型的準(zhǔn)確性。正則化是通過(guò)在原損失函數(shù)中加入正則項(xiàng)實(shí)現(xiàn)的,常用的正則項(xiàng)有L0、L1、L2等。以L2正則項(xiàng)在損失函數(shù)中的應(yīng)用為例,其正則化過(guò)程如下:設(shè)原損失函數(shù)為式中,表示第條數(shù)據(jù)的真值;表示輸入的第個(gè)特征;表示的權(quán)重;表示偏置。對(duì)其加入L2正則項(xiàng)后,其形式變?yōu)榭梢?,L2正則化方法是在損失函數(shù)后添加了項(xiàng),表示正則化程度。在機(jī)器視覺中,正則化可以防止過(guò)擬合,即模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集上表現(xiàn)不佳。正則化可以通過(guò)對(duì)模型中權(quán)重進(jìn)行懲罰,避免模型過(guò)度擬合訓(xùn)練數(shù)據(jù)。2.2.3標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化是一種常用的數(shù)據(jù)預(yù)處理技術(shù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行比例縮放,將數(shù)據(jù)變換為均值為0,標(biāo)準(zhǔn)差為1的分布。標(biāo)準(zhǔn)化可以解決不同屬性尺度不同的問題,使模型更加穩(wěn)定和準(zhǔn)確。以零均值標(biāo)準(zhǔn)化為例,其形式為式中,表示標(biāo)準(zhǔn)化后的結(jié)果;表示原數(shù)據(jù);表示取值范圍內(nèi)所有數(shù)據(jù)的均值;表示該范圍內(nèi)所有數(shù)據(jù)的標(biāo)準(zhǔn)差。在機(jī)器視覺中,通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中使用標(biāo)準(zhǔn)化,將輸入數(shù)據(jù)變換到相同尺度上,可以使模型更容易學(xué)習(xí)到圖像中的特征,加速模型的訓(xùn)練,緩解網(wǎng)絡(luò)梯度爆炸問題,加快模型的收斂速度,提高模型的訓(xùn)練精度。2.2.4梯度下降
梯度表示函數(shù)在該點(diǎn)處的方向?qū)?shù)沿著該方向取得最大值,即函數(shù)在該點(diǎn)處沿著該方向變化最快,變化率最大。梯度不是一個(gè)數(shù)值,而是一個(gè)標(biāo)量。對(duì)于單變量函數(shù),可以簡(jiǎn)單地理解梯度就是導(dǎo)數(shù),而對(duì)于多變量函數(shù),梯度則是由各偏導(dǎo)數(shù)組成的向量。對(duì)于求極值問題,若每次都能找到函數(shù)變化最快的方向,則問題即可迎刃而解,所以梯度法常用于函數(shù)求極值。對(duì)于求解極小值問題,每次找到函數(shù)下降最快的方向,則可快速接近目標(biāo),于是產(chǎn)生了梯度下降法。它的基本思想是以迭代的方式,按照負(fù)梯度的方向移動(dòng),從而逐漸接近函數(shù)的極小值。具體實(shí)現(xiàn)策略如下:假設(shè)目標(biāo)函數(shù)為,表示模型參數(shù),表示學(xué)習(xí)率,表示樣本數(shù)量,梯度計(jì)算方法為式中,表示模型對(duì)樣本的預(yù)測(cè)值;表示樣本的真實(shí)值;表示的第個(gè)特征值。在每一次迭代中,通過(guò)計(jì)算所有樣本的預(yù)測(cè)值與真實(shí)值之間的偏差累積作為梯度項(xiàng)更新模型參數(shù),從而更新目標(biāo)函數(shù)值,直到達(dá)到期望目標(biāo)(一般是通過(guò)給設(shè)置閾值實(shí)現(xiàn))。在實(shí)際應(yīng)用中,梯度下降效果受到學(xué)習(xí)率和初始參數(shù)值的影響較大,需要根據(jù)情況合理選擇。在機(jī)器學(xué)習(xí)中,常用隨機(jī)梯度下降法和批量梯度下降法。以隨機(jī)梯度下降法為例,假設(shè)有1個(gè)一元線性回歸模型,目標(biāo)函數(shù)為
式中,表示模型對(duì)樣本的預(yù)測(cè)值;表示樣本的真實(shí)值。再根據(jù)隨機(jī)梯度下降的迭代公式計(jì)算
在機(jī)器學(xué)習(xí)中,梯度下降法的作用非常大。對(duì)于圖像分類任務(wù),梯度下降法用于訓(xùn)練CNN模型,計(jì)算每個(gè)卷積層和全連接層的梯度,并更新模型參數(shù),實(shí)現(xiàn)模型的高效訓(xùn)練。在目標(biāo)檢測(cè)和圖像分割任務(wù)中,梯度下降法可以用于訓(xùn)練模型的分類器和回歸器,提高目標(biāo)檢測(cè)的準(zhǔn)確率和速度。2.3深度學(xué)習(xí)理論由來(lái)2.3.1M-P模型M-P模型是第一個(gè)通過(guò)模仿人類神經(jīng)元而形成的模型,由美國(guó)神經(jīng)生理學(xué)家WarrenMcCuloch和數(shù)學(xué)家WalterPitts于1943年提出,計(jì)算公式為式中,表示模型輸出;表示連接權(quán)重;表示輸入;表示閾值;表示激活函數(shù)。M-P模型結(jié)構(gòu)如圖2-2所示:
圖2-2M-P模型M-P模型的工作原理是:當(dāng)所有輸入與對(duì)應(yīng)連接權(quán)重的乘積之和大于閾值時(shí),模型輸出為1,否則輸出為0。當(dāng)激活函數(shù)使用的是階躍函數(shù)時(shí),取值為0或1,和可根據(jù)實(shí)際情況進(jìn)行設(shè)置。通過(guò)參數(shù)設(shè)置,M-P模型可以實(shí)現(xiàn)邏輯與或非運(yùn)算。1.邏輯非運(yùn)算當(dāng)M-P模型作為‘非運(yùn)算’作用時(shí),一般為單輸入和單輸出,如圖2-3所示:圖2-3M-P模型非運(yùn)算計(jì)算公式為2.邏輯與運(yùn)算
當(dāng)M-P模型作為‘與運(yùn)算’作用時(shí),一般為多輸入和單輸出。此時(shí)設(shè)為固定值,M-P模型的計(jì)算公式為3.邏輯或運(yùn)算當(dāng)M-P模型作為或運(yùn)算作用時(shí),一般為多輸入和單輸出。此時(shí)設(shè)為固定值,M-P模型的計(jì)算公式為2.3.2感知機(jī)感知機(jī)(perceptron)由Rosenblatt于1957年提出。感知機(jī)的輸入是具有多個(gè)屬性特征的向量,輸出通常為二分類結(jié)果,它是支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)的原型基礎(chǔ)。感知機(jī)的結(jié)構(gòu)如圖2-4所示,通過(guò)多個(gè)M-P模型加上損失函數(shù)組成,利用隨機(jī)梯度下降法,對(duì)輸入特征進(jìn)行學(xué)習(xí)、更新模型參數(shù),獲得準(zhǔn)確的分類結(jié)果。圖2-4感知機(jī)結(jié)構(gòu)
單層感知機(jī)每個(gè)單元的計(jì)算公式為式中,
和
分別表示權(quán)重和輸入特征信息;
表示偏置;
表示符號(hào)函數(shù)。輸入層輸出層單層感知機(jī)只能處理線性可分?jǐn)?shù)據(jù)集,且無(wú)法實(shí)現(xiàn)異或操作,因此產(chǎn)生了多層感知機(jī),用于解決復(fù)雜的分類問題。多層感知機(jī)的結(jié)構(gòu)可以分為輸入層、隱含層和輸出層,如圖2-5所示:其中輸入層接收特征數(shù)據(jù),隱含層(1層或多層)對(duì)輸入特征數(shù)據(jù)進(jìn)行非線性變換和運(yùn)算,輸出層輸出預(yù)測(cè)結(jié)果。假設(shè)訓(xùn)練數(shù)據(jù)為,其中表示輸入,表示對(duì)應(yīng)的輸出。網(wǎng)絡(luò)總層數(shù)為,所有隱含層和輸出層對(duì)應(yīng)的權(quán)重矩陣為,偏置為。每層的輸出為,最終的輸出為,為激活函數(shù),其關(guān)系式為進(jìn)行前向傳播時(shí),權(quán)重矩陣和偏移向量都是隨機(jī)值,用反向傳播算法確定合適的權(quán)重矩陣與偏移向量。反向傳播算法是利用損失函數(shù)優(yōu)化求極值,利用均方差來(lái)度量損失。對(duì)每個(gè)樣本,得到損失函數(shù)當(dāng)輸出至第層時(shí),輸出層的與滿足
對(duì)于輸出層參數(shù),損失函數(shù)變?yōu)?/p>
再對(duì)和求導(dǎo)來(lái)計(jì)算梯度為式中,⊙表示哈達(dá)瑪積(Hadamardproduct)運(yùn)算,即元素逐個(gè)相乘的運(yùn)算。根據(jù)前向傳播算法可得
然后得出第層的和的梯度分別為由此得到關(guān)于的遞推關(guān)系式為根據(jù)遞推關(guān)系式得出和的遞推關(guān)系式為
當(dāng)和的變化值都小于迭代閾值時(shí),各隱含層與輸出層輸出權(quán)重矩陣與偏置,多層感知機(jī)運(yùn)算完成。2.3.3人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是一種受到生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而發(fā)展起來(lái)的計(jì)算模型,由大量的神經(jīng)元相互連接而成,可以用于解決各種非線性分類和回歸問題。常見的人工神經(jīng)網(wǎng)絡(luò)包括多層感知機(jī)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、自編碼器(Autoencoder)等。這些不同類型的神經(jīng)網(wǎng)絡(luò)模型各有特點(diǎn),在不同的場(chǎng)景下有不同的特點(diǎn)和優(yōu)勢(shì)。以循環(huán)神經(jīng)網(wǎng)絡(luò)RNN為例,與前饋神經(jīng)網(wǎng)絡(luò)不同,它可以接受任意長(zhǎng)度的輸入序列,并且在處理序列數(shù)據(jù)時(shí)可以利用序列中的上下文信息。循環(huán)神經(jīng)網(wǎng)絡(luò)的基本原理是在每個(gè)時(shí)間步上,將當(dāng)前輸入和上一時(shí)刻的隱藏狀態(tài)作為輸入,計(jì)算當(dāng)前時(shí)刻的隱藏狀態(tài)和輸出,RNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2-6所示:圖2-6RNN結(jié)構(gòu)圖時(shí)刻RNN循環(huán)核的前向傳播計(jì)算過(guò)程為式中,表示時(shí)刻網(wǎng)絡(luò)的輸入;表示時(shí)刻隱含層的輸出;表示時(shí)刻隱含層的輸出;表示時(shí)刻網(wǎng)絡(luò)的輸出;、、表示參數(shù)矩陣;和表示偏置。組成RNN的每個(gè)循環(huán)核在不同時(shí)刻共享參數(shù)。當(dāng)前時(shí)刻的輸出不僅受當(dāng)前時(shí)刻隱含層的影響,還受上一時(shí)刻隱含層的影響。RNN將當(dāng)前時(shí)刻隱含層的計(jì)算與前面所有時(shí)刻隱含層的計(jì)算相關(guān)聯(lián)才能實(shí)現(xiàn)長(zhǎng)期記憶的功能,但實(shí)現(xiàn)該功能會(huì)導(dǎo)致網(wǎng)絡(luò)計(jì)算量呈指數(shù)式增長(zhǎng),訓(xùn)練的時(shí)間大幅增加,并且會(huì)出現(xiàn)梯度爆炸和梯度消失問題。針對(duì)這些問題,在RNN的基礎(chǔ)上引入了門的概念,提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)。LSTM的核心思想是引入記憶細(xì)胞和門結(jié)構(gòu),記憶細(xì)胞可以選擇性地通過(guò)遺忘門、更新門、輸出門來(lái)控制信息的遺忘、更新和輸出,選擇性地保留有效信息,過(guò)濾噪聲信息,減輕記憶負(fù)擔(dān),避免長(zhǎng)期依賴和梯度消失問題,LSTM的網(wǎng)絡(luò)結(jié)構(gòu)如圖2-7所示:
圖2-7LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖LSTM在時(shí)刻的輸入包括時(shí)刻的細(xì)胞狀態(tài),隱含層輸出和時(shí)刻輸入向量三部分。輸出包括時(shí)刻的細(xì)胞狀態(tài)和隱含層輸出,時(shí)刻的輸出不僅與時(shí)刻的隱含層輸出和當(dāng)前時(shí)刻的輸入有關(guān),還受時(shí)刻的細(xì)胞狀態(tài)影響。
遺忘門:通過(guò)控制前一時(shí)刻的隱含層輸出和當(dāng)前時(shí)刻輸入的比例來(lái)決定歷史信息的取舍,遺忘門輸出計(jì)算公式為式中,表示遺忘門權(quán)重參數(shù);表示遺忘門偏置。
更新門:包括
和
兩部分,其中
表示更新到記憶細(xì)胞的內(nèi)容,
負(fù)責(zé)處理當(dāng)前輸入信息,更新門計(jì)算公式為
式中,和表示更新門權(quán)重參數(shù);和表示更新門偏置。記憶細(xì)胞更新狀態(tài):將過(guò)去信息和新的信息進(jìn)行有選擇的遺忘和保留,將記憶細(xì)胞內(nèi)容更新到最新狀態(tài),記憶細(xì)胞更新公式為輸出門:控制記憶細(xì)胞對(duì)時(shí)刻輸出值的影響,輸出門計(jì)算公式為式中,表示輸出門權(quán)重參數(shù);表示輸出門偏置。2.4卷積神經(jīng)網(wǎng)絡(luò)
2.4.1總體結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱CNN,包含卷積、池化等計(jì)算,是深度學(xué)習(xí)算法的基礎(chǔ)網(wǎng)絡(luò)之一。傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)每一層神經(jīng)元都要和下一層的所有神經(jīng)元連接,這樣的方式對(duì)全局信息的把控更好,但處理圖像類的數(shù)據(jù)計(jì)算量巨大且效率低下。不同于全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采用卷積計(jì)算來(lái)代替不必要的矩陣乘法運(yùn)算,使輸入維度多樣性,降低網(wǎng)絡(luò)的計(jì)算復(fù)雜度,加快網(wǎng)絡(luò)的訓(xùn)練速度,在圖像處理方面具有較大的優(yōu)勢(shì)。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可分為輸入層、中間層和輸出層,中間層又包含卷積層、池化層、激活函數(shù)、全連接層等,如圖2-8所示:
圖2-8卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.4.2圖像原理
計(jì)算機(jī)中的圖像是由像素組成的,每個(gè)像素代表圖像中的一個(gè)點(diǎn),對(duì)于黑白圖片,每個(gè)像素包含一個(gè)灰度值,對(duì)于彩色圖片,每個(gè)像素包含一個(gè)RGB(紅黃綠)值,如圖2-9所示:
圖2-9圖像像素表示
圖像可以表示為一個(gè)矩陣,矩陣中的每個(gè)元素代表一個(gè)像素值,數(shù)值在0-255之間。對(duì)于黑白圖片,采用一個(gè)二維矩陣表示。對(duì)于彩色圖片,采用三個(gè)堆疊在一起的二維矩陣表示。例如,一張800×600的彩色圖像,在計(jì)算機(jī)中,被表示為三個(gè)800×600的二維矩陣。將圖像用矩陣表示后,對(duì)其進(jìn)行的調(diào)整亮
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度化肥代銷及現(xiàn)代農(nóng)業(yè)技術(shù)示范合同3篇
- 2025年度精密機(jī)械加工車間租賃合同3篇
- 二零二五年度LED照明產(chǎn)品銷售及售后服務(wù)合同2篇
- 二零二四年度園林景觀工程量增補(bǔ)與設(shè)計(jì)合同范本3篇
- 2025年度航空航天投資融資協(xié)議書范本
- 2025年高校食堂餐飲質(zhì)量提升承包合同3篇
- 2025年微機(jī)保護(hù)測(cè)控裝置項(xiàng)目可行性研究方案
- 2025年度茶葉產(chǎn)品溯源系統(tǒng)建設(shè)合同范本3篇
- C街道景觀升級(jí)改造綠化施工2024合同
- 2025年度旅游擔(dān)保保證擔(dān)保合同范本
- 油氣行業(yè)人才需求預(yù)測(cè)-洞察分析
- 《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作
- 2025年河北省單招語(yǔ)文模擬測(cè)試二(原卷版)
- 高一化學(xué)《活潑的金屬單質(zhì)-鈉》分層練習(xí)含答案解析
- 圖書館前臺(tái)接待工作總結(jié)
- 衛(wèi)生院藥品管理制度
- 理論力學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國(guó)石油大學(xué)(華東)
- 2024老年人靜脈血栓栓塞癥防治中國(guó)專家共識(shí)(完整版)
- 四年級(jí)上冊(cè)脫式計(jì)算100題及答案
- 上海市12校2023-2024學(xué)年高考生物一模試卷含解析
- 儲(chǔ)能電站火災(zāi)應(yīng)急預(yù)案演練
評(píng)論
0/150
提交評(píng)論