




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要摘 要車牌識(shí)別技術(shù)是指能夠檢測(cè)到路面的車輛并自動(dòng)提取車輛牌照信息然后進(jìn)行處理的技術(shù)。作為智能化交通管理體系中的重要核心,車牌自動(dòng)識(shí)別系統(tǒng)目前已在停車場(chǎng)管理、高速公路不停車收費(fèi)以及城市交通等領(lǐng)域以及有著廣泛應(yīng)用。車牌識(shí)別系統(tǒng)的關(guān)鍵是車牌識(shí)別算法。傳統(tǒng)車牌識(shí)別算法將整個(gè)車牌識(shí)別流程分為四個(gè)模塊:車牌定位、車牌分割提取、字符切分和字符識(shí)別,這種算法設(shè)計(jì)的好處是可以為每個(gè)模塊單獨(dú)設(shè)計(jì)算法,從而降低整體算法設(shè)計(jì)復(fù)雜度。但其缺點(diǎn)是模塊間的誤差積累容易導(dǎo)致最后車牌識(shí)別的準(zhǔn)確率降低。基于此,本文將傳統(tǒng)車牌識(shí)別算法進(jìn)行改進(jìn),從原來(lái)?yè)碛兴膫€(gè)模塊減少到只有車牌檢測(cè)與車牌識(shí)別兩個(gè)部分的車牌識(shí)別算法。最近幾年,深度
2、學(xué)習(xí)技術(shù)的崛起顛覆了傳統(tǒng)圖像分類、文本語(yǔ)義理解、語(yǔ)音識(shí)別以及模式識(shí)別和計(jì)算機(jī)視覺(jué)等諸多領(lǐng)域的算法設(shè)計(jì)思路,相較以往的模塊化設(shè)計(jì)思想,如今的算法設(shè)計(jì)思路更偏好于依靠超大規(guī)模的數(shù)據(jù),通過(guò)構(gòu)建一個(gè)端到端的模型來(lái)獲得最終結(jié)果。這不僅大大簡(jiǎn)化了算法設(shè)計(jì)流程,而且因?yàn)樯疃葘W(xué)習(xí)技術(shù)中使用的深度神經(jīng)網(wǎng)絡(luò)其每一層都能針對(duì)識(shí)別目標(biāo)調(diào)整自己,達(dá)到各層之間的無(wú)縫銜接,最終實(shí)現(xiàn)通力合作,進(jìn)而大大提高目標(biāo)識(shí)別的準(zhǔn)確率。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)技術(shù)中經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)類型之一,其在圖像分類識(shí)別領(lǐng)域取得了前所未有的成功。目前,卷積神經(jīng)網(wǎng)絡(luò)在OCR(Optical Character Recognition,光學(xué)字符識(shí)別)領(lǐng)域的表現(xiàn)
3、讓其在深度學(xué)習(xí)模型中獨(dú)占鰲頭。車牌識(shí)別系統(tǒng)從滿足一般應(yīng)用需求到向智能化邁進(jìn)的過(guò)程中,需要持續(xù)地對(duì)識(shí)別算法進(jìn)行改進(jìn),以滿足更高的性能要求。本文在研究分析深度學(xué)習(xí)技術(shù)的基礎(chǔ)上,將其中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在車牌識(shí)別算法中,實(shí)現(xiàn)對(duì)車牌字符的無(wú)分割識(shí)別。本文在大量研究各種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,針對(duì)車牌識(shí)別具體的技術(shù)需求,選擇經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)AlexNet并對(duì)其改造,用于車牌識(shí)別算法中的識(shí)別部分。經(jīng)過(guò)大量測(cè)試數(shù)據(jù)驗(yàn)證,本文提出的車牌識(shí)別算法在復(fù)雜環(huán)境下?lián)碛休^強(qiáng)的識(shí)別準(zhǔn)確率,為傳統(tǒng)車牌識(shí)別算法的改進(jìn)提供了新的思路,具有較強(qiáng)的現(xiàn)實(shí)意義。關(guān)鍵詞:車牌定位,車牌識(shí)別,圖像處理,卷積神經(jīng)網(wǎng)絡(luò)ABSTRACT
4、License plate recognition technology refers to technology that can monitor the vehicle on the road and automatically extract vehicle license plate information and then process it. As an important core in the intelligent traffic management system, the license plate automatic recognition system has be
5、en widely applied in the fields of parking lot management, free parking fees, and urban traffic. The key of license plate recognition system is license plate recognition algorithm. The traditional license plate recognition algorithm divides the entire license plate recognition process into four modu
6、les: license plate location, license plate extraction, character segmentation, and character recognition. The advantage of this algorithm design is that the algorithm can be designed separately for each module, thereby reducing the overall algorithm design complexity. However, the disadvantage is th
7、at the accumulation of errors between modules can easily lead to a reduction in the accuracy of the final license plate recognition. Based on this, the conventional license plate recognition algorithm is improved, The number of modules has been decreased from four modules to two parts which includin
8、g license plate detection and license plate recognition. In recent years, the rise of deep learning technology has overturned the traditional algorithms for image classification, text semantic understanding, speech recognition, pattern recognition, and computer vision. Different from the past, the i
9、dea of modular algorithm design gradually formed a new model from the huge amount of training data, through an end-to-end model, and finally get the final result. This not only greatly simplifies the algorithm design process, moreover, because of the deep neural network used in deep learning technol
10、ogy, each layer of the deep neural network can adjust itself to the recognition target, achieve seamless connection between the layers, and finally achieve full cooperation, thereby greatly improving the accuracy of the target recognition. Convolutional neural network is one of the classical network
11、 structure types in deep learning technology. It has achieved unprecedented success in the field of image classification and recognition. At present, the performance of convolutional neural networks in the field of OCR (Optical Character Recognition) makes it unique in deep learning models. The lice
12、nse plate recognition system needs to continuously improve the recognition algorithm to meet the higher performance requirements from the satisfaction of the general application requirements to the progress toward intelligence. Based on the research and analysis of deep learning technology, this pap
13、er applies the convolutional neural network in the license plate recognition algorithm to realize the undivided recognition of license plate characters. Based on a large number of classic convolutional neural networks, this paper proposes a classic convolutional neural network AlexNet and reconstruc
14、ts it for the license plate recognition algorithm. After a lot of test data verification, the license plate recognition algorithm presented in this III第一章 緒論第一章 緒論1.1 研究背景隨著我國(guó)城市化進(jìn)程的推進(jìn),特別是最近幾年來(lái)我國(guó)汽車制造業(yè)水平的提高,使得越來(lái)越多的車輛進(jìn)入尋常百姓家。但另一方面,車輛數(shù)目的增加給我國(guó)城市交通帶來(lái)了巨大的壓力。為了緩解城市交通的巨大壓力,我國(guó)很多城市采用尾號(hào)限行等措施。但大多數(shù)這類措施都屬于短期措施,隨著我
15、國(guó)社會(huì)經(jīng)濟(jì)的持續(xù)發(fā)展,交通壓力將不可避免的再次增大,但因?yàn)榈缆返扔布O(shè)施的限制,在不擴(kuò)寬城市道路和新修輔道的情況下,交通壓力很難在短時(shí)間內(nèi)得到解決。因此,加強(qiáng)交通管理的重要性不言而喻。汽車牌照的重要性不亞于人的的身份證,現(xiàn)實(shí)生活中需要通過(guò)車牌的自動(dòng)識(shí)別系統(tǒng)對(duì)車輛進(jìn)行有效管理,可見(jiàn)車牌識(shí)別系統(tǒng)在智能交通管理中具有舉足輕重的作用。得益于近年來(lái)模式識(shí)別和機(jī)器視覺(jué)技術(shù)的快速發(fā)展,車牌識(shí)別系統(tǒng)已被廣泛應(yīng)用于各種交通場(chǎng)合,成為我國(guó)大力發(fā)展的智能交通系統(tǒng)關(guān)鍵部分。目前,車牌識(shí)別系統(tǒng)不僅在交通管理、道路流量監(jiān)控、交通違章抓拍處理、高速公路收費(fèi)系統(tǒng)以及停車場(chǎng)管理等交通場(chǎng)合有著廣泛的應(yīng)用,而且逐步向社會(huì)治安監(jiān)控、
16、犯罪追蹤和電子警察等公共安全領(lǐng)域的應(yīng)用擴(kuò)展。隨著計(jì)算機(jī)CPU計(jì)算能力的增強(qiáng),利用時(shí)下新技術(shù)、新的科研成果的轉(zhuǎn)移應(yīng)用在對(duì)車牌識(shí)別系統(tǒng)進(jìn)行持續(xù)研究和改進(jìn)具有重要的現(xiàn)實(shí)意義。從宏觀上講,車牌識(shí)別系統(tǒng)主要是利用模式識(shí)別、數(shù)字圖像處理及機(jī)器視覺(jué)方面的相關(guān)技術(shù)對(duì)由攝像機(jī)捕獲的數(shù)字圖像中自動(dòng)檢測(cè)識(shí)別出車牌號(hào)的系統(tǒng),其關(guān)鍵技術(shù)在于對(duì)圖像的分析處理以及識(shí)別上。不管是當(dāng)今各種交通場(chǎng)合,還是公共安全管理體系,抑或未來(lái)無(wú)人汽車、無(wú)人駕駛領(lǐng)域,車牌識(shí)別系統(tǒng)都是一個(gè)不可或缺的平臺(tái),給城市健康有序管理帶來(lái)了諸多便捷。雖然車牌識(shí)別系統(tǒng)已得到廣泛應(yīng)用,但是,目前車牌識(shí)別技術(shù)仍然存在諸多難點(diǎn),各方面性能還有很大的改進(jìn)空間。特別地
17、,相比國(guó)外的汽車牌照,我國(guó)的車牌又有其特殊性:我國(guó)車牌除了阿拉伯?dāng)?shù)字和英文字母外,還含有中文字符,而且還存在車牌前景、背景顏色不一,單、雙行車牌,各種特殊用途車牌如使領(lǐng)館警用車牌等。因此,我國(guó)的車牌識(shí)別系統(tǒng)不能簡(jiǎn)單移植國(guó)外的技術(shù),只能自主研發(fā)創(chuàng)新。另外,由于在復(fù)雜背景、車牌被污染或者缺損狀態(tài)下,現(xiàn)有的車牌識(shí)別系統(tǒng)識(shí)別效果將會(huì)大打折扣。隨著近年來(lái)深度學(xué)習(xí)技術(shù)的迅猛發(fā)展以及計(jì)算機(jī)數(shù)據(jù)處理能力的不斷提升,深度學(xué)習(xí)技術(shù)給傳統(tǒng)的模式識(shí)別及機(jī)器視覺(jué)領(lǐng)域開(kāi)拓了新思路,并利用深度學(xué)習(xí)技術(shù)在上述領(lǐng)域取得了諸多重大突破。例如,在圖像識(shí)別領(lǐng)域取得巨大突破的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Ne
18、twork,CNN)在一年一度的ImageNet ILSVRC(大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽)中不斷刷新歷年紀(jì)錄,如圖1-1所示 ImageNet是一個(gè)用于對(duì)象識(shí)別檢索的大型視覺(jué)數(shù)據(jù)庫(kù),截至2016年其已經(jīng)對(duì)超過(guò)1千萬(wàn)張標(biāo)注圖像。top-5錯(cuò)誤率是指預(yù)測(cè)的概率向量中最大的前5個(gè)均不包含正確結(jié)果的統(tǒng)計(jì)結(jié)果??梢钥闯錾疃葘W(xué)習(xí)技術(shù)從2012年取得重要突破,并在之后的幾年里迅速得到發(fā)展,網(wǎng)絡(luò)層數(shù)逐漸增加,錯(cuò)誤率也隨之降低。圖1-1 2010年2015年ImageNet ILSVRC大賽情況與傳統(tǒng)車牌識(shí)別方法相比,深度學(xué)習(xí)技術(shù)擁有很強(qiáng)的錯(cuò)誤兼容性,能夠自己調(diào)整學(xué)習(xí)過(guò)程,可以省略大量的數(shù)學(xué)建模和數(shù)據(jù)分析工作。針對(duì)
19、目前傳統(tǒng)車牌識(shí)別算法中暴露出的種種問(wèn)題,本文在大量調(diào)研各種車牌識(shí)別算法的基礎(chǔ)上,將深度學(xué)習(xí)技術(shù)應(yīng)用到車牌識(shí)別算法中。1.2 車牌識(shí)別的研究現(xiàn)狀1.2.1 國(guó)外研究現(xiàn)狀在上世紀(jì)80年代初,由于西方發(fā)達(dá)國(guó)家的汽車數(shù)量增加,出現(xiàn)了車輛難以管理的問(wèn)題,政府交管部門逐漸意識(shí)到借助機(jī)器對(duì)車輛進(jìn)行有效管控的重要意義,因此很多高校及企業(yè)研究部門開(kāi)始著手對(duì)車牌識(shí)別系統(tǒng)進(jìn)行研究。并在之后的幾年內(nèi),逐漸有一些較為簡(jiǎn)單的數(shù)字圖像處理算法被應(yīng)用于車牌識(shí)別系統(tǒng)上,但由于當(dāng)時(shí)技術(shù)條件的限制、計(jì)算機(jī)處理能力的瓶頸和理論基礎(chǔ)研究的局限,這個(gè)階段的研究大多采用最基礎(chǔ)的圖像處理方法,并且停留在實(shí)驗(yàn)室,并未有體系化的研究成果。經(jīng)過(guò)一
20、段時(shí)間的技術(shù)積累,在上世紀(jì)80年代后期,車牌識(shí)別技術(shù)的研究才慢慢現(xiàn)出雛形,系統(tǒng)化的研究也在此階段逐漸開(kāi)始。例如,大量研究認(rèn)識(shí)到車牌識(shí)別系統(tǒng)由特征提取、圖片分析、模板構(gòu)造以及字符識(shí)別等多個(gè)模塊組成。相比80年代剛起步的時(shí)期,這個(gè)階段對(duì)汽車牌照自動(dòng)識(shí)別技術(shù)的研究有一定進(jìn)展,但依然只是利用基礎(chǔ)的圖像處理技術(shù),在人工干預(yù)的情況下,可以進(jìn)行一些場(chǎng)景極為簡(jiǎn)單、背景單一且圖像質(zhì)量較好的車牌圖像。因此,此階段的研究還遠(yuǎn)遠(yuǎn)為能滿足投入真實(shí)場(chǎng)景進(jìn)行自動(dòng)車牌識(shí)別的程度。20世紀(jì)90年代后,由于國(guó)外發(fā)達(dá)國(guó)家計(jì)算機(jī)技術(shù)和圖像處理基礎(chǔ)理論的進(jìn)一步發(fā)展,以及前期對(duì)車牌識(shí)別系統(tǒng)的研究沉淀,車牌識(shí)別技術(shù)發(fā)展迅猛,陸續(xù)有公司和科
21、研機(jī)構(gòu)研究出能在特定條件下進(jìn)行簡(jiǎn)單識(shí)別的車牌系統(tǒng)并投入市場(chǎng),但此階段的車牌識(shí)別系統(tǒng)由于當(dāng)時(shí)的圖像采集設(shè)備等硬件條件的限制,經(jīng)系統(tǒng)獲取的圖片大多質(zhì)量不高,因此對(duì)識(shí)別場(chǎng)景的光照條件、車牌完整性以及車牌污損情況等都較為敏感,識(shí)別條件也較苛刻。對(duì)于車牌有傾斜、車牌模糊和天氣稍差的情況,車牌識(shí)別系統(tǒng)的識(shí)別速度以及精度都會(huì)受到極大的影響。經(jīng)過(guò)多年的發(fā)展,目前,在國(guó)外的發(fā)達(dá)國(guó)家中,車牌識(shí)別系統(tǒng)已經(jīng)被廣泛應(yīng)用于市場(chǎng),而且在一般場(chǎng)景下,都達(dá)到了較高的識(shí)別準(zhǔn)確率。例如,以色列的See-Car System由Hi-tech公司研發(fā)生產(chǎn)的適用于以色列本國(guó)的車牌識(shí)別系統(tǒng),新加坡的VLPRS由Optasla公司研發(fā)生產(chǎn)以
22、及其他國(guó)家也涌現(xiàn)了很多車牌識(shí)別系統(tǒng)方面的產(chǎn)品。1.2.2 國(guó)內(nèi)研究現(xiàn)狀在車牌識(shí)別領(lǐng)域,國(guó)內(nèi)的研究相對(duì)較晚,大概開(kāi)始于90年代。正如哲學(xué)上所說(shuō):“任何真理都是具體的,有條件的”,由于我國(guó)車牌的特殊性,國(guó)外的車牌識(shí)別系統(tǒng)并不適用于國(guó)內(nèi),也不能對(duì)國(guó)外的研究成果進(jìn)行簡(jiǎn)單的技術(shù)移植。原因在于,我國(guó)的車牌底色、前景不一(藍(lán)底白字、黃底黑字、白底黑字以及剛推出的新能源車牌的綠底黑字),而且最為重要的是,我國(guó)車牌是漢字、英文字母以及阿拉伯?dāng)?shù)字的組合,如果還要考慮車型的原因則還要區(qū)分小轎車和貨車的單排、雙排車牌問(wèn)題。上述種種原因決定了針對(duì)我國(guó)車牌的車牌識(shí)別系統(tǒng)的研發(fā)難度遠(yuǎn)遠(yuǎn)大于國(guó)外車牌,只能在數(shù)字和英文字符的識(shí)
23、別上借鑒國(guó)外的研究方法。雖然國(guó)內(nèi)針對(duì)車牌識(shí)別的研究稍晚,但由于巨大的市場(chǎng)需求的推動(dòng),發(fā)展也相當(dāng)迅速。經(jīng)過(guò)一個(gè)階段的研究,目前已有很多成熟的車牌識(shí)別系統(tǒng)投入市場(chǎng),但是各個(gè)公司的車牌識(shí)別系統(tǒng)具有各自的側(cè)重點(diǎn)和優(yōu)勢(shì)。例如來(lái)自中科院自動(dòng)化所的“漢王眼”;深圳銳方達(dá)科技有限公司的車牌識(shí)別系統(tǒng);來(lái)自成都臻識(shí)科技發(fā)展有限公司自主研發(fā)的一款車牌識(shí)別系統(tǒng)“火眼臻睛”,其號(hào)稱能適應(yīng)各種極端情形;來(lái)自北京文通科技有限公司的“文通車牌識(shí)別”已經(jīng)能實(shí)現(xiàn)在Android移動(dòng)端進(jìn)行車牌自動(dòng)識(shí)別。即便有如此多的產(chǎn)品已經(jīng)投入市場(chǎng),識(shí)別率一般都超過(guò)95%,但這些產(chǎn)品大多與高清圖像采集設(shè)備作了集成,并且采用補(bǔ)光等輔助措施降低外界環(huán)
24、境的影響,一旦圖像質(zhì)量降低,識(shí)別準(zhǔn)確率將受到影響,而且對(duì)于車牌傾斜角度過(guò)大、有污損或者天氣惡劣等復(fù)雜情況時(shí),識(shí)別難度將大大增大。因此,現(xiàn)有的車牌識(shí)別技術(shù)依然有較大的提升空間。伴隨著新一波深度學(xué)習(xí)技術(shù)熱潮的興起,各大企業(yè)、國(guó)內(nèi)外的高校及研究所正在對(duì)車牌識(shí)別技術(shù)進(jìn)行更深層、更前沿的研究。1.3車牌識(shí)別技術(shù)難點(diǎn)目前,現(xiàn)有的車牌識(shí)別系統(tǒng)在一般條件下能獲得較好的識(shí)別效果,但仍然存在如下挑戰(zhàn):(1)圖像質(zhì)量問(wèn)題。需要集成高清圖像采集設(shè)備,如果圖像采集設(shè)備所采集的圖片分辨率達(dá)不到要求或者由于天氣、背景噪聲等影響較大的情況,系統(tǒng)的識(shí)別準(zhǔn)確率會(huì)大打折扣。(2)車牌傾斜問(wèn)題。對(duì)圖像采集設(shè)備的抓拍角度有固定的限制,
25、如果獲取的圖像中車牌傾斜角度過(guò)大,將會(huì)嚴(yán)重降低系統(tǒng)的識(shí)別準(zhǔn)確率和識(shí)別速度。(3)通用性和擴(kuò)展性差。一方面車牌識(shí)別系統(tǒng)的各種參數(shù)需要根據(jù)特定場(chǎng)景進(jìn)行最優(yōu)化調(diào)整,大大降低車牌識(shí)別系統(tǒng)的通用性;另一方面現(xiàn)有的車牌識(shí)別系統(tǒng)幾乎只能識(shí)別7字符的車牌,對(duì)于新推出的8字符新能源車牌以及未來(lái)可能推出的無(wú)人駕駛車牌等需要重新設(shè)計(jì)一套算法,擴(kuò)展性大大降低。(4)漢字識(shí)別難問(wèn)題。相較于國(guó)外車牌,我國(guó)車牌中識(shí)別難度最大的無(wú)疑是車牌序列包含漢字,由于漢字相較于數(shù)字、英文字母而言,其本身的結(jié)構(gòu)更為復(fù)雜,因此大大提高了識(shí)別難度。(5)需要進(jìn)行字符分割。目前已有的車牌識(shí)別系統(tǒng)核心算法基本都需要對(duì)提取出來(lái)的車牌進(jìn)行字符切分,然
26、后再進(jìn)行單個(gè)字符識(shí)別。由于字符識(shí)別的準(zhǔn)確率嚴(yán)重依賴字符分割的效果,而字符分割又受到車牌傾斜、污損、模糊等的影響,因此導(dǎo)致傳統(tǒng)車牌識(shí)別算法每個(gè)環(huán)節(jié)的誤差疊加,最后識(shí)別準(zhǔn)確率難以取得突破。1.4課題研究?jī)?nèi)容及本人主要工作本課題在深入調(diào)研傳統(tǒng)車牌識(shí)別算法的基礎(chǔ)上,對(duì)目前的車牌識(shí)別算法進(jìn)行實(shí)現(xiàn)并測(cè)試,發(fā)現(xiàn)傳統(tǒng)車牌識(shí)別算法的缺點(diǎn)和面臨的各種挑戰(zhàn)。并從目前傳統(tǒng)的車牌識(shí)別算法存在本文1.3節(jié)所述的各種難點(diǎn)出發(fā),提出應(yīng)用時(shí)下在圖像分類、機(jī)器視覺(jué)、語(yǔ)音識(shí)別和圖像識(shí)別領(lǐng)域表現(xiàn)相當(dāng)出色的深度學(xué)習(xí)技術(shù)為基礎(chǔ),嘗試設(shè)計(jì)出在復(fù)雜環(huán)境下有較強(qiáng)識(shí)別能力的車牌識(shí)別算法。課題主要針對(duì)以下幾個(gè)方面展開(kāi)研究:(1)對(duì)目前已有的車牌識(shí)
27、別算法算法進(jìn)行調(diào)研,并對(duì)車牌識(shí)別技術(shù)的發(fā)展和概況進(jìn)行綜述。(2)對(duì)傳統(tǒng)的車牌識(shí)別算法流程進(jìn)行深入研究,綜合分析上述各模塊算法的優(yōu)缺點(diǎn)以及影響目前車牌識(shí)別算法的主要因素,提出了無(wú)需進(jìn)行字符分割的車牌識(shí)別算法。(3)在對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet進(jìn)行改造的基礎(chǔ)上設(shè)計(jì)了本文的車牌識(shí)別網(wǎng)絡(luò)結(jié)構(gòu),并在大量樣本數(shù)據(jù)集上進(jìn)行了長(zhǎng)時(shí)間的訓(xùn)練,最后通過(guò)測(cè)試數(shù)據(jù)驗(yàn)證了本文所提出的車牌識(shí)別算法在復(fù)雜環(huán)境下的車牌識(shí)別準(zhǔn)確率在同等條件下優(yōu)于傳統(tǒng)車牌識(shí)別算法。1.5文章結(jié)構(gòu)本文總共分為六章,各章節(jié)主要內(nèi)容為:第一章為緒論。本章主要介紹了車牌識(shí)別的發(fā)展歷程、國(guó)內(nèi)外對(duì)車牌識(shí)別技術(shù)的研究現(xiàn)狀以及目前傳統(tǒng)車牌識(shí)別技術(shù)的難點(diǎn)和
28、挑戰(zhàn)。第二章為深度學(xué)習(xí)技術(shù)的理論闡述。本章對(duì)深度學(xué)習(xí)的理論基礎(chǔ)及其近年來(lái)典型的網(wǎng)絡(luò)模型進(jìn)行簡(jiǎn)要介紹,并在此基礎(chǔ)上著重介紹了深度學(xué)習(xí)技術(shù)中在圖像分類識(shí)別領(lǐng)域表現(xiàn)極為出色的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行重點(diǎn)詳細(xì)地介紹。第三章為車牌定位算法的介紹。本章對(duì)傳統(tǒng)的車牌定位算法進(jìn)行闡述,并對(duì)本文設(shè)計(jì)的車牌定位算法流程進(jìn)行詳細(xì)介紹。第四章為傳統(tǒng)的車牌字符分割、字符識(shí)別算法的介紹和實(shí)現(xiàn)。本章在大量調(diào)研傳統(tǒng)車牌字符分割、識(shí)別算法的基礎(chǔ)上,對(duì)基于垂直投影的字符分割方法進(jìn)行了改進(jìn),最后應(yīng)用了模板匹配的方法對(duì)車牌字符進(jìn)行識(shí)別。第五章為基于深度學(xué)習(xí)技術(shù)的車牌識(shí)別算法的研究。本章主要從深度學(xué)習(xí)研究的一般流程如數(shù)據(jù)集獲取、數(shù)據(jù)預(yù)處理
29、和實(shí)驗(yàn)環(huán)境搭建和網(wǎng)絡(luò)訓(xùn)練等出發(fā),對(duì)車牌識(shí)別算法設(shè)計(jì)及實(shí)驗(yàn)流程進(jìn)行闡述。通過(guò)實(shí)驗(yàn)數(shù)據(jù),綜合分析對(duì)比了本文提出的算法與傳統(tǒng)車牌識(shí)別算法的表現(xiàn)。第六章為對(duì)課題研究的總結(jié)與展望。本章回顧總結(jié)了全文所作的工作與獲得的成果,最后指出了本文設(shè)計(jì)的算法實(shí)現(xiàn)過(guò)程中的一些不足和對(duì)后續(xù)車牌識(shí)別研究工作的展望。7第二章 深度學(xué)習(xí)概述第2章 深度學(xué)習(xí)概述深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子類,兩者均屬于人工智能的范疇。深度學(xué)習(xí)的思想是指通過(guò)對(duì)大量訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),對(duì)輸入數(shù)據(jù)進(jìn)行由低維到高維的特征提取,最終獲得數(shù)據(jù)的底層信息與高層語(yǔ)義的關(guān)系映射。隨著深度學(xué)習(xí)技術(shù)的不斷創(chuàng)新和發(fā)展,其研究潛力和應(yīng)用價(jià)值正被不斷挖掘,可以毫不夸張地講,深度
30、學(xué)習(xí)技術(shù)是機(jī)器學(xué)習(xí)領(lǐng)域近十年來(lái)取得的最成功的突破。本章從深度學(xué)習(xí)的背景出發(fā),簡(jiǎn)單分析了深度學(xué)習(xí)在當(dāng)今取得巨大突破的原因,然后深度學(xué)習(xí)技術(shù)中涉及到的一些基礎(chǔ)概念及理論知識(shí)作了闡述,最后詳細(xì)介紹了在圖像識(shí)別領(lǐng)域獲得巨大成功地卷積神經(jīng)網(wǎng)絡(luò)。2.1 深度學(xué)習(xí)的背景對(duì)于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)中的“學(xué)習(xí)”,Mitchell (1997)提供了一個(gè)簡(jiǎn)潔的定義:“對(duì)于某類任務(wù)T和性能度量P,一個(gè)計(jì)算機(jī)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí)是指,通過(guò)經(jīng)驗(yàn)E改進(jìn)后,它在任務(wù)T上由性能度量P衡量的性能有所提升?!蓖ㄋ椎刂v,機(jī)器學(xué)習(xí)就是通過(guò)人工設(shè)計(jì)的算法,讓機(jī)器能夠從大量樣本數(shù)據(jù)集中學(xué)習(xí)規(guī)律得出模型,然后利用該模型對(duì)未來(lái)的數(shù)據(jù)作出
31、預(yù)測(cè)。深度學(xué)習(xí)之所以“深”,是因?yàn)槠渚W(wǎng)絡(luò)層數(shù)明顯多于簡(jiǎn)單的淺層學(xué)習(xí),多數(shù)回歸、分類等學(xué)習(xí)算法等均屬于淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的簡(jiǎn)單學(xué)習(xí)的范疇。淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常只包含1至2層的特征轉(zhuǎn)換層。典型的淺層結(jié)構(gòu)有邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(support vector machine,SVM)以及多層感知機(jī)(multi layer perceptron,MLP)等。淺層模型的局限性是其在復(fù)雜函數(shù)問(wèn)題上只具有有限的表示能力,這一定程度上制約了它在復(fù)雜分類問(wèn)題上的泛化能力,例如其無(wú)法解決諸如人類語(yǔ)音和自然信號(hào)處理等相對(duì)復(fù)雜的問(wèn)題。而深度學(xué)習(xí)以其較多的網(wǎng)絡(luò)層數(shù)可以實(shí)現(xiàn)復(fù)雜
32、函數(shù)的逼近,相比淺層結(jié)構(gòu)擁有明顯優(yōu)勢(shì)。深度學(xué)習(xí)模型與是在傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的擴(kuò)展,兩者在網(wǎng)絡(luò)結(jié)構(gòu)上都采用了分層的思想,整體上均由輸入層、隱藏層和輸出層構(gòu)成。只有相鄰層的神經(jīng)元(又稱結(jié)點(diǎn))之間有連接,而同一層及跨層神經(jīng)元之間并無(wú)連接。兩者的對(duì)比如圖2-1所示。圖2-1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)模型深度學(xué)習(xí)技術(shù)之所以在最近幾年飛速發(fā)展,其原因在于:(1)機(jī)器學(xué)習(xí)站在大數(shù)據(jù)時(shí)代的肩膀上。數(shù)據(jù)量的增加使得大量算法擁有了成功訓(xùn)練的資源。一方面,由于我們的活動(dòng)越來(lái)越發(fā)生在計(jì)算機(jī)上,而計(jì)算機(jī)會(huì)很容易記錄下我們的;另一方面,由于大量的計(jì)算機(jī)通過(guò)互聯(lián)網(wǎng)聯(lián)結(jié)在一起,這些“足跡”更容易被整理成適用于機(jī)器學(xué)習(xí)訓(xùn)練所
33、需的數(shù)據(jù)集。(2)計(jì)算機(jī)數(shù)據(jù)處理能力的大幅增強(qiáng)。以前,神經(jīng)網(wǎng)絡(luò)難以取得成功的障礙之一是計(jì)算機(jī)計(jì)算資源的限制。而現(xiàn)在,計(jì)算機(jī)處理能力的大大增強(qiáng)(特別是得益于GPU的應(yīng)用)使得我們可以在模型中引入更多神經(jīng)元,網(wǎng)絡(luò)層數(shù)也按需求增加,更深層的網(wǎng)絡(luò)為提高復(fù)雜任務(wù)的精度提供了更多可能。(3)深度學(xué)習(xí)的成功應(yīng)用。最早的網(wǎng)絡(luò)只能識(shí)別兩種對(duì)象,而現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)可以輕易識(shí)別1000個(gè)不同種類的對(duì)象。隨著深度學(xué)習(xí)技術(shù)在每年舉行的ImageNet大型視覺(jué)識(shí)別挑戰(zhàn)中接連勝出,在語(yǔ)音識(shí)別領(lǐng)域的驚人表現(xiàn)以及在行人檢測(cè)、人臉識(shí)別領(lǐng)域取得的巨大成功等,所有這些推動(dòng)了深度學(xué)習(xí)取得前所未有的發(fā)展。2.2 深度學(xué)習(xí)基礎(chǔ)2.2.1
34、線性回歸線性回歸(linear regression)是解決回歸問(wèn)題的一種方法,具體地講,其目標(biāo)是是建立一個(gè)將向量作為輸入,把標(biāo)量作為輸出的系統(tǒng),其中是關(guān)于的線性函數(shù)。令表示模型預(yù)測(cè)應(yīng)該取的值,定義輸出為(2-1)其中,為參數(shù)向量。參數(shù)的作用是控制系統(tǒng)行為,也稱為權(quán)重(weight),它決定了每個(gè)特征影響最終預(yù)測(cè)結(jié)果的程度。若將輸入特征設(shè)為,相應(yīng)的參數(shù)向量為,則預(yù)測(cè)的值為(2-2)然后需要用測(cè)試集(test set)對(duì)系統(tǒng)的性能進(jìn)行評(píng)估,評(píng)估系統(tǒng)的性能地量可以是均方誤差(mean squared error)和交叉熵(cross entropy)等。令表示模型在個(gè)測(cè)試集上的預(yù)測(cè)結(jié)果,目標(biāo)預(yù)測(cè)結(jié)
35、果為,此時(shí),若用均方誤差對(duì)系統(tǒng)性能進(jìn)行度量,則有(2-3)由式(2-3)可以看出,當(dāng)=時(shí),誤差變?yōu)?。實(shí)踐應(yīng)用中,術(shù)語(yǔ)線性回歸所指的模型通常會(huì)加上偏置項(xiàng)(bias),其模型為(2-4)其效果是模型預(yù)測(cè)的曲線不再經(jīng)過(guò)遠(yuǎn)點(diǎn),偏置項(xiàng)代表了輸出在沒(méi)有任何輸入時(shí)會(huì)偏移b。圖2-2 線性回歸模型示例2.2.2邏輯回歸線性回歸主要用于對(duì)輸入進(jìn)行擬合,而邏輯回歸(Logistic Regression,LR)主要用于對(duì)樣本進(jìn)行分類。在線性回歸中,輸入和輸出一般是連續(xù)的,且兩者的范圍都可以是;但在邏輯回歸中,輸出一般是離散的有限個(gè)值,兩者的相同點(diǎn)是均基于。例如,對(duì)于二分類問(wèn)題,輸出只有0和1兩個(gè)取值,其表示對(duì)樣
36、本的某種屬性的分類,這即為常見(jiàn)的二分類模型。例如利用sigmoid函數(shù)對(duì)輸入進(jìn)行壓縮映射在01之間。如圖2-2所示,經(jīng)過(guò)sigmoid函數(shù)的作用,將輸入的輸出限制在了0, 1上。圖2-3 邏輯回歸示例2.2.3 學(xué)習(xí)算法2.2.3.1 無(wú)監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)算法按學(xué)習(xí)過(guò)程中的不同經(jīng)驗(yàn)可以被分為無(wú)監(jiān)督學(xué)習(xí)算法和監(jiān)督學(xué)習(xí)算法兩類。無(wú)監(jiān)督學(xué)習(xí)算法(unsupervised learning algorithm)是指訓(xùn)練含有很多特征的數(shù)據(jù)集,然后學(xué)習(xí)出這個(gè)數(shù)據(jù)集上有用的特征性質(zhì)。在深度學(xué)習(xí)訓(xùn)練中,一般需要學(xué)習(xí)生成數(shù)據(jù)集的概率分布如密度估計(jì)、合成或去噪。還有一些其他類型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),例如聚類是
37、將數(shù)據(jù)集分成相似樣本的集合。監(jiān)督學(xué)習(xí)算法(supervised learning algorithm)與無(wú)監(jiān)督學(xué)習(xí)不同的是,監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都有一個(gè)標(biāo)簽(label),機(jī)器學(xué)習(xí)算法根據(jù)這些預(yù)先設(shè)置的標(biāo)簽學(xué)習(xí)出一個(gè)能夠進(jìn)行正確預(yù)測(cè)的模型。概括的說(shuō),監(jiān)督學(xué)習(xí)算法是給定一組輸入和輸出的訓(xùn)練集,然后讓機(jī)器學(xué)習(xí)如何關(guān)聯(lián)和,一般情況下,輸出y很難被自動(dòng)收集,因此需要由人來(lái)“監(jiān)督”。監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)并沒(méi)有清晰的界限,兩者也并非是完全沒(méi)有交集的概念。大致來(lái)說(shuō)無(wú)監(jiān)督學(xué)習(xí)試圖從隨機(jī)向量的樣本中顯式或隱式地學(xué)習(xí)出概率分布,或者存在于該分布中的某些“有意思”的性質(zhì);而監(jiān)督學(xué)習(xí)包含觀察隨機(jī)向量及其相
38、關(guān)聯(lián)的值或向量,然后從預(yù)測(cè),通常是估計(jì)。根據(jù)概率論,對(duì)于向量,可以分解為(2-5)這就意味著表面上的無(wú)監(jiān)督學(xué)習(xí)可以被拆分為個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。而由(2-6)可知能用無(wú)監(jiān)督學(xué)習(xí)方式學(xué)習(xí)出聯(lián)合分布,然后由其推出。2.2.3.2 支持向量機(jī)支持向量機(jī)(Support Vector Machine,SVM)是監(jiān)督學(xué)習(xí)中最有影響力的方法之一,其核心思想是構(gòu)造一個(gè)分割平面(在二維中為一條直線)將數(shù)據(jù)進(jìn)行分離。與邏輯回歸類似,該模型也基于線性,不同點(diǎn)是SVM只輸出類別,而不像邏輯回歸一樣輸出概率。根據(jù)取值的正負(fù)分別輸出正類和負(fù)類。支持向量機(jī)創(chuàng)新地將線性函數(shù)重寫為點(diǎn)積的形式:(2-7)其中為訓(xùn)練樣本,為系數(shù)向量。
39、這種形式的重寫允許我們將替換為特征函數(shù)的輸出,將點(diǎn)積替換為(2-8)其中稱為核函數(shù),“”表示點(diǎn)積運(yùn)算。替換之后,預(yù)測(cè)函數(shù)變?yōu)椋?-9)這樣一來(lái),雖然關(guān)于是非線性的,但關(guān)于是線性的,核函數(shù)等價(jià)于用對(duì)輸入進(jìn)行預(yù)處理,然后轉(zhuǎn)換到高維空間學(xué)習(xí)線性模型。其中最常用的核函數(shù)為徑向基函數(shù)(Radial Basis Function,RBF)核,若將RBF核看作執(zhí)行一種模板匹配(template matching),當(dāng)核響應(yīng)很大時(shí),表明測(cè)試點(diǎn)與模板相似程度較大,此時(shí)模型賦予相應(yīng)的訓(xùn)練標(biāo)簽很大的權(quán)重。所謂支持向量(support vector),是指在算法求解過(guò)程中,發(fā)現(xiàn)可以只根據(jù)部分邊界數(shù)據(jù)即可確定分類器,而
40、這部分?jǐn)?shù)據(jù)就稱為支持向量。圖2-4 SVM分類器示例2.2.4 代價(jià)函數(shù)代價(jià)函數(shù)(cost function)又稱損失函數(shù)(loss function),其在深度學(xué)習(xí)算法中扮演了重要角色,因?yàn)榭傮w上講在深度學(xué)習(xí)訓(xùn)練模型的過(guò)程所作的工作正是不斷優(yōu)化代價(jià)函數(shù)的過(guò)程。梯度下降(gradient descent)算法中的梯度即為代價(jià)函數(shù)對(duì)每個(gè)參數(shù)的偏導(dǎo)數(shù)。假設(shè)有輸入,對(duì)應(yīng)的輸出為,我們希望輸出可以擬合所有訓(xùn)練輸入,然后假設(shè)實(shí)際輸出的值為,因此我們可以定義一個(gè)函數(shù)來(lái)評(píng)價(jià)擬合輸出與實(shí)際的差距,這個(gè)函數(shù)就是代價(jià)函數(shù)。代價(jià)函數(shù)可以用來(lái)評(píng)價(jià)模型的好壞,一個(gè)模型的代價(jià)函數(shù)越小,說(shuō)明模型和參數(shù)選擇越接近訓(xùn)練樣本。當(dāng)
41、模型確定之后,剩下的工作的本質(zhì)就是不斷改變來(lái)獲得最小的過(guò)程。參數(shù)的個(gè)數(shù)不定,兩個(gè)參數(shù)的代價(jià)函數(shù)圖像如圖2-5所示。特別的,當(dāng)值為0時(shí),表示模型完美的擬合了訓(xùn)練樣本數(shù)據(jù),不存在任何誤差,當(dāng)然這只是理想狀態(tài)。均方誤差(mean squared error)和交叉熵(cross entropy)是常見(jiàn)的兩種代價(jià)函數(shù)形式,其中均方誤差代價(jià)函數(shù)常用于線性回歸中,而交叉熵代價(jià)函數(shù)主要應(yīng)用在邏輯回歸領(lǐng)域。圖2-5 代價(jià)函數(shù)三維圖示例2.2.4.1 均方誤差均方誤差(mean squared error)代價(jià)函數(shù)的具體形式為(2-10)其中,為訓(xùn)練樣本個(gè)數(shù),為用參數(shù)和預(yù)測(cè)出來(lái)的值,為原訓(xùn)練樣本中的值,也就是標(biāo)
42、準(zhǔn)值,角標(biāo)表示第個(gè)樣本。2.2.4.2 交叉熵交叉熵(cross entropy)是一個(gè)主要用于度量?jī)蓚€(gè)概率分布間的差異性的量,它來(lái)源于Shannon信息論。交叉熵被深度學(xué)習(xí)引入作為一個(gè)代價(jià)函數(shù),其作用是衡量真實(shí)標(biāo)記分布與訓(xùn)練所得模型的預(yù)測(cè)標(biāo)記分布的相似程度。其具體形式為(2-11)其中,為訓(xùn)練樣本個(gè)數(shù),為用參數(shù)和預(yù)測(cè)出來(lái)的值,為原訓(xùn)練樣本中的值,也就是標(biāo)準(zhǔn)值,角標(biāo)表示第個(gè)樣本。例如,一個(gè)包含若干輸入的神經(jīng)元,假設(shè)對(duì)應(yīng)的權(quán)重為,偏置為b,如圖2-6所示。則這個(gè)神經(jīng)元的交叉熵代價(jià)函數(shù)為(2-12)其中,為神經(jīng)元的輸出,為輸入的線性輸出,為對(duì)應(yīng)的目標(biāo)輸出。圖2-6 一個(gè)有特定輸入、權(quán)重和偏置的神經(jīng)
43、元2.2.5 隨機(jī)梯度下降在深度學(xué)習(xí)中有一個(gè)應(yīng)用最廣泛的算法:隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法。通常情況下,深度學(xué)習(xí)中的代價(jià)函數(shù)可以分解為每個(gè)樣本代價(jià)函數(shù)的總和。如樣本訓(xùn)練數(shù)據(jù)的附條件對(duì)數(shù)似然(2-13)其中為每個(gè)樣本的損失。而梯度下降需要計(jì)算(2-14)由于式(2-14)運(yùn)算的復(fù)雜度為,因此隨著訓(xùn)練集數(shù)據(jù)量規(guī)模的增大,計(jì)算一步梯度的時(shí)間代價(jià)也相當(dāng)巨大。梯度下降的核心是:梯度是一個(gè)具有期望屬性的概念,而期望能使用小規(guī)模的訓(xùn)練樣本數(shù)據(jù)進(jìn)行估計(jì)。因此,在算法的每一步,可以從訓(xùn)練集中均勻抽出一小批量(minibatch)樣本,其中是一個(gè)相對(duì)較小的數(shù),
44、表示小批量中的樣本數(shù)目。通常情況下,并不隨樣本訓(xùn)練集大小增長(zhǎng)而變大,通常是固定值。然后,梯度的估計(jì)可以使用樣本來(lái)估計(jì)(見(jiàn)式2-15)。(2-15)如此一來(lái),當(dāng)需要擬合數(shù)十億的樣本數(shù)據(jù)時(shí),每次更新計(jì)算只用到幾百個(gè)樣本,大大減小了運(yùn)算代價(jià)。隨機(jī)梯度下降算法在梯度下降算法基礎(chǔ)上進(jìn)行了優(yōu)化,引入了學(xué)習(xí)率這個(gè)參量,其估計(jì)方法為(2-16)其中代表學(xué)習(xí)率。雖然優(yōu)化的梯度下降算法不能保證在合理的時(shí)間內(nèi)達(dá)到一個(gè)極值,但通常情況下它能及時(shí)地找出代價(jià)函數(shù)一個(gè)很小的值。由圖2-7可以看出,沿著函數(shù)的負(fù)梯度方向運(yùn)動(dòng)就能得到函數(shù)的局部最小值。圖2-7 梯度下降示意圖2.2.6 激活函數(shù)激活函數(shù)是在人工神經(jīng)網(wǎng)絡(luò)中提供非線
45、性建模能力的一類函數(shù),其在深度學(xué)習(xí)中至關(guān)重要。一般而言,用作激活函數(shù)的那些函數(shù)都是非線性的。不含激活函數(shù)的神經(jīng)網(wǎng)絡(luò)通常只能處理線性問(wèn)題,對(duì)于線性不可分的數(shù)據(jù)將難以得到解決。下文就幾種常見(jiàn)的激活函數(shù)的定義和性質(zhì)作簡(jiǎn)單介紹。(1)sigmoid函數(shù)sigmoid函數(shù)的表達(dá)式為(2-17)其函數(shù)圖像如圖2-8所示。sigmoid類似指數(shù)函數(shù)形狀的圖像在物理意義上最接近生物神經(jīng)元(激勵(lì)或抑制的程度)。此外,由于其輸出在(0,1)之間,還被經(jīng)常用來(lái)表示概率,或者輸出的歸一化。圖2-8 sigmoid函數(shù)圖像由圖2-4可以看出(2-18)這種性質(zhì)稱為軟飽和性,正是這個(gè)特點(diǎn)導(dǎo)致了Sigmoid激活函數(shù)的缺陷
46、,在神經(jīng)網(wǎng)絡(luò)后向傳遞過(guò)程中權(quán)重的更新越來(lái)越慢,網(wǎng)絡(luò)參數(shù)因此很難得到訓(xùn)練,這種情況也稱為梯度消失。與軟飽和性對(duì)應(yīng)的是硬飽和性,當(dāng)某個(gè)函數(shù)具有式(2-11)所示性質(zhì)時(shí),我們稱其具有硬飽和性。(2-19)硬飽和與軟飽和一樣也分為左飽和和右飽和。常見(jiàn)的ReLU函數(shù)(圖像見(jiàn)圖2-6)就屬于左飽和函數(shù)。(2) tanh函數(shù)tanh函數(shù)的表達(dá)式為(2-20)其函數(shù)圖像為圖2-9所示。tanh也是常用的激活函數(shù)之一,與sigmoid相比,它的輸出均值是0,使得其收斂速度要比sigmoid快,減少迭代次數(shù)。然而,從其函數(shù)圖像不難看出,tanh函數(shù)也具有軟飽和性,同樣會(huì)導(dǎo)致梯度消失現(xiàn)象。圖2-9 tanh函數(shù)圖像
47、(3)ReLU,Leaky-ReLU,P-ReLU函數(shù)線性整流函數(shù)(Rectified Linear Unit,ReLU),ReLU與傳統(tǒng)的sigmoid函數(shù)和tanh函數(shù)相比,可以對(duì)梯度消失問(wèn)題有一定緩解。式(2-21)為ReLU的表達(dá)式。(2-21)其函數(shù)圖像見(jiàn)圖2-10。結(jié)合其函數(shù)圖像可以明顯的觀察到ReLU的函數(shù)值在時(shí)的值恒為0,由上文對(duì)飽和性的定義可知,其具有硬飽和性。由于時(shí),ReLU函數(shù)的導(dǎo)數(shù)為1,因此,其可以保持梯度在時(shí)不衰減,從而可以在一定程度上緩解深度學(xué)習(xí)訓(xùn)練中的梯度消失問(wèn)題圖2-10 ReLU函數(shù)圖像針對(duì)當(dāng)x<0的硬飽和問(wèn)題,對(duì)ReLU做出相應(yīng)的改進(jìn),使得(2-22)
48、式2-22即為L(zhǎng)eaky-ReLU的定義,而P-ReLU認(rèn)為,也可以作為一個(gè)參數(shù)來(lái)學(xué)習(xí)。2.2.7 反向傳播算法誤差反向傳播算法,又叫BP(Back Propagation)算法,它是建立在梯度下降法的基礎(chǔ)上,適合于多層神經(jīng)元網(wǎng)絡(luò)的一種學(xué)習(xí)算法。當(dāng)使用前饋神經(jīng)網(wǎng)絡(luò)接收輸入并產(chǎn)生輸出時(shí),信息通過(guò)網(wǎng)絡(luò)前向流動(dòng),直到得到輸出與期望的代價(jià)函數(shù),這稱為前向傳播(Foward Propagation)。反向傳播算法允許來(lái)自代價(jià)函數(shù)的信息通過(guò)網(wǎng)絡(luò)向后流動(dòng)以便計(jì)算梯度。計(jì)算梯度的表達(dá)式雖然直觀,但如果要數(shù)值化地求解這樣的表達(dá)式,其代價(jià)可能會(huì)很大。引入反向傳播算法使得求解過(guò)程變得相對(duì)簡(jiǎn)單和廉價(jià)。學(xué)習(xí)算法的過(guò)程即
49、是這前向傳播反向傳播反復(fù)迭代,網(wǎng)絡(luò)的學(xué)習(xí)在不斷修改中完成,直至網(wǎng)絡(luò)達(dá)到收斂條件。反向傳播僅指用于計(jì)算梯度的方法,而另一種算法,例如隨機(jī)梯度下降,使用該梯度來(lái)進(jìn)行學(xué)習(xí)。此外,反向傳播經(jīng)常被誤解為僅適用于多層神經(jīng)網(wǎng)絡(luò),但是原則上它可以計(jì)算任何函數(shù)的導(dǎo)數(shù)。在學(xué)習(xí)算法中,我們需要求解的梯度是代價(jià)函數(shù)關(guān)于參數(shù)的梯度。反向傳播算法是通過(guò)遞歸地使用微積分理論上的鏈?zhǔn)椒▌t實(shí)現(xiàn)的。例如,設(shè),并且,則由鏈?zhǔn)椒▌t可知(2-24)這是均為標(biāo)量的情況。當(dāng)?shù)南蛄繒r(shí),令,則(2-25)利用向量記法,上式等價(jià)為(2-26)其中,是的的Jacobian矩陣。如此,變量的梯度便可以通過(guò)Jacobian矩陣與梯度的乘積求出。學(xué)習(xí)算
50、法中的反向傳播求解梯度的原理正是由上述每一個(gè)這樣的Jacobian矩陣與梯度的乘積操作組成。2.3 卷積神經(jīng)網(wǎng)絡(luò)在圖像分類識(shí)別等諸多領(lǐng)域有著出色表現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一類特別適用于圖像分類的結(jié)構(gòu)。一般的全連接深度神經(jīng)網(wǎng)絡(luò)架構(gòu)在進(jìn)行圖像分類識(shí)別時(shí)并不考慮圖像的空間結(jié)構(gòu),具體地說(shuō),不管圖像上的兩個(gè)像素相距很遠(yuǎn)還是彼此相鄰,它都一視同仁。而卷積神經(jīng)網(wǎng)絡(luò)則不同,它的網(wǎng)絡(luò)架構(gòu)將圖像的空間特征考慮進(jìn)來(lái)。2.3.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)通常包括三個(gè)部分。第一部分是輸入層;第二部分由個(gè)卷積層(Convolutional layer)和
51、池化層(Pooling layer)疊加組合而成;第三部分是全連接層(Full-connected layer),一般由一個(gè)全連接的多層感知機(jī)分類器構(gòu)成,卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖2-8所示。卷積神經(jīng)網(wǎng)絡(luò)的每個(gè)模塊都由卷積層和池化層組成,這個(gè)模塊又叫做特征提取器。在卷積層中,一個(gè)神經(jīng)元并不與相鄰層的所有神經(jīng)元連接,而只是其中一部分,每個(gè)卷積層通常包含由許多矩形排列的神經(jīng)元組成的若干個(gè)特征平面(feature map),位于同一個(gè)特征平面上的神經(jīng)元具有相同的權(quán)值(共享權(quán)值),共享的權(quán)值就是卷積核。卷積核通過(guò)網(wǎng)絡(luò)訓(xùn)練學(xué)得一組合理的權(quán)值,共享權(quán)值帶來(lái)的好處有:一是減少網(wǎng)絡(luò)間各層的連接,進(jìn)而使參數(shù)大為
52、減少;二是降低過(guò)擬合的風(fēng)險(xiǎn)。池化層或叫子采樣層(Subsampling layer),可以將其看作一種特殊的卷積操作,通過(guò)卷積層和池化層的處理降低了模型的復(fù)雜度。圖2-12 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖2.3.2 卷積運(yùn)算卷積神經(jīng)網(wǎng)絡(luò)的卷積層應(yīng)用了“卷積”這種數(shù)學(xué)運(yùn)算。連續(xù)函數(shù)卷積的一般形式為(2-27). 卷積運(yùn)算通常用“*”來(lái)表示(2-28)離散函數(shù)卷積的一般形式為(2-29)在卷積神經(jīng)網(wǎng)絡(luò)中,卷積的第一個(gè)參數(shù)(上式中的函數(shù))叫做輸入(input),第二個(gè)參數(shù)(上式中的)叫做核函數(shù)(kernel function)或者卷積核,而卷積結(jié)果常被叫做特征映射(feature map)。在圖像數(shù)據(jù)中,需要經(jīng)
53、常一次在多個(gè)維度上進(jìn)行卷積運(yùn)算。例如,假設(shè)把輸入為一張二維圖像I,卷積核為K,則此時(shí)的卷積運(yùn)算可以寫為(2-30)圖2-13形象地表示了二維圖像中的卷積運(yùn)算過(guò)程。圖2-13 二維圖像中的卷積運(yùn)算2.3.3 局部感受野在2.2.8節(jié)所示的全連接神經(jīng)網(wǎng)絡(luò)中,輸入通常表示成縱向排列的神經(jīng)元。但在卷積神經(jīng)網(wǎng)絡(luò)中,通常把輸入看作方形排列的神經(jīng)元。例如,在圖像分類中,我們將局部的小區(qū)域方形像素連接到隱藏神經(jīng)元層,每個(gè)連接學(xué)習(xí)一個(gè)權(quán)重,在深度學(xué)習(xí)術(shù)語(yǔ)中,將這個(gè)小區(qū)域稱為局部感受野,如圖2-14所示。圖2-14 局部感受野局部感受野在輸入圖像的像素矩陣中從左往右、從上到下依次按步長(zhǎng)(stride)為1移動(dòng),重
54、復(fù)此過(guò)程,就建立起一個(gè)隱藏層(hidden layer),如圖2-15所示。圖2-15 局部感受野移動(dòng)構(gòu)建起隱藏層2.3.4 權(quán)值共享權(quán)值共享(weights sharing)是指在一個(gè)網(wǎng)絡(luò)模型中的多個(gè)函數(shù)都使用相同的權(quán)重。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在計(jì)算一層輸出時(shí)權(quán)重矩陣的每個(gè)權(quán)值只使用一次不同的是,卷積神經(jīng)網(wǎng)絡(luò)用于一個(gè)輸入的權(quán)重同時(shí)也會(huì)應(yīng)用在其他輸入上,如圖2-11所示。卷積網(wǎng)絡(luò)中的權(quán)值共享的好處使得我們只需要學(xué)習(xí)一個(gè)權(quán)值集合,而不需要對(duì)輸入的每一個(gè)位置都單獨(dú)學(xué)習(xí)一個(gè)權(quán)值集合。權(quán)值共享的優(yōu)點(diǎn)是顯著地降低模型的存儲(chǔ)需求同時(shí)大大減少了參數(shù)個(gè)數(shù)。對(duì)于卷積操作,這種特殊形式的參數(shù)共享使得神經(jīng)網(wǎng)絡(luò)層具備了平移等
55、變的性質(zhì)?!暗茸儭钡亩x為:當(dāng)一個(gè)函數(shù)的輸入以某種方式改變時(shí),輸出也以同樣的方式改變,這種性質(zhì)就稱為等變性。針對(duì)卷積運(yùn)算,對(duì)輸入的任意平移函數(shù),由卷積的定義可知,卷積函數(shù)對(duì)于具有平移等變性。這個(gè)性質(zhì)可以用到圖像的低維特征檢測(cè)中,例如邊緣檢測(cè)。因?yàn)樵趫D像中,相同或者類似的邊緣常有可能散布在圖像的各個(gè)位,所以應(yīng)當(dāng)對(duì)整幅圖像使用同一個(gè)參數(shù)矩陣(同一個(gè)卷積核),即權(quán)值共享。而在處理與位置有關(guān)的高維特征時(shí),我們需要在不同位置提取不同的特征,此時(shí)就不能共享權(quán)值。(a)(b)圖2-16 權(quán)值共享與否對(duì)比。(a)使用了權(quán)值共享;(b)未使用權(quán)值共享在圖2-16(a)中加粗箭頭表示在卷積模型中對(duì)一個(gè)含有3個(gè)元素
56、的卷積核的中間元素的使用,由于權(quán)值共享,這個(gè)權(quán)值被作用在所有的輸入位置上。與之相對(duì)應(yīng)的是圖2-16(b),表示了在全連接網(wǎng)絡(luò)模型中沒(méi)有使用權(quán)值共享的情況,所有權(quán)值僅被使用一次。2.3.5 池化在卷積神經(jīng)網(wǎng)絡(luò)中,一般情況下每一層包含三個(gè)級(jí)(如圖2-17)。第一級(jí)的功能是并行地計(jì)算多個(gè)卷積然后產(chǎn)生一組線性激活響應(yīng),這級(jí)常叫做卷積級(jí)(Convolutional stage)。接下來(lái)第二級(jí)中將第一級(jí)產(chǎn)生的每一個(gè)線性激活響應(yīng)通過(guò)一個(gè)非線性激活函數(shù)(如sigmoid),這級(jí)稱為探測(cè)級(jí)(Detector stage)。最后一級(jí)池化級(jí)(Pooling stage)常用一個(gè)池化函數(shù)對(duì)上一級(jí)的輸出作進(jìn)一步調(diào)整。圖
57、2-17 一個(gè)典型卷積神經(jīng)網(wǎng)絡(luò)包含的組件池化的輸出是對(duì)輸入鄰域的概括統(tǒng)計(jì),用該位置的概括統(tǒng)計(jì)特征代替在該位置的輸出,當(dāng)步幅大于1時(shí),看以看作是一種降采樣行為。其中最大池化(max pooling)和均值池化(mean pooling)是兩種常見(jiàn)的池化操作形式。其中,最大池化將相鄰區(qū)域(一般為矩形區(qū)域)的最大值作為此位置的輸出,均值池化根據(jù)求取平均值的算法不同可以分為簡(jiǎn)單地求平均和據(jù)中心像素距離的加權(quán)平均等池化操作。池化的優(yōu)點(diǎn)在于它的平移不變性:即便輸入作出少量平移,由于池化函數(shù)的作用使得輸出基本保持不變。當(dāng)我們只關(guān)心某個(gè)特征的出現(xiàn)與否而不關(guān)心此特征的具體位置時(shí),平移不變性就變得相當(dāng)有用。利用池
58、化操作可以學(xué)得某些變換的不變性,提高網(wǎng)絡(luò)統(tǒng)計(jì)效率。池化綜合了其周圍鄰居的反饋,在提高網(wǎng)絡(luò)計(jì)算效率的同時(shí)減少了對(duì)大量參數(shù)的存儲(chǔ)需求。(a) (b)圖2-18 常見(jiàn)的兩種池化操作。(a)最大池化;(b)均值池化圖2-19 最大池化引入了不變性(a)最大池化操作;(b)輸入平移后的池化效果在圖2-19(a)中,下層為非線性輸出,上層為池化層的輸出,池的大小為3個(gè)像素,使用了最大池化操作。與之相對(duì)應(yīng)的是圖2-19(b)中對(duì)圖2-19(a)進(jìn)行了一個(gè)像素的平移操作,跟圖2-19(a)對(duì)比可以看出,平移一個(gè)像素之后輸入全部改變,但池化操作后僅有一半的輸出被改變。2.3.6 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與人工神經(jīng)網(wǎng)絡(luò)模型一般應(yīng)用于處理有監(jiān)督學(xué)習(xí)問(wèn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 吊車勞務(wù)合同范例
- 雕塑制作雕塑設(shè)計(jì)合同范本
- 貸款服務(wù)費(fèi)合同范本
- 廠區(qū)綠化垃圾清運(yùn)合同范本
- 燈光設(shè)備短期租賃合同
- 十廉租房合同范本
- 公寓軟裝租房合同范本
- 廠房收購(gòu)定金合同范本
- 單位與保安合同范例
- 醫(yī)療耗材服務(wù)合同范本
- 《團(tuán)隊(duì)的凝聚力》課件
- 膝關(guān)節(jié)僵硬個(gè)案護(hù)理
- 《民間皮影》課程標(biāo)準(zhǔn)
- 新教科版六下科學(xué)1.4《設(shè)計(jì)塔臺(tái)模型》教學(xué)設(shè)計(jì)(新課標(biāo))
- 電氣設(shè)備維修
- 森林專業(yè)撲火隊(duì)培訓(xùn)課件
- 學(xué)校體育學(xué)第八章課余體育鍛煉課件
- “一帶一路”視域下印度尼西亞中資企業(yè)所得稅返還案例解析
- 職業(yè)健康監(jiān)護(hù)評(píng)價(jià)報(bào)告編制指南
- 管理ABC-干嘉偉(美團(tuán)網(wǎng)COO)
- 社會(huì)工作綜合能力初級(jí)講義課件
評(píng)論
0/150
提交評(píng)論