下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一種基于深度學(xué)習(xí)的身份證號(hào)碼識(shí)別方法
1身份證號(hào)碼的錄入2004年,中國開始采用第二代居民身份證。由于身份編號(hào)只能識(shí)別身份驗(yàn)證信息,并且可以獲得一些個(gè)人信息,因此身份編號(hào)通常只記錄身份驗(yàn)證信息。然而,登記仍然是手動(dòng)的,這不僅耗時(shí),而且效率低下。因此,快速輸入身份驗(yàn)證信息是一個(gè)必須解決的問題,尤其是光學(xué)文本識(shí)別(orc)技術(shù),并被納入認(rèn)證行業(yè),并被廣泛使用。身份證號(hào)碼的識(shí)別技術(shù)屬于圖像字符識(shí)別領(lǐng)域,目前國內(nèi)外采用較多的方法主要有兩類:基于模板匹配OCR算法和基于神經(jīng)網(wǎng)絡(luò)的OCR算法2定位和提取簽名號(hào)2.1身份證號(hào)碼的定位雖然第二代居民身份證的大小是固定的,但是拍照不像掃描獲得的身份證圖像固定,因此,不能直接通過身份證圖像的大小來獲取它的位置。圖1(a)為通過拍照獲得的身份證圖像,要求拍照的背景不要復(fù)雜,比較簡單,能夠和身份證形成比較大的差異,并且身份證在圖像中的位置要居中和占據(jù)80%左右的空間,傾斜角不要太大,以保證能夠檢測(cè)到身份證,并不會(huì)對(duì)身份證號(hào)碼的定位造成影響。不管身份證的尺寸如何,身份證號(hào)碼在身份證上的位置總是固定的,結(jié)合先驗(yàn)知識(shí)和獲得的身份證圖像,身份證號(hào)碼位置要大于圖像寬度的1/3。身份證上身份證號(hào)碼總是處于人臉之下,可以采用Matlab自帶的Vision工具箱檢測(cè)到人臉(如圖1(b)所示),身份證號(hào)碼大概在檢測(cè)到的人臉長度的1.2倍之下,從而截取出包括身份證號(hào)碼區(qū)域的一部分圖像,如圖1(c)所示。獲得的一部分圖像是彩色圖像,需要進(jìn)行灰度化和二值化處理。常見的灰度化處理方法有平均值法、加權(quán)平均值法和最大值法等。通常加權(quán)平均值法式(1)中,F為像素的灰度值,R為彩色圖像中紅色分量的值,G為彩色圖像中綠色分量的值,B為彩色圖像藍(lán)色分量的值。常見的二值化處理方法有全局固定閾值、自適應(yīng)閾值二值化和OSTU法。采用了迭代法進(jìn)行二值化通常二值化后會(huì)用投影分割切割出身份證號(hào)碼,但是圖像區(qū)域還是略大,而且還有些其他的非號(hào)碼區(qū)域,因此,繼續(xù)采用一些圖像處理技術(shù)來更好地提取出身份證號(hào)碼圖像,達(dá)到要求。首先是對(duì)圖像進(jìn)行開運(yùn)算,使得圖像形成幾個(gè)連通域,接著用8鄰域標(biāo)記連通域。因?yàn)樯矸葑C號(hào)碼高度基本一致,所以身份證號(hào)碼連通域?qū)⒈缓喜?。圖像形成的連通域可能不止包括身份證號(hào)碼,還有其他的部分,因此,需要計(jì)算連通域的面積來進(jìn)行號(hào)碼區(qū)域匹配,選取匹配度接近1的連通域,并對(duì)目標(biāo)區(qū)域分別向上下左右延伸7個(gè)像素,最后在原圖像上提取出身份證號(hào)碼圖像,如圖2所示。2.2單個(gè)字符的全化獲得身份證號(hào)碼圖像后,需要對(duì)圖像進(jìn)行字符分割,提取出單個(gè)字符??梢酝ㄟ^投影分割的方法來實(shí)現(xiàn),步驟如下:(1)對(duì)圖像進(jìn)行加權(quán)灰度化;(2)用迭代二值化方法二值化灰度圖像;(3)采用像素水平投影和垂直投影3基于堆疊神經(jīng)網(wǎng)絡(luò)字符的識(shí)別3.1多層網(wǎng)絡(luò)學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,目的在于模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像、聲音和文本。深度學(xué)習(xí)采用了神經(jīng)網(wǎng)絡(luò)的分層結(jié)構(gòu),系統(tǒng)包括輸入層、隱藏層和輸出層組成的多層網(wǎng)絡(luò),只有相鄰的節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,通過對(duì)給定的訓(xùn)練集不斷訓(xùn)練,主動(dòng)學(xué)習(xí)一些特征,從而建立模型。深度學(xué)習(xí)首先利用無監(jiān)督學(xué)習(xí)對(duì)每一層網(wǎng)絡(luò)進(jìn)行逐層預(yù)訓(xùn)練,每次用無監(jiān)督學(xué)習(xí)只訓(xùn)練一層,并將訓(xùn)練結(jié)果作為更高一層的輸入,最后用監(jiān)督學(xué)習(xí)去調(diào)整所有層。CNN[7-9]是深度學(xué)習(xí)的一個(gè)重要算法,也是一種多層神經(jīng)網(wǎng)絡(luò),通過卷積來模擬特征區(qū)分,并且通過卷積的權(quán)值共享及池化,來降低網(wǎng)絡(luò)參數(shù)數(shù)量級(jí),最后通過神經(jīng)網(wǎng)絡(luò)3.2卷積層神經(jīng)元數(shù)、卷積層神經(jīng)元數(shù)和子采樣層神經(jīng)層數(shù)深度學(xué)習(xí)的CNN網(wǎng)絡(luò)結(jié)構(gòu)主要考慮網(wǎng)絡(luò)層數(shù)、卷積層神經(jīng)元數(shù)和子采樣層神經(jīng)層數(shù),以及最后輸出層的神經(jīng)層數(shù)。CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,參考了CaffeNet4身份編碼和編碼本文由于采用了基于深度學(xué)習(xí)的身份證號(hào)碼識(shí)別方法,訓(xùn)練需要大量的數(shù)據(jù)集,而從實(shí)際中獲取不現(xiàn)實(shí),因此本文采用自己合成的數(shù)據(jù)集,用身份證號(hào)碼區(qū)域的背景,身份證號(hào)碼字體OCR-B10BT,融合了不同的高斯噪聲、不同的字體傾斜角、字體大小不同、RGB不同以及區(qū)域大小,并且將18位身份證號(hào)碼加入驗(yàn)證,確保符合真實(shí)的身份證號(hào)碼要求,得到了10W張身份證號(hào)碼圖像,如圖5所示,并且每一張圖像都有標(biāo)簽。用二值化和投影分割切出字符,將其分到11類中。本次實(shí)驗(yàn)是基于ubuntu14.10,GTX980的機(jī)器,深度學(xué)習(xí)的框架是Caffe,通過輸入原圖像,將圖像歸一化為64*64大小,訓(xùn)練圖像接近18W,其中有768個(gè)字符沒有切割出來,訓(xùn)練迭代5W次,得到模型,訓(xùn)練準(zhǔn)確率接近100%。通過自己拍照獲得了541張身份證圖像,身份證號(hào)碼數(shù)共9738個(gè),用之前的方法切割出9643個(gè)字符,切割正確率為99%,測(cè)試的識(shí)別率為98%,其中錯(cuò)誤的共195個(gè)。實(shí)驗(yàn)過程中有一些身份證號(hào)碼圖像切割出錯(cuò),測(cè)試識(shí)別出錯(cuò)最多的是0,圖6為切割出錯(cuò)的真實(shí)身份證號(hào)碼圖像示例。5基于深度學(xué)習(xí)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度無人機(jī)OEM研發(fā)與市場推廣合同3篇
- 年度制冷空調(diào)機(jī)械競爭策略分析報(bào)告
- 二零二五版淀粉行業(yè)綠色生產(chǎn)與循環(huán)利用合同3篇
- 年度記憶綿枕市場分析及競爭策略分析報(bào)告
- 二零二五年度谷殼供應(yīng)鏈金融服務(wù)合同3篇
- 2025年新型建筑裝修工程施工企業(yè)信用擔(dān)保合同范本3篇
- 鐵礦粉購銷合同模板2025年度2篇
- 二零二五年智能硬件研發(fā)項(xiàng)目技術(shù)合同登記管理細(xì)則3篇
- 2025年度鉆井工程地質(zhì)勘察合同3篇
- 2025年度盆景植物租賃與藝術(shù)展覽合作合同范本
- 2025年生產(chǎn)主管年度工作計(jì)劃
- 2025年急診科護(hù)理工作計(jì)劃
- 高中家長會(huì) 高二寒假線上家長會(huì)課件
- 違規(guī)行為與處罰管理制度
- 個(gè)人教師述職報(bào)告錦集10篇
- 四川省等八省2025年普通高中學(xué)業(yè)水平選擇性考試適應(yīng)性演練歷史試題(含答案)
- 《內(nèi)部培訓(xùn)師培訓(xùn)》課件
- 《雷達(dá)原理》課件-3.3.3教學(xué)課件:相控陣?yán)走_(dá)
- 西方史學(xué)史課件3教學(xué)
- 2024年中國醫(yī)藥研發(fā)藍(lán)皮書
- 紅色中國風(fēng)蛇年年會(huì)邀請(qǐng)函
評(píng)論
0/150
提交評(píng)論