個(gè)人征信報(bào)告OCR識(shí)別方案.doc_第1頁
個(gè)人征信報(bào)告OCR識(shí)別方案.doc_第2頁
個(gè)人征信報(bào)告OCR識(shí)別方案.doc_第3頁
個(gè)人征信報(bào)告OCR識(shí)別方案.doc_第4頁
個(gè)人征信報(bào)告OCR識(shí)別方案.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

個(gè)人征信報(bào)告OCR識(shí)別方案北京譯圖智訊科技有限公司目錄一、產(chǎn)品背景31.業(yè)務(wù)需求32.數(shù)據(jù)獲取方案4二、解決方案51.方案工作流程說明如下52.方案技術(shù)特點(diǎn)6三、技術(shù)說明7一、 產(chǎn)品背景1. 業(yè)務(wù)需求個(gè)人征信報(bào)告是反應(yīng)個(gè)人信用最真實(shí)、直觀的材料,通過評(píng)估個(gè)人的信用情況,從而給予信用貸款是國內(nèi)金融信貸機(jī)構(gòu)通行的做法。目前個(gè)人征信報(bào)告都是從人民銀行征信中心獲取打印的,個(gè)人征信數(shù)據(jù)屬于個(gè)人隱私信息,不能對金融信貸機(jī)構(gòu)開放,因此,信貸機(jī)構(gòu)從人民銀行征信中心獲取個(gè)人信用數(shù)據(jù)是比較困難的,必須通過央行的牌照申請?;谝陨锨闆r,現(xiàn)行個(gè)人信用貸款的業(yè)務(wù)模式是:個(gè)人從人民銀行征信官網(wǎng)查詢打印本人的征信報(bào)告,提交紙質(zhì)材料或者掃描影像件給信貸機(jī)構(gòu),信貸機(jī)構(gòu)將信用數(shù)據(jù)錄入到各自的風(fēng)控模型中,進(jìn)而對申請人給予評(píng)級(jí)和相應(yīng)額的的貸款。信貸機(jī)構(gòu)在實(shí)際業(yè)務(wù)中遇到如下的問題:1) 貸款審批流程時(shí)間長,容易錯(cuò)過意向客戶:由于個(gè)人征信報(bào)告數(shù)量大,而目前的風(fēng)控系統(tǒng)都需要手工錄入個(gè)人信用的數(shù)據(jù),因此在數(shù)據(jù)錄入環(huán)節(jié),手工方式效率低下,阻礙了信用的快速評(píng)估。因此,數(shù)據(jù)從紙質(zhì)信用報(bào)告轉(zhuǎn)化到風(fēng)控系統(tǒng)中的電子數(shù)據(jù),是效率關(guān)鍵所在。2) 信用數(shù)據(jù)評(píng)估不精確,不全面,隱含風(fēng)險(xiǎn):由于信用報(bào)告數(shù)據(jù)量大,信貸業(yè)務(wù)部門又希望能快速放款,所以對風(fēng)控?cái)?shù)據(jù)評(píng)估勢必存在疏漏和主觀判斷。出現(xiàn)這種情況還是因?yàn)?,信用?shù)據(jù)的獲取和錄入耗費(fèi)時(shí)間。信用數(shù)據(jù)評(píng)估的不精確,對信貸業(yè)務(wù)會(huì)留下潛在的風(fēng)險(xiǎn),影響貸款決策。以上是從影響信貸審批效率的一個(gè)方面分析的,不難看出,如果提高個(gè)人征信報(bào)告數(shù)據(jù)采集的效率將提升整個(gè)信貸活動(dòng)的效率,提升信貸部門的作業(yè)效率,提升客戶的體驗(yàn)度,從而獲取更多的信貸客戶。2. 數(shù)據(jù)獲取方案從實(shí)際情況出發(fā),目前獲取個(gè)人征信報(bào)告的途徑有三種,簡要說明如下:1) 直接對接人民銀行的征信系統(tǒng):目前央行只授權(quán)了8家征信企業(yè)可以獲得個(gè)人征信牌照,意味著更多的信貸機(jī)構(gòu)無法直接從官方拿到信用數(shù)據(jù),如果從已授權(quán)的8家征信企業(yè)購買信用數(shù)據(jù),即使有非公開渠道,在法律上應(yīng)該也是禁止的,風(fēng)險(xiǎn)較大;2) 從人民銀行查詢征信的網(wǎng)頁結(jié)果中解析征信數(shù)據(jù):此方法屬于技術(shù)手段,存在數(shù)據(jù)被篡改、數(shù)據(jù)不可信的問題;3) 通過征信中心,查詢并打印個(gè)人的征信報(bào)告:此方法由于是官方提供了查詢打印平臺(tái),所以對消費(fèi)者來說,最便捷,數(shù)據(jù)也最可信。缺點(diǎn)是貸款人提交的征信報(bào)告是紙質(zhì)版,需要將數(shù)據(jù)錄入到風(fēng)控系統(tǒng)中,數(shù)據(jù)采集工作量較大。對比以上三種方式,信貸機(jī)構(gòu)都選擇了第三種,即由貸款人提交個(gè)人征信報(bào)告,提交方式為征信報(bào)告掃描件,大額貸款還需要本人帶上征信報(bào)告面簽。在第三種方式中,錄入信用數(shù)據(jù)到風(fēng)控系統(tǒng)中是必須的,如何提高數(shù)據(jù)采集的效率是提升信貸業(yè)務(wù)效率的關(guān)鍵所在。在經(jīng)過多個(gè)項(xiàng)目的考察和探索、實(shí)踐,我們研發(fā)出一套依托于OCR(光學(xué)字符識(shí)別)技術(shù)快速采集個(gè)人征信報(bào)告數(shù)據(jù)的解決方案,從而為信貸機(jī)構(gòu)提供高可靠性的信用數(shù)據(jù)。二、 解決方案1. 方案工作流程說明如下OCR(光學(xué)字符識(shí)別)技術(shù),是通過圖像處理技術(shù)手段,將圖像(影像)上的文字、表格、圖像轉(zhuǎn)化為電子版的數(shù)據(jù),通過計(jì)算機(jī)程序,快速實(shí)現(xiàn)數(shù)據(jù)信息的采集。個(gè)人征信報(bào)告中,存在大量的數(shù)據(jù)需要手工錄入,使用OCR技術(shù)將極大提高數(shù)據(jù)采集的效率和準(zhǔn)確度。解決方案流程如下圖所示:導(dǎo)出Excel/csv格式 掃描征信報(bào)告(圖像存儲(chǔ))OCR自動(dòng)分析識(shí)別表格分析識(shí)別文字分析識(shí)別識(shí)別結(jié)果校驗(yàn)和匯總A風(fēng) 控 系 統(tǒng)數(shù)據(jù)轉(zhuǎn)換協(xié)議OCR自動(dòng)識(shí)別系統(tǒng) :客戶面簽時(shí),業(yè)務(wù)人員將客戶的征信報(bào)告掃描為圖像資料,掃描要求為300DPI(分辨率); :業(yè)務(wù)人員將掃描的圖像按順序?qū)隣CR自動(dòng)識(shí)別軟件中,軟件開始自動(dòng)分析圖像特征和數(shù)據(jù); 表格分析識(shí)別/文字分析識(shí)別:通過版面分析、表格分析、文字分析,識(shí)別出征信報(bào)告的表格部分、文字部分。表格分析,檢測所有的表格線,并組織成單元格結(jié)構(gòu),為之后的還原提供數(shù)據(jù)支撐;文字分析,對非表格部分,進(jìn)行分析并識(shí)別。 識(shí)別結(jié)果校驗(yàn)和匯總:表格中,存在多種文字類型和數(shù)據(jù)格式,通過識(shí)別后分析判斷,進(jìn)行二次識(shí)別,以提高識(shí)別精度。 導(dǎo)出Excel/csv格式:對表格分析識(shí)別、文字分析識(shí)別的結(jié)果進(jìn)行組織和導(dǎo)出,按照原表格樣式進(jìn)行原版書還原。A風(fēng)控系統(tǒng):在風(fēng)控系統(tǒng)和OCR識(shí)別系統(tǒng)之間,通過Excel/csv方式進(jìn)行數(shù)據(jù)交互。風(fēng)控系統(tǒng)不需要改造即可使用OCR自動(dòng)識(shí)別出來的數(shù)據(jù)。2. 方案技術(shù)特點(diǎn)1) 速度快:OCR的特點(diǎn)為速度快,識(shí)別一張征信報(bào)告平均耗時(shí)5秒,以一份征信報(bào)告6頁計(jì)算,識(shí)別一份征信報(bào)告需要30秒的時(shí)間,風(fēng)控系統(tǒng)可以導(dǎo)入Excel數(shù)據(jù),那么在30秒內(nèi),風(fēng)控系統(tǒng)就可以獲得個(gè)人征信報(bào)告的數(shù)據(jù),對比人工錄入,完全錄入一份報(bào)告的數(shù)據(jù),可能需要30分鐘。2) 數(shù)據(jù)詳細(xì):采用OCR識(shí)別方式,將獲得申請人所有詳細(xì)的信用數(shù)據(jù);3) 數(shù)據(jù)精度高:有數(shù)據(jù)表明,OCR技術(shù)識(shí)別率比人工錄入的精度要高,計(jì)算機(jī)作業(yè)不受環(huán)境、作業(yè)疲勞的影響,保證高精度;4) 表格原版式還原:傳統(tǒng)的OCR文字識(shí)別軟件只能處理全幅文字的識(shí)別,處理簡單表格結(jié)構(gòu)的識(shí)別,且有些OCR軟件還需要制作識(shí)別模板才能識(shí)別,不能滿足征信報(bào)告如此復(fù)雜的表格的識(shí)別。在本方案中,實(shí)現(xiàn)了表格自動(dòng)檢測自動(dòng)識(shí)別的功能,且經(jīng)過實(shí)際測試應(yīng)用,表格檢測的準(zhǔn)確率高達(dá)99%。因?yàn)楸砀窬€檢測精度高,才可以實(shí)現(xiàn)表格原版式還原,還原出一個(gè)邏輯結(jié)構(gòu)和征信報(bào)告一樣的表格。三、 技術(shù)說明在個(gè)人征信報(bào)告OCR識(shí)別方案中,實(shí)現(xiàn)了多個(gè)技術(shù)點(diǎn)的突破,正是因?yàn)檫@些技術(shù)點(diǎn)的突破,使自動(dòng)識(shí)別個(gè)人征信報(bào)告成為可能。關(guān)鍵技術(shù)說明如下:1. 圖像表格線檢測技術(shù):傳統(tǒng)的圖像處理技術(shù)只能檢測固定長度、寬度的表格線,因此檢測技術(shù)應(yīng)用受到局限,適應(yīng)性差。在個(gè)人征信報(bào)告中、長線、短線、粗線、細(xì)線相差非常大,甚至有和文字一樣高度的豎線,經(jīng)我們優(yōu)化后的檢線算法,適應(yīng)性大大提高,能很好地檢測征信報(bào)告中表格線。檢測表格線的性能,直接決定了之后分析識(shí)別的效果。2. 圖像表格線重構(gòu)技術(shù):將檢測到的表格線重新組織成一個(gè)虛擬的表格結(jié)構(gòu),涉及到框線補(bǔ)齊、去除干擾框線等多種情況。3. 單元格文字自動(dòng)判斷文字類型:傳統(tǒng)的OCR識(shí)別使用的是混合類型識(shí)別方式,在實(shí)際應(yīng)用中使用混合類型識(shí)別方式,會(huì)降低對數(shù)字、英文的識(shí)別精度,在本方案中,結(jié)合征信報(bào)告的特點(diǎn),進(jìn)行了二次判斷,可以精確定義出每一個(gè)單元格中文字的類型,如數(shù)字類型,就嚴(yán)格使用數(shù)字類型去識(shí)別,這樣的技術(shù)提高了識(shí)別的精度,保證了數(shù)字、日期、金額等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論