基于文字特征的文檔碎紙片拼接軟件設(shè)計[權(quán)威資料]_第1頁
基于文字特征的文檔碎紙片拼接軟件設(shè)計[權(quán)威資料]_第2頁
基于文字特征的文檔碎紙片拼接軟件設(shè)計[權(quán)威資料]_第3頁
基于文字特征的文檔碎紙片拼接軟件設(shè)計[權(quán)威資料]_第4頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于文字特征的文檔碎紙片拼接軟件設(shè)計 本文檔格式為 WORD,感謝你的閱讀。 摘 要:將圖片進行灰度處理,再轉(zhuǎn)化為 01 二值矩陣,利用矩陣行(列)偏差函數(shù),建立基于最小二乘法的拼接模型。針對雙向切割碎片全局搜索的局限性,利用文字的行高和行間距的特征,建立相似度函數(shù),并人工拼接出邊緣列,再多行并行拼接,然后逐次調(diào)整,最后復原;針對雙向切割的雙面打印碎片,先在碎紙中找出 26 個字母及各種標點符號的完整字符,制作出模板,再利用該模板進行匹配判定,借助人工拼接 邊緣列,逐次手動調(diào)整,實現(xiàn)復原。 關(guān)鍵詞:二值法 最小二乘法 灰度 完整字符 TP301 A 1674-098X( 2014) 04( a) -0195-01 破碎文件的拼接在司法物證復原、歷史文獻修復以及軍事情報獲取等領(lǐng)域都有著重要的應用。傳統(tǒng)上,拼接復原工作需由人工完成,準確率較高,但效率很低。特別是當碎片數(shù)量巨大,人工拼接很難在短時間內(nèi)完成任務。隨著計算機技術(shù)的發(fā)展,人們試圖開發(fā)碎紙片的自動拼接技術(shù),以提高拼接復原效率。 將不規(guī)則的文檔碎片進行拼接,一般是利用碎紙片的邊緣曲線,尖點、尖角、面積等幾何特征,通過神經(jīng)網(wǎng)絡(luò)算法、蟻群算法等搜索與之匹配的相鄰碎紙片 2。但對于邊緣形狀相似的碎紙片,這種基于邊界幾何特征的拼接方法就失效了,拼接時不但要考慮邊緣是否匹配,還要判斷碎片內(nèi)的文字內(nèi)容是否匹配。 用碎紙機粉碎的純文本文檔具有以下特點: ( 1)所有碎紙片都是規(guī)則的矩形,且形狀完全相同; ( 2)幾乎每張碎紙片都包含有文字; ( 3)不同碎紙片之間沒有重疊部分; 針對以上特征,該文從文字特征入手,將碎紙片上的邊緣文字特征進行匹配, 即利用邊緣文字的像素進行最優(yōu)化匹配。 1 模型的假設(shè) ( 1)待拼接的碎紙片來自同一頁印刷文字文件。 ( 2)待拼接復原的碎紙片是規(guī)整的矩形。 ( 3)模型中的碎紙片長度、寬度和面積都相等。 ( 4)碎紙片的照片是同標準拍攝的。 2 軟件設(shè)計原理 先用對圖像進行灰度值 1轉(zhuǎn)換,得到每張碎片圖像的數(shù)值矩陣(數(shù)值在 0 255),再通過二值法得到灰度閾值,將所有矩陣轉(zhuǎn)換成 0-1 矩陣。 2.1 單向切割碎片拼接模型的設(shè)計 2.1.1 縱向切割碎片拼接 設(shè) A、 B 分別為左右放置的兩張圖片對應的數(shù)字矩陣,定義前一個矩陣與后一個矩陣的第一列之間的偏差函數(shù)為: 其中 A( i, 72), B( i, 1)分別表示矩陣第 72 列和第 1 列的元素。 對于給定的矩陣 A,若存在矩陣 B,使得 A 與 B 之間的偏差函數(shù)達到最小,則 A 與 B 匹配,此時 A 與 B 對應的圖片可以左右拼接。 2.1.2 橫向切割碎片拼接 類似地,設(shè) C、 D 分別為左右放置的兩張圖片對應的數(shù)字矩陣,定義前一個矩陣與后一個矩陣的第一列之間的偏差函數(shù)為: 其中 C( 1980, j), D( 1, j)分別表示矩陣 C、 D 第1980 行和第 1 行的元素。 對于給定的矩陣 A,若存在矩陣 B,使得 A 與 B 之間的偏差函數(shù)達到最小,則 C 與 D 匹配,此時 C 與 D 對應的圖片可以左右拼接。 2.2 雙向切割碎片拼接模型的設(shè)計 由于雙向切割處理量較大, 2.1 的拼接方法復原率較低,因此,再考慮文本的打印特征,即行高和行間距。 首先對每張圖的文字像素進行數(shù)據(jù)處理,逐行搜索(記第 j 行的白點數(shù)),當白點數(shù)出現(xiàn)突變時,說明搜索到文字圖像的分界線,記錄下該行及相應點數(shù),作為行 高特征數(shù)據(jù),即 取每張圖的文字特征數(shù)集 具體實現(xiàn)原理如下圖所示,將像素值積分后得到綠色多峰曲線,再進行平滑處理(如藍色曲線所示),從而得到行高值。 利用以上得到的數(shù)據(jù),設(shè)兩圖片的邊界向量分別為 m、n,則代入相關(guān)系數(shù) 3求法可得到相關(guān)度函數(shù) L ,即 以此作為判斷依據(jù),從人工拼接得到的邊界列開始搜索,實現(xiàn)拼接。 2.3 雙向切割的雙面打印碎片拼接模型的設(shè)計 本功能只適用于英文文本。 首先制作 26 個字母及標點符號的完整字符模板,通過聯(lián)通區(qū)域法 ,對存在完整字符的圖片駐點掃描,同為白色區(qū)域且位置相鄰的點構(gòu)成一個區(qū)域,搜索得到完整字符的數(shù)據(jù)矩陣。 再根據(jù)不同字體的需要,設(shè)置相似度閾值(即碎片與模板的相似程度閾值),拼接過程同 2.2。 3 結(jié)語 從仿真實驗的結(jié)果可以看出,單向切割碎片的拼接功能能實現(xiàn) 100%復原,雙向切割碎片的拼接能實現(xiàn) 86%復原,雙向切割雙面打印碎片的拼接能實現(xiàn) 96%的復原,因此該軟件能大幅度地提高拼接效率,為情報人員及相關(guān)工作人員節(jié)省時間和精力。但是,由于軟件的數(shù)學模型是通過一定的簡化所建立的,因此軟件 的功能也具有一定的局限性,必須符合所有碎片只來自同一張紙的情況,工作人才可以使用此軟件。另外,軟件的后兩個功能人不能實現(xiàn)全自動,這也是該軟件需要改進的地方。 參考文獻 1 李利軍,李云偉 .基于圖像灰度的拼接技術(shù)研究J.計算機與數(shù)學工程, 2007, 35( 9): 128-130. 2 賈海燕,朱良家,周宗潭,等 .一種碎紙自動拼接中的形狀匹配方法 J.計算機仿真, 2006, 23( 11): 180-183. 3 盛驟,謝式千 .概率論與數(shù)理統(tǒng)計 M.4 版 .北京 :高等教育出版社, 2012. 文檔資料:基于文字特征的文檔碎紙片拼接軟件設(shè)計 完整下載 完整閱讀 全文下載 全文閱讀 免費閱讀及下載 閱讀相關(guān)文檔 :淺析汽車駕駛教學管理 生活飲用水中銅含量測定方法研討 高校圖書館期刊管理和服務 傳承千年的達斡爾族曲棍球文化 基于學習風格的大學英語閱讀材料選擇調(diào)查與分析 提升企業(yè)科技成果轉(zhuǎn)化效率的途徑探究 河南省羅山縣任山鉬礦地球化學特征及異常評價 論項目教學法在語文教學中的實踐應用 關(guān)于生態(tài)城市規(guī)劃設(shè)計的若干問題思考 淺談高中物理實驗的開發(fā)策略 公安院校醫(yī)務人員的多重角色 黃瓜中涕滅威殘留量的測定 大學生構(gòu)建節(jié)約型校園調(diào)查分析 談企業(yè)政工隊伍的素質(zhì)與建設(shè) 基于 LT1801A 的軟件無線電實驗平臺 提存書庫排架方法設(shè)計與實踐 寧??h城鄉(xiāng)初中生身體素

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論