![多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/10/c302bf02-07a8-48d2-8836-06423037f817/c302bf02-07a8-48d2-8836-06423037f8171.gif)
![多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/10/c302bf02-07a8-48d2-8836-06423037f817/c302bf02-07a8-48d2-8836-06423037f8172.gif)
![多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/10/c302bf02-07a8-48d2-8836-06423037f817/c302bf02-07a8-48d2-8836-06423037f8173.gif)
![多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/10/c302bf02-07a8-48d2-8836-06423037f817/c302bf02-07a8-48d2-8836-06423037f8174.gif)
![多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/10/c302bf02-07a8-48d2-8836-06423037f817/c302bf02-07a8-48d2-8836-06423037f8175.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、多媒體學(xué)習(xí)環(huán)境下視頻流中的文字提取系統(tǒng)的實現(xiàn)System of Character Detection from Video in Multimedia Learning Environment 袁靜 劉時進 石教學(xué)華中師范大學(xué)物理學(xué)院電子系,武漢,430079,電子郵箱:lsj 【摘要】 通常視頻流中的文字信息包含了該視頻的關(guān)鍵信息,而在多媒體學(xué)習(xí)環(huán)境中視頻信息是最主要的信息源。本文提出了一種針對視頻流中文字字符提取的新方法,實現(xiàn)了對視頻信息中關(guān)鍵幀的文字區(qū)域進行識別和對識別出的文字區(qū)域進行背景和噪聲濾波消減處理,最終將處理的結(jié)果二值化后通過文字識別系統(tǒng)(OCR)進行文字的識別。本文為視頻學(xué)
2、習(xí)信息的處理和多媒體資源庫的管理給出了新的解決方案。【關(guān)鍵詞】 多媒體學(xué)習(xí)環(huán)境、視頻信息、文字提取、文字識別Abstract: Usually, the text in videos presented important information, and videos are the most primary information source in multimedia learning environment. This paper presents a new method to automatically localize captions in video, and realiz
3、ed to recognize the localized Character Area and clean up the background and noise, then detection the character via the OCR. This paper gives a new solution of managing the learning information and multimedia resource store.Keywords: multimedia learning environment,video information,detection the c
4、haracter,recognize the character1 前言隨著教育信息化建設(shè)的發(fā)展,計算機多媒體與網(wǎng)絡(luò)技術(shù)在教育中的應(yīng)用已日趨普及。通過多媒體技術(shù)、計算機技術(shù)和網(wǎng)絡(luò)技術(shù),以學(xué)習(xí)者最容易接受的方式呈現(xiàn)信息;以最快捷的方式傳遞信息;以最符合人的思維規(guī)律和思維習(xí)慣的方式處理信息已成為當(dāng)今現(xiàn)代教育技術(shù)應(yīng)用研究的重要方向之一。在網(wǎng)絡(luò)技術(shù)高速發(fā)展、各種媒體信息大量涌現(xiàn)的背景下,為了實現(xiàn)對多媒體信息的高效訪問,多媒體信息處理和檢索技術(shù)也已成為人們急待解決的問題。由于多媒體技術(shù)在計算機教育應(yīng)用中的特殊地位和特點,無疑這一技術(shù)將直接影響著CAI的深入開展。我們知道,視頻實際上是集圖像序列、圖像、文
5、字等為一體的、被人們廣泛使用的一種綜合性媒體,是多媒體中的主要組成部分。因此,多媒體信息處理和檢索技術(shù)的重點和難點就是視頻信息的處理和檢索。視頻是在時間上連續(xù)的一系列圖像幀的集合,是一種沒有結(jié)構(gòu)的圖像流。我們可以把視頻看作一本沒有目錄和索引的書,那么一幅圖像幀就相當(dāng)于書中的一頁。由于視頻這部書缺乏目錄和索引信息,我們就無法對它進行高效瀏覽和檢索,無法快速閱讀。為尋找感興趣的視頻片段,我們只能采取“快進”和“快倒”的耗時方式線性瀏覽。隨著數(shù)字視頻數(shù)據(jù)量迅速增加,傳統(tǒng)的“線性”瀏覽方式已遠(yuǎn)不能滿足人們對視頻內(nèi)容的訪問和查詢需求。用慣了文本搜索引擎的用戶越來越希望能在海量視頻庫中快速找到自己感興趣的
6、視頻片段,而視頻中的文字可以直接并且集中的描述視頻的各種信息,所以視頻中的文字識別可以更好地幫助人們分析和理解視頻中的內(nèi)容,從而作為視頻信息處理和檢索的一種良好手段。目前已經(jīng)涌現(xiàn)出了大量的在圖像和視頻流中提取文字的有效方法,這些從視頻流中提取文字的方法大致可以分為兩大類:一類是連接相似的區(qū)域法,這種方法的主要依據(jù)是視頻和圖像中的文字比較集中,并且和背景有不同的顏色。其特點是可以快速,準(zhǔn)確地確定視頻中的文字,但是當(dāng)遇到視頻中的文字被嵌入到復(fù)雜的背景中或者和其他的圖形對象相連接時,這種方法的效果就不是很理想了;另一類主要是基于紋理的分類的方法。這類方法的主要問題是比較難排除類似于文字的區(qū)域。鑒于此
7、,我們研究了一種從視頻流的關(guān)鍵幀中提取文字的區(qū)域并且分離出文字的新方法,并通過MATLAB 視頻圖像處理工具箱進行了仿真和實現(xiàn),為多媒體學(xué)習(xí)環(huán)境中視頻信息處理和管理提供了一個良好的解決方案。2 系統(tǒng)的設(shè)計視頻流中的文字一般可以分為兩類:(1)場景文字: 文字是視頻場景的一部分,它們在視頻中的位置是隨視頻的鏡頭的改變而改變。(2)視頻標(biāo)題文字:是在視頻后期制作過程中加入的文字。其中視頻標(biāo)題文字一般攜帶著視頻內(nèi)容的重要信息,并且它的內(nèi)容一般也是經(jīng)過設(shè)計的,位置一般固定。被識別的文字應(yīng)該滿足以下一些特征:1)、這些文字一般是從左到右或者從上到下的矩形區(qū)域內(nèi)部。2)、這些文字的顏色和背景的顏色有一定的
8、對比度。3)、字?jǐn)?shù)要多余兩個文字,以保證文字區(qū)域的邊框一般寬度要大于高度。4)、文字的邊界線一般含有很多的邊框。根據(jù)上述分析,視頻流中的文字提取系統(tǒng)的基本結(jié)構(gòu)框圖如圖1所示:圖1 視頻流中的文字提取系統(tǒng)基本結(jié)構(gòu)框圖在系統(tǒng)結(jié)構(gòu)中,文字區(qū)域識別和文字區(qū)域背景過濾是系統(tǒng)的關(guān)鍵組成部分。系統(tǒng)的工作流程是:首先提取視頻中的關(guān)鍵幀;然后進行文字區(qū)域的識別,其方法是基于紋理分析的方法,其目的是產(chǎn)生一個單邊框的矩形區(qū)域?qū)⒁R別的文字包含到其中;其次進行文字區(qū)域濾波處理,具體算法如圖2所示;最后用OUP OCR 作為系統(tǒng)的OCR 引擎,這個引擎可以將二值化的文本圖像作為輸入,將識別出來的文字的ASCII 作為輸
9、出,整個引擎準(zhǔn)許將它提供的接口方法集成到系統(tǒng)中,從而識別中文簡體(印刷),數(shù)字(印刷),英文(印刷)。圖2: 文字區(qū)域濾波子系統(tǒng)系統(tǒng)關(guān)鍵技術(shù)的實現(xiàn)3.1邊緣提取:提取圖形中對象的邊緣提取邊緣就是在保存圖像邊緣信息的同時,慮除掉沒有信息量的冗余數(shù)據(jù)。SOBEL邊緣算子是常用的邊緣提取的方法,其基本原理是:圖像中的每個點都用以下這個兩個SOBEL核算子(如圖3所示)做離散二維卷積。設(shè)一幅二維的灰度圖像用I(x,y)表示圖像中任意一點的值,其中(0<x<W:圖像的寬度,0<y<H圖像的高度),設(shè)這兩個算子分別為S1和S2如圖3所示,邊緣的二值圖像矩陣為H。H1(i,j) =
10、(I(m,n)*S1(i-m,j-n);H2(i,j) = (I(m,n)*S2(i-m,j-n);H(i,j) = max(H1(i,j),H2(i,j);使用Matlab 語言描述這個算法為:H = edge(I,'sobel'),即圖2中的邊緣提取部分具體實現(xiàn),其中I表示圖像的灰度圖像。可以這樣理解這個卷積:一個核通常對垂直邊影響最大而令一個對水平邊緣的影響最大。兩個點的最大值作為該點的輸出值。運算的結(jié)果是H(i,j)一幅邊緣幅度圖像,如圖4(上中)所示。圖3 SOBEL 邊緣算子核3.2 噪聲過濾:使用中值濾波去掉噪聲,同時保留文字的邊緣。如圖4(上中)所示,除了圖片中
11、的非邊界的點為噪聲外,非文字的邊界區(qū)域因為沒有文字的紋理特征都可以認(rèn)為是噪聲。中值濾波就是圖像中的輸出是由鄰居象素的中值來確定的,但不是平均值。即中值濾波對極值并不明顯,而均值則不同。所以中值濾波更適于圖像中有明顯變化的情況。由于漢字的邊界圖型一般有比較強的變化頻率。所以文字區(qū)域做中值運算后,要比頻度變化比較小的區(qū)域整體被過濾較少。而同時由于零星分布的點的臨近點一般為0,所以也可以被過濾掉。使用 Matlab 語言描述這個算法為: L = medfilt2(H,a,b);即圖2中的中值濾波的具體算法;其中 L 代表輸出的矩陣,H 為邊緣矩陣,a,b做中值運算時的臨近區(qū)域的象素區(qū)域的大小。我們的
12、系統(tǒng)使用的參數(shù)時a=4,b=3。這兩個值和解析的文字高度的大小由一定的關(guān)系。3.3 連接文字區(qū)域:使用基本形態(tài)學(xué)的閉運算形態(tài)學(xué)中的運算有膨脹和腐蝕。膨脹是將與某物體接觸的所有的背景點合并到該物體中的過程。過程的結(jié)果是增大了相應(yīng)數(shù)量的點。表示為D= B+S, B為原圖像,S膨脹系數(shù),+表示膨脹運算。腐蝕是消除物體所有邊節(jié)點的過程,其結(jié)果使剩下的物體沿其周邊比原物體小了被腐蝕掉了象素的面積。 表示為D= B*S ,B為原圖像,S腐蝕系數(shù),*表示腐蝕運算所謂的閉運算就是:先膨脹后腐蝕。它具有填充物體內(nèi)部的小的空洞。連接相連臨近的物體,在不明顯改變物體面積的情況下平滑其邊緣的作用。表示為 (B*S)+
13、S。Matlb 語言描述如下: se = strel('square',a);LC = imclose (L,se);a為腐蝕,膨脹元素數(shù)。 Square代表矩形腐蝕與膨脹。即圖2中的閉運算。3.4過濾非文字區(qū)域:使用基于形態(tài)學(xué)的開運算所謂的開運算是 先腐蝕后膨脹的過程,它具有消除細(xì)小的物體,在纖細(xì)點處分離物體和平滑較大的物體的邊界但不明顯改變邊界的作用。運算表示為:(B+S)*S。Matlb 語言描述如下: se = strel('square',a);LC = imopen (L,se); a為腐蝕,膨脹元素數(shù)。 Square代表矩形腐蝕與膨脹。即圖2中的開
14、運算。當(dāng)背景中散落一些小的噪聲物體時,連續(xù)的開和閉運算可以顯著的改變這種情況。圖4 <<探索發(fā)現(xiàn)機器人時代>>的一個關(guān)鍵幀(上左);關(guān)鍵幀的邊框(上中);邊緣圖像經(jīng)過中值濾波以后(上右);經(jīng)過閉操作后(下左);經(jīng)過開運算后(下中);關(guān)鍵幀中文字區(qū)域被識別出來(下右)3.5文本區(qū)域的確定確定文字區(qū)域時候,我們使用了MATLAB提供的圖形圖像處理工具箱,將文字區(qū)域的進行矩形處理后尋找每個矩形區(qū)域的四個邊界的頂點,然后將這四個頂點鏈接成矩形區(qū)域后剪切下來如圖5被剪切下的原始文字區(qū)域。3.6文字和背景的分離經(jīng)過前面的處理,圖片中的文本已經(jīng)包含在了一個矩形區(qū)域中,這些區(qū)域很可能有
15、復(fù)雜的背景,而現(xiàn)有的OCR 系統(tǒng)是不可能在這樣的情況下提取文字的,必須將它們轉(zhuǎn)換為二值的圖像。因此,需去掉復(fù)雜背景,留下文字。在處理連續(xù)的二值圖像時,自適應(yīng)門限濾波是一種非常好的去掉背景和噪聲的方法。文本區(qū)域中一般包含的文本有相同的密度。這樣的區(qū)域很適合自適應(yīng)門限濾波方法。我們使用被修正的Niblack算法78。在每一點上算出一個臨界值,如果這點的值大于臨界值就編成1,否則編成0,這個算法的關(guān)鍵在于門限值的計算上。首先用一個40*40 的區(qū)域在整個圖形上移動,同時計算平均值和標(biāo)準(zhǔn)差,下面的等式就是計算臨界值。 T=(1-a)*m +a*M+a*(s/R)*(m-M)其中:m:是在這個窗口中的灰
16、度級的均值 s: 是這個窗口的灰度級的標(biāo)準(zhǔn)差 M :是整個圖像的最小的灰度級的值 R :是整個窗口的標(biāo)準(zhǔn)差的最大的值建議使用的 a 的值是 0.589,由于分離的是文字,根據(jù)文字的特點,我們使用了不同的a值,最后發(fā)現(xiàn)a是1.5最符合我們的需要。圖5 被剪切下的原始文字區(qū)域和被濾波的圖像4 系統(tǒng)的測試系統(tǒng)測試采用的是MATLABR14SP2 視頻圖形處理工具箱,它是MATHWORKS 公司于2005年6月發(fā)布的處理視頻的工具箱,可用來快速設(shè)計、仿真、構(gòu)建與驗證各種視頻和圖像的算法與系統(tǒng)。這個工具箱的另一個特點是它所生成ANSI/ISO C 代碼可以直接用于可編程處理器(如:DSP 或者 GPP)
17、中。為了測試本系統(tǒng)的工作的情況,我們使用了中央電視臺的新聞聯(lián)播的一段視頻和探索發(fā)現(xiàn)機器人時代的兩段視頻。測試結(jié)果表明:該系統(tǒng)不受字體的顏色、文字大小和語言種類的限制,不但能夠識別人工添加的文字,還能識別背景中的文字。但對于類似于文字的區(qū)域,系統(tǒng)會錯誤的認(rèn)為是文字區(qū)域,其次是有一定傾斜角度的場景文字不能被識別出來。具體的測試結(jié)果如下所示:視頻片斷實際文字區(qū)域識別的文字區(qū)域文字區(qū)域識別率文字識別率視頻11259676.8%63%視頻220615675.7%58%視頻3685682.3%72%表1 文字區(qū)域與文字的識別的結(jié)果由此可見,系統(tǒng)對文字區(qū)域的識別準(zhǔn)確率較高,但對文字的識別率比較低,這主要是O
18、CR對某些字庫的識別率很低的原因和分離出的文字太小或者過大的緣故。5 總結(jié)綜上所述,本系統(tǒng)實現(xiàn)了在視頻中定位,截取并且分離文字的有效方法。從識別文字區(qū)域的結(jié)果中可以分析出識別的效果還是不錯的,但在通過OCR 系統(tǒng)后就不是很理想了??梢灶A(yù)期,如果采用更好的OCR 系統(tǒng)就可以提高整個系統(tǒng)的性能。后續(xù)的工作是把提取出的文字用MPEG7進行編目,為視頻的檢索提供一種有效的方法。從而為多媒體學(xué)習(xí)環(huán)境中視頻信息處理和管理提供了一個良好的解決方案。參考文獻(xiàn)1 W. Qi et al. Integrating visual, audio and text analysis for news video. Pr
19、oc. Int. Conf. Image Processing (ICIP 2000), Vancouver, BC, Canada.2 A. K. Jain and B. Yu. Automatic text location in images and video frames. Pattern Recognit. vol. 31, no. 12, pp. 20552076, 1998.3 R. Lienhart and A. Wernicked. Localizing and segmenting text in images and videos. IEEE Trans. Circuits Syst.Video Technol
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育行業(yè)在線教育平臺的課程評價體系方案
- 造價咨詢合同
- 2025年天津貨運從業(yè)資格證模擬試題答案解析大全
- 2025年寧德貨物運輸駕駛員從業(yè)資格考試系統(tǒng)
- 電子消費券采購合同(2篇)
- 電力電量分配合同(2篇)
- 電池焊接維修合同(2篇)
- 2024年高考?xì)v史二輪復(fù)習(xí)“12+2+3”專項練第46題選做題專練
- 2024-2025學(xué)年四年級語文上冊第五單元19奇妙的國際互聯(lián)網(wǎng)教案2蘇教版
- 2024-2025學(xué)年高中化學(xué)第二章化學(xué)反應(yīng)與能量第二節(jié)化學(xué)能與電能2發(fā)展中的化學(xué)電源課時訓(xùn)練含解析新人教版必修2
- SOR-04-014-00 藥品受托生產(chǎn)企業(yè)審計評估報告模板
- 足球場建設(shè)項目設(shè)計方案
- 兒童四宮格數(shù)獨96題-(由簡到難,支持打印)
- 湖北宜昌歷年中考語文現(xiàn)代文之記敘文閱讀16篇(含答案)(2003-2023)
- 問題探究如何讓城市不再看海(教學(xué)課件)高一地理
- 2024年人教版五年級數(shù)學(xué)(上冊)模擬考卷及答案(各版本)
- 人教版八年級下冊歷史第1課 中華人民共和國成立 說課稿
- 2024-2030年傷口護理管理行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究分析報告
- 《地球物理勘查》全冊配套完整教學(xué)課件
- 混凝土攪拌站安全生產(chǎn)風(fēng)險分級管控體系方案全套資料2021-2022完整實施方案模板
- 新生兒紅臀的預(yù)防和護理
評論
0/150
提交評論