版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第四章數(shù)字圖書館信息檢索與存儲技術第一節(jié)信息過濾技術第二節(jié)跨語言檢索技術第三節(jié)基于內(nèi)容的信息檢索技術第四節(jié)數(shù)據(jù)壓縮技術第五節(jié)數(shù)據(jù)的存儲與備份提要第一節(jié)信息過濾技術
一、信息過濾的根本概念
網(wǎng)絡信息過濾所謂信息過濾,將滿足用戶預先定義的過濾條件的文檔過濾掉,不顯示給用戶,強調(diào)的是過濾,是取“非〞的過程。是文檔與某種條件的相似度計算問題,通俗地講就是匹配問題。信息檢索與信息過濾區(qū)別示意圖
信息檢索與信息過濾的比較信息檢索信息過濾目的找到需要的信息濾掉不要的信息對象靜態(tài)文章集動態(tài)信息流持續(xù)性短期需求長期需求個性化非個性化個性化需求表達直接命令用戶描述二、信息過濾系統(tǒng)的分類
按操作的主動性分
主動(Active)的IF系統(tǒng)
*主動搜集信息,并將相關信息發(fā)送給用戶
*通常采用Push操作
*會造成信息過載問題,所以該系統(tǒng)要盡力建立精確的UserProfile。被動(Passive)的IF系統(tǒng)
*不負責為用戶搜集信息
*通常用于郵件和新聞組信息過濾從過濾方法分
基于感知的過濾(Cognitivefiltering)基于社會的過濾(Sociologicalfiltering)基于感知的過濾也稱為基于內(nèi)容的過濾(Content-basedfiltering)是利用用戶需求模板與信息的相似程度進行的過濾將文檔內(nèi)容和用戶的Profile進行相似度計算基于社會的過濾也稱為協(xié)同過濾(協(xié)作過濾,Collaborativefiltering〕是指分析用戶興趣,在用戶群中找到與指定用戶的興趣相同或相似的用戶,綜合這些相同或相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。社會過濾常常使用用戶建模(Usermodeling)及用戶聚類(Userclustering)等技術。社會過濾一般不單獨使用,常常和基于內(nèi)容的過濾配合使用。按信息過濾的目分
推薦系統(tǒng)(recommendedsystem):是根據(jù)用戶興趣模型,自動搜集用戶可能最感興趣的信息,然后以用戶指定的方式〔如電子郵件等〕將其傳遞至用戶指定的地點。阻擋系統(tǒng)(blockingsystem):通過設置一定的條件限制用戶獲取某些信息,而其他信息可以利用。它主要用于過濾網(wǎng)絡不良信息或者是不適合用戶的信息。從獲得用戶興趣的方法分
顯式方法用戶填寫表格或用戶提交關鍵詞隱式方法記錄用戶的行為,包括:時間、次數(shù)、上下文、行為(保存、廢棄、打印、瀏覽、點擊)等。介于顯式和隱式之間的方法文檔空間方法:將用戶標注過的文檔作為正例,新來的文檔和它們比較,選擇相似度大的文檔。顯式和隱式相結合的方法開始定義一些默認的Profile,根據(jù)用戶的過濾過程進行修改。按過濾操作的位置分
在信息源端過濾將用戶的Profile發(fā)送給信息提供者,后者將和用戶Profile匹配的信息回送給用戶在過濾效勞器端過濾*信息提供者將信息發(fā)送給過濾效勞器*過濾效勞器根據(jù)用戶的Profile將匹配信息發(fā)給用戶在用戶端過濾是一個局部過濾系統(tǒng)根據(jù)過濾的不同應用分類
專門過濾軟件:又可以分為專用過濾軟件和通用過濾軟件兩種。網(wǎng)絡應用程序:有些網(wǎng)絡應用程序如Web瀏覽器、搜索引擎、電子郵件、新聞組等附有過濾的功能,可以設置過濾不適宜的信息。其他過濾工具:如防火墻、代理效勞器等,可以通過對源地址、目標地址或端口號的限制,防止子網(wǎng)的不適宜的信息流出或子網(wǎng)外的不適宜的信息流入。三、信息過濾系統(tǒng)的組成
信息過濾系統(tǒng)的一般模型第二節(jié)跨語言檢索第二節(jié)跨語言檢索一跨語言信息檢索相關技術數(shù)字圖書館的信息資源類型豐富、數(shù)量龐大,所使用的語言亦具多樣性。信息資源語言的多樣性和讀者所掌握語言的有限性不可防止地給人們利用圖書館資源帶來了語言障礙,人們對語言自動翻譯的需求越發(fā)迫切。據(jù)統(tǒng)計,2002年10月在使用英文搜索引擎中提出語言翻譯請求的幾種主要語種有:西班牙文47.2%、法文17%、拉丁文7.8%、德文6.2%、日文4.7%、意大利文3.2%、俄文2.4%、中文2%。為了消除信息資源利用中的語言障礙,跨語言信息檢索技術〔Cross-LanguageInformationRetrieval—CLIR〕已成為數(shù)字圖書館信息檢索技術的重要組成局部。第二節(jié)跨語言檢索一跨語言信息檢索相關技術跨語言信息檢索是指用戶以一種語言提問,檢索出另一種語言或多種語言描述的相關信息。目前研究最多的是跨語言文本信息檢索和跨語言語音信息檢索。在跨語言檢索中,提問式所使用的語言通常稱為源語言〔sourcelanguage〕,源語言一般是用戶的母語;被檢索文檔所使用的語言稱為目標語言〔targetlanguage〕,目標語言可以是用戶不熟悉甚至完全陌生的語言。與跨語言檢索相對應,提問式語言和文檔語言相同的檢索稱為單語言檢索〔monolingualretrieval〕。第二節(jié)跨語言檢索一跨語言信息檢索相關技術計算機信息檢索技術檢索系統(tǒng)利用自動標引技術對搜集的信息進行標引形成索引數(shù)據(jù)庫,用戶輸入檢索式后,計算機把檢索式與數(shù)據(jù)庫中標引項進行匹配,按檢索式與標引項相關性大小降序輸出檢索結果。機器翻譯技術機器翻譯技術實質(zhì)上是一種能夠?qū)⒁环N語言的文本自動翻譯成另一語言文本的計算機程序。機器翻譯技術的核心是保持兩種文本〔源語言文本和目標語言文本〕的語義對等(Google翻譯)第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法提問式翻譯法基于詞典的方法基于語料庫的方法混合方法文獻翻譯法提問式-文獻翻譯法中間翻譯法不翻譯法提問詞構造法專有名詞音譯法第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔一〕提問式翻譯法提問式翻譯的過程是把源語言的提問式利用機器翻譯技術翻譯成目標語言提問式,再進行單語言檢索。基于詞典的方法制定了高度形式化的信息和規(guī)那么表示方法,并采用復雜特征集的方式來表示詞匯的靜態(tài)信息〔主詞類、副詞類、詞匯本身的語義屬性等〕和動態(tài)信息〔詞匯對句中其他詞匯的支配信息、詞匯的上下文關聯(lián)信息等〕。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔一〕提問式翻譯法基于語料庫的方法語料庫〔corpus〕是將同一信息或同一主題的信息用兩種或多種語言進行描述,并由人工或機器建立不同語言間的聯(lián)系,在跨語言檢索的翻譯中可以參考這些聯(lián)系信息進行提問或文檔的翻譯。語料庫根據(jù)不同語言間對應層次的不同,可分為詞匯對齊〔wordalignment〕、句子對齊〔sentencealignment〕、文獻對齊〔documentalignment〕和非對齊〔noalignment〕幾種。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔一〕提問式翻譯法混合方法基于詞典的方法對于不在詞典中的詞就無法翻譯,通常是將該詞不加翻譯直接送入檢索系統(tǒng),此時這個詞的檢索功能就會很有限。另外,詞匯的歧義性會參加不少錯誤的檢索詞。語料庫方法中的語料庫建設難度較大,規(guī)模通常也較有限、包含的主題不夠多,而且檢索效果跟對齊的質(zhì)量有密切的關系。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔二〕文獻翻譯法文獻翻譯方法不對提問式進行翻譯,而是把數(shù)據(jù)庫中用目標語言描述的文獻翻譯成與提問描述相一致的源語言形式,再通過提問式與信息庫的匹配,完成檢索過程。運用文獻翻譯方法進行跨語言檢索,返回給用戶的結果是用源語言描述的,用戶能夠方便地選擇利用。提問層次的翻譯與文獻層次的翻譯相比,其語境更加寬泛,進行歧義性分析所能利用的線索比較多,但是這種方法所使用的文本自動翻譯技術的正確率目前還難以到達實用水平,而且將數(shù)據(jù)庫中全部文獻從目標語言翻譯到源語言的工作量也是巨大的。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔三〕提問式-文獻翻譯法這一方法是將源語言提問式翻譯成目標語言提問式,然后與目標語言描述的信息庫進行匹配,檢出相關信息,再把檢索結果的全部或局部翻譯成源語言描述的信息。檢索結果的翻譯一般選擇局部翻譯。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔四〕中間翻譯法在跨語言檢索中,解決語言障礙的根本方法是兩種語言之間的翻譯,然而所有的翻譯方法都離不開機器翻譯、雙語詞典、語料庫等作為翻譯的語言根底。但是,在跨語言檢索中可能會碰到這樣的情形:兩種語言直接翻譯的語言資源不存在。為此研究人員提出了一種利用中間語言或中樞語言進行翻譯的方法:將源語言翻譯成中間語言〔可以是一種或多種〕,然后再將中間語言翻譯成目標語言〔利用多種中間語言時需要合并〕。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔五〕不翻譯法潛在語義標引法〔LatentSemanticIndexing-LSI〕引入到跨語言檢索中,如將英語詞匯、法語詞匯、英法雙語文件映射到一個向量空間中,盡管這些術語是用不同語言描述的,但是可進行語義上的比較匹配,而無需翻譯轉(zhuǎn)換。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔六〕提問式構造法提問式構造法〔querystructuring〕主要有三種構造提問式的方法:基于同源詞的構造法〔syn-basedstructuring〕、基于復合詞的構造法〔compound-based〕、n元匹配法〔n-Grammatching〕。提問式構造方法的實質(zhì)是利用同源詞、復合詞或n元匹配分析提問式中各個詞的權重,只有一種或兩種釋義的詞的權重最高,而有多種解釋的詞用同源詞符、復合詞符或n元匹配符連接以降低其權重。第二節(jié)跨語言檢索二、跨語言信息檢索的實現(xiàn)方法〔七〕專有名詞音譯法專有名詞的翻譯是難題。很多學者都相繼提出機器音譯〔machinetransliteration〕的方法來解決這個問題。音譯方法根據(jù)處理的方向可以區(qū)分成正向音譯〔forwardtransliteration〕與反向音譯〔backwardtransliteration〕。當一個語言的專有名詞因為沒有適當或是不容易以意譯來表示時,可采用正向音譯,將其音呈現(xiàn)出來。例如,意大利的城市Florence,中文就音譯成“佛羅倫薩〞。反過來講,當看到一個中文的音譯人名“阿諾德?施瓦茨辛格〞,如果想要找出其原文ArnoldSchwarzenegger,就是反向音譯。第二節(jié)跨語言檢索三、跨語言信息檢索的技術重點〔一〕翻譯所需語言資源的研究在跨語言檢索中,主要解決的問題是語言障礙,因此,兩種或多種語言之間的翻譯對于跨語言檢索的性能有著重要的影響。而翻譯必須以一定的語言資源作為根底,在跨語言檢索中,常用的語言資源有手工編制雙語詞典〔manuallygeneratedbilingualdictionary〕、機器可讀詞典〔machine-readabledictionary〕、機器翻譯〔machinetranslation〕、語料庫〔corpus〕等。各種語言資源在跨語言檢索中的使用不是孤立的,同時使用兩種或多種語言資源會到達更好的效果。第二節(jié)跨語言檢索三、跨語言信息檢索的技術重點〔二〕翻譯歧義性的消解在跨語言檢索的翻譯中最難解決的問題是翻譯的歧義性〔ambigous〕,也就是說,對于一個單詞,其譯文可能有兩種甚至是多種,出現(xiàn)二義性或多義性。如中文檢索詞“運動〞有如下的英文意義:sport、exercise、movement、motion、campaign、lobby等。而每一個英文詞可能有一個以上的意義,例如“exercise〞有“aquestionorsetofquestionstobeansweredbyapupilforpractice〞,“theuseofpowerorright〞等意義。第二節(jié)跨語言檢索三、跨語言信息檢索的技術重點〔二〕翻譯歧義性的消解解決語言歧義性的自動處理方法分為兩大類:一類是在一定程度上模仿人類解決歧義性的方法,在處理過程中結合人工構造的語法學、詞法學、句法學、語義學等方面的知識,力求給出文本非歧義的解析表達。如,利用一種詞的共現(xiàn)技術〔Co-occurrence〕來消除詞的多義性,以明確其含義。詞的共現(xiàn)技術就是利用兩個有一定關聯(lián)的詞共同出現(xiàn)在某一篇文獻或者文獻的某一個局部的這種關聯(lián)來確定詞義的技術。例如,country既有“國家〞含義,又有“鄉(xiāng)村〞之義。如果country和music同時出現(xiàn),那么它的含義很多情況下應該是“鄉(xiāng)村〞之義;如果country和our同時出現(xiàn)的話,那么它的含義很多情況下應該是“國家〞之義。第二節(jié)跨語言檢索三、跨語言信息檢索的技術重點〔二〕翻譯歧義性的消解在第二類方法中,重點主要放在詞匯和短語等較低語言層次的歧義消解上,所依賴的工具主要是一些機讀化的語言資源,如詞典、主題詞表、語料庫等,而詞典和語料庫是目前消歧方法中應用較多的兩種。應用語料庫方法來消除固定搭配短語的歧義性。在翻譯中固定搭配短語不能逐字翻譯。第二節(jié)跨語言檢索三、跨語言信息檢索的技術重點〔三〕交互性系統(tǒng)在跨語言信息檢索環(huán)境下,用戶與檢索系統(tǒng)的交互也是非常重要的。目前,有一些系統(tǒng)和搜索引擎提供了這種技術,如Keizai系統(tǒng)和Google。以Keizai系統(tǒng)為例,它所提供的交互手段主要是:在用戶輸入檢索詞之后,系統(tǒng)會顯示一個翻譯列表,這個列表上顯示了該詞所有可能的翻譯形式,每種翻譯形式的排列也是有規(guī)律的,即按照它的使用頻率來排列。并且,每種翻譯形式之后都用查詢所用的語言作了解釋,以便用戶理解和選擇。互聯(lián)網(wǎng)的創(chuàng)始人TimBerners-Lee(貝納斯-李)在2000年提出了語義Web的概念和體系結構。第六節(jié)基于內(nèi)容的
多媒體信息檢索技術一、概述基于文本的多媒體檢索基于文本的多媒體信息檢索方法〔TextBasedRetrieval,TBR)以關鍵詞形式來反映多媒體物理特征和內(nèi)容特征,并對抽取出的關鍵詞進行著錄或標引,建立類似于文本文獻信息檢索系統(tǒng)的索引數(shù)據(jù)庫?;谖谋镜亩嗝襟w檢索傳統(tǒng)的圖像檢索方法通過圖片的元數(shù)據(jù)或標引文字進行檢索例:圖像元數(shù)據(jù)寬度:210高度:172主題:玻璃瓶與草背景:淡灰內(nèi)容:6個有草的玻璃瓶 3個瓶有紅色液體 3個瓶有透明液體基于文本的多媒體檢索的局限性標引文字主要靠人工輸入。對大數(shù)據(jù)量的場合〔如Web資源、數(shù)字圖書館等〕應用困難標引文字無法精確完整的刻畫多媒體內(nèi)容生成或利用元數(shù)據(jù)的過程實質(zhì)是在兩種差異很大的媒體間的翻譯過程,有很大的隨意性和信息損失(兩次).基于內(nèi)容的檢索(ContentBasedRetrieval—CBR)是對媒體對象的內(nèi)容和上下文語義環(huán)境所進行的檢索。也就是從媒體數(shù)據(jù)中提取特定的信息線索,如圖象中的顏色、紋理、形狀,視頻中的鏡頭、場景、鏡頭的運動,聲音中的音高、響度、音色等,然后根據(jù)這些線索從大量存儲在數(shù)據(jù)庫的媒體中進行查找,檢索出具有相似特征的媒體數(shù)據(jù)。二、基于內(nèi)容的多媒體信息檢索的系統(tǒng)結構、特點〔一〕系統(tǒng)構成
系統(tǒng)由組織媒體輸入的插入子系統(tǒng)、對媒體作特征提取的媒體處理子系統(tǒng)、儲存插入時獲得的特征和相應媒體數(shù)據(jù)的數(shù)據(jù)庫、以及支持對該媒體的查詢子系統(tǒng)等組成,同時需要相應的知識輔助支持特定領域的內(nèi)容處理。媒體1數(shù)據(jù)庫媒體n數(shù)據(jù)庫查詢格式化查詢模塊插入模塊知識輔助模塊媒體處理模塊用戶例如媒體新的媒體對象媒體特征媒體特征。。。。。。CBR系統(tǒng)體系結構CBR系統(tǒng)體系結構插入子系統(tǒng)
負責將媒體輸入系統(tǒng)之中,同時根據(jù)需要為用戶提供一種工具,以全自動或半自動〔即用戶局部干預〕的方式對媒體進行分割或節(jié)段化,標識出需要的對象或內(nèi)容關鍵點,以便有針對性的對目標進行特征提取。特征提取子系統(tǒng)
對用戶或系統(tǒng)標明的媒體對象進行特征提取處理。在提取特征時,往往需要知識處理模塊的輔助,由知識庫提供有關的領域知識。數(shù)據(jù)庫
媒體數(shù)據(jù)和插入時得到的特征數(shù)據(jù)分別存入媒體數(shù)據(jù)庫和特征數(shù)據(jù)庫。媒體庫包含各種媒體數(shù)據(jù),如圖像、視頻、音頻、文本等。特征庫包含這種媒體用戶輸入的特征和預處理自動提取的特征。查詢子系統(tǒng)主要以例如查詢的方式向用戶提供檢索接口。檢索允許針對全局對象如整幅圖像、視頻鏡頭等,也允許針對其中的子對象以及任意組合形式來進行。檢索返回的結果按相似程度進行排列,如有必要可以進一步的查詢?!捕郴趦?nèi)容的檢索過程基于內(nèi)容的查詢和檢索過程是一個逐步求精的過程,其檢索存在一個特征調(diào)整、重新匹配的循環(huán)過程。用戶的查詢說明例如一般性描述相似性匹配返回一組候選結果滿意嗎?結束修改查詢說明從返回結果中選擇相關例如NY圖形〔三〕基于內(nèi)容信息檢索技術的特點:直接從內(nèi)容中提取信息線索。特征提取和索引建立可由計算機自動實現(xiàn),防止了人工描述的主觀性,也大大減少了工作量。相似性檢索。滿足用戶多層次的檢索要求。大型數(shù)據(jù)庫(集)的快速檢索。例如查詢(QuerybyExample)。人機交互式檢索。三、圖像信息檢索基于內(nèi)容的圖像檢索在20世紀70年代就開展了圖像數(shù)據(jù)庫的研究,方法是用人工輸入圖像的各種屬性,建立圖像的元數(shù)據(jù)庫來支持查詢。90年代初,國際上就開始了對基于內(nèi)容的多媒體信息檢索方面的研究。圖象檢索是對靜止圖象所進行的檢索。基于內(nèi)容的圖象信息檢索技術是把圖象的可視特征如顏色、形狀、紋理等作為圖象的內(nèi)容進行匹配、查找。
基于內(nèi)容的檢索通過與用戶交互的方式,對查詢結果逐步求精,檢索經(jīng)歷了一個特征調(diào)整、重新匹配的循環(huán)過程。逐步篩選、求精特征調(diào)整生成查詢要求輸入圖像返回結果圖像相似性匹配返回初步結果基于內(nèi)容的圖像檢索流程基于內(nèi)容的圖像檢索系統(tǒng)的4種檢索方式1〕利用圖片樣本檢索〔QueryByExample〕可以由用戶準備圖片樣本可以在圖片庫中瀏覽系統(tǒng)給出各類代表圖像從系統(tǒng)中隨機抽取2〕利用草圖檢索3〕利用圖像特征模板檢索如顏色特征模板,指定各種顏色的比率等。4〕以上方式結合先用草圖或指定特征獲取圖片樣本,再用圖片樣本檢索?;趦?nèi)容的圖像檢索系統(tǒng)的4種檢索方式基于內(nèi)容的圖像檢索
內(nèi)容匹配的主要策略
數(shù)字圖像是由像素組成的,但是像素不能直接表達圖像的內(nèi)容,因而需要從中提取顏色、紋理、形狀等特征,作為視覺特征的表示,支持信息檢索。內(nèi)容匹配的主要策略:顏色特征匹配紋理特征匹配形狀特征匹配基于內(nèi)容的信息檢索技術p.170-178圖像信息檢索顏色形狀紋理形狀平均顏色色彩組合紋理圖像檢索顏色特征匹配
顏色是一幅圖像最直觀、最明顯的特征,因此,許多應用系統(tǒng)把顏色作為圖像的檢索特性。(如對應天空的藍色和對應白云的白色)常用的用于檢索的顏色特征有顏色直方圖、顏色矩、顏色相干矢量等。顏色直方圖〔ColorHistogram〕指用橫軸表示顏色等級,用縱軸表示具有該顏色等級的像素在整幅圖像中所占的比例。
顏色特征匹配
顏色直方圖
nkhk=(k=0,1,……,L-1)N其中nk為圖像中顏色取值為k的像素個數(shù),N為像素總數(shù),L為可能的顏色取值范圍。顏色特征匹配
顏色相似度匹配算法1.直方圖相交法2.歐式距離法……顏色特征匹配
直方圖相交法
顏色特征匹配
歐式距離法紋理特征匹配類似于布紋、草地、磚墻等重復性結構的圖像稱為紋理圖像。雖然圖像的紋理特征在局部區(qū)域內(nèi)可能沒有規(guī)那么,但在整體上卻往往呈現(xiàn)出一定的規(guī)律性。圖片紋理特征匹配紋理表示有很多方法,如Tamura〔田村〕表示法、聯(lián)合概率矩陣表示、小波表示、……。Tamura紋理特征是基于人對紋理的視覺感知的生理研究而設計的,該特征包括粗糙度、比照度、方向性等。紋理特征匹配
Tamura紋理表示法
粗糙度(contrast,粗細度〕測量紋理的間隔尺寸/粒度。紋理特征匹配
Tamura紋理表示法
比照度反映紋理的清晰度。紋理特征匹配
Tamura紋理表示法
方向反映實體是否有規(guī)那么的方向性。是一個全局的紋理特征,它描述紋理是如何沿某些方向散布或集中的。紋理特征匹配舉例1:從1萬張圖片中檢索的結果紋理特征匹配舉例2:從1萬張圖片中檢索的結果形狀特征匹配
形狀是刻劃物體的本質(zhì)特征之一,可以針對面積
(可用象素點的個數(shù)計算)、環(huán)形性
(即周長*周長/面積,周長也用象素點的個數(shù)表示)、主軸方向、偏心率、圓形率等形狀特征進行匹配。形狀特征匹配形狀檢索主要有兩種方法1〕針對圖像邊緣輪廓線進行的檢索2〕針對圖形矢量特征進行的檢索描述方法描述方法傅里葉描述子:利用傅里葉變換的邊界作為形狀特征不變矩描述子:利用基于區(qū)域的矩作為形狀特征…………圖片圖片四、視頻信息檢索基于內(nèi)容的視頻檢索〔Content-BasedVideoRetieval,CBVR〕〔一〕視頻數(shù)據(jù)結構
由于人眼的視覺惰性作用,在亮度信號消失后,圖像仍然可以保持1/30~1/20秒的時間,動態(tài)圖像就是根據(jù)這個特性而產(chǎn)生的。從物理意義看,任何動態(tài)的圖像都是多幅連續(xù)的圖像序列構成的,它們在沿時間軸,每一幅圖像保持一個時間,順序地以1/30~1/24秒的間隔更換,連續(xù)播放,就形成了動態(tài)的圖像。幕幀1,幀2,……幀k視頻數(shù)據(jù)結構場景1場景2場景3場景n鏡頭1鏡頭2鏡頭n視頻數(shù)據(jù)
結構
〔二〕視頻運動
1、視頻鏡頭的運動:在視頻的拍攝過程中,攝像頭可以按不同的方式運動,以到達特定的拍攝效果。由于攝像頭操作而引起的鏡頭運動主要有以下幾種形式:搖鏡頭:攝像頭的位置不變,以云臺為軸心,上下或左右轉(zhuǎn)動拍攝方位。轉(zhuǎn)鏡頭:以對象為中心,攝像頭從不同的位置角度拍攝。移動鏡頭:攝像頭的位置跟著拍攝對象移動,但不旋轉(zhuǎn)角度。移動又可分為水平移動和垂直移動。推拉鏡頭:推鏡頭,即從遠處開始逐漸推近到拍攝對象。拉鏡頭,即從近處開始逐漸拍成全景。視頻運動
〔2〕視頻對象的運動出現(xiàn):一個對象出現(xiàn)于鏡頭。消失:一個對象從鏡頭中消失。進入:一個運動的對象出現(xiàn)于鏡頭。退出:一個運動的對象從鏡頭中離去。運動:一個原本靜止的對象開始運動。停止:一個原本運動的對象停了下來?!踩郴趦?nèi)容的視頻檢索系統(tǒng)基于內(nèi)容的視頻索引和檢索通常有兩種方法:一種方法是把視頻信息看作是獨立的幀或圖像的集合,利用圖像索引和檢索方法進行視頻索引和檢索。這種方法的缺點是忽略了視頻幀之間的時間關系,而且需要處理大量的圖像。另一種方法是把視頻序列分成假設干組鏡頭,索引和檢索是針對這些組鏡頭的有代表性的關鍵幀而進行的。該方法被稱為基于鏡頭的視頻索引和檢索。視頻流視頻分割鏡頭關鍵幀提取關鍵幀集合視頻檢索/瀏覽聚類/索引運動特征視覺特征〔顏色、紋理、形狀等〕特征提取特征提取基于內(nèi)容的視頻檢索系統(tǒng)基于內(nèi)容的視頻檢索系統(tǒng)
視頻數(shù)據(jù)的處理過程
首先要進行視頻結構分析,將視頻流通過鏡頭邊界檢測分割為鏡頭,并在鏡頭內(nèi)選擇關鍵幀,這是實現(xiàn)一個高效的基于內(nèi)容的視頻檢索系統(tǒng)的根底和關鍵。然后提取鏡頭的運動特征和關鍵幀中的視覺特征,作為一種檢索機制存入視頻數(shù)據(jù)庫。最后根據(jù)用戶提交的查詢按照一定特征進行視頻檢索,將檢索結果按相似性程度交給用戶?!菜摹骋曨l分割〔視頻鏡頭邊緣檢測〕鏡頭的邊緣檢測是將原始連續(xù)視頻流分割成長短不一的鏡頭單元,對后續(xù)視頻分析處理提供根底。當視頻情節(jié)內(nèi)容發(fā)生變化時,會出現(xiàn)鏡頭切換。鏡頭的切換有兩種:突變和漸變。突變是指前一個鏡頭的尾幀被下一個鏡頭的首幀快速代替;漸變是指前一個鏡頭的尾幀緩慢地被下一個鏡頭的首幀代替,其中包括淡入,淡出,隱現(xiàn),滑入,溶合,擦洗等。視頻鏡頭分割技術目前視頻鏡頭分割技術主要根據(jù)鏡頭在發(fā)生切換時其視頻數(shù)據(jù)所反映的變化來分割。一般而言,同一個鏡頭內(nèi)的各幀之間差異較小,它們之間的特征差值總會限定在某個閾值內(nèi)。而不同鏡頭的幀間差異較大。鏡頭分割方法很多,根本思想大體一致:從相鄰幀分別提取適宜的特征,形成特征向量,然后比較這些特征之間的差異,假設特征之間的差值超過了事先設定的閾值,那么認為鏡頭之間出現(xiàn)了鏡頭轉(zhuǎn)換,應該進行鏡頭切分。否那么,繼續(xù)處理其他幀。視頻鏡頭分割技術(1)模板匹配法模板匹配法以兩幀對應像素差的絕對值之和作為幀間差,這種方法比較前后兩幀對應像素之間的變化,如果變化超出一個預先定義的閾值,那么認為有鏡頭的切換。其主要缺點是對噪聲和鏡頭或物體運動非常敏感,因為它嚴格地局限于像素的位置。噪聲和物體運動都會使幀間差增大,從而導致錯誤的場景轉(zhuǎn)換檢測。視頻鏡頭分割技術(2)直方圖法直方圖法是使用得最多的計算幀間差的方法,它不考慮像素的位置信息,而使用像素亮度和色彩的統(tǒng)計值,因而抗噪聲能力要比模板匹配強。其缺點是兩幅圖像可能內(nèi)容完全不同但直方圖相似,也容易造成誤識別。視頻鏡頭分割技術(3)基于邊緣的方法它的根本思想是“在發(fā)生鏡頭轉(zhuǎn)換時,新出現(xiàn)的邊緣應遠離舊邊緣的位置,同樣舊邊緣消失的位置應遠離新邊緣的位置〞。首先提取前后兩幀視頻圖像的邊緣圖,計算兩幀視頻圖像之間的差異。如果差異值大于某個預先設定的閾值,那么認為出現(xiàn)了鏡頭的切換。視頻鏡頭分割技術(4)基于模型的方法基于模型的方法利用對鏡頭編輯的先驗知識對各種鏡頭切換建立一定的數(shù)學模型,自頂向下地進行鏡頭切換的檢測,因此基于模型的方法對鏡頭漸變的檢測往往能取得好的效果。它的缺點是需要對每種切換類型建立模型,而且建模過程比較復雜?!参濉酬P鍵幀選取
視頻數(shù)據(jù)中的很多圖像幀之間都存在時間和空間的冗余度。如果能從視頻數(shù)據(jù)中找出一些有代表性的幀(即關鍵幀),使用這些少量的幀來代表冗長的視頻數(shù)據(jù)流,既簡潔,又方便視頻檢索。關鍵幀是用來描述一個鏡頭的關鍵圖像,它反映鏡頭的主要內(nèi)容。關鍵幀選取關鍵幀的選取一方面必須能夠反映鏡頭中的主要事件,其描述應盡可能地準確、完全;另一方面數(shù)據(jù)量應盡量地小,同時計算不宜太復雜,以方便管理。選取關鍵幀的方法比較經(jīng)典的是幀平均法和直方圖平均法。幀平均法是從鏡頭中取所有幀在某個位置上像素值的平均值,然后將鏡頭中該點位置的像素值最接近平均值的幀作為關鍵幀。直方圖平均法是將鏡頭中所有幀的統(tǒng)計直方圖取平均,然后選擇與該直方圖最接近的幀作為關鍵幀。〔六〕特征提取視頻分割成鏡頭后就要對各個鏡頭進行特征提取,得到一個盡可能充分反映鏡頭內(nèi)容的特征空間,這個特征空間將作為視頻聚類和檢索的依據(jù)。特征提取視頻數(shù)據(jù)的特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征提取:主要針對關鍵幀而言,一般采用通常的靜態(tài)圖像特征提取方法,包括提取顏色、紋理和形狀特征等。動態(tài)特征提取:視頻的運動特征主要包括攝像機操作以及主體目標的運動?!财摺骋曨l索引/聚類
1、基于特征的索引:根據(jù)關鍵特征,建立索引。關鍵特征可以是顏色、紋理、運動對象等。2、基于對象的索引:就是從視頻流中分割出所有對象,并利用每個對象的信息進行索引。3、元特征索引:元特征是指有關視頻數(shù)據(jù)的一些根本特征,如視頻的出品人或公司信息、導演、出品日期、視頻文件長度、原始載體、版權認證號、類別(劇情類、非劇情類等)、壓縮方式(如MPEG4等)、制式(PAL/NTSC等),甚至演員等。4、基于注釋的索引:所謂視頻注釋,是指用一些描述性的信息(如文字、聲音或圖形)來表述所指向的視頻段?!舶恕骋曨l檢索(1)基于關鍵幀檢索視頻被抽象為關鍵幀后,搜索就變成按照某種相似度來檢索數(shù)據(jù)庫中與查詢描述相似的關鍵幀。通常使用的查詢方法是通過目標特征說明(直接)的查詢和通過可視實例(例如)的查詢。如果檢索到關鍵幀.用戶就可以利用播放來觀看它所代表的視頻片斷。(2)基于運動檢索可以利用攝像機操作的表示來查詢鏡頭,可以利用運動方向和幅度特征來檢索運動的主體目標。五、音頻信息檢索音頻檢索和語音識別的區(qū)別
語音識別指從語音信號中識別出字、單詞和短語等根本元素,然后對這些語言符號進行分析和理解,提取里面所蘊含的語義。音頻檢索是要對全部音頻信號,既包括語音信號也包括非語音信號,進行處理、分析和理解以實現(xiàn)用戶所需的內(nèi)容檢索。語音識別技術可以應用到音頻檢索中滿足一局部語音相關的檢索需求。僅僅對語音信號進行處理不能解決音頻檢索的所有問題。音頻可以分為三種類型:
〔1〕波形聲音。對模擬聲音數(shù)字化而得到的數(shù)字音頻信號。它可以代表語音、音樂、自然界和合成的聲響?!?〕語音。具有字詞、語法等語素,是一種高度抽象的概念交流媒體。語音經(jīng)過識別可以轉(zhuǎn)換為文本,文本是語音的一種腳本形式?!?〕音樂。具有節(jié)奏、旋律或和聲等要素,是人聲或/和樂器音響等配合所構成的一種聲音。音樂可以用樂譜來表示?;趦?nèi)容的音頻檢索方法
主觀描述查詢提交一個語義描述,然后把包含有這些語義標注音頻例子或歌曲尋找出來,反響給用戶。用戶也可以通過描述音頻的主觀感,來說明其所要檢索的音頻的主觀(感覺)特性?;趦?nèi)容的音頻檢索方法
例如查詢選擇一個聲音例子表達查詢要求,查找出該聲音在某些特征方面相似的所有聲音?;趦?nèi)容的音頻檢索方法
擬聲查詢指用戶發(fā)出與要查找的聲音相似的聲音來表達檢索要求。中科院聲學所中科信利實驗室的最新研究成果“音頻檢索系統(tǒng)〞:在國際音樂處理學術界最高賽事———國際音樂信息檢索評測比賽(MIREX)中獲哼唱檢索評測第一名?;趦?nèi)容的音頻檢索方法
表格查詢〔直喻查詢〕
用戶選擇一些音頻的聲學物理特征并且給出特征值的模糊范圍來描述其檢索要求。從音頻信息類型上劃分,應用最多的音頻信息檢索包括語音檢索和音樂檢索。語音檢索1、利用大詞匯語音識別技術進行檢索
這種方法是利用自動語音識別(ASR)技術把語音轉(zhuǎn)換為文本,從而可以采用文本檢索方法進行檢索.2、基于子詞單元進行檢索
當語音識別系統(tǒng)處理各方面無限制主題的大范圍語音資料時,識別性能會變差,尤其是當一些專業(yè)的詞匯(例如人名,地點)不在系統(tǒng)的詞庫里時。一種變通的方法是利用子詞(sub-word)索引單元。在ETHZurich的一個研究小組選擇音節(jié)形式的單元作為索引(即VCV,元音-輔音-元音子詞單元)。例如,“information〞這個詞的VCV特征是“info〞、“orma〞和“atio〞。當執(zhí)行查詢時,用戶的查詢首先被分解為子詞單元,然后這些單元的特征與庫中預先計算好的特征進行匹配。3、基于關鍵詞發(fā)現(xiàn)進行檢索在無約束的語音中自動檢測詞或短語通常稱為關鍵詞發(fā)現(xiàn)(Keywordspotting).利用該技術,識別或標記出長段語音錄音或音軌中反映重要時間或用戶感興趣的事件,這些標記就可以用于檢索.4、發(fā)音者識別發(fā)音者的識別或口音(voice)識別可設法找到發(fā)音者的身份或提取個人語音的有關信息。音樂檢索
在檢索系統(tǒng)中,音樂的類型可分為兩種:結構化的音樂和基于樣本的音樂。音樂的音高代表音符的上下。根本的音高符號在五線譜中用C、D、E、F、G、A、B七個字母命名,在簡譜中對應的是1、2、3、4、5、6、7。從物理學角度來看,音高和聲波的頻率有著密切的關系,頻率越高,那么音高越高。音長說明音符的長短。這是以全音符為根底劃分的,其他各音符按與全音符的比值命名,如二分音符、四分音符就相當于全音符的二分之一、四分之一。音強是在聽聞時感到的響度,也就是人們通常說的強弱或大、小、重、輕。它代表音符的強弱。比方在彈奏鋼琴時,音強說明一個琴鍵按下的力度。1.結構化音樂的檢索
結構化音樂和聲音效果是由一系列指令或算法來表示的。最常見的結構化音樂是MIDI,它把音樂表示成大量的音符和控制指令。MIDI〔MusicInstrumentDigitalInterface,樂器數(shù)字接口〕文件格式是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標準,它定義了計算機音樂程序、合成器及其他電子設備交換音樂信號的方式,還規(guī)定了不同廠家的電子樂器與計算機連接的電纜和硬件及設備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可用于為不同樂器創(chuàng)立數(shù)字聲音的指令,可以模擬大提琴、小提琴、鋼琴等常見樂器。在MIDI文件中,只包含產(chǎn)生某種聲音的指令,這些指令包括使用什么MIDI設備的音色、聲音的強弱、聲音持續(xù)多長時間等,計算機將這些指令發(fā)送給聲卡,聲卡按照指令將聲音合成出來,MIDI聲音在重放時可以有不同的效果,這取決于音樂合成器的質(zhì)量。2.基于樣本的音樂檢索基于特征集的音樂檢索在這種音樂檢索方法中,對每種聲音(包括查詢)抽取聽覺特征集〔如強度、音高、亮度、帶寬和諧音等〕,將其表示成一個矢量。通過計算查詢音樂和每個存儲音樂片段相應的特征矢量之間的近似度來計算它們的相似性?;谝舾叩囊魳窓z索該方法的根本思想為:由于音樂的每個音符都是由它的音高表示的,因此一個音樂片段或局部可表示成一個序列或音高串。檢索是以查詢音樂和每個存儲音樂片段相應的音高串之間的相似性為根底,音高跟蹤和串相似測量是檢索過程的關鍵。音高通常被定義為聲音的根本頻率。常用的查詢請求形式是哼唱(humming)。第四節(jié)數(shù)據(jù)壓縮技術第四節(jié)數(shù)據(jù)壓縮技術
思考:1、數(shù)據(jù)為什么要壓縮?2、數(shù)據(jù)為什么能壓縮?3、數(shù)據(jù)壓縮的方法有哪些?4、數(shù)據(jù)壓縮的評價標準有哪些?5、平時使用的數(shù)據(jù)壓縮軟件有哪些?第四節(jié)數(shù)據(jù)壓縮技術
一、概述所謂數(shù)據(jù)壓縮,就是以最少的數(shù)碼表示信源所發(fā)的信號,減少容納給定消息集合或數(shù)據(jù)采集集合的信號空間。這里的信號空間即指被壓縮對象,包括:〔1〕物理空間,如存儲器、磁盤、磁帶、光盤等數(shù)據(jù)存儲介質(zhì);〔2〕時間區(qū)間,如傳輸給定消息集合所需要的時間;〔3〕電磁頻譜區(qū)域,如為傳輸給定消息集合所需要的帶寬。第四節(jié)數(shù)據(jù)壓縮技術
一、概述數(shù)據(jù)壓縮的目的,就是用盡可能少的數(shù)據(jù)來表達信息,從而節(jié)省傳輸和存儲的開銷。數(shù)據(jù)壓縮的過程就是將輸入數(shù)據(jù)流轉(zhuǎn)變?yōu)榱硪环N較小的數(shù)據(jù)流的過程。第四節(jié)數(shù)據(jù)壓縮技術
一、概述衡量數(shù)據(jù)壓縮技術好壞的指標主要有四個:〔1〕壓縮比,即壓縮前后所需的信息存儲量之比;〔2〕恢復效果,對原始數(shù)據(jù)原貌的恢復程度;〔3〕速度,對數(shù)據(jù)進行壓縮、解壓縮的速度;〔4〕硬件開銷,實現(xiàn)壓縮所需的硬件條件。第四節(jié)數(shù)據(jù)壓縮技術
二、數(shù)據(jù)為什么能夠壓縮
首先,數(shù)據(jù)中間常存在一些多余成分,既冗余度。Youarestudents.其次,數(shù)據(jù)中間尤其是相鄰的數(shù)據(jù)之間,常存在著相關性。此外,人們在欣賞音像節(jié)目時,由于耳朵、眼睛對信號的時間變化和幅度變化的感受能力都有一定的極限。
第四節(jié)數(shù)據(jù)壓縮技術三數(shù)據(jù)冗余的種類〔一〕信息熵冗余〔編碼冗余〕〔二〕空間冗余〔三〕時間冗余〔四〕結構冗余〔五〕知識冗余〔六〕視覺冗余〔七〕其他冗余第四節(jié)數(shù)據(jù)壓縮技術四數(shù)據(jù)壓縮方法分類〔一〕無損壓縮(文本、程序等)〔二〕有損壓縮〔多媒體〕〔三〕混合壓縮混合壓縮是被廣泛采用的方法,它吸收了各種無損壓縮和有損壓縮方法的長處,以求在壓縮比、壓縮效率及保真度之間取得最正確平衡。如靜止圖象壓縮標準JPEG和活動圖象壓縮標準MPEG就是采用了混合編碼的壓縮方法。第四節(jié)數(shù)據(jù)壓縮技術五數(shù)據(jù)壓縮算法與相關標準〔一〕文本壓縮技術霍夫曼〔Huffman〕編碼算術編碼字典壓縮模型LZW編碼游程編碼霍夫曼編碼霍夫曼〔Huffman〕編碼是根據(jù)數(shù)據(jù)中各字符出現(xiàn)的相對頻率進行編碼,出現(xiàn)頻率高的字符賦以較短的代碼,而出現(xiàn)頻率低的字符賦以較長的代碼,從而保證了文件的大局部字符由較短的編碼構成。霍夫曼編碼構造范式Huffman編碼大致可分為四步驟:統(tǒng)計每個要編碼符號的頻率;根據(jù)這些頻率信息求出該符號在傳統(tǒng)的Huffman編碼樹中的深度;分別統(tǒng)計出最大編碼長度X到1的每個長度對應多少個符號,根據(jù)此信息從X個0開始以遞增的順序為每個符號進行編碼;編碼輸出壓縮信息,并保存按頻率順序排列的符號表,保存每組同樣長度編碼中的最前一個編碼以及該組中的編碼個數(shù)。算術編碼算術編碼是一種改進的霍夫曼編碼,它不是為每個符號產(chǎn)生一個單獨的代碼,而是使整條信息公用一個代碼,增加到信息上的每個符號都遞增地修改代碼,因而可進一步提高壓縮比。算術編碼是無損數(shù)據(jù)壓縮效率最高的方法。詞典編碼詞典編碼主要利用數(shù)據(jù)本身包含許多重復的字符串的特性。例如:吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮。我們?nèi)绻靡恍┖唵蔚拇柎孢@些字符串,就可以實現(xiàn)壓縮,實際上就是利用了信源符號之間的相關性。字符串與代號的對應表就是詞典。實用的詞典編碼算法的核心就是如何動態(tài)地形成詞典,以及如何選擇輸出格式以減小冗余。詞典編碼基于字典的壓縮模型并不直接計算字符出現(xiàn)的概率,而是使用一本字典。其主要方法是將已經(jīng)編碼過的信息作為原字典,如果需要編碼過的信息曾經(jīng)出現(xiàn)過,就輸出該字符串的出現(xiàn)位置及長度,否那么就輸出一個新的字符串。字典算法可以在對數(shù)據(jù)統(tǒng)計特性一無所知的前提下,使壓縮率接近統(tǒng)計特性時所能夠到達的壓縮率,并且運算快,易于實現(xiàn)。詞典編碼舉例詞典法的想法是企圖查找正在壓縮的字符序列是否在以前輸入的數(shù)據(jù)中出現(xiàn)過,然后用已經(jīng)出現(xiàn)過的字符串替代重復的局部,它的輸出僅僅是指向早期出現(xiàn)過的字符串的“指針〞。LZW編碼得名于Lempel–Ziv-Welch。是一種動態(tài)生成字典并編碼的字典壓縮模型。具有壓縮效率高、實現(xiàn)簡單的優(yōu)點,是目前最常用的無損壓縮方法之一。LZW編碼使用字典庫查找方案。它讀入待壓縮的數(shù)據(jù),并與一個字典數(shù)據(jù)庫中的字符串比照,如果有匹配的字符串,那么輸出字符串在字典中的索引,否那么將字符串插入字典中。LZW編碼傳統(tǒng)LZW算法壓縮的原理在于用字典中詞條的編碼代替被壓縮數(shù)據(jù)中的字符串,因此字典中的詞條越長越多,壓縮率就越高。所以加大字典的容量可以提高壓縮率。但字典的容量要受到計算機內(nèi)存的限制,而且字典也存在被填滿的可能,這樣當字典不能再參加新詞條后,過老的字典就不能保證高的壓縮率。為了解決這個問題,在壓縮時必須監(jiān)視壓縮率,當壓縮率下降時,去除匹配概率較小的詞條而保存匹配概率較大的詞條。這樣在重建字典的同時又可以提高壓縮率。LZW編碼LZW編碼具有壓縮效率高、實現(xiàn)簡單的優(yōu)點,是目前最常用的無損壓縮方法之一。許多通用的文件壓縮軟件如ARJ,PKZIR,Z00,LHA等都采用了這種方法。另外,圖形文件中的GIF和TIF格式文件也是按照這種方法壓縮的。LZW編碼算法流程初始化字典前綴S=空串C=從輸入流中讀一個字符把新串S+C加到字典中S=C輸出S的編碼輸出結束標記是結尾標志嗎?是S=S+CS+C在字典中嗎?是輸出S的編碼游程編碼〔RLE〕游程編碼〔Run-LengthEncoding〕:它通過將信源中相同符號序列轉(zhuǎn)換成一個計數(shù)字段再加上一個重復字符標志實現(xiàn)壓縮。例如:RTTTTTTTTABBCDG被轉(zhuǎn)換為:R#8TABBCDG,其中“#〞作為轉(zhuǎn)義字符,說明其后所跟的字符表示長度。行程編碼多用于黑白二值圖像的壓縮中。例如被轉(zhuǎn)化為一系列黑串和白串長度的編碼:81257。因為串長度并非等概率分布,所以一般要配合以統(tǒng)計編碼〔Huffman編碼〕。第四節(jié)數(shù)據(jù)壓縮技術五數(shù)據(jù)壓縮算法與相關標準〔一〕文本數(shù)據(jù)壓縮一般來講,無損壓縮都可以用來對文本數(shù)據(jù)進行壓縮。在文檔處理方面,文件壓縮有著重要的意義:1. 文件壓縮存檔實用程序2. 第二類是可執(zhí)行文件壓縮實用程序。3. 第三類是近幾年才面世的系統(tǒng)級磁盤壓縮管理軟件。4. 軟盤〔光盤〕壓縮快遞軟件,.iso第四節(jié)數(shù)據(jù)壓縮技術五數(shù)據(jù)壓縮算法與相關標準〔二〕靜止圖像壓縮1、CCITTG42、JBIG和JBIG23、JPEG和JPEG2000第四節(jié)數(shù)據(jù)壓縮技術1、CCITTG4它是國際與電報咨詢委員會〔CCITT〕提出的關于黑白二值圖像的的壓縮方法的一個標準,它是基于變長游程編碼和改進的霍夫曼編碼,主要用于與黑白圖像相關的領域,屬于無損壓縮壓縮編碼。第四節(jié)數(shù)據(jù)壓縮技術2、JBIG和JBIG2JBIG〔JointBinaryImageGroup〕是二值圖像壓縮標準,是和JPEG并行的國際標準,主要針對黑白和灰度圖像,于1993年得到正式認可。它的技術特點是編碼效率高,能夠自適應圖像特征,能夠進行圖像的有損和無損壓縮,但是有損壓縮質(zhì)量急劇下降。JBIG2就解決了有損壓縮質(zhì)量下降問題。JBIG能夠?qū)崿F(xiàn)分層方式傳送圖像,圖像在傳送時,傳送一幅比較概略性的圖像,然后隨傳送數(shù)據(jù)的不斷到來所得到的圖像質(zhì)量逐步提高?!踩踌o止圖像壓縮JPEG是一種典型的混合壓縮標準,它將壓縮算法分為兩大類,即基于分差脈沖碼調(diào)制無損壓縮的根本局部和基于離散余弦變換的有損壓縮的擴展局部。其無損壓縮的壓縮比保守估計為2:1。其有損壓縮比在20-40倍時,人眼根本看不出失真。在數(shù)字圖書館應用中,主要采用JPEG有損壓縮的擴展局部。但是傳統(tǒng)的JPEG壓縮技術已無法滿足人們對多媒體圖像資源的要求,因此更高壓縮比以及更多新功能的靜態(tài)圖像壓縮技術JPEG2000誕生,它的壓縮率比JPEG高約30%,同時支持有損和無損壓縮,并且能夠?qū)崿F(xiàn)漸進傳送,并且支持“感選取區(qū)域〞特性,可以指定圖像上任意你感興趣區(qū)域的壓縮質(zhì)量。〔三〕靜止圖像壓縮第一步,顏色空間的轉(zhuǎn)換,即把圖象中的色彩作為獨立的局部進行處理,將數(shù)字化后的YUV(亮度和色度)顏色空間轉(zhuǎn)換為適合計算機處理的RGB三基色圖象數(shù)據(jù)。〔三〕靜止圖像壓縮第二步,離散余弦變換。它對原始圖象進行從左到右,從上到下的順序掃描編碼,將原始圖象分割成一系列8×8的子塊后逐塊處理,在這8×8的圖象塊中,像素值變化一般較為平緩,因而適宜采用游程編碼除去冗余局部?!踩踌o止圖像壓縮第三步,系數(shù)量化。量化的作用是在保證一定質(zhì)量的前提下,丟棄圖象中對視覺效果影響不大的亮度信息,將大局部系數(shù)的值變成連續(xù)一樣的值(大局部是零),從而到達壓縮目的。顯然系數(shù)量化過程是不可逆的有損壓縮,它是造成JPEG壓縮信息損失的主要原因?!踩踌o止圖像壓縮第四步,編碼。編碼得首先對8×8像素塊中直流分量采取分差編碼,然后對各像素塊其余的交流分量采取游程編碼,最后將所得到的編碼做基于統(tǒng)計特性的熵編碼,如HUFFMAN編碼?!踩踌o止圖像壓縮由上述算法可知,JPEG應用離散余弦變換、量化和熵編碼獲得幀內(nèi)編碼,在JPEG壓縮下,一個YUV像素塊通過離散余弦變換生成一個頻率矩陣值,然后量化運算產(chǎn)生一個壓縮頻率值的矩陣,它被進行熵編碼而得到最后的壓縮比特流,編碼比特可以數(shù)字存儲或傳輸,然后通過相反的過程解壓縮再生像素圖象。第四節(jié)數(shù)據(jù)壓縮技術〔四〕運動圖像壓縮1、面向通信的視頻編碼H系列標準為了解決各地、各國會議電視的互通問題2、活動圖像專家組〔MPEG〕是幾個國際標準化和工業(yè)組織的一個聯(lián)合小組,該小組的主要目標是為全屏幕活動視頻圖像提供工業(yè)標準。MPEG壓縮標準是針對運動圖像而設計的,它包括MPEG視頻、MPEG音頻和MPEG系統(tǒng)〔視音頻同步〕三個局部。第四節(jié)數(shù)據(jù)壓縮技術〔四〕運動圖像壓縮
國際標準化組織的運動圖像專家小組MPEG系列標準MPEG-1352X240,VCDMPEG-2720X480,DVDMPEG-4MPEG-7第四節(jié)數(shù)據(jù)壓縮技術〔五〕音頻動態(tài)壓縮目前國際上制定的音頻壓縮標準屬于兩個方向,在一些應用環(huán)境下追求盡可能低的傳輸速率,在另一些應用環(huán)境下那么盡可能追求盡可能高的保真度。在這里,我們介紹一種音頻動態(tài)壓縮標準MP3。MP3的全稱是MPEGAudioLayer-3。MPEG的數(shù)據(jù)流包含三種充分:圖像流,伴音流和系統(tǒng)流。圖像流僅僅包含畫面信息,伴音流包含聲音信息,系統(tǒng)流實現(xiàn)圖像和伴音的同步。所有播放MPEG圖像和伴音數(shù)據(jù)所需的時鐘信息都包含在系統(tǒng)流中。MPEG伴音流又叫MPEG音頻層第四節(jié)數(shù)據(jù)壓縮技術〔五〕音頻動態(tài)壓縮MPEG音頻壓縮編碼的主要特點是:它是一種有損的,非平衡編碼。有損意味著為到達低比特率,采用了基于聽覺和視覺心理的壓縮模式,一些人眼和人耳最不敏感的圖像和伴音信息將喪失;非平衡編碼意味著其壓縮編碼過程比解碼過程慢得多。第四節(jié)數(shù)據(jù)壓縮技術〔五〕音頻動態(tài)壓縮MPEG音頻層壓縮比立體聲信號數(shù)據(jù)量MP11:4384kbpsMP21:6~1:8192kbps~256kbpsMP31:10~1:12112kbps~128kbps第五節(jié)數(shù)據(jù)的存儲與備份一、數(shù)字圖書館的存儲設備〔一〕磁盤陣列
磁盤陣列又叫RAID〔RedundantArrayofInexpensiveDisks,廉價磁盤冗余陣列〕,廉價磁盤冗余陣列的概念是由美國加州大學伯克萊分校Patterson教授于1988首先提出的,是指將多個類型、容量、接口,甚至品牌一致的專用硬盤或普通硬盤連成一個陣列,使其能以快速、準確和平安的方式來讀寫磁盤數(shù)據(jù),從而到達提高數(shù)據(jù)讀取速度和平安性的一種技術手段。依據(jù)磁盤陣列數(shù)據(jù)不同的校驗方式,RAID技術分為10個等級,即,但比較常用的是RAID0、RAID1、RAID5。RAID5是目前應用最廣泛的RAID級別,它將各塊獨立硬盤進行條帶化分割,相同的條帶區(qū)進行奇偶校驗〔異或運算),校驗數(shù)據(jù)平均分布在每塊硬盤上。以n塊硬盤構建的RAID5陣列可以有n-1塊硬盤的容量,存儲空間利用率非常高?!捕炒艓鹘y(tǒng)磁帶存儲器具有如下缺點:〔1〕磁帶只能順序讀寫,不適于隨機數(shù)據(jù)的存取。〔2〕磁帶的定位〔尋找讀寫數(shù)據(jù)的位置〕時間很長,可高達幾分鐘?!?〕抗磨損性低,讀寫次數(shù)有限。一類是蛇型磁帶技術一類是鋸齒型磁帶技術〔三〕光盤光盤存儲器具有如下優(yōu)點:〔1〕可以自由地裝入光盤驅(qū)動器或自由地從光盤驅(qū)動器中卸出?!?〕存儲容量大?!?〕價格廉價,大批量生產(chǎn)的本錢很低。與磁盤存儲器相比,光盤存儲器具有如下缺點:〔1〕驅(qū)動器的定位時間長,使得光盤存儲器具有很長的延遲時間。〔2〕數(shù)據(jù)傳輸率低,每秒約150KB。〔3〕光盤的旋轉(zhuǎn)速度較慢。光盤可以分為三類:第一類是只讀光盤第二類是可讀寫光盤第三類是一次寫屢次讀光盤〔四〕機器手存儲器庫〔roboticstoragelibrary,簡稱為RSL〕機器手光盤庫和機器手磁帶庫統(tǒng)稱機器手存儲器庫。RSL主要由存儲介質(zhì)庫、機器手和驅(qū)動器三局部組成?!参濉彻獗P塔光盤塔是由多個SCSI〔SmallComputerSystemInterface〕接口的CD-ROM驅(qū)動器串聯(lián)而成的,由幾臺或十幾臺CD-ROM驅(qū)動器并聯(lián)構成,可通過軟件來控制某臺光驅(qū)的讀寫操作。光盤預先放置在CD-ROM驅(qū)動器中。〔六〕光盤鏡像效勞器光盤鏡像效勞器內(nèi)置CPU和操作系統(tǒng),采用大容量高速硬盤鏡像光盤數(shù)據(jù)技術,將CD/VCD/DVD光盤的內(nèi)容鏡像到高速硬盤上,訪問鏡像到高速硬盤上的光盤,與直接訪問光盤庫、光盤塔中的光盤相比較,速度上要快好幾倍,甚至幾十倍。測試說明,訪問鏡像在高速硬盤上光盤的速度可以到達直接訪問光盤驅(qū)動器中光盤的66倍。鏡像到硬盤上的光盤鏡像支持多用戶訪問,大大提高了光盤的使用率。二、存儲技術和架構
〔一〕直接連接存儲〔DAS〕直接連接存儲〔DirectAttachedStorage—DAS〕,也可稱之為效勞器連接存儲〔Server-AttachedStorage—SAS〕。DAS被定義為直接連接在各種效勞器擴展接口下的數(shù)據(jù)存儲架構。DAS存儲架構DAS存儲架構DAS存儲架構的特點結構簡單,本錢較低。帶寬較低。擴展性差。數(shù)據(jù)共享困難,不能提供跨平臺文件共享功能,各系統(tǒng)平臺下文件需分別存儲。管理較復雜,需要第三方軟件支持。DAS存儲架構的特點無獨立的存儲操作系統(tǒng),需相應效勞器或客戶端支持。分散式數(shù)據(jù)存儲模式,網(wǎng)絡管理員需要消耗大量時間奔波到不同效勞器下分別管理各自的數(shù)據(jù),維護本錢增加?!捕尘W(wǎng)絡連接存儲〔NAS〕網(wǎng)絡附加存儲〔NetworkAttachedStorage—NAS〕或稱為網(wǎng)絡直聯(lián)存儲,是指將集成的存儲系統(tǒng)如磁盤陣列和磁帶設備,直接通過LAN接口連入信息通信網(wǎng)絡的技術。NAS是直接連接到網(wǎng)絡〔如某一局域網(wǎng)〕的一種存儲器,它通過NFS〔NetworkFileSystem,即網(wǎng)絡文件系統(tǒng),用于Unix環(huán)境〕或者CIFS〔
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國防軍事訓練合作合同范本
- 玉溪2025年云南玉溪市第二幼兒園龍湖園區(qū)招聘編制外人員筆試歷年參考題庫附帶答案詳解
- 漯河2024年河南漯河市沙澧河建設運行保障中心人才引進5人筆試歷年參考題庫附帶答案詳解
- 湖南2025年湖南農(nóng)業(yè)大學招聘58人筆試歷年參考題庫附帶答案詳解
- 河南2025年河南省醫(yī)學科學院電生理研究所招聘20人筆試歷年參考題庫附帶答案詳解
- 池州2024年安徽池州學院招聘事業(yè)編制黨政管理崗筆試歷年參考題庫附帶答案詳解
- 杭州浙江杭州市臨平區(qū)沾橋中學招聘2024學年第二學期臨時聘用教師筆試歷年參考題庫附帶答案詳解
- 2025年中國塑料鏈條市場調(diào)查研究報告
- 2025年金融查詢機外殼項目可行性研究報告
- 2025至2031年中國非離子表面活性劑行業(yè)投資前景及策略咨詢研究報告
- 新版《醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范》(2024)培訓試題及答案
- 尚書全文及譯文
- 華師大版初中數(shù)學中考總復習全套課件
- 動物外科與產(chǎn)科
- 上下樓梯安全我知道安全教育課件
- 手術風險及醫(yī)療意外險告知流程
- 綜合實踐活動六年級下冊 飲料與健康課件 (共16張PPT)
- 《醫(yī)院重點??平ㄔO專項資金管理辦法》
- 最新短視頻運營績效考核表KPI(優(yōu)選.)
- 設備基礎隔振設計探討
評論
0/150
提交評論