




已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1附件6:本科生畢業(yè)論文(設(shè)計)開題報告論文題目:Web中圖像的檢索技術(shù)研究.學(xué)生姓名:童宏梁年級(學(xué)號):9906528.二級學(xué)院:信息工程學(xué)院專業(yè):電子信息工程.指導(dǎo)教師:張量職稱:副教授.填表日期:2004年2月25日杭州師范學(xué)院教務(wù)處制2一、選題依據(jù)(背景與意義、國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢)隨著網(wǎng)絡(luò)傳送速度與計算機信息處理速度的提高,網(wǎng)頁中對多媒體信息的使用變得十分普及,特別是圖像信息,己經(jīng)成為表示網(wǎng)頁內(nèi)容不可缺少的組成部分。因此人們對多媒體信息的檢索需求也就隨之隨之變得特別迫切。但由于圖像檢索系統(tǒng)涉及了多學(xué)科的知識,實現(xiàn)和應(yīng)用的難度相當高,所以已有的圖像檢索系統(tǒng)都有這樣或那樣的缺陷。而傳統(tǒng)的信息檢索主要集中于文字的檢索,在多媒體方面的研究并不是很多?;ヂ?lián)網(wǎng)上的多媒體以圖像為主,因此圖像的檢索就成為了目前研究的熱點。圖像檢索經(jīng)歷了兩個階段:第一階段是以文本為基礎(chǔ)的檢索。第二階段是以圖像自身的內(nèi)容為基礎(chǔ)的檢索。上個世紀70年代開始,有關(guān)圖像檢索的研究就已開始,當時主要是基于文本的圖像檢索技術(shù)利用文本描述的方式描述圖像的特征。到90年代以后,出現(xiàn)了對圖像的內(nèi)容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術(shù),即基于內(nèi)容的圖像檢索技術(shù)。而無論是什么引擎,它首先都必須遵循以下幾個要點:(1)索引文檔的容量:現(xiàn)在最大的搜索引擎可能包含了超過100,000,000個鏈接,但這也只是整個Web網(wǎng)上的一小部分。因為收集資料的Robot,只能從“已知”的鏈接開始收集網(wǎng)頁資料,而只有一小部分Web網(wǎng)頁和這些“已知”的網(wǎng)頁有連接;現(xiàn)在還沒有一個搜索引擎能夠隨網(wǎng)頁內(nèi)容的更新比較及時地更新索引;(2)覆蓋面:地理覆蓋面和主題覆蓋面;(3)索引更新頻率:不同的搜索引擎,索引更新頻率相差很大,有的是幾周,有的是一年。索引更新頻率有兩種定義,一種比較少用的定義是新的網(wǎng)頁能被收錄進索引數(shù)據(jù)庫中,另一種是同一頁多少時間才被檢查一次,有必要時更新索引。有的搜索引擎會對經(jīng)常更新的網(wǎng)頁和多人訪問的網(wǎng)頁進行更頻繁的重建索引工作;(4)采集過程:采集過程有寬度優(yōu)先、深度優(yōu)先兩種算法;一般認為寬度優(yōu)先對擴大內(nèi)容的覆蓋面有利,深度優(yōu)先算法有助于提供更多的細節(jié)資料;(5)索引算法:有的搜索引擎只處理元標記和一小部分文檔內(nèi)容,而有一些搜索引擎則是對全文進行索引;(6)結(jié)果顯示:有的搜索引擎只顯示網(wǎng)頁的標題,有些則有更詳細的一些信息,比如網(wǎng)頁的內(nèi)容,更新日期等;(7)查詢算法:一個優(yōu)秀的查詢算法是很重要的,最基本的布爾查詢,短語查詢,有的搜索引擎還提供指定屬性的查詢,比如可以指定對網(wǎng)頁的作者、主題進行查詢。另外有的搜索引擎還采用了相關(guān)度反饋、概念查詢等算法;(8)用戶界面:很多搜索引擎都提供了簡單查詢和高級查詢兩個界面。并且提供了必要的幫助和范例。在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面,收集和加工圖像資源,提取特征,分析并進行標引,建立圖像的索引數(shù)據(jù)庫;最后一方面是根據(jù)相似度算法,計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小,提取出滿足閾值的記錄作為結(jié)果,按照相似度降序的方式輸出。為了進一步提高檢索的準確性,許多系統(tǒng)結(jié)合相關(guān)反饋技術(shù)來收集用戶對檢索結(jié)果的反饋信息,這在CBIR中顯得更為突出,因為CBIR實現(xiàn)的是逐步求精的圖像檢索過程,在同一次檢索過程中需要不斷地與用戶進行交互?;谖谋竞突趦?nèi)容是圖像檢索發(fā)展的兩個分支,不過從目前圖像檢索研究的趨勢而言,尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征嵌入在具有文本內(nèi)容的Web文檔中,出現(xiàn)了三個不同的研究著眼點。立足于文本,對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上,因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標注法等,不僅技術(shù)發(fā)展較為成熟,同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限,易歧義,更新慢,所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。立足于圖像內(nèi)容,對圖像進行分析和檢索。相比而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進展慢。不過,基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上,能夠更為客觀地反映媒體本質(zhì)的特征。結(jié)合文本和內(nèi)容,進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn),尤其是網(wǎng)絡(luò)環(huán)境下,結(jié)合圖像所在Web文檔的特征分析,推斷圖像的特征,同時結(jié)合對圖像的內(nèi)容分析,共同標引達到對圖像的分析和檢索。3可以說,三個方向都是相互影響和促進的,任何一個方向的進展都會促進圖像檢索技術(shù)向前更進一步。由于搜索引擎技術(shù)的開發(fā)牽涉到信息檢索、人工智能、計算機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、自然語言處理等許多基礎(chǔ)研究領(lǐng)域的理論和技術(shù),因此至今還沒有真正脫離實驗室的階段,中文搜索引擎的開發(fā)就更涉及到語言習(xí)慣的差異、智能切分詞等棘手的問題,而且中文搜索引擎技術(shù)的起步也較晚,還遠沒能滿足中國網(wǎng)民的需求。如今圖像檢索技術(shù)的研究和應(yīng)用為我國數(shù)字圖書館工程中的核心問題提供了理論和實踐依據(jù)。因此怎樣揚長避短選擇一種最適合中國國情的圖像檢索技術(shù)就是本文研究的目的和意義。二、研究目標與主要內(nèi)容(含論文提綱)在網(wǎng)絡(luò)和多媒體技術(shù)越來越發(fā)達的今天,信息檢索技術(shù)成了現(xiàn)在計算機領(lǐng)域的重要內(nèi)容,而圖像檢索技術(shù)又正是這其中的重要內(nèi)容之一。而網(wǎng)絡(luò)資源的極大豐富以及圖像檢索技術(shù)不斷發(fā)展成熟,使得圖像檢索技術(shù)的應(yīng)用領(lǐng)域不斷擴大,這為圖像檢索技術(shù)的繼續(xù)研究提供條件。人們?yōu)榱藢D像進行更好的使用和組織管理,便開發(fā)出了多種多樣圖像檢索技術(shù),本文首先要將各種圖像檢索技術(shù)的工作原理、研究現(xiàn)狀、相關(guān)圖像搜索引擎與發(fā)展趨勢作一個介紹。隨著網(wǎng)絡(luò)傳送速度與計算機信息處理速度的提高,網(wǎng)頁中對多媒體信息的使用變得十分普及,特別是圖像信息,己經(jīng)成為表示網(wǎng)頁內(nèi)容不可缺少的組成部分。在實現(xiàn)對網(wǎng)頁中文本信息提取的同時,如何再為用戶抽取所需的圖片資料,是信息檢索中一個重要的方面。于是各種基于Web的圖像檢索系統(tǒng)應(yīng)運而生。它們采用不同的工作方式,極大地方便了用戶對網(wǎng)上圖像進行檢索。目前圖像檢索技術(shù)的發(fā)展正走向更加成熟和完善,其中Web圖像搜索技術(shù)也更加完善,本文將介紹這種圖像檢索技術(shù)并闡述Web頁中的圖像與文本之間的關(guān)系,對相似度等作出了詳細的論述。4三、擬采取的研究方法、研究手段及技術(shù)路線、實驗方案等如今在Web中處理圖像檢索有很多成熟的技術(shù),如基于Web的數(shù)據(jù)倉庫、Web數(shù)據(jù)挖掘、Web數(shù)據(jù)源集成技術(shù)等。為此,必須為Web建立適當?shù)臄?shù)據(jù)模型,利用數(shù)據(jù)模型有效地從Web中獲取信息。為了處理Web的中文數(shù)據(jù),還必須使用一系列中文自然語言處理技術(shù)。比較基礎(chǔ)的技術(shù)有自動分詞、人名和機構(gòu)名的自動識別、自動標引等,其他像信息抽取、自動文摘、文檔自動分類、中文概念詞的自動發(fā)現(xiàn)以及概念詞之間的語義關(guān)系的確定等技術(shù)都必不可少。我們可以根據(jù)現(xiàn)有的參考資料以及當前的技術(shù),先搞清傳統(tǒng)的搜索引擎的工作實質(zhì)和原理,比如網(wǎng)絡(luò)信息搜索關(guān)鍵詞的匹配原理和相象或類似計算方法,研究搜索引擎的內(nèi)在關(guān)鍵,提出搜索相似度的算法。然而現(xiàn)有的搜索引擎雖然給我們的信息搜索帶來了很大的方便,但由于其中程序過于復(fù)雜,反饋保存的內(nèi)容過多,因此給我們的很容易過多占去我們所擁有的CPU資源和網(wǎng)絡(luò)資源,從而降低我們的搜索速度。這里我們提出了在Web中的一種簡單而有效的搜索方法,雖然計算方法簡單,在網(wǎng)絡(luò)中的信息搜索可能不是很精確,但對計算方法進行改進,同時引進了有效的反饋機制,只要對其在實驗中多次的進行反饋訓(xùn)練和投入使用后的用戶使用,同樣能給我們提高搜索精度,但所占用的資源卻要小的多,相對速度也就要快很多。四、中外文參考文獻目錄(作者、書名論文題目、出版社或刊號、出版年月或出版期號)(1)張量,詹國華,袁貞明,基于Web的圖像搜索,計算機工程,2002.5(2)朱學(xué)芳,多媒體信息處理與檢索技術(shù)M,電子工業(yè)出版社,2003(3)陳瀅,徐宏炳,王能斌,協(xié)作式Web資源發(fā)現(xiàn)系統(tǒng)模型,計算機學(xué)報,1998.4(4)陽小華,周龍驤,WorldWideWeb的索引與查詢技術(shù),計算機科學(xué),1997(5)吳立德等,大規(guī)模中文文本處理,復(fù)旦大學(xué)出版社,1997(6)李唐,解讀網(wǎng)絡(luò)圖像搜索引擎,Internet網(wǎng)絡(luò),2001(7)陳立娜,Internet上的圖像檢索技術(shù),天極yesky,2001.5(8)黃博士,網(wǎng)絡(luò)環(huán)境下的圖像檢索技術(shù),中國計算機用戶,2003.12.30(9)DunlopM.D.(1991).MultimediaInformationRetrieval,Ph.D.Thesis.ComputingScienceDepartment,UniversityofGlasgow,Report199l/R21.(10)EllenM.VoorheesandYuan-WangHou,VectorExpansioninaLargeCollection”,FirstTextREtrievalConference(TREC-1),1993.(11)FrisseM.E,(1988).Searchingforinformationinahypertextmedicalhandbook.CommunicationsoftheACM,3I(7),pp.880-886.(12)R.Price,T.SChua,andS.Al-Hawamdeh,Applyingrelevancefeedbackonaphotoarchivalsystem.JournalofInformationScience,18:203-215,1992(13)W.Niblack,R.Barber,andW.Equitz.theqbibproject:queryingimagesbycont
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 英語三年級上冊人教版三年級英語上冊recycle1第二課時模板-英語
- 鋼鐵物流貨運車輛掛靠承運合作協(xié)議
- 生物制藥研發(fā)項目知識產(chǎn)權(quán)質(zhì)押融資合同
- 數(shù)據(jù)中心機房基礎(chǔ)設(shè)施改造與智能化升級合同
- 礦山設(shè)備工業(yè)設(shè)計專利許可與技術(shù)輸出合同
- 網(wǎng)紅飲品品牌授權(quán)與品牌推廣合作合同
- 健身俱樂部私教課程全年銷售與服務(wù)合同
- 繁華街區(qū)廣告位租賃及品牌合作宣傳協(xié)議
- 旅游度假區(qū)租賃合同(休閑娛樂)
- 新能源汽車電池租賃業(yè)務(wù)保險理賠操作規(guī)范合同
- GB/T 37356-2019色漆和清漆涂層目視評定的光照條件和方法
- GB/T 262-2010石油產(chǎn)品和烴類溶劑苯胺點和混合苯胺點測定法
- GB/T 22720.1-2017旋轉(zhuǎn)電機電壓型變頻器供電的旋轉(zhuǎn)電機無局部放電(Ⅰ型)電氣絕緣結(jié)構(gòu)的鑒別和質(zhì)量控制試驗
- 機柜間主體施工方案
- 福格行為模型
- 銀級考試題目p43測試題
- 有限空間作業(yè)及應(yīng)急物資清單
- 思想道德與法治教案第一章:領(lǐng)悟人生真諦把握人生方向
- 0-6歲兒童隨訪表
- 江西新定額2017土建定額說明及解釋
- 國家電網(wǎng)有限公司十八項電網(wǎng)重大反事故措施(修訂版)-2018版(word文檔良心出品)
評論
0/150
提交評論