圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文

上傳人：1*** IP屬地：湖北上傳時間：2024-04-25 格式：DOC 頁數(shù)：61 大小：2.73MB 積分：6 舉報 版權(quán)申訴

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第2頁

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第3頁

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第4頁

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第5頁

已閱讀5頁，還剩56頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE畢業(yè)設(shè)計（論文）說明書題目：圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計（論文）任務(wù)書題目：圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)

畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體，均已在文中作了明確的說明并表示了謝意。作者簽名：日期：指導(dǎo)教師簽名：日期：使用授權(quán)說明本人完全了解大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計（論文）的規(guī)定，即：按照學(xué)校要求提交畢業(yè)設(shè)計（論文）的印刷本和電子版本；學(xué)校有權(quán)保存畢業(yè)設(shè)計（論文）的印刷本和電子版，并提供目錄檢索與閱覽服務(wù)；學(xué)校可以采用影印、縮印、數(shù)字化或其它復(fù)制手段保存論文；在不以贏利為目的前提下，學(xué)?？梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名：日期：原始依據(jù)（包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。）隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)上的圖片信息呈爆炸式增長，這使得人們在網(wǎng)上找到所需的圖片越來越困難，圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。圖像檢索一直是信息檢索領(lǐng)域的一個主流問題，涉及到圖像處理、圖像分割、模式識別及機器學(xué)習(xí)等多個方面。檢索的智能化和自動化是圖像檢索的目標(biāo)。目前主流的圖像檢索方法大致可以分為兩大類,即基于文本的圖像檢索(TBIR)和基于內(nèi)容的圖像檢索(CBIR)。在檢索原理上，無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索，主要包括三方面：一方面對用戶需求的分析和轉(zhuǎn)化，形成可以檢索索引數(shù)據(jù)庫的提問；另一方面，收集和加工圖像資源，提取特征，分析并進行標(biāo)引，建立圖像的索引數(shù)據(jù)庫；最后一方面是根據(jù)相似度算法，計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小，提取出滿足閾值的記錄作為結(jié)果，按照相似度降序的方式輸出。而搜集圖片和建立索引又是實現(xiàn)圖像檢索技術(shù)的非常重要的一個環(huán)節(jié)。網(wǎng)絡(luò)爬蟲程序就是用來搜集網(wǎng)頁和圖片的程序。本文的研究重點在于使用網(wǎng)絡(luò)爬蟲框架Heritrix進行擴展，從網(wǎng)絡(luò)上下載所需網(wǎng)頁及圖片并利用HTMLParser進行網(wǎng)頁分析和圖片相關(guān)信息提取。完成上述工作后，再將圖片的目錄位置和提取的信息存入數(shù)據(jù)庫。并建立一個圖片檢索系統(tǒng)的Web工程，實現(xiàn)檢索功能。開發(fā)語言為Java,開發(fā)工具為MyEclipse和MySQL及Tomcat.參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明，閆宏飛，王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京：科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川：北方民族大學(xué),2010.7.陳劍雄，張蓓．簡析圖像檢索中的CBIR技術(shù)[J].情報探索（第7期）,2010.7.RafaelC.GonzalezandRichardE.Woods．DigitalImageProcessingSecondEdition[M]．PrenticeHall,2003-3．沈蘭蓀，張箐，李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京：人名郵電出版社,2008.12.周明全，耿國華，韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京：清華大學(xué)出版社，2007.7.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安：西安電子科技大學(xué)，2008.李偉，黃穎?；贖TMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期)，2007，7.設(shè)計（研究）內(nèi)容和要求（包括設(shè)計或研究內(nèi)容、主要指標(biāo)與技術(shù)參數(shù)，并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。）系統(tǒng)學(xué)習(xí)Java編程語言，熟練掌握J(rèn)ava語言的基本思想和相關(guān)的編程技術(shù)。學(xué)習(xí)并掌握機器學(xué)習(xí)、數(shù)據(jù)庫常用技術(shù)，JSP，圖像處理等相關(guān)技術(shù)。學(xué)習(xí)并掌握項目開發(fā)用到的相關(guān)工具及軟件的使用。了解圖像檢索的原理，發(fā)展，意義及用途，及圖像檢索系統(tǒng)的設(shè)計思路。了解網(wǎng)絡(luò)爬蟲的原理及工作流程，充分閱讀Heritrix的開放源代碼，會利用Heritrix從網(wǎng)上爬圖片存入數(shù)據(jù)庫。掌握正則表達式及HTMLParser等網(wǎng)頁分析方法，了解網(wǎng)頁信息提取策略、完成圖像檢索系統(tǒng)的設(shè)計和代碼開發(fā)對該系統(tǒng)進行充分的測試，并完善開發(fā)總結(jié)開發(fā)過程中所遇到的問題和心得體會指導(dǎo)教師（簽字）年月日審題小組組長（簽字）年月日天津大學(xué)本科生畢業(yè)設(shè)計（論文）開題報告課題名稱圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名王超指導(dǎo)教師于永新課題的來源及意義隨著互聯(lián)網(wǎng)的飛速發(fā)展，圖像信息應(yīng)用越來越廣泛,人們對圖形、圖像等多媒體數(shù)據(jù)的需求也越來越強烈。網(wǎng)絡(luò)上的圖片信息呈爆炸式增長，這使得人們在網(wǎng)上找到所需的圖片越來越困難，圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。國內(nèi)外發(fā)展?fàn)顩r從20世紀(jì)70年代開始，有關(guān)圖像檢索的研究就已開始，當(dāng)時主要是基于文本的圖像檢索技術(shù)（Text-basedImageRetrieval，簡稱TBIR），利用文本描述的方式描述圖像的特征，如繪畫作品的作者、年代、流派、尺寸等。到90年代以后，出現(xiàn)了對圖像的內(nèi)容語義，如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術(shù)，即基于內(nèi)容的圖像檢索(Content-basedImageRetrieval，簡稱CBIR）技術(shù)。基于內(nèi)容的圖像檢索根據(jù)圖像特征、圖像的內(nèi)容語義以及上下文聯(lián)系進行查找，以圖像語義特征為線索從圖像數(shù)據(jù)庫中檢出具有相似特性的其它圖像。因為圖像的規(guī)模一般要大于純粹的文本信息，因此，基于內(nèi)容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應(yīng)用于實踐環(huán)境的基于內(nèi)容圖像檢索系統(tǒng)，如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng)，以及由哥倫比亞大學(xué)研發(fā)的WebSeek系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng)等?；谖谋竞突趦?nèi)容是圖像檢索發(fā)展的兩個分支，不過從目前圖像檢索研究的趨勢而言，尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征——嵌入在具有文本內(nèi)容的Web文檔中，出現(xiàn)了三個不同的研究著眼點。立足于文本，對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上，因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等，不僅技術(shù)發(fā)展較為成熟，同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限，易歧義，更新慢，所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。立足于圖像內(nèi)容，對圖像進行分析和檢索。相比而言，盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法，但是要突破對低層次特征的分析，實現(xiàn)更高語義上的檢索，實現(xiàn)難度大，進展慢。不過，基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上，能夠更為客觀地反映媒體本質(zhì)的特征。結(jié)合文本和內(nèi)容，進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn)，尤其是網(wǎng)絡(luò)環(huán)境下，結(jié)合圖像所在Web文檔的特征分析，推斷圖像的特征，同時結(jié)合對圖像的內(nèi)容分析，共同標(biāo)引達到對圖像的分析和檢索?？梢哉f，三個方向都是相互影響和促進的，任何一個方向的進展都會促進圖像檢索技術(shù)向前更進一步。下一代搜索技術(shù)：2007～2009年:具有聯(lián)想技術(shù)和分析功能的搜索服務(wù)逐漸興起。在這一時期，語義搜索還沒有廣泛普及，帶有分析功能的搜索服務(wù)開始嶄露頭角，尤其是商業(yè)智能廠商提供的面向企業(yè)的信息搜索解決方案引起人們的廣泛關(guān)注。通過對博客及SNS等媒體公布的有關(guān)公司產(chǎn)品或宣傳活動的評測進行即時分析，可以為企業(yè)的市場運營提供更多有益的參考。2010～2012年:語義搜索和感性搜索技術(shù)將逐漸興起。將語義搜索用于特定領(lǐng)域或?qū)ο髸r，可以達到高度適合率和再現(xiàn)率，這一結(jié)論已經(jīng)得到實際驗證。由于有生物學(xué)驗證這一技術(shù)作基礎(chǔ)，對于感性搜索來說，提高圖像、語音、動畫數(shù)據(jù)的特征提取準(zhǔn)確度以及加快檢索速度不會花很長時間。2013年以后:階梯式搜索方法將投入使用。幫助用戶追加搜索條件、詢問搜索內(nèi)容的階梯型檢索將被搜索服務(wù)商廣泛采用。技術(shù)趨勢:在互聯(lián)網(wǎng)時代，包括文件、圖像、語音、動畫、視頻、虛擬世界等在內(nèi)的數(shù)據(jù)呈指數(shù)級增長，搜索技術(shù)顯得越來越重要。以往，搜索服務(wù)都是依據(jù)輸入的關(guān)鍵字，列出符合關(guān)鍵字的信息。未來，全新的搜索服務(wù)模式將出現(xiàn)。研究目標(biāo)，內(nèi)容研究目標(biāo)：了解圖像檢索，網(wǎng)絡(luò)爬蟲等相關(guān)技術(shù)及發(fā)展潮流。綜合運用機器學(xué)習(xí)，JSP，數(shù)據(jù)庫，圖像處理，網(wǎng)絡(luò)爬蟲等相關(guān)技術(shù)完成一個BS架構(gòu)的的圖像檢索系統(tǒng)的實現(xiàn)。研究的內(nèi)容主要有：利用網(wǎng)絡(luò)爬蟲Heritrix進行網(wǎng)頁圖片爬取，利用正則表達式和HTMLParser進行網(wǎng)頁分析和信息提取運用JSP,數(shù)據(jù)庫，strust2，Hibernate等技術(shù)實現(xiàn)圖像檢索系統(tǒng)。研究方法，手段基礎(chǔ)知識和開發(fā)工具的學(xué)習(xí)：掌握J(rèn)ava,JSP，數(shù)據(jù)庫，圖像處理等相關(guān)知識。掌握MyEclipse和MySQL的使用.理解開源爬蟲Heritrix的架構(gòu)和運行機制，學(xué)會擴展和定制自己的Heritrix.掌握HTMLParser和正則表達式等網(wǎng)頁信息提取方法運用開發(fā)工具完成界面設(shè)計和系統(tǒng)的架構(gòu)設(shè)計，并實現(xiàn)具體的框架結(jié)構(gòu)代碼。對系統(tǒng)進行測試并改進完善。實驗方案的可行性分析和已具備的實驗條件隨著圖像檢索技術(shù)的發(fā)展，目前已有不少應(yīng)用于實踐環(huán)境的圖像檢索系統(tǒng)。在實踐上具有參考性。Heritrix網(wǎng)絡(luò)爬蟲框架在經(jīng)過多年的豐富更新后更加穩(wěn)定和有效。網(wǎng)頁分析和信息提取技術(shù)也是熱門的研究話題，為實驗原理提供基礎(chǔ)為算法的編寫提供可行性證明。掌握相關(guān)技術(shù)知識后運用MyEclipse和MySQL工具即可進行開發(fā)。開發(fā)平臺穩(wěn)定且功能強大，工具的開發(fā)與設(shè)計均是可行的。進度安排2011年1月20日-2011年2月10日閱讀圖像檢索相關(guān)資料，初步了解圖像檢索的原理意義和用途；2011年2月11日-2011年3月5日完成開題報告，并深入學(xué)習(xí)實現(xiàn)一個圖像檢索系統(tǒng)的知識；2011年3月6日-2011年4月20日完成網(wǎng)頁的爬取及信息提取和檢索系統(tǒng)的初步開發(fā)；2011年4月21日-2011年5月25日完善該系統(tǒng)并測設(shè)改進，完成畢業(yè)設(shè)計論文初稿；2011年5月26日-2011年6月15日跟據(jù)導(dǎo)師意見認(rèn)真修改，校對論文初稿，最后完成論文；2011年6月16日-2011年6月21日準(zhǔn)備畢業(yè)論文答辯；參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明，閆宏飛，王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京：科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川：北方民族大學(xué),2010.7.陳劍雄，張蓓．簡析圖像檢索中的CBIR技術(shù)[J].情報探索（第7期）,2010.7.邱哲，符滔滔，王學(xué)松．開發(fā)自己的搜索引擎Lucene+Heritrix[M].北京：人民郵電出版社,2010-01．李剛.輕量級J2EE企業(yè)應(yīng)用實戰(zhàn)[M].北京：電子工業(yè)出版社,2008.11.周明全，耿國華，韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京：清華大學(xué)出版社，2007.7.沈蘭蓀，張箐，李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京：人名郵電出版社,2008.12.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安：西安電子科技大學(xué)，2008.李偉，黃穎。基于HTMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期)，2007，7.選題是否合適：是□否□課題能否實現(xiàn)：能□不能□指導(dǎo)教師（簽字）年月日選題是否合適：是□否□課題能否實現(xiàn)：能□不能□審題小組組長（簽字）年月日摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)上的圖片信息呈爆炸式增長，這使得人們在網(wǎng)上找到所需的圖片越來越困難，圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。而搜集圖片和建立索引又是實現(xiàn)圖像檢索技術(shù)的非常重要的一個環(huán)節(jié)。網(wǎng)絡(luò)爬蟲程序就是用來搜集網(wǎng)頁和圖片的程序。本文的研究重點在于使用網(wǎng)絡(luò)爬蟲框架Heritrix進行擴展，從網(wǎng)絡(luò)上下載所需網(wǎng)頁及圖片并利用HTMLParser進行網(wǎng)頁分析和圖片相關(guān)信息提取。完成上述工作后，再將圖片的目錄位置和提取的信息存入數(shù)據(jù)庫。并建立一個圖片檢索系統(tǒng)的Web工程，實現(xiàn)檢索功能。開發(fā)語言為Java,開發(fā)工具為MyEclipse和MySQL及Tomcat.關(guān)鍵詞：圖像檢索，網(wǎng)絡(luò)爬蟲，Heritrix,HTMLParser,網(wǎng)頁信息提取ABSTRACTWiththerapiddevelopmentofnetworkinformationontheexplosivegrowthofimages,whichmakesitontheInternetmoreandmoredifficulttofindtheimages,imagesearchtechnologybecomeaveryhotresearchtopic.Thecollectionofimagesandindexingforimageretrievalisaveryimportantaspect.WebcrawlerisusedtocollectWebpagesandpicturesoftheprogram.ThisstudyfocusesonusingtheHeritrixWebcrawlerframeworktoextend,fromtheInternetanddownloadwebpagesandimagesforwebuseHTMLParserinformationextractionandimageanalysis.Aftercompletionofthework,thentheimagedirectorylocationandtheextractedinformationintoadatabase.AndapictureretrievalsystemforWebprojects,toachievesearchfunction.DevelopmentlanguageforJava,andMySQLdevelopmenttoolsfortheMyEclipseandTomcat.Keywords:imageretrieval,webcrawler,Heritrix,HTMLParser,WebinformationextractionPAGE2目錄文獻綜述……………11.1圖像檢索的研究意義…………………11.2圖像檢索的國內(nèi)外發(fā)展?fàn)顩r…………11.3網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用…31.4網(wǎng)頁分析和信息提取技術(shù)……………41.5本文的研究重點，系統(tǒng)結(jié)構(gòu)和內(nèi)容……5Heritrix應(yīng)用開發(fā)擴展……………72.1Heritrix簡介……………72.1Heritrix抓取策略及改進………………92.3Heritrix抓取過程……102.3網(wǎng)頁爬結(jié)果…………13第三章HTMLParser圖片相關(guān)信息提取………………143.1HTMLParser簡介………143.2圖片信息提取策略…………………143.3圖片信息提取的實現(xiàn)方法……………153.4實驗提取結(jié)果…………17第四章圖像檢索系統(tǒng)的搭建……………184.1數(shù)據(jù)庫的建立………184.2系統(tǒng)的實現(xiàn)框架和結(jié)構(gòu)………………214.3檢索結(jié)果展示…………23第五章總結(jié)和展望………25參考文獻……………………26附錄…………27外文資料中文譯文致謝天津大學(xué)2007屆本科生畢業(yè)設(shè)計（論文）PAGE26文獻綜述1.1圖像檢索的研究意義為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)絡(luò)爬蟲應(yīng)運而生。網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。圖像檢索一直是信息檢索領(lǐng)域的一個主流問題，涉及到圖像處理、圖像分割、模式識別及機器學(xué)習(xí)等多個方面。檢索的智能化和自動化是圖像檢索的目標(biāo)。目前主流的圖像檢索方法大致可以分為兩大類,即基于文本的圖像檢索(TBIR)和基于內(nèi)容的圖像檢索(CBIR)。在檢索原理上，無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索，主要包括三方面：一方面對用戶需求的分析和轉(zhuǎn)化，形成可以檢索索引數(shù)據(jù)庫的提問；另一方面，收集和加工圖像資源，提取特征，分析并進行標(biāo)引，建立圖像的索引數(shù)據(jù)庫；最后一方面是根據(jù)相似度算法，計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小，提取出滿足閾值的記錄作為結(jié)果，按照相似度降序的方式輸出。1.2圖像檢索的國內(nèi)外發(fā)展?fàn)顩r從20世紀(jì)70年代開始，有關(guān)圖像檢索的研究就已開始，當(dāng)時主要是基于文本的圖像檢索技術(shù)（Text-basedImageRetrieval，簡稱TBIR），利用文本描述的方式描述圖像的特征，如繪畫作品的作者、年代、流派、尺寸等。到90年代以后，出現(xiàn)了對圖像的內(nèi)容語義，如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術(shù)，即基于內(nèi)容的圖像檢索(Content-basedImageRetrieval，簡稱CBIR）技術(shù)。基于內(nèi)容的圖像檢索根據(jù)圖像特征、圖像的內(nèi)容語義以及上下文聯(lián)系進行查找，以圖像語義特征為線索從圖像數(shù)據(jù)庫中檢出具有相似特性的其它圖像。因為圖像的規(guī)模一般要大于純粹的文本信息，因此，基于內(nèi)容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應(yīng)用于實踐環(huán)境的基于內(nèi)容圖像檢索系統(tǒng)，如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng)，以及由哥倫比亞大學(xué)研發(fā)的WebSeek系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng)等?；谖谋竞突趦?nèi)容是圖像檢索發(fā)展的兩個分支，不過從目前圖像檢索研究的趨勢而言，尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征——嵌入在具有文本內(nèi)容的Web文檔中，出現(xiàn)了三個不同的研究著眼點。立足于文本，對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上，因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等，不僅技術(shù)發(fā)展較為成熟，同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限，易歧義，更新慢，所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。立足于圖像內(nèi)容，對圖像進行分析和檢索。相比而言，盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法，但是要突破對低層次特征的分析，實現(xiàn)更高語義上的檢索，實現(xiàn)難度大，進展慢。不過，基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上，能夠更為客觀地反映媒體本質(zhì)的特征。結(jié)合文本和內(nèi)容，進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn)，尤其是網(wǎng)絡(luò)環(huán)境下，結(jié)合圖像所在Web文檔的特征分析，推斷圖像的特征，同時結(jié)合對圖像的內(nèi)容分析，共同標(biāo)引達到對圖像的分析和檢索?？梢哉f，三個方向都是相互影響和促進的，任何一個方向的進展都會促進圖像檢索技術(shù)向前更進一步。下一代搜索技術(shù)：2007～2009年:具有聯(lián)想技術(shù)和分析功能的搜索服務(wù)逐漸興起。在這一時期，語義搜索還沒有廣泛普及，帶有分析功能的搜索服務(wù)開始嶄露頭角，尤其是商業(yè)智能廠商提供的面向企業(yè)的信息搜索解決方案引起人們的廣泛關(guān)注。通過對博客及SNS等媒體公布的有關(guān)公司產(chǎn)品或宣傳活動的評測進行即時分析，可以為企業(yè)的市場運營提供更多有益的參考。2010～2012年:語義搜索和感性搜索技術(shù)將逐漸興起。將語義搜索用于特定領(lǐng)域或?qū)ο髸r，可以達到高度適合率和再現(xiàn)率，這一結(jié)論已經(jīng)得到實際驗證。由于有生物學(xué)驗證這一技術(shù)作基礎(chǔ)，對于感性搜索來說，提高圖像、語音、動畫數(shù)據(jù)的特征提取準(zhǔn)確度以及加快檢索速度不會花很長時間。2013年以后:階梯式搜索方法將投入使用。幫助用戶追加搜索條件、詢問搜索內(nèi)容的階梯型檢索將被搜索服務(wù)商廣泛采用。技術(shù)趨勢:在互聯(lián)網(wǎng)時代，包括文件、圖像、語音、動畫、視頻、虛擬世界等在內(nèi)的數(shù)據(jù)呈指數(shù)級增長，搜索技術(shù)顯得越來越重要。以往，搜索服務(wù)都是依據(jù)輸入的關(guān)鍵字，列出符合關(guān)鍵字的信息。未來，全新的搜索服務(wù)模式將出現(xiàn)。搜索技術(shù)的評測指標(biāo)主要有兩種：適合率和再現(xiàn)率。適合率指搜索結(jié)果中符合要求的數(shù)據(jù)比例，可以通過減少非適合數(shù)據(jù)提高這一比例。再現(xiàn)率指在所有應(yīng)該列出的適合數(shù)據(jù)中，實際檢索出的適合數(shù)據(jù)所占的比例，可以通過減少檢索遺漏提高這一比例。未來，搜索技術(shù)將朝著三個方向發(fā)展：包括聯(lián)想在內(nèi)的語義搜索，檢索圖像、語音、動畫內(nèi)容的感性搜索，通過傳感技術(shù)搜索現(xiàn)實世界對象的現(xiàn)實挖掘。2008年8月，微軟收購了一家語義搜索服務(wù)商Powerset。微軟目前正式推出的新型搜索引擎Bing就整合了Powerset的語義搜索技術(shù)。CNNIC2009年3月公布的調(diào)查報告顯示，對搜索結(jié)果不滿意的網(wǎng)友比例為35%，40%的用戶會在第一次鍵入關(guān)鍵詞的基礎(chǔ)上修正關(guān)鍵詞，72%的用戶認(rèn)為搜索結(jié)果非常凌亂。用戶如果想在互聯(lián)網(wǎng)海量信息中快速、簡便地尋找到自己想要的信息而不受干擾，需要搜索技術(shù)對檢索者的想法進行臆測。目前，人們看到的搜索結(jié)果都是參考文獻，而不是最終的答案。這是現(xiàn)有搜索技術(shù)最大的問題。但是，已經(jīng)有一些產(chǎn)品能夠?qū)畔⑦M行最初級的人為摒除，比如百度知道。當(dāng)一個人提問之后，經(jīng)過一個或多個人的回答，此人就可以找到自己所需要的信息。另外，各大廠商也在致力于實現(xiàn)真正的人機對話。以PowerSet和WolframAlpha為代表的問答式精準(zhǔn)搜索近來受到廣泛關(guān)注。GazoPa是一家成立于2008年的圖像搜索引擎供應(yīng)商。它提供的搜索圖像服務(wù)的特色在于，可以提取圖像中商品的形狀、顏色等信息。以往的圖像搜索采用的方法是，給圖像數(shù)據(jù)賦予標(biāo)簽等文本數(shù)據(jù)，當(dāng)輸入的關(guān)鍵字與文本數(shù)據(jù)相匹配時，圖像就會被檢索出來。但是，用戶使用GazoPa提供的服務(wù)，被搜索的圖像不具備文本信息，也可能被搜索到。GazoPa使用的是基于圖像內(nèi)容的檢索（Content-basedImageRetrieval，CBIR）技術(shù)。這種技術(shù)能夠?qū)D像的顏色、紋理、布局進行分析并檢索。CBIR是基于內(nèi)容檢索（CBR）的一種技術(shù)。CBR中包括了對動態(tài)視頻、音頻等其他形式多媒體信息的檢索技術(shù)。如上所述，網(wǎng)站將成為企業(yè)與客戶溝通的重要渠道，而搜索服務(wù)的質(zhì)量將成為關(guān)鍵因素。用戶在選擇服務(wù)提供商時，除了關(guān)注價格和功能指標(biāo)外，或許會更加關(guān)注服務(wù)商能否長期提供本地化的服務(wù)。1.3網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)絡(luò)爬蟲應(yīng)運而生。網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。改進后的網(wǎng)絡(luò)爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達到系統(tǒng)的某一條件時停止。另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于網(wǎng)絡(luò)爬蟲來說，這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。網(wǎng)絡(luò)爬蟲還需要解決三個主要問題：對抓取目標(biāo)的描述或定義；對網(wǎng)頁或數(shù)據(jù)的分析與過濾；對URL的搜索策略。抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。現(xiàn)有網(wǎng)絡(luò)爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種?；谀繕?biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為：預(yù)先給定的初始抓取種子樣本；預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本，如Yahoo!分類結(jié)構(gòu)等；通過用戶行為確定的抓取目標(biāo)樣例。其中，網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征，也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征，等等。1.4網(wǎng)頁分析及信息提取技術(shù)網(wǎng)絡(luò)爬蟲獲得的數(shù)據(jù)主要是HTML網(wǎng)頁，里面包含了大量的格式信息和標(biāo)記信息，在后續(xù)建立索引之前需要進行數(shù)據(jù)內(nèi)容的抽取。這就需要用到網(wǎng)頁分析及信息提取技術(shù)?；ヂ?lián)網(wǎng)上有數(shù)以億計的網(wǎng)頁，網(wǎng)頁的基本元素就是HTML語言文件。從結(jié)構(gòu)上講，HTML文件由元素組成。組成HTML文件的元素有多種，他們用于組織文件的內(nèi)容和控制文件的輸出格式。絕大多數(shù)元素是以一個其實標(biāo)記開始，一個結(jié)尾標(biāo)記結(jié)束，其實標(biāo)記和結(jié)尾標(biāo)記之間的部分是元素體。每一個元素都有名稱和一些可選的屬性，這些都在起始標(biāo)記內(nèi)標(biāo)明。HTML文件經(jīng)過瀏覽器解析后，轉(zhuǎn)換成可視化的Web頁面。搜索引擎通過網(wǎng)絡(luò)爬蟲獲取這些HTML文件后，通過程序分析其中的內(nèi)容，就可以構(gòu)造搜索了。在實際項目中，最常用的就是用正則表達式或HTMLParser來提取額網(wǎng)頁的內(nèi)容。使用HTMLParser從復(fù)雜的HTML頁面中解析出來需要的文本信息，是其中很重要的內(nèi)容。（1）正則表達式：正則表達實施功能強大的文本分析工具，在不同語言中都得到了體現(xiàn)。正則表達式是一種用來描述字符串集合的方法，通常使用一系列特殊字符形成字符串模版。正則表達式通過自定義的正則模式去精確的提取文本信息，但需要寫大量的正則表達式，編寫和調(diào)試正則表達式是一個繁瑣的過程。（2）HTMLParser:HTML是一個開源的Java庫，提供借口、支持線性和嵌套的解析HTML文本。HTML提供了提取文本信息的API，是搜索引擎開發(fā)者拜托了繁瑣的正則匹配過程，只需要通過這些API，就可以方便的提取額特定文本，打打提高工作效率。1.5本文的研究重點，系統(tǒng)結(jié)構(gòu)及內(nèi)容本文要實現(xiàn)一個BS架構(gòu)的圖像檢索系統(tǒng)，主要實現(xiàn)該檢索系統(tǒng)的網(wǎng)絡(luò)爬蟲及網(wǎng)頁信息提取部分，并建立一個簡單的Web系統(tǒng)，整合下載的網(wǎng)頁，圖片及網(wǎng)頁分析得到的文本信息形成一個圖像檢索系統(tǒng)。綜合運用java語言，圖像檢索，網(wǎng)絡(luò)爬蟲，網(wǎng)頁分析及Web開發(fā)等相關(guān)技術(shù)。系統(tǒng)結(jié)構(gòu)：圖1-1圖像檢索系統(tǒng)結(jié)構(gòu)圖本文共分為五章,其內(nèi)容是這樣安排的：，文獻綜述：介紹圖像檢索的意義，國內(nèi)外發(fā)展?fàn)顩r，以及簡要介紹相關(guān)的網(wǎng)絡(luò)爬蟲級網(wǎng)頁分析技術(shù)。，Heritrix應(yīng)用開發(fā)擴展：簡要介紹Heritrix，以及本文何擴展Hertrix的方法，網(wǎng)頁爬取的效果總結(jié)。，HTMLParser應(yīng)用開發(fā)：簡要介紹HTMLParser,以及利用HTMLparser實現(xiàn)網(wǎng)頁內(nèi)容提取的具體策略方法，及結(jié)果展示。，圖像檢索系統(tǒng)的搭建：如何建立圖片信息數(shù)據(jù)庫，Web頁面，Action及圖片檢索系統(tǒng)的實現(xiàn)和結(jié)果展示。，未來和展望：圖像檢索是非常熱門的一個研究話題。本章就圖像檢索的發(fā)展及本文待改進的地方做一個展望。Heritrix應(yīng)用開發(fā)擴展2.1Heritrix簡介開源網(wǎng)絡(luò)爬蟲Heritrix是有互聯(lián)網(wǎng)檔案館和北歐國家圖書館聯(lián)合規(guī)范化編寫于2003年初。第一次正式發(fā)布實在2004年1月。并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進。Heritrix是一個有JAVA開發(fā)的web網(wǎng)絡(luò)爬蟲，用戶可以使用它從網(wǎng)絡(luò)上抓取自己想要的資源。Heritrix最大的特色在于它的可擴展性，開發(fā)者可以擴展它的各個組件，實現(xiàn)自己的專區(qū)邏輯。Heritrix的工作是不斷循環(huán)的，具體流程是：在線程池中，選擇一個預(yù)定的URL中從選擇的URL網(wǎng)址下載遠程文件分析，歸檔下載到的內(nèi)容，寫入磁盤鏡像目錄從分析到的內(nèi)容里面根據(jù)策略選擇URL，加入預(yù)定隊列標(biāo)記已經(jīng)處理過的URL從第一步繼續(xù)進行，直到所有的URL處理結(jié)束，抓去工作結(jié)束Heritrix的操作模型：圖2-1Heritrix的模型操作圖Heritrix結(jié)構(gòu)分析：圖2-2Heritrix的組件結(jié)構(gòu)圖各個組件的作用：CrawlControllerCrawlController(中央控制器)是抓取任務(wù)的核心組件，他控制著整個抓取的流程（2）CrawlOrderCrawlOrder(抓取任務(wù))是整個抓取工作的起點，它記錄了任務(wù)的所有屬性。即在創(chuàng)建任務(wù)是的一系列設(shè)置FrontierFrontier(連接制造工廠)負責(zé)所有連接的處理，將已經(jīng)爬過的URL做標(biāo)記，并將未處理的連接放入等待隊列ToeThreadToeThread(處理線程)Heritrix使多線程的，每個UTL被一個線程處理，這個現(xiàn)成就叫做ToeThread,每個縣城都會包括一條處理連。ProcessorProcessor(處理器)代表著單個的處理器，所有的處理器都是他的子類2.2Heritrix抓取策略及改進Heritrix是使用BerkeleyDB來構(gòu)建一個鏈接隊列。這些隊列被置放于BdbMultipleWorkQueues中時，總是先給予一個Key,然后將那些Key值相同的鏈接放在一起，成為一個隊列，也就是一個Queue.但是，這個Key值到底該如何計算呢？事實上，這里說的Key值，應(yīng)該是作為一種標(biāo)識符的形式存在。也就是說，他要與URL之間有一種內(nèi)在的聯(lián)系。在Heritrix中，為每個隊列賦上值的策略，也就是它的queue-assignment-policy。在默認(rèn)的情況下，Heritrix使用的HostnameQueueAssignmentPolict來解決Key值生成的問題。這種策略其實是以鏈接的Host名稱為Key值來解決這個問題的。也就是說，相同Host名稱的所有RL都會被放置于同一個隊列中間。這種方式在很大程度上可以解決廣域網(wǎng)中信息抓取是隊列的鍵值問題。但是，他對于摸某個單獨網(wǎng)站的網(wǎng)頁抓取，就出現(xiàn)了很大的問題。以Sina的新聞網(wǎng)頁為列，其中大部分的URL都來自于Sina網(wǎng)站的內(nèi)部。因此，如果使用了HostnameQueueAssignmentPolicy,則會造成有一個隊列的長度非常長的情況，在Heritrix中，一個現(xiàn)成從一個隊列中取URL鏈接時，總是會先從隊列的頭部取出第一個鏈接，在這之后，這個被取出鏈接的隊列會進入阻塞狀態(tài)，知道待該鏈接處理完，它才會從阻塞狀態(tài)中恢復(fù)。鍵入使用HostnameQueueAssignmentPolicy策略來應(yīng)對抓取一個網(wǎng)站中內(nèi)容的情況，很有可能造成僅有一個線程在工作，而其他所有線程都在等待。這是因為那個裝有絕大多數(shù)URL連接的隊列幾乎會永遠處于阻塞狀態(tài)。因此，別的線程根本獲取不到其中的URL，在這種情況下，抓取工作會永遠處于阻塞狀態(tài)。因此，需要改變queue-assignment-policy來避免發(fā)生這種情況。改進策略：從上面的分析中可以知道，這個Keu值最重要的一點就是應(yīng)該能夠有效的將所有的URL散列到不同的隊列中，最終能使所有的隊列的長度的方差較小，在這種情況下，才能保證工作線程的最大效率。任何擴展queue-assignment-policy的默認(rèn)實現(xiàn)的類，均繼承自QueueAAssignmentPolicy并覆寫了其中的getClassKey()方法，getClassKey方法的參數(shù)為一個鏈接對象，而我們的散列算法，正是要根據(jù)這個鏈接對象來返回一個值。比如字符串的長度等，URL散列算法，最為出名的是ELFHash算法，ELFHash函數(shù)是對自負串的散列。它對長字符串和短字符串都很有效，字符串中每個字符都有同樣的作用。它巧妙的對字符的ASCII編碼值進行計算，ELFHash函數(shù)對于能夠比較均勻地把字符串分布在散列表中。這里給出MyQueueAssignmentPolicy類，他通過ELFHash算法實現(xiàn)Key值分配。 publicStringgetClassKey(CrawlControllercontroller,CandidateURIcauri){ Stringuri=cauri.getUURI().toString(); longhash=ELFHash(uri); Stringa=Long.toString(hash%100); returna; } publiclongELFHash(Stringstr){ longhash=0; longx=0; for(inti=0;i<str.length();i++){ hash=(hash<<4)+str.charAt(i); if((x=hash&0xF0000000L)!=0){ hash^=(x>>24); hash&=~x; } }}2.3Heritrix抓取過程在瀏覽器中輸入http://localhost:8080，輸入之前設(shè)置的用戶名/密碼：admin/admin，進入到Heritrix的管理界面，如圖2-3所示。因為我們還沒有創(chuàng)建抓取任務(wù)，所以Jobs顯示為0。圖2-3Heritrix登錄后的UI界面點擊“jobs”，創(chuàng)建抓取任務(wù)圖2-4Heritrix的創(chuàng)建任務(wù)，提供種子圖首先點擊“Modules”按鈕，在相應(yīng)的頁面為此次任務(wù)設(shè)置各個處理模塊，一共有七項可配置的內(nèi)容，這里我們只設(shè)置CrawlScope和Writers兩項，下面簡要介紹各項的意義。1）SelectCrawlScope：CrawlScope用于配置當(dāng)前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接。例如選擇BroadScope則表示當(dāng)前的抓取范圍不受限制，選擇HostScope則表示抓取的范圍在當(dāng)前的Host范圍內(nèi)。在這里我們選擇org.archive.crawler.scope.BroadScope，并單擊右邊的Change按鈕保存設(shè)置狀態(tài)。2）SelectURIFrontier：Frontier是一個URL的處理器，它決定下一個被處理的URL是什么。同時，它還會將經(jīng)由處理器鏈解析出來的URL加入到等待處理的隊列中去。這里我們使用默認(rèn)值。3）SelectPreProcessors：這個隊列的處理器是用來對抓取時的一些先決條件進行判斷。比如判斷robot.txt信息等，它是整個處理器鏈的入口。這里我們使用默認(rèn)值。4）SelectFetchers：這個參數(shù)用于解析網(wǎng)絡(luò)傳輸協(xié)議，比如解析DNS、HTTP或FTP等。這里我們使用默認(rèn)值。5）SelectExtractors：主要是用于解析當(dāng)前服務(wù)器返回的內(nèi)容，取出頁面中的URL，等待下次繼續(xù)抓取。這里我們使用默認(rèn)值。6）SelectWriters：它主要用于設(shè)定將所抓取到的信息以何種形式寫入磁盤。一種是采用壓縮的方式（Arc），還有一種是鏡像方式（Mirror）。這里我們選擇簡單直觀的鏡像方式：org.archive.crawler.writer.MirrorWriterProcessor。7）SelectPostProcessors：這個參數(shù)主要用于抓取解析過程結(jié)束后的掃尾工作，比如將Extrator解析出來的URL有條件地加入到待處理的隊列中去。這里我們使用默認(rèn)值。抓取過程中進度：圖2-5Heritrix抓取進度圖2.4網(wǎng)頁爬取結(jié)果在MyHeritrix工程目錄下自動生成“jobs”文件夾，包含本次抓取任務(wù)。抓取下來網(wǎng)頁以鏡像方式存放，也就是將URL地址按“/”進行切分，進而按切分出來的層次存儲。任務(wù)完成后的鏡像目錄如圖所示：圖2-6任務(wù)完成的的鏡像目錄各個文件夾下存儲的主要內(nèi)容為HTML文檔及各類格式的圖片HTMLParser圖片相關(guān)信息提取3.1HTMLParser簡介htmlparser是一個純的java寫的html解析的庫，它不依賴于其它的java庫文件，主要用于改造或提取html。它能超高速解析html，而且不會出錯?，F(xiàn)在htmlparser最新版本為2.0。htmlparser就是目前最好的html解析和分析的工具。htmlparser基本功能信息提取·文本信息抽取，例如對HTML進行有效信息搜索·鏈接提取，用于自動給頁面的鏈接文本加上鏈接的標(biāo)簽·資源提取，例如對一些圖片、聲音的資源的處理·鏈接檢查，用于檢查HTML中的鏈接是否有效·頁面內(nèi)容的監(jiān)控信息轉(zhuǎn)換·鏈接重寫，用于修改頁面中的所有超鏈接·網(wǎng)頁內(nèi)容拷貝，用于將網(wǎng)頁內(nèi)容保存到本地·內(nèi)容檢驗，可以用來過濾網(wǎng)頁上一些令人不愉快的字詞·HTML信息清洗，把本來亂七八糟的HTML信息格式化·轉(zhuǎn)成XML格式數(shù)據(jù)3.2信息提取額策略信息來源：通過分析HTML文檔找到圖片和相關(guān)的文字提取方法：不能確知網(wǎng)頁作者組織信息的方法，將最可能與某圖片相關(guān)的位置的文字作為圖片的文字描述信息常用提取模式：1<img>標(biāo)記從src獲取圖片來源從alt，title獲取相關(guān)文字信息獲得width和height，用于以后的過濾2網(wǎng)頁的標(biāo)題圖片與所在網(wǎng)頁相關(guān)，因此和網(wǎng)頁的標(biāo)題相關(guān)提取<title>下的文字。有時<title>下還會嵌套標(biāo)記，需要去除。有時 <title>使用缺省的名字（如newpage或者UntitledDocument）,需要過濾3網(wǎng)頁的meta標(biāo)記也是對網(wǎng)頁內(nèi)容的描述可以提取其中的keywords和description的值無用圖片過濾：1文件尺寸比較?。òㄩL寬和大?。├肏TML提取到的width和height，以及實際圖片的width和height2長寬比例較大3同一網(wǎng)頁內(nèi)有多個<img>引用它重要的圖片不會在一頁內(nèi)出現(xiàn)多次出現(xiàn)多次的通常是裝飾圖片4GIF和JPG圖片的區(qū)別GIF只有256色，但可動態(tài)，通常用于裝飾性圖片和廣告JPG壓縮比高，常用于存儲大尺寸文件通常情況下，JPG圖片有意義的比例要大大高于GIF3.3圖片信息提取方法的實現(xiàn)在第2章中我們抓取了大量的網(wǎng)頁及圖片。本章要從之前抓取的網(wǎng)頁中找出所需的圖片相關(guān)信息。1.首先創(chuàng)建Extractor類，定義文件的輸入，輸出路徑等成員變量及其構(gòu)造方法，并定義圖片拷貝函數(shù)booleancopyImage(),返回一個布爾量，通過對從HTML解析出的圖片URL可在mirror目錄下對應(yīng)位置找到相應(yīng)的圖片，且圖片大小足夠大（為有效圖片）則為True，如果在mirror目錄下對應(yīng)位置圖片沒有找到或找到了圖片但圖片不符合要求（圖片太小等）則為False2繼承Extractor類，并添加3個主要函數(shù)：voidgetNetInfo()獲取網(wǎng)頁<title>中的文本信息獲取含description元素的<meta>標(biāo)簽下的文本信息獲取含keywords元素的<meta>標(biāo)簽下的文本信息NodeFiltertitle_filter=newTagNameFilter("title");NodeFilterkeyword_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Keywords"), newHasAttributeFilter("name","keywords")));NodeFilterdescription_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Description"), newHasAttributeFilter("name","description")));title=getProp("<title[^<>]*>(.*)<[^<>]*>",this.getParser().parse(title_filter).elementAt(0).toHtml(),1);先是通過TagNameFilter獲得標(biāo)簽名為title的標(biāo)簽節(jié)點，然后調(diào)用getProp函數(shù)匹配一個正則表達式獲得title中的文本信息。主要通過AndFilter來獲取標(biāo)簽名為meta且含description元素的標(biāo)簽節(jié)點（這里用了一個OrFilter來匹配description或Description）。同理可獲得標(biāo)簽名為meta且含keywords元素的標(biāo)簽節(jié)點，然后調(diào)用getProp函數(shù)匹配相應(yīng)的正則表達式獲得其相應(yīng)文本。（2）voidgetImgTag(NodeFilterimg_filter)獲取<img>標(biāo)簽中src元素內(nèi)容獲取<img>標(biāo)簽中alt元素內(nèi)容獲取<img>標(biāo)簽中title元素內(nèi)容獲取<img>標(biāo)簽中width元素內(nèi)容獲取<img>標(biāo)簽中height元素內(nèi)容Stringimage_src=getProp("<img[^<>]*src=\"([^\"]*)\"[^>]*>", image_nodes.elementAt(i).toHtml(),1);調(diào)用copyImage(imge_src,new_image_file)，如果返回True將得到的<img>標(biāo)簽中的sec.alt,title,width,height以及網(wǎng)頁<title>標(biāo)簽中的內(nèi)容,及<meta>標(biāo)簽description和keywords的內(nèi)容寫入輸出文件中。voidgetImgInfo()獲取圖片周圍信息，遍歷需尋找含該<img>標(biāo)簽的第一個父<div>節(jié)點獲取該<div>節(jié)點內(nèi)的文本信息3.4圖片解析提取結(jié)果將所有有效圖片的title，keywords，url等相關(guān)信息全部以.txt文檔的形式存儲到指定目錄下，如圖所示：圖3-1解析的的.txt文檔圖像檢索系統(tǒng)的搭建4.1數(shù)據(jù)庫的建立本文采用MySQL建立數(shù)據(jù)庫，并應(yīng)用Hibernate技術(shù)管理Java類到數(shù)據(jù)庫表的映射（包括Java數(shù)據(jù)類型到SQL數(shù)據(jù)類型的映射）MySQL是一個小型關(guān)系型數(shù)據(jù)庫管理系統(tǒng)，開發(fā)者為瑞典MySQLAB公司。在2008年1月16號被Sun公司收購。而2009年，SUN又被Oracle收購。對于Mysql的前途，沒有任何人抱樂觀的態(tài)度。目前MySQL被廣泛地應(yīng)用在Internet上的中小型網(wǎng)站中。由于其體積小、速度快、總體擁有成本低，尤其是開放源碼這一特點，許多中小型網(wǎng)站為了降低網(wǎng)站總體擁有成本而選擇了MySQL作為網(wǎng)站數(shù)據(jù)庫。Hibernate是一個開放源代碼的對象關(guān)系映射框架，它對JDBC進行了非常輕量級的對象封裝，使得Java程序員可以隨心所欲的使用對象編程思維來操縱數(shù)據(jù)庫。Hibernate可以應(yīng)用在任何使用JDBC的場合，既可以在Java的客戶端程序使用，也可以在Servlet/JSP的Web應(yīng)用中使用，最具革命意義的是，Hibernate可以在應(yīng)用EJB的J2EE架構(gòu)中取代CMP，完成數(shù)據(jù)持久化的重任。Hebernate是輕量級JavaEE應(yīng)用的持久層解決方案，可以大幅度縮短使用JDBC處理數(shù)據(jù)持久化的時間。目前的主流數(shù)據(jù)庫依然是關(guān)系數(shù)據(jù)庫，而Java語言則是面向?qū)ο蟮木幊陶Z言，當(dāng)把二者結(jié)合在一起使用是相當(dāng)麻煩，而Hibernate則減少了這個問題的困擾，他完成對象模型和基于SQL的關(guān)系模型的影射關(guān)系。ORM的全程是Obiger/RelationMapping,對象/關(guān)系數(shù)據(jù)庫映射。ORM可理解成一種規(guī)范，他概述了這類框架的基本特征：完成面向?qū)ο蟮木幊陶Z言到關(guān)系數(shù)據(jù)庫的映射。當(dāng)ORM框架完成映射后，即可利用面向?qū)ο蟪绦蛟O(shè)計語言的簡單易用性，又可利用關(guān)系數(shù)據(jù)庫的技術(shù)優(yōu)勢。因此，我們可把ORM框架當(dāng)成應(yīng)用程序和數(shù)據(jù)庫的橋梁。數(shù)據(jù)哭的發(fā)展并未與程序設(shè)計語言同步，而且關(guān)系數(shù)據(jù)庫系統(tǒng)的某些優(yōu)勢也是面向?qū)ο蟮恼Z言目前無法比擬的。比如：大量數(shù)據(jù)查找，排序。集合數(shù)據(jù)連接操作，映射。數(shù)據(jù)庫訪問的并發(fā)，事物。數(shù)據(jù)庫的余數(shù)，隔離。面對著用面向?qū)ο笳Z言與關(guān)系數(shù)據(jù)庫系統(tǒng)并存的局面，采用ORM就變成一種必然。只要我們還是采用面向?qū)ο蟪绦蛟O(shè)計語言，底層依然采用關(guān)系數(shù)據(jù)庫，中間就少不了ORM工具。當(dāng)我們采用ORM框架之后，應(yīng)用程序不再直接訪問底層數(shù)據(jù)庫，而是以面向?qū)ο蟮姆绞絹聿僮鞒志没瘜ο螅ɡ鐒?chuàng)建，修改，刪除等），而ORM框架則將這些面向?qū)ο蟮牟僮鬓D(zhuǎn)化成底層的SQL操作。ORM工具示意圖：圖4-1ORM工具示意圖數(shù)據(jù)表中的記錄行對應(yīng)持久化對象：圖4-2記錄對應(yīng)持久化對象基于這種基本的映射方式，ORM工具可完成對象模型和關(guān)系模型之前的相互映射。由此課件在ORM框架中，持久化對象是一種中間媒介，應(yīng)用程序只需操作持久化對象，ORM框架則負責(zé)將這種操作轉(zhuǎn)換為底層數(shù)據(jù)庫操作——這種轉(zhuǎn)換對開發(fā)者透明，無需開發(fā)正關(guān)心。從而將開發(fā)者從關(guān)系模型中釋放出來，使得開發(fā)者能以面向?qū)ο蟮乃季S操作關(guān)系數(shù)據(jù)庫。首先，建立ImgK類，定義name,keyW,url等成員變量機器get,set方法。仔細看這個類的代碼，無法發(fā)現(xiàn)這個類與普通的JavaBean有任何區(qū)別。實際上，Hibernate直接采用了POJO(普通，傳統(tǒng)Java對象)作為PO(PersistentObject,持久化對象)，這就是Hibernate被稱為低侵入式設(shè)計的原因，Hibernate不要求持久化類繼承任何父類，或者實現(xiàn)任何借口，這樣可保證代碼不被污染。這個普通的JavaBean目前不具備持久化操作的能力，為了時期具備持久化操作的能力，Hibernare采用XML映射文件。PO=POJO+映射文件然后建立一個連接數(shù)據(jù)庫的持久化操作類HibernateUtil獲取Configuration獲取SessionFactory獲取Session，打開事務(wù)用面向?qū)ο蟮姆绞讲僮鲾?shù)據(jù)庫關(guān)閉事務(wù)接著通過MySQL建立一個空的數(shù)據(jù)庫img_search，運行該持久化操作類，然后就可發(fā)現(xiàn)img_search數(shù)據(jù)庫中多了一個新表imgK然后建立一個插入每一條數(shù)據(jù)的類dbInsert其為代碼如下：1判斷1個文件是否是文件夾2如果是，則讀取目錄下的每一個文件3如果不是，則判斷是否為.txt文件4如果是，則讀取里面的內(nèi)容分別按Name,keyW,url存入數(shù)據(jù)庫5繼續(xù)第一步運行后，就會將第三章中得到的文本文件中的信息提取插入數(shù)據(jù)庫中。在以后的操作中不需對數(shù)據(jù)庫中記錄進行操作，而對ImgK類的實例進行操作即可得到數(shù)據(jù)庫中的信息。數(shù)據(jù)庫結(jié)果如圖：圖4-3數(shù)據(jù)庫記錄展示4.2系統(tǒng)實現(xiàn)的框架和結(jié)構(gòu)在數(shù)據(jù)庫建立好之后就要建立基本的JSP頁面和相應(yīng)的操作邏輯。系統(tǒng)框架采用JSP+Struts2+HibernateStruts2應(yīng)用開發(fā)步驟：在web.xml文件中定義Servlet或Filter攔截用戶請求，通常這個Servlet或Filter是該框架的核心，負責(zé)攔截所有用戶請求。如果需要以POST方式提交請求，則定義包含表單數(shù)據(jù)的JSP頁面。如果僅僅只是以GET方式發(fā)送請求，則無需經(jīng)過這一點。定義處理用戶請求的Action類。配置Action。指定請求對應(yīng)的Action處理方法。配置處理結(jié)果和物理視圖資源之間的對應(yīng)關(guān)系。Struts2流程圖：圖4-4Struts2流程圖工程建立簡要步驟：1建立分頁用的javaBean類PageBean.java定義相關(guān)成員函數(shù)及變量（當(dāng)前頁，總頁數(shù)，總記錄數(shù)，當(dāng)前記錄數(shù)等）2建立基本的Action類KeySearchAction.java定義從頁面獲得的信息及到跳轉(zhuǎn)頁面要傳遞的信息變量及主要的邏輯函數(shù)StringjumpPage(),其中調(diào)用Service類中KeySearchService.java中findImageByKey(PAGE_SIZE,page,keyW)方法查詢一定數(shù)量（一個分頁頁面要顯示的數(shù)量）的符合匹配關(guān)鍵詞條件的圖片。3建立PageBreakService.java文件定義分頁用的Service類，處理當(dāng)前頁，頁面總數(shù)，總頁數(shù)，總記錄數(shù)等參數(shù)。然后建立KeySearchService.java文件繼承PageBreakService，并添加一個findImageByKey()方法執(zhí)行關(guān)鍵詞查找的HQL語句.Stringhql="fromImgKwherekeyWlike'%"+keyW+"%'";這樣，這個圖像檢索系統(tǒng)的基本文件已經(jīng)建立好了，接下來打開網(wǎng)頁輸入本地網(wǎng)址及相應(yīng)端口號和工程名及JSP頁面http://localhost:8080/ImageSearch/index.jsp圖4-5圖像檢索系統(tǒng)HomePageUI其中高級是一個空連接，為以后的基于語義的圖像檢索的開發(fā)做一個接口輸入關(guān)鍵字，點擊“搜一下”，即可按關(guān)鍵詞從數(shù)據(jù)庫中查詢結(jié)果。4.3檢索結(jié)果展示圖4-6檢索結(jié)果展示圖4-7分頁跳轉(zhuǎn)功能實驗結(jié)果分析：總結(jié)和展望隨著Web技術(shù)的普及和信息技術(shù)的發(fā)展，推廣與應(yīng)用，以圖像，聲音和視頻為主的多媒體信息迅速成為信息交流和服務(wù)的主流，現(xiàn)代信息處理的對象和方法有了很大的變化，大量何種類型的信息在全球得到了采集，傳播，流通和應(yīng)用。人們正快速進入一個信息化的社會。由于大規(guī)模圖像數(shù)據(jù)庫的出現(xiàn)和應(yīng)用，每天都有大量額度圖像信息在不斷的生產(chǎn)（如衛(wèi)星，醫(yī)療，安全部門），這就迫切需要性能良好的檢索工具，能夠根據(jù)圖像的視覺特征和語義信息，從圖像庫中檢索所需的圖像，而傳統(tǒng)的基于關(guān)鍵字的信息查詢方法（IR技術(shù)）不能有效的支持多媒體信息的查詢和檢索。如何組織，表達，存儲，管理，查詢和檢索這些海量的數(shù)據(jù)，是對傳統(tǒng)數(shù)據(jù)庫技術(shù)的一個重大挑戰(zhàn)，如果沒有對圖像及視頻數(shù)據(jù)的自動和有效的描述，大量信息將淹沒在信息的海洋之中，無法在需要的時候被檢索出來，因此，如何將數(shù)字圖像處理，模式識別技術(shù)，計算機視覺技術(shù)與傳統(tǒng)的數(shù)據(jù)庫技術(shù)結(jié)合起來，建立高效的圖像檢索機制就成為目前迫切需要解決的問題，而基于內(nèi)容的圖像檢索技術(shù)便是解決這一問題的關(guān)鍵。本文基本完成了對一個圖像檢索系統(tǒng)的構(gòu)建，從利用網(wǎng)絡(luò)爬蟲爬取圖片和相關(guān)網(wǎng)頁，對爬下來的網(wǎng)頁進行分析，對圖片相關(guān)信息的提取，圖片數(shù)據(jù)庫的建立一直到圖像檢索Web系統(tǒng)的搭建。但本文還存在一些不足。首先是圖片周圍文字信息的提取不夠充分，有效。在對大量的實驗結(jié)果分析中表明仍有一些應(yīng)過濾的信息沒有過濾掉。現(xiàn)在還沒有找到很好的算法能統(tǒng)一解決不同模式網(wǎng)頁的有效解析。只能將覆蓋面縮小，以求盡可能準(zhǔn)確，但放掉了部分有用信息。根據(jù)圖片檢索技術(shù)的發(fā)展趨勢，未來基于文本的圖像檢索技術(shù)將越來越受到關(guān)注，尤其是基于語義的圖像檢索技術(shù)的發(fā)展?jié)摿κ蔷薮蟮摹１疚闹皇菍崿F(xiàn)了圖像檢索技術(shù)中傳統(tǒng)的基于文本的部分。以及圖像檢索技術(shù)中的網(wǎng)頁圖片爬去及數(shù)據(jù)庫的建立部分?？傊?，在未來的后續(xù)工作中，如何更好的對網(wǎng)頁進行解析和如何較好的利用圖像的物理和語義特征描述圖像，獲得更全面的文字信息及圖像語義特征，構(gòu)建更完善的圖像檢索系統(tǒng)是未來的努力方向。這項有意義的挑戰(zhàn)還有很多路要走，還有很多理論要研究，還有很多技術(shù)要實現(xiàn)。參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明，閆宏飛，王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京：科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川：北方民族大學(xué),2010.7.陳劍雄，張蓓．簡析圖像檢索中的CBIR技術(shù)[J].情報探索（第7期）,2010.7.邱哲，符滔滔，王學(xué)松．開發(fā)自己的搜索引擎Lucene+Heritrix[M].北京：人民郵電出版社,2010-01．李剛.輕量級J2EE企業(yè)應(yīng)用實戰(zhàn)[M].北京：電子工業(yè)出版社,2008.11.周明全，耿國華，韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京：清華大學(xué)出版社，2007.7.沈蘭蓀，張箐，李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京：人名郵電出版社,2008.12.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安：西安電子科技大學(xué)，2008.李偉，黃穎?；贖TMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期)，2007，7.外文資料ImageRetrieval:Ideas,Influences,andTrendsoftheNewAgeRITENDRADATTA,DHIRAJJOSHI,JIALI,andJAMESZ.WANGThePennsylvania天津大學(xué)2007屆本科生畢業(yè)設(shè)計（論文）PAGE18中文譯文圖像檢索：思想，影響，以及新時代的趨勢當(dāng)尼爾斯玻爾亨里克大衛(wèi)說：“沒有人能用語言將你所想的表達得更清楚”時，每個人都在猜測這究竟意味著什么。鑒于目前的討論情況，一想到這個著名的引用所表達的是，在有時些時候和情況下，當(dāng)我們思考一下我們的想法時，卻無法用詞匯準(zhǔn)確表達這一想法。舉個實例，希望從集合找到一個完美的圖像。企圖表達什么使圖像“完美”，最終可能低估了圖像的美。從某種意義上說，比起使用文本描述。從集合中找出這樣的圖片可能會更容易。我們組織東西是與生俱來的。多年來，我們了解到，這是一個取得進展的關(guān)鍵。數(shù)百年來，不同語言的文本已被設(shè)置為了有效檢索，無論是古代圖像或是現(xiàn)代數(shù)字圖像。但是，當(dāng)涉及到組織圖片，人在傳統(tǒng)上，勝過大多數(shù)執(zhí)行任務(wù)的機器。原因之一，造成這一區(qū)別的是，文字是人類的創(chuàng)造，而典型的圖像是一個單純的人類制造物，這些都是比較難以實現(xiàn)的具體描述。除此之外，還有理論認(rèn)為，人類視覺系統(tǒng)已經(jīng)發(fā)展了幾百年。當(dāng)然，我們所看到的解釋是很難的，更難教一臺機器。然而，在過去的十年中，雄心勃勃的嘗試，已作出讓計算機學(xué)會理解，索引和注釋圖片，代表一個廣泛概念，且范圍很大的進展。基于內(nèi)容的圖像檢索（CBIR的），正如我們今天看到的，是幫住組織其視頻內(nèi)容的數(shù)字圖片技術(shù)，按照這個定義，任何東西，從相似的功能包括圖像到充滿活力的形象注解發(fā)動機屬于職權(quán)范圍內(nèi)的圖像檢索。這種基于內(nèi)容作為一個研究領(lǐng)域在一個獨特的地方特征在科學(xué)界的時刻了。雖然我們在繼續(xù)努力解決問題，我們也看到來自不同領(lǐng)域的成就，例如，計算機視覺，機器學(xué)習(xí)，信息檢索，人機交互，數(shù)據(jù)庫系統(tǒng)，Web和數(shù)據(jù)挖掘，信息，人員理論，統(tǒng)計學(xué)，心理學(xué)，為圖像檢索做出共獻[Wangetal.2006]。此外，橫向之間的一些研究的一些空白的區(qū)正在逐步縮小作為副產(chǎn)品帶來的貢獻，其影響最終也可能超越CBIR的。同樣，我們今天看到的是一些跨領(lǐng)域在可預(yù)見的未來很可能成為新的研究領(lǐng)域。由這個圖可以看到GoogleScholar可以檢索到一個科目的最新研究狀況，這是一個很有用的數(shù)據(jù)，附上這樣一幅圖，那么可以更好的將國內(nèi)外的研究狀況做一個分析。一，早期圖像檢索在1994-2000年可以被看作是研究和開發(fā)的初期階段的圖像檢索的內(nèi)容。在這一階段取得了高水平的的進展。[2000]，這已經(jīng)對在當(dāng)前十年取得進展及有明確的影響，并無疑將繼續(xù)影響未來的工作。因此，我們提供有關(guān)在描述新時代圖像檢索的想法，影響，以及早期幾年的趨勢摘要（其中很大一部分源于那些調(diào)查）。為了做到這一點，我們首先介紹有關(guān)各種定義和相關(guān)的大多數(shù)問題。--感知鴻溝，現(xiàn)實物體和我們對世界的感知差距--語義鴻溝，人們從視覺數(shù)據(jù)中抽取的信息和某個用戶在特定情況下對相同數(shù)據(jù)的描述缺乏一致性。雖然前者使得從圖像內(nèi)容識別挑戰(zhàn)由于在錄音的限制，后者本質(zhì)上是如何捕捉他們的視覺內(nèi)容中的圖片和用戶??的解釋問題。我們將繼續(xù)簡要總結(jié)早年主要貢獻及處理這些鴻溝的方法。圖像搜索領(lǐng)域被歸類為狹義和廣義，這仍然是一個用于系統(tǒng)設(shè)計的目的非常重要的區(qū)別。如上所述，通常狹義圖像域有限變異和較清晰的視覺特征（如航空相關(guān)的圖片[Airliners.Net2005]），這使得基于內(nèi)容的圖像搜索稍微有點比較容易形成。另一方面，廣泛的領(lǐng)域往往具有很高的變異性及不可預(yù)測性相同的基本語義概念（例如，Web圖像），這使推廣更有挑戰(zhàn)性。正如Huijsmans和Sebe[2005]提到的，狹義和廣義域也構(gòu)成的圖像搜索評價的一個問題，必須為標(biāo)準(zhǔn)的評價指標(biāo)的一致性作出適當(dāng)?shù)男薷?。該調(diào)查還列出了三個圖片搜索類別：(1)searchbyassociation聯(lián)合搜索，對于一副圖像沒有明確的意圖，而是通過反復(fù)提煉瀏覽進行搜索(2)aimedsearch有目的的搜索，搜索特定的圖片(3)categorysearch分類搜索，搜索一個語義類的單個圖片代表還討論了不同類型的領(lǐng)域知識，可以幫助減少在圖片搜索感覺差距。其中值得注意的是語法，感性的，和拓撲相似性的概念。因此，總的目標(biāo)仍然是縮小語義和感官鴻溝，利用現(xiàn)有的相關(guān)領(lǐng)域知識的視覺特征的圖像，并支持不同的搜索類別，最終滿足一般用戶。我們討論和擴展其中的一些想法。在調(diào)查中，從圖像抽取視覺內(nèi)容分為兩個部分：圖像處理和特征重建。這里的問題是用什么功能來提取，這將有助于執(zhí)行有意義的檢索。在文中，搜索已被描述為一個最小不變情況的模式下，用戶意圖減少因意外的扭曲、雜波、閉塞所造成的感知鴻溝。紋理的關(guān)鍵貢獻，抽象規(guī)范已經(jīng)進行了討論。其中最早的顏色直方圖的圖像索引的使用是在斯溫和Ballard[1991]。隨后，特征，如QBIC[Flickner等系統(tǒng)提取。1995]，Pictoseek[格弗斯和Smeulders2000]，及VisualSEEK[史密斯和張1997年b]。在色彩恒常性，也就是在相同的環(huán)境變化中感知顏色進行了創(chuàng)新，并考慮到[芬利森1996]鏡面反射和形狀。在黃等人[1999]提出了相關(guān)圖的顏色直方圖，也考慮到了顏色的空間分布。Gabor濾波器被成功地用于對局部形狀匹配和檢索在Manjunath和馬[1996]。Daubechies小波變換被用來改善顏色布局的WBIIS制度[王等人的特征提取。1998]。圖像檢索[施密德和Mohr1997]閉塞不變應(yīng)十分注意地方特色為手段，以彌補當(dāng)?shù)匮a丁的顯著特征[Tuytelaars和vanGool1999]感官gap.Work發(fā)現(xiàn)突出的領(lǐng)域，如圖像檢索和立體匹配。知覺組織的圖像，因為它識別圖片中的對象是重要的，也是一個非常具有挑戰(zhàn)性的問題。它一直在強/弱分割（數(shù)據(jù)驅(qū)動的分組），分區(qū)分類調(diào)查（數(shù)據(jù)無關(guān)的分組，例如，固定圖像塊），并簽署地點（分組基于固定模板）。已經(jīng)在圖像分割領(lǐng)域取得了重大進展，例如，朱和尤爾[1996]，其中snake-和region日益增長的想法是一個原則性的框架內(nèi)結(jié)合，施和馬利克[2000]，其中譜圖分割應(yīng)用了這一目的。從形狀和形狀分類來滿足需求。在德爾Bimbo和帕拉[1997]，圖像彈性匹配成功地應(yīng)用于草圖為基礎(chǔ)的圖像檢索。圖片具有多尺度輪廓模型的代表性，研究了Mokhtarian[1995]。用圖的空間來表示對象之間的關(guān)系，特別是對面向醫(yī)療成像，在Petrakis和Faloutsos[1997]探討。在史密斯和張[1997年a]，二維字符串[昌等人。1987]被用來表征各區(qū)域之間的空間關(guān)系。一種自動特征選擇方法，提出了在Swets和翁[1996]。在Smeulders等。[2000]，視覺內(nèi)容描述的主題是結(jié)束時的優(yōu)點和圖像分割問題的討論，以及采取的方法，可避免強大的分割，同時仍然很好地刻畫形象結(jié)構(gòu)的圖像檢索。在當(dāng)前的十年中，許多地區(qū)為基礎(chǔ)的圖像檢索方法已經(jīng)提出不依賴強大的分割。我們討論了特征提取和其他新的創(chuàng)新。一旦圖像特征被抽取，問題將改變成為他們?nèi)绾伪辉诓煌臋z索過程從被索引和匹配。這些方法主要目的是盡量減低盡可能的語義鴻溝，有時減少感官的差距，以及在這一進程。相似的措施，歸納為基于特征的匹配（例如，斯溫和Ballard[1991]），對象的輪廓為基礎(chǔ)的匹配（例如，德爾Bimbo和帕拉[1997]），結(jié)構(gòu)特征匹配（即分層排列功能集，例如，威爾遜和漢考克[1997]），顯著特征匹配（例如，幾何散列沃爾夫森和Rigoutsos[1997]），在語義級別（例如，費金[1997]）匹配，和學(xué)習(xí)為基礎(chǔ)的做法相似匹配（例如，吳等人。[2000]和Webe等。[2000]）。緊密聯(lián)系在一起的相似性措施是如何模擬用戶

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文

文檔簡介

溫馨提示

最新文檔

評論

圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔