圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第1頁
圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第2頁
圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第3頁
圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第4頁
圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)本科生畢業(yè)設(shè)計論文_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE畢業(yè)設(shè)計(論文)說明書題目:圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計(論文)任務(wù)書題目:圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)

畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體,均已在文中作了明確的說明并表示了謝意。作者簽名:日期:指導(dǎo)教師簽名:日期:使用授權(quán)說明本人完全了解大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)校可以采用影印、縮印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)??梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名:日期:原始依據(jù)(包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。)隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的圖片信息呈爆炸式增長,這使得人們在網(wǎng)上找到所需的圖片越來越困難,圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。圖像檢索一直是信息檢索領(lǐng)域的一個主流問題,涉及到圖像處理、圖像分割、模式識別及機器學(xué)習(xí)等多個方面。檢索的智能化和自動化是圖像檢索的目標(biāo)。目前主流的圖像檢索方法大致可以分為兩大類,即基于文本的圖像檢索(TBIR)和基于內(nèi)容的圖像檢索(CBIR)。在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面,收集和加工圖像資源,提取特征,分析并進行標(biāo)引,建立圖像的索引數(shù)據(jù)庫;最后一方面是根據(jù)相似度算法,計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小,提取出滿足閾值的記錄作為結(jié)果,按照相似度降序的方式輸出。而搜集圖片和建立索引又是實現(xiàn)圖像檢索技術(shù)的非常重要的一個環(huán)節(jié)。網(wǎng)絡(luò)爬蟲程序就是用來搜集網(wǎng)頁和圖片的程序。本文的研究重點在于使用網(wǎng)絡(luò)爬蟲框架Heritrix進行擴展,從網(wǎng)絡(luò)上下載所需網(wǎng)頁及圖片并利用HTMLParser進行網(wǎng)頁分析和圖片相關(guān)信息提取。完成上述工作后,再將圖片的目錄位置和提取的信息存入數(shù)據(jù)庫。并建立一個圖片檢索系統(tǒng)的Web工程,實現(xiàn)檢索功能。開發(fā)語言為Java,開發(fā)工具為MyEclipse和MySQL及Tomcat.參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明,閆宏飛,王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川:北方民族大學(xué),2010.7.陳劍雄,張蓓.簡析圖像檢索中的CBIR技術(shù)[J].情報探索(第7期),2010.7.RafaelC.GonzalezandRichardE.Woods.DigitalImageProcessingSecondEdition[M].PrenticeHall,2003-3.沈蘭蓀,張箐,李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京:人名郵電出版社,2008.12.周明全,耿國華,韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.7.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安:西安電子科技大學(xué),2008.李偉,黃穎?;贖TMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期),2007,7.設(shè)計(研究)內(nèi)容和要求(包括設(shè)計或研究內(nèi)容、主要指標(biāo)與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。)系統(tǒng)學(xué)習(xí)Java編程語言,熟練掌握J(rèn)ava語言的基本思想和相關(guān)的編程技術(shù)。學(xué)習(xí)并掌握機器學(xué)習(xí)、數(shù)據(jù)庫常用技術(shù),JSP,圖像處理等相關(guān)技術(shù)。學(xué)習(xí)并掌握項目開發(fā)用到的相關(guān)工具及軟件的使用。了解圖像檢索的原理,發(fā)展,意義及用途,及圖像檢索系統(tǒng)的設(shè)計思路。了解網(wǎng)絡(luò)爬蟲的原理及工作流程,充分閱讀Heritrix的開放源代碼,會利用Heritrix從網(wǎng)上爬圖片存入數(shù)據(jù)庫。掌握正則表達式及HTMLParser等網(wǎng)頁分析方法,了解網(wǎng)頁信息提取策略、完成圖像檢索系統(tǒng)的設(shè)計和代碼開發(fā)對該系統(tǒng)進行充分的測試,并完善開發(fā)總結(jié)開發(fā)過程中所遇到的問題和心得體會指導(dǎo)教師(簽字)年月日審題小組組長(簽字)年月日天津大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告課題名稱圖像檢索系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名王超指導(dǎo)教師于永新課題的來源及意義隨著互聯(lián)網(wǎng)的飛速發(fā)展,圖像信息應(yīng)用越來越廣泛,人們對圖形、圖像等多媒體數(shù)據(jù)的需求也越來越強烈。網(wǎng)絡(luò)上的圖片信息呈爆炸式增長,這使得人們在網(wǎng)上找到所需的圖片越來越困難,圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。國內(nèi)外發(fā)展?fàn)顩r從20世紀(jì)70年代開始,有關(guān)圖像檢索的研究就已開始,當(dāng)時主要是基于文本的圖像檢索技術(shù)(Text-basedImageRetrieval,簡稱TBIR),利用文本描述的方式描述圖像的特征,如繪畫作品的作者、年代、流派、尺寸等。到90年代以后,出現(xiàn)了對圖像的內(nèi)容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術(shù),即基于內(nèi)容的圖像檢索(Content-basedImageRetrieval,簡稱CBIR)技術(shù)。基于內(nèi)容的圖像檢索根據(jù)圖像特征、圖像的內(nèi)容語義以及上下文聯(lián)系進行查找,以圖像語義特征為線索從圖像數(shù)據(jù)庫中檢出具有相似特性的其它圖像。因為圖像的規(guī)模一般要大于純粹的文本信息,因此,基于內(nèi)容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應(yīng)用于實踐環(huán)境的基于內(nèi)容圖像檢索系統(tǒng),如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng),以及由哥倫比亞大學(xué)研發(fā)的WebSeek系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng)等?;谖谋竞突趦?nèi)容是圖像檢索發(fā)展的兩個分支,不過從目前圖像檢索研究的趨勢而言,尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征——嵌入在具有文本內(nèi)容的Web文檔中,出現(xiàn)了三個不同的研究著眼點。立足于文本,對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上,因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等,不僅技術(shù)發(fā)展較為成熟,同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限,易歧義,更新慢,所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。立足于圖像內(nèi)容,對圖像進行分析和檢索。相比而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進展慢。不過,基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上,能夠更為客觀地反映媒體本質(zhì)的特征。結(jié)合文本和內(nèi)容,進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn),尤其是網(wǎng)絡(luò)環(huán)境下,結(jié)合圖像所在Web文檔的特征分析,推斷圖像的特征,同時結(jié)合對圖像的內(nèi)容分析,共同標(biāo)引達到對圖像的分析和檢索??梢哉f,三個方向都是相互影響和促進的,任何一個方向的進展都會促進圖像檢索技術(shù)向前更進一步。下一代搜索技術(shù):2007~2009年:具有聯(lián)想技術(shù)和分析功能的搜索服務(wù)逐漸興起。在這一時期,語義搜索還沒有廣泛普及,帶有分析功能的搜索服務(wù)開始嶄露頭角,尤其是商業(yè)智能廠商提供的面向企業(yè)的信息搜索解決方案引起人們的廣泛關(guān)注。通過對博客及SNS等媒體公布的有關(guān)公司產(chǎn)品或宣傳活動的評測進行即時分析,可以為企業(yè)的市場運營提供更多有益的參考。2010~2012年:語義搜索和感性搜索技術(shù)將逐漸興起。將語義搜索用于特定領(lǐng)域或?qū)ο髸r,可以達到高度適合率和再現(xiàn)率,這一結(jié)論已經(jīng)得到實際驗證。由于有生物學(xué)驗證這一技術(shù)作基礎(chǔ),對于感性搜索來說,提高圖像、語音、動畫數(shù)據(jù)的特征提取準(zhǔn)確度以及加快檢索速度不會花很長時間。2013年以后:階梯式搜索方法將投入使用。幫助用戶追加搜索條件、詢問搜索內(nèi)容的階梯型檢索將被搜索服務(wù)商廣泛采用。技術(shù)趨勢:在互聯(lián)網(wǎng)時代,包括文件、圖像、語音、動畫、視頻、虛擬世界等在內(nèi)的數(shù)據(jù)呈指數(shù)級增長,搜索技術(shù)顯得越來越重要。以往,搜索服務(wù)都是依據(jù)輸入的關(guān)鍵字,列出符合關(guān)鍵字的信息。未來,全新的搜索服務(wù)模式將出現(xiàn)。研究目標(biāo),內(nèi)容研究目標(biāo):了解圖像檢索,網(wǎng)絡(luò)爬蟲等相關(guān)技術(shù)及發(fā)展潮流。綜合運用機器學(xué)習(xí),JSP,數(shù)據(jù)庫,圖像處理,網(wǎng)絡(luò)爬蟲等相關(guān)技術(shù)完成一個BS架構(gòu)的的圖像檢索系統(tǒng)的實現(xiàn)。研究的內(nèi)容主要有:利用網(wǎng)絡(luò)爬蟲Heritrix進行網(wǎng)頁圖片爬取,利用正則表達式和HTMLParser進行網(wǎng)頁分析和信息提取運用JSP,數(shù)據(jù)庫,strust2,Hibernate等技術(shù)實現(xiàn)圖像檢索系統(tǒng)。研究方法,手段基礎(chǔ)知識和開發(fā)工具的學(xué)習(xí):掌握J(rèn)ava,JSP,數(shù)據(jù)庫,圖像處理等相關(guān)知識。掌握MyEclipse和MySQL的使用.理解開源爬蟲Heritrix的架構(gòu)和運行機制,學(xué)會擴展和定制自己的Heritrix.掌握HTMLParser和正則表達式等網(wǎng)頁信息提取方法運用開發(fā)工具完成界面設(shè)計和系統(tǒng)的架構(gòu)設(shè)計,并實現(xiàn)具體的框架結(jié)構(gòu)代碼。對系統(tǒng)進行測試并改進完善。實驗方案的可行性分析和已具備的實驗條件隨著圖像檢索技術(shù)的發(fā)展,目前已有不少應(yīng)用于實踐環(huán)境的圖像檢索系統(tǒng)。在實踐上具有參考性。Heritrix網(wǎng)絡(luò)爬蟲框架在經(jīng)過多年的豐富更新后更加穩(wěn)定和有效。網(wǎng)頁分析和信息提取技術(shù)也是熱門的研究話題,為實驗原理提供基礎(chǔ)為算法的編寫提供可行性證明。掌握相關(guān)技術(shù)知識后運用MyEclipse和MySQL工具即可進行開發(fā)。開發(fā)平臺穩(wěn)定且功能強大,工具的開發(fā)與設(shè)計均是可行的。進度安排2011年1月20日-2011年2月10日閱讀圖像檢索相關(guān)資料,初步了解圖像檢索的原理意義和用途;2011年2月11日-2011年3月5日完成開題報告,并深入學(xué)習(xí)實現(xiàn)一個圖像檢索系統(tǒng)的知識;2011年3月6日-2011年4月20日完成網(wǎng)頁的爬取及信息提取和檢索系統(tǒng)的初步開發(fā);2011年4月21日-2011年5月25日完善該系統(tǒng)并測設(shè)改進,完成畢業(yè)設(shè)計論文初稿;2011年5月26日-2011年6月15日跟據(jù)導(dǎo)師意見認(rèn)真修改,校對論文初稿,最后完成論文;2011年6月16日-2011年6月21日準(zhǔn)備畢業(yè)論文答辯;參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明,閆宏飛,王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川:北方民族大學(xué),2010.7.陳劍雄,張蓓.簡析圖像檢索中的CBIR技術(shù)[J].情報探索(第7期),2010.7.邱哲,符滔滔,王學(xué)松.開發(fā)自己的搜索引擎Lucene+Heritrix[M].北京:人民郵電出版社,2010-01.李剛.輕量級J2EE企業(yè)應(yīng)用實戰(zhàn)[M].北京:電子工業(yè)出版社,2008.11.周明全,耿國華,韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.7.沈蘭蓀,張箐,李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京:人名郵電出版社,2008.12.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安:西安電子科技大學(xué),2008.李偉,黃穎。基于HTMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期),2007,7.選題是否合適:是□否□課題能否實現(xiàn):能□不能□指導(dǎo)教師(簽字)年月日選題是否合適:是□否□課題能否實現(xiàn):能□不能□審題小組組長(簽字)年月日摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的圖片信息呈爆炸式增長,這使得人們在網(wǎng)上找到所需的圖片越來越困難,圖片檢索技術(shù)成為當(dāng)今非常熱門的研究話題。而搜集圖片和建立索引又是實現(xiàn)圖像檢索技術(shù)的非常重要的一個環(huán)節(jié)。網(wǎng)絡(luò)爬蟲程序就是用來搜集網(wǎng)頁和圖片的程序。本文的研究重點在于使用網(wǎng)絡(luò)爬蟲框架Heritrix進行擴展,從網(wǎng)絡(luò)上下載所需網(wǎng)頁及圖片并利用HTMLParser進行網(wǎng)頁分析和圖片相關(guān)信息提取。完成上述工作后,再將圖片的目錄位置和提取的信息存入數(shù)據(jù)庫。并建立一個圖片檢索系統(tǒng)的Web工程,實現(xiàn)檢索功能。開發(fā)語言為Java,開發(fā)工具為MyEclipse和MySQL及Tomcat.關(guān)鍵詞:圖像檢索,網(wǎng)絡(luò)爬蟲,Heritrix,HTMLParser,網(wǎng)頁信息提取ABSTRACTWiththerapiddevelopmentofnetworkinformationontheexplosivegrowthofimages,whichmakesitontheInternetmoreandmoredifficulttofindtheimages,imagesearchtechnologybecomeaveryhotresearchtopic.Thecollectionofimagesandindexingforimageretrievalisaveryimportantaspect.WebcrawlerisusedtocollectWebpagesandpicturesoftheprogram.ThisstudyfocusesonusingtheHeritrixWebcrawlerframeworktoextend,fromtheInternetanddownloadwebpagesandimagesforwebuseHTMLParserinformationextractionandimageanalysis.Aftercompletionofthework,thentheimagedirectorylocationandtheextractedinformationintoadatabase.AndapictureretrievalsystemforWebprojects,toachievesearchfunction.DevelopmentlanguageforJava,andMySQLdevelopmenttoolsfortheMyEclipseandTomcat.Keywords:imageretrieval,webcrawler,Heritrix,HTMLParser,WebinformationextractionPAGE2目錄文獻綜述……………11.1圖像檢索的研究意義…………………11.2圖像檢索的國內(nèi)外發(fā)展?fàn)顩r…………11.3網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用…31.4網(wǎng)頁分析和信息提取技術(shù)……………41.5本文的研究重點,系統(tǒng)結(jié)構(gòu)和內(nèi)容……5Heritrix應(yīng)用開發(fā)擴展……………72.1Heritrix簡介……………72.1Heritrix抓取策略及改進………………92.3Heritrix抓取過程……102.3網(wǎng)頁爬結(jié)果…………13第三章HTMLParser圖片相關(guān)信息提取………………143.1HTMLParser簡介………143.2圖片信息提取策略…………………143.3圖片信息提取的實現(xiàn)方法……………153.4實驗提取結(jié)果…………17第四章圖像檢索系統(tǒng)的搭建……………184.1數(shù)據(jù)庫的建立………184.2系統(tǒng)的實現(xiàn)框架和結(jié)構(gòu)………………214.3檢索結(jié)果展示…………23第五章總結(jié)和展望………25參考文獻……………………26附錄…………27外文資料中文譯文致謝天津大學(xué)2007屆本科生畢業(yè)設(shè)計(論文)PAGE26文獻綜述1.1圖像檢索的研究意義為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)絡(luò)爬蟲應(yīng)運而生。網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。圖像檢索一直是信息檢索領(lǐng)域的一個主流問題,涉及到圖像處理、圖像分割、模式識別及機器學(xué)習(xí)等多個方面。檢索的智能化和自動化是圖像檢索的目標(biāo)。目前主流的圖像檢索方法大致可以分為兩大類,即基于文本的圖像檢索(TBIR)和基于內(nèi)容的圖像檢索(CBIR)。在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面,收集和加工圖像資源,提取特征,分析并進行標(biāo)引,建立圖像的索引數(shù)據(jù)庫;最后一方面是根據(jù)相似度算法,計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小,提取出滿足閾值的記錄作為結(jié)果,按照相似度降序的方式輸出。1.2圖像檢索的國內(nèi)外發(fā)展?fàn)顩r從20世紀(jì)70年代開始,有關(guān)圖像檢索的研究就已開始,當(dāng)時主要是基于文本的圖像檢索技術(shù)(Text-basedImageRetrieval,簡稱TBIR),利用文本描述的方式描述圖像的特征,如繪畫作品的作者、年代、流派、尺寸等。到90年代以后,出現(xiàn)了對圖像的內(nèi)容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術(shù),即基于內(nèi)容的圖像檢索(Content-basedImageRetrieval,簡稱CBIR)技術(shù)。基于內(nèi)容的圖像檢索根據(jù)圖像特征、圖像的內(nèi)容語義以及上下文聯(lián)系進行查找,以圖像語義特征為線索從圖像數(shù)據(jù)庫中檢出具有相似特性的其它圖像。因為圖像的規(guī)模一般要大于純粹的文本信息,因此,基于內(nèi)容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少應(yīng)用于實踐環(huán)境的基于內(nèi)容圖像檢索系統(tǒng),如由IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng),以及由哥倫比亞大學(xué)研發(fā)的WebSeek系統(tǒng)、麻省理工學(xué)院研發(fā)的Photobook系統(tǒng)等?;谖谋竞突趦?nèi)容是圖像檢索發(fā)展的兩個分支,不過從目前圖像檢索研究的趨勢而言,尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征——嵌入在具有文本內(nèi)容的Web文檔中,出現(xiàn)了三個不同的研究著眼點。立足于文本,對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上,因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如Rank方法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等,不僅技術(shù)發(fā)展較為成熟,同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限,易歧義,更新慢,所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。立足于圖像內(nèi)容,對圖像進行分析和檢索。相比而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進展慢。不過,基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上,能夠更為客觀地反映媒體本質(zhì)的特征。結(jié)合文本和內(nèi)容,進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn),尤其是網(wǎng)絡(luò)環(huán)境下,結(jié)合圖像所在Web文檔的特征分析,推斷圖像的特征,同時結(jié)合對圖像的內(nèi)容分析,共同標(biāo)引達到對圖像的分析和檢索??梢哉f,三個方向都是相互影響和促進的,任何一個方向的進展都會促進圖像檢索技術(shù)向前更進一步。下一代搜索技術(shù):2007~2009年:具有聯(lián)想技術(shù)和分析功能的搜索服務(wù)逐漸興起。在這一時期,語義搜索還沒有廣泛普及,帶有分析功能的搜索服務(wù)開始嶄露頭角,尤其是商業(yè)智能廠商提供的面向企業(yè)的信息搜索解決方案引起人們的廣泛關(guān)注。通過對博客及SNS等媒體公布的有關(guān)公司產(chǎn)品或宣傳活動的評測進行即時分析,可以為企業(yè)的市場運營提供更多有益的參考。2010~2012年:語義搜索和感性搜索技術(shù)將逐漸興起。將語義搜索用于特定領(lǐng)域或?qū)ο髸r,可以達到高度適合率和再現(xiàn)率,這一結(jié)論已經(jīng)得到實際驗證。由于有生物學(xué)驗證這一技術(shù)作基礎(chǔ),對于感性搜索來說,提高圖像、語音、動畫數(shù)據(jù)的特征提取準(zhǔn)確度以及加快檢索速度不會花很長時間。2013年以后:階梯式搜索方法將投入使用。幫助用戶追加搜索條件、詢問搜索內(nèi)容的階梯型檢索將被搜索服務(wù)商廣泛采用。技術(shù)趨勢:在互聯(lián)網(wǎng)時代,包括文件、圖像、語音、動畫、視頻、虛擬世界等在內(nèi)的數(shù)據(jù)呈指數(shù)級增長,搜索技術(shù)顯得越來越重要。以往,搜索服務(wù)都是依據(jù)輸入的關(guān)鍵字,列出符合關(guān)鍵字的信息。未來,全新的搜索服務(wù)模式將出現(xiàn)。搜索技術(shù)的評測指標(biāo)主要有兩種:適合率和再現(xiàn)率。適合率指搜索結(jié)果中符合要求的數(shù)據(jù)比例,可以通過減少非適合數(shù)據(jù)提高這一比例。再現(xiàn)率指在所有應(yīng)該列出的適合數(shù)據(jù)中,實際檢索出的適合數(shù)據(jù)所占的比例,可以通過減少檢索遺漏提高這一比例。未來,搜索技術(shù)將朝著三個方向發(fā)展:包括聯(lián)想在內(nèi)的語義搜索,檢索圖像、語音、動畫內(nèi)容的感性搜索,通過傳感技術(shù)搜索現(xiàn)實世界對象的現(xiàn)實挖掘。2008年8月,微軟收購了一家語義搜索服務(wù)商Powerset。微軟目前正式推出的新型搜索引擎Bing就整合了Powerset的語義搜索技術(shù)。CNNIC2009年3月公布的調(diào)查報告顯示,對搜索結(jié)果不滿意的網(wǎng)友比例為35%,40%的用戶會在第一次鍵入關(guān)鍵詞的基礎(chǔ)上修正關(guān)鍵詞,72%的用戶認(rèn)為搜索結(jié)果非常凌亂。用戶如果想在互聯(lián)網(wǎng)海量信息中快速、簡便地尋找到自己想要的信息而不受干擾,需要搜索技術(shù)對檢索者的想法進行臆測。目前,人們看到的搜索結(jié)果都是參考文獻,而不是最終的答案。這是現(xiàn)有搜索技術(shù)最大的問題。但是,已經(jīng)有一些產(chǎn)品能夠?qū)畔⑦M行最初級的人為摒除,比如百度知道。當(dāng)一個人提問之后,經(jīng)過一個或多個人的回答,此人就可以找到自己所需要的信息。另外,各大廠商也在致力于實現(xiàn)真正的人機對話。以PowerSet和WolframAlpha為代表的問答式精準(zhǔn)搜索近來受到廣泛關(guān)注。GazoPa是一家成立于2008年的圖像搜索引擎供應(yīng)商。它提供的搜索圖像服務(wù)的特色在于,可以提取圖像中商品的形狀、顏色等信息。以往的圖像搜索采用的方法是,給圖像數(shù)據(jù)賦予標(biāo)簽等文本數(shù)據(jù),當(dāng)輸入的關(guān)鍵字與文本數(shù)據(jù)相匹配時,圖像就會被檢索出來。但是,用戶使用GazoPa提供的服務(wù),被搜索的圖像不具備文本信息,也可能被搜索到。GazoPa使用的是基于圖像內(nèi)容的檢索(Content-basedImageRetrieval,CBIR)技術(shù)。這種技術(shù)能夠?qū)D像的顏色、紋理、布局進行分析并檢索。CBIR是基于內(nèi)容檢索(CBR)的一種技術(shù)。CBR中包括了對動態(tài)視頻、音頻等其他形式多媒體信息的檢索技術(shù)。如上所述,網(wǎng)站將成為企業(yè)與客戶溝通的重要渠道,而搜索服務(wù)的質(zhì)量將成為關(guān)鍵因素。用戶在選擇服務(wù)提供商時,除了關(guān)注價格和功能指標(biāo)外,或許會更加關(guān)注服務(wù)商能否長期提供本地化的服務(wù)。1.3網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)絡(luò)爬蟲應(yīng)運而生。網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。改進后的網(wǎng)絡(luò)爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于網(wǎng)絡(luò)爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。網(wǎng)絡(luò)爬蟲還需要解決三個主要問題:對抓取目標(biāo)的描述或定義;對網(wǎng)頁或數(shù)據(jù)的分析與過濾;對URL的搜索策略。抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。現(xiàn)有網(wǎng)絡(luò)爬蟲對抓取目標(biāo)的描述可分為基于目標(biāo)網(wǎng)頁特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念3種?;谀繕?biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:預(yù)先給定的初始抓取種子樣本;預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;通過用戶行為確定的抓取目標(biāo)樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。1.4網(wǎng)頁分析及信息提取技術(shù)網(wǎng)絡(luò)爬蟲獲得的數(shù)據(jù)主要是HTML網(wǎng)頁,里面包含了大量的格式信息和標(biāo)記信息,在后續(xù)建立索引之前需要進行數(shù)據(jù)內(nèi)容的抽取。這就需要用到網(wǎng)頁分析及信息提取技術(shù)?;ヂ?lián)網(wǎng)上有數(shù)以億計的網(wǎng)頁,網(wǎng)頁的基本元素就是HTML語言文件。從結(jié)構(gòu)上講,HTML文件由元素組成。組成HTML文件的元素有多種,他們用于組織文件的內(nèi)容和控制文件的輸出格式。絕大多數(shù)元素是以一個其實標(biāo)記開始,一個結(jié)尾標(biāo)記結(jié)束,其實標(biāo)記和結(jié)尾標(biāo)記之間的部分是元素體。每一個元素都有名稱和一些可選的屬性,這些都在起始標(biāo)記內(nèi)標(biāo)明。HTML文件經(jīng)過瀏覽器解析后,轉(zhuǎn)換成可視化的Web頁面。搜索引擎通過網(wǎng)絡(luò)爬蟲獲取這些HTML文件后,通過程序分析其中的內(nèi)容,就可以構(gòu)造搜索了。在實際項目中,最常用的就是用正則表達式或HTMLParser來提取額網(wǎng)頁的內(nèi)容。使用HTMLParser從復(fù)雜的HTML頁面中解析出來需要的文本信息,是其中很重要的內(nèi)容。(1)正則表達式:正則表達實施功能強大的文本分析工具,在不同語言中都得到了體現(xiàn)。正則表達式是一種用來描述字符串集合的方法,通常使用一系列特殊字符形成字符串模版。正則表達式通過自定義的正則模式去精確的提取文本信息,但需要寫大量的正則表達式,編寫和調(diào)試正則表達式是一個繁瑣的過程。(2)HTMLParser:HTML是一個開源的Java庫,提供借口、支持線性和嵌套的解析HTML文本。HTML提供了提取文本信息的API,是搜索引擎開發(fā)者拜托了繁瑣的正則匹配過程,只需要通過這些API,就可以方便的提取額特定文本,打打提高工作效率。1.5本文的研究重點,系統(tǒng)結(jié)構(gòu)及內(nèi)容本文要實現(xiàn)一個BS架構(gòu)的圖像檢索系統(tǒng),主要實現(xiàn)該檢索系統(tǒng)的網(wǎng)絡(luò)爬蟲及網(wǎng)頁信息提取部分,并建立一個簡單的Web系統(tǒng),整合下載的網(wǎng)頁,圖片及網(wǎng)頁分析得到的文本信息形成一個圖像檢索系統(tǒng)。綜合運用java語言,圖像檢索,網(wǎng)絡(luò)爬蟲,網(wǎng)頁分析及Web開發(fā)等相關(guān)技術(shù)。系統(tǒng)結(jié)構(gòu):圖1-1圖像檢索系統(tǒng)結(jié)構(gòu)圖本文共分為五章,其內(nèi)容是這樣安排的:,文獻綜述:介紹圖像檢索的意義,國內(nèi)外發(fā)展?fàn)顩r,以及簡要介紹相關(guān)的網(wǎng)絡(luò)爬蟲級網(wǎng)頁分析技術(shù)。,Heritrix應(yīng)用開發(fā)擴展:簡要介紹Heritrix,以及本文何擴展Hertrix的方法,網(wǎng)頁爬取的效果總結(jié)。,HTMLParser應(yīng)用開發(fā):簡要介紹HTMLParser,以及利用HTMLparser實現(xiàn)網(wǎng)頁內(nèi)容提取的具體策略方法,及結(jié)果展示。,圖像檢索系統(tǒng)的搭建:如何建立圖片信息數(shù)據(jù)庫,Web頁面,Action及圖片檢索系統(tǒng)的實現(xiàn)和結(jié)果展示。,未來和展望:圖像檢索是非常熱門的一個研究話題。本章就圖像檢索的發(fā)展及本文待改進的地方做一個展望。Heritrix應(yīng)用開發(fā)擴展2.1Heritrix簡介開源網(wǎng)絡(luò)爬蟲Heritrix是有互聯(lián)網(wǎng)檔案館和北歐國家圖書館聯(lián)合規(guī)范化編寫于2003年初。第一次正式發(fā)布實在2004年1月。并不斷的被互聯(lián)網(wǎng)檔案館和其他感興趣的第三方改進。Heritrix是一個有JAVA開發(fā)的web網(wǎng)絡(luò)爬蟲,用戶可以使用它從網(wǎng)絡(luò)上抓取自己想要的資源。Heritrix最大的特色在于它的可擴展性,開發(fā)者可以擴展它的各個組件,實現(xiàn)自己的專區(qū)邏輯。Heritrix的工作是不斷循環(huán)的,具體流程是:在線程池中,選擇一個預(yù)定的URL中從選擇的URL網(wǎng)址下載遠程文件分析,歸檔下載到的內(nèi)容,寫入磁盤鏡像目錄從分析到的內(nèi)容里面根據(jù)策略選擇URL,加入預(yù)定隊列標(biāo)記已經(jīng)處理過的URL從第一步繼續(xù)進行,直到所有的URL處理結(jié)束,抓去工作結(jié)束Heritrix的操作模型:圖2-1Heritrix的模型操作圖Heritrix結(jié)構(gòu)分析:圖2-2Heritrix的組件結(jié)構(gòu)圖各個組件的作用:CrawlControllerCrawlController(中央控制器)是抓取任務(wù)的核心組件,他控制著整個抓取 的流程(2)CrawlOrderCrawlOrder(抓取任務(wù))是整個抓取工作的起點,它記錄了任務(wù)的所有屬性。 即在創(chuàng)建任務(wù)是的一系列設(shè)置FrontierFrontier(連接制造工廠)負責(zé)所有連接的處理,將已經(jīng)爬過的URL做標(biāo)記, 并將未處理的連接放入等待隊列ToeThreadToeThread(處理線程)Heritrix使多線程的,每個UTL被一個線程處理,這 個現(xiàn)成就叫做ToeThread,每個縣城都會包括一條處理連。ProcessorProcessor(處理器)代表著單個的處理器,所有的處理器都是他的子類2.2Heritrix抓取策略及改進Heritrix是使用BerkeleyDB來構(gòu)建一個鏈接隊列。這些隊列被置放于BdbMultipleWorkQueues中時,總是先給予一個Key,然后將那些Key值相同的鏈接放在一起,成為一個隊列,也就是一個Queue.但是,這個Key值到底該如何計算呢?事實上,這里說的Key值,應(yīng)該是作為一種標(biāo)識符的形式存在。也就是說,他要與URL之間有一種內(nèi)在的聯(lián)系。在Heritrix中,為每個隊列賦上值的策略,也就是它的queue-assignment-policy。在默認(rèn)的情況下,Heritrix使用的HostnameQueueAssignmentPolict來解決Key值生成的問題。這種策略其實是以鏈接的Host名稱為Key值來解決這個問題的。也就是說,相同Host名稱的所有RL都會被放置于同一個隊列中間。這種方式在很大程度上可以解決廣域網(wǎng)中信息抓取是隊列的鍵值問題。但是,他對于摸某個單獨網(wǎng)站的網(wǎng)頁抓取,就出現(xiàn)了很大的問題。以Sina的新聞網(wǎng)頁為列,其中大部分的URL都來自于Sina網(wǎng)站的內(nèi)部。因此,如果使用了HostnameQueueAssignmentPolicy,則會造成有一個隊列的長度非常長的情況,在Heritrix中,一個現(xiàn)成從一個隊列中取URL鏈接時,總是會先從隊列的頭部取出第一個鏈接,在這之后,這個被取出鏈接的隊列會進入阻塞狀態(tài),知道待該鏈接處理完,它才會從阻塞狀態(tài)中恢復(fù)。鍵入使用HostnameQueueAssignmentPolicy策略來應(yīng)對抓取一個網(wǎng)站中內(nèi)容的情況,很有可能造成僅有一個線程在工作,而其他所有線程都在等待。這是因為那個裝有絕大多數(shù)URL連接的隊列幾乎會永遠處于阻塞狀態(tài)。因此,別的線程根本獲取不到其中的URL,在這種情況下,抓取工作會永遠處于阻塞狀態(tài)。因此,需要改變queue-assignment-policy來避免發(fā)生這種情況。改進策略:從上面的分析中可以知道,這個Keu值最重要的一點就是應(yīng)該能夠有效的將所有的URL散列到不同的隊列中,最終能使所有的隊列的長度的方差較小,在這種情況下,才能保證工作線程的最大效率。任何擴展queue-assignment-policy的默認(rèn)實現(xiàn)的類,均繼承自QueueAAssignmentPolicy并覆寫了其中的getClassKey()方法,getClassKey方法的參數(shù)為一個鏈接對象,而我們的散列算法,正是要根據(jù)這個鏈接對象來返回一個值。比如字符串的長度等,URL散列算法,最為出名的是ELFHash算法,ELFHash函數(shù)是對自負串的散列。它對長字符串和短字符串都很有效,字符串中每個字符都有同樣的作用。它巧妙的對字符的ASCII編碼值進行計算,ELFHash函數(shù)對于能夠比較均勻地把字符串分布在散列表中。這里給出MyQueueAssignmentPolicy類,他通過ELFHash算法實現(xiàn)Key值分配。 publicStringgetClassKey(CrawlControllercontroller,CandidateURIcauri){ Stringuri=cauri.getUURI().toString(); longhash=ELFHash(uri); Stringa=Long.toString(hash%100); returna; } publiclongELFHash(Stringstr){ longhash=0; longx=0; for(inti=0;i<str.length();i++){ hash=(hash<<4)+str.charAt(i); if((x=hash&0xF0000000L)!=0){ hash^=(x>>24); hash&=~x; } }}2.3Heritrix抓取過程在瀏覽器中輸入http://localhost:8080,輸入之前設(shè)置的用戶名/密碼:admin/admin,進入到Heritrix的管理界面,如圖2-3所示。因為我們還沒有創(chuàng)建抓取任務(wù),所以Jobs顯示為0。圖2-3Heritrix登錄后的UI界面點擊“jobs”,創(chuàng)建抓取任務(wù)圖2-4Heritrix的創(chuàng)建任務(wù),提供種子圖首先點擊“Modules”按鈕,在相應(yīng)的頁面為此次任務(wù)設(shè)置各個處理模塊,一共有七項可配置的內(nèi)容,這里我們只設(shè)置CrawlScope和Writers兩項,下面簡要介紹各項的意義。1)SelectCrawlScope:CrawlScope用于配置當(dāng)前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接。例如選擇BroadScope則表示當(dāng)前的抓取范圍不受限制,選擇HostScope則表示抓取的范圍在當(dāng)前的Host范圍內(nèi)。在這里我們選擇org.archive.crawler.scope.BroadScope,并單擊右邊的Change按鈕保存設(shè)置狀態(tài)。2)SelectURIFrontier:Frontier是一個URL的處理器,它決定下一個被處理的URL是什么。同時,它還會將經(jīng)由處理器鏈解析出來的URL加入到等待處理的隊列中去。這里我們使用默認(rèn)值。3)SelectPreProcessors:這個隊列的處理器是用來對抓取時的一些先決條件進行判斷。比如判斷robot.txt信息等,它是整個處理器鏈的入口。這里我們使用默認(rèn)值。4)SelectFetchers:這個參數(shù)用于解析網(wǎng)絡(luò)傳輸協(xié)議,比如解析DNS、HTTP或FTP等。這里我們使用默認(rèn)值。5)SelectExtractors:主要是用于解析當(dāng)前服務(wù)器返回的內(nèi)容,取出頁面中的URL,等待下次繼續(xù)抓取。這里我們使用默認(rèn)值。6)SelectWriters:它主要用于設(shè)定將所抓取到的信息以何種形式寫入磁盤。一種是采用壓縮的方式(Arc),還有一種是鏡像方式(Mirror)。這里我們選擇簡單直觀的鏡像方式:org.archive.crawler.writer.MirrorWriterProcessor。7)SelectPostProcessors:這個參數(shù)主要用于抓取解析過程結(jié)束后的掃尾工作,比如將Extrator解析出來的URL有條件地加入到待處理的隊列中去。這里我們使用默認(rèn)值。抓取過程中進度:圖2-5Heritrix抓取進度圖2.4網(wǎng)頁爬取結(jié)果在MyHeritrix工程目錄下自動生成“jobs”文件夾,包含本次抓取任務(wù)。抓取下來網(wǎng)頁以鏡像方式存放,也就是將URL地址按“/”進行切分,進而按切分出來的層次存儲。任務(wù)完成后的鏡像目錄如圖所示:圖2-6任務(wù)完成的的鏡像目錄各個文件夾下存儲的主要內(nèi)容為HTML文檔及各類格式的圖片HTMLParser圖片相關(guān)信息提取3.1HTMLParser簡介htmlparser是一個純的java寫的html解析的庫,它不依賴于其它的java庫文件,主要用于改造或提取html。它能超高速解析html,而且不會出錯?,F(xiàn)在htmlparser最新版本為2.0。htmlparser就是目前最好的html解析和分析的工具。htmlparser基本功能信息提取·文本信息抽取,例如對HTML進行有效信息搜索·鏈接提取,用于自動給頁面的鏈接文本加上鏈接的標(biāo)簽·資源提取,例如對一些圖片、聲音的資源的處理·鏈接檢查,用于檢查HTML中的鏈接是否有效·頁面內(nèi)容的監(jiān)控信息轉(zhuǎn)換·鏈接重寫,用于修改頁面中的所有超鏈接·網(wǎng)頁內(nèi)容拷貝,用于將網(wǎng)頁內(nèi)容保存到本地·內(nèi)容檢驗,可以用來過濾網(wǎng)頁上一些令人不愉快的字詞·HTML信息清洗,把本來亂七八糟的HTML信息格式化·轉(zhuǎn)成XML格式數(shù)據(jù)3.2信息提取額策略信息來源:通過分析HTML文檔找到圖片和相關(guān)的文字提取方法:不能確知網(wǎng)頁作者組織信息的方法,將最可能與某圖片相關(guān)的位置的文字作為圖片的文字描述信息常用提取模式:1<img>標(biāo)記從src獲取圖片來源從alt,title獲取相關(guān)文字信息獲得width和height,用于以后的過濾2網(wǎng)頁的標(biāo)題圖片與所在網(wǎng)頁相關(guān),因此和網(wǎng)頁的標(biāo)題相關(guān)提取<title>下的文字。有時<title>下還會嵌套標(biāo)記,需要去除。有時 <title>使用缺省的名字(如newpage或者UntitledDocument),需要 過濾3網(wǎng)頁的meta標(biāo)記也是對網(wǎng)頁內(nèi)容的描述可以提取其中的keywords和description的值無用圖片過濾:1文件尺寸比較?。òㄩL寬和大?。├肏TML提取到的width和height,以及實際圖片的width和height2長寬比例較大3同一網(wǎng)頁內(nèi)有多個<img>引用它重要的圖片不會在一頁內(nèi)出現(xiàn)多次出現(xiàn)多次的通常是裝飾圖片4GIF和JPG圖片的區(qū)別GIF只有256色,但可動態(tài),通常用于裝飾性圖片和廣告JPG壓縮比高,常用于存儲大尺寸文件通常情況下,JPG圖片有意義的比例要大大高于GIF3.3圖片信息提取方法的實現(xiàn)在第2章中我們抓取了大量的網(wǎng)頁及圖片。本章要從之前抓取的網(wǎng)頁中找出所需的圖片相關(guān)信息。1.首先創(chuàng)建Extractor類,定義文件的輸入,輸出路徑等成員變量及其構(gòu)造方法,并定義圖片拷貝函數(shù)booleancopyImage(),返回一個布爾量,通過對從HTML解析出的圖片URL可在mirror目錄下對應(yīng)位置找到相應(yīng)的圖片,且圖片大小足夠大(為有效圖片)則為True,如果在mirror目錄下對應(yīng)位置圖片沒有找到或找到了圖片但圖片不符合要求(圖片太小等)則為False2繼承Extractor類,并添加3個主要函數(shù):voidgetNetInfo()獲取網(wǎng)頁<title>中的文本信息獲取含description元素的<meta>標(biāo)簽下的文本信息獲取含keywords元素的<meta>標(biāo)簽下的文本信息NodeFiltertitle_filter=newTagNameFilter("title");NodeFilterkeyword_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Keywords"), newHasAttributeFilter("name","keywords")));NodeFilterdescription_filter=newAndFilter( newTagNameFilter("meta"),newOrFilter( newHasAttributeFilter("name","Description"), newHasAttributeFilter("name","description")));title=getProp("<title[^<>]*>(.*)<[^<>]*>",this.getParser().parse(title_filter).elementAt(0).toHtml(),1);先是通過TagNameFilter獲得標(biāo)簽名為title的標(biāo)簽節(jié)點,然后調(diào)用getProp函數(shù)匹配一個正則表達式獲得title中的文本信息。主要通過AndFilter來獲取標(biāo)簽名為meta且含description元素的標(biāo)簽節(jié)點(這里用了一個OrFilter來匹配description或Description)。同理可獲得標(biāo)簽名為meta且含keywords元素的標(biāo)簽節(jié)點,然后調(diào)用getProp函數(shù)匹配相應(yīng)的正則表達式獲得其相應(yīng)文本。(2)voidgetImgTag(NodeFilterimg_filter)獲取<img>標(biāo)簽中src元素內(nèi)容獲取<img>標(biāo)簽中alt元素內(nèi)容獲取<img>標(biāo)簽中title元素內(nèi)容獲取<img>標(biāo)簽中width元素內(nèi)容獲取<img>標(biāo)簽中height元素內(nèi)容Stringimage_src=getProp("<img[^<>]*src=\"([^\"]*)\"[^>]*>", image_nodes.elementAt(i).toHtml(),1);調(diào)用copyImage(imge_src,new_image_file),如果返回True將得到的<img>標(biāo)簽中的sec.alt,title,width,height以及網(wǎng)頁<title>標(biāo)簽中的內(nèi)容,及<meta>標(biāo)簽description和keywords的內(nèi)容寫入輸出文件中。voidgetImgInfo()獲取圖片周圍信息,遍歷需尋找含該<img>標(biāo)簽的第一個父<div>節(jié)點獲取該<div>節(jié)點內(nèi)的文本信息3.4圖片解析提取結(jié)果將所有有效圖片的title,keywords,url等相關(guān)信息全部以.txt文檔的形式存儲到指定目錄下,如圖所示:圖3-1解析的的.txt文檔圖像檢索系統(tǒng)的搭建4.1數(shù)據(jù)庫的建立本文采用MySQL建立數(shù)據(jù)庫,并應(yīng)用Hibernate技術(shù)管理Java類到數(shù)據(jù)庫表的映射(包括Java數(shù)據(jù)類型到SQL數(shù)據(jù)類型的映射)MySQL是一個小型關(guān)系型數(shù)據(jù)庫管理系統(tǒng),開發(fā)者為瑞典MySQLAB公司。在2008年1月16號被Sun公司收購。而2009年,SUN又被Oracle收購。對于Mysql的前途,沒有任何人抱樂觀的態(tài)度。目前MySQL被廣泛地應(yīng)用在Internet上的中小型網(wǎng)站中。由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網(wǎng)站為了降低網(wǎng)站總體擁有成本而選擇了MySQL作為網(wǎng)站數(shù)據(jù)庫。Hibernate是一個開放源代碼的對象關(guān)系映射框架,它對JDBC進行了非常輕量級的對象封裝,使得Java程序員可以隨心所欲的使用對象編程思維來操縱數(shù)據(jù)庫。Hibernate可以應(yīng)用在任何使用JDBC的場合,既可以在Java的客戶端程序使用,也可以在Servlet/JSP的Web應(yīng)用中使用,最具革命意義的是,Hibernate可以在應(yīng)用EJB的J2EE架構(gòu)中取代CMP,完成數(shù)據(jù)持久化的重任。Hebernate是輕量級JavaEE應(yīng)用的持久層解決方案,可以大幅度縮短使用JDBC處理數(shù)據(jù)持久化的時間。目前的主流數(shù)據(jù)庫依然是關(guān)系數(shù)據(jù)庫,而Java語言則是面向?qū)ο蟮木幊陶Z言,當(dāng)把二者結(jié)合在一起使用是相當(dāng)麻煩,而Hibernate則減少了這個問題的困擾,他完成對象模型和基于SQL的關(guān)系模型的影射關(guān)系。ORM的全程是Obiger/RelationMapping,對象/關(guān)系數(shù)據(jù)庫映射。ORM可理解成一種規(guī)范,他概述了這類框架的基本特征:完成面向?qū)ο蟮木幊陶Z言到關(guān)系數(shù)據(jù)庫的映射。當(dāng)ORM框架完成映射后,即可利用面向?qū)ο蟪绦蛟O(shè)計語言的簡單易用性,又可利用關(guān)系數(shù)據(jù)庫的技術(shù)優(yōu)勢。因此,我們可把ORM框架當(dāng)成應(yīng)用程序和數(shù)據(jù)庫的橋梁。數(shù)據(jù)哭的發(fā)展并未與程序設(shè)計語言同步,而且關(guān)系數(shù)據(jù)庫系統(tǒng)的某些優(yōu)勢也是面向?qū)ο蟮恼Z言目前無法比擬的。比如:大量數(shù)據(jù)查找,排序。集合數(shù)據(jù)連接操作,映射。數(shù)據(jù)庫訪問的并發(fā),事物。數(shù)據(jù)庫的余數(shù),隔離。面對著用面向?qū)ο笳Z言與關(guān)系數(shù)據(jù)庫系統(tǒng)并存的局面,采用ORM就變成一種必然。只要我們還是采用面向?qū)ο蟪绦蛟O(shè)計語言,底層依然采用關(guān)系數(shù)據(jù)庫,中間就少不了ORM工具。當(dāng)我們采用ORM框架之后,應(yīng)用程序不再直接訪問底層數(shù)據(jù)庫,而是以面向?qū)ο蟮姆绞絹聿僮鞒志没瘜ο螅ɡ鐒?chuàng)建,修改,刪除等),而ORM框架則將這些面向?qū)ο蟮牟僮鬓D(zhuǎn)化成底層的SQL操作。ORM工具示意圖:圖4-1ORM工具示意圖數(shù)據(jù)表中的記錄行對應(yīng)持久化對象:圖4-2記錄對應(yīng)持久化對象基于這種基本的映射方式,ORM工具可完成對象模型和關(guān)系模型之前的相互映射。由此課件在ORM框架中,持久化對象是一種中間媒介,應(yīng)用程序只需操作持久化對象,ORM框架則負責(zé)將這種操作轉(zhuǎn)換為底層數(shù)據(jù)庫操作——這種轉(zhuǎn)換對開發(fā)者透明,無需開發(fā)正關(guān)心。從而將開發(fā)者從關(guān)系模型中釋放出來,使得開發(fā)者能以面向?qū)ο蟮乃季S操作關(guān)系數(shù)據(jù)庫。首先,建立ImgK類,定義name,keyW,url等成員變量機器get,set方法。仔細看這個類的代碼,無法發(fā)現(xiàn)這個類與普通的JavaBean有任何區(qū)別。實際上,Hibernate直接采用了POJO(普通,傳統(tǒng)Java對象)作為PO(PersistentObject,持久化對象),這就是Hibernate被稱為低侵入式設(shè)計的原因,Hibernate不要求持久化類繼承任何父類,或者實現(xiàn)任何借口,這樣可保證代碼不被污染。這個普通的JavaBean目前不具備持久化操作的能力,為了時期具備持久化操作的能力,Hibernare采用XML映射文件。PO=POJO+映射文件然后建立一個連接數(shù)據(jù)庫的持久化操作類HibernateUtil獲取Configuration獲取SessionFactory獲取Session,打開事務(wù)用面向?qū)ο蟮姆绞讲僮鲾?shù)據(jù)庫關(guān)閉事務(wù)接著通過MySQL建立一個空的數(shù)據(jù)庫img_search,運行該持久化操作類,然后就可發(fā)現(xiàn)img_search數(shù)據(jù)庫中多了一個新表imgK然后建立一個插入每一條數(shù)據(jù)的類dbInsert其為代碼如下:1判斷1個文件是否是文件夾2如果是,則讀取目錄下的每一個文件3如果不是,則判斷是否為.txt文件4如果是,則讀取里面的內(nèi)容分別按Name,keyW,url存入數(shù)據(jù)庫5繼續(xù)第一步運行后,就會將第三章中得到的文本文件中的信息提取插入數(shù)據(jù)庫中。在以后的操作中不需對數(shù)據(jù)庫中記錄進行操作,而對ImgK類的實例進行操作即可得到數(shù)據(jù)庫中的信息。數(shù)據(jù)庫結(jié)果如圖:圖4-3數(shù)據(jù)庫記錄展示4.2系統(tǒng)實現(xiàn)的框架和結(jié)構(gòu)在數(shù)據(jù)庫建立好之后就要建立基本的JSP頁面和相應(yīng)的操作邏輯。系統(tǒng)框架采用JSP+Struts2+HibernateStruts2應(yīng)用開發(fā)步驟:在web.xml文件中定義Servlet或Filter攔截用戶請求,通常這個Servlet或Filter是該框架的核心,負責(zé)攔截所有用戶請求。如果需要以POST方式提交請求,則定義包含表單數(shù)據(jù)的JSP頁面。如果僅僅只是以GET方式發(fā)送請求,則無需經(jīng)過這一點。定義處理用戶請求的Action類。配置Action。指定請求對應(yīng)的Action處理方法。配置處理結(jié)果和物理視圖資源之間的對應(yīng)關(guān)系。Struts2流程圖:圖4-4Struts2流程圖工程建立簡要步驟:1建立分頁用的javaBean類PageBean.java定義相關(guān)成員函數(shù)及變量(當(dāng)前頁,總頁數(shù),總記錄數(shù),當(dāng)前記錄數(shù)等)2建立基本的Action類KeySearchAction.java定義從頁面獲得的信息及到跳轉(zhuǎn)頁面要傳遞的信息變量及主要的邏輯函數(shù)StringjumpPage(),其中調(diào)用Service類中KeySearchService.java中findImageByKey(PAGE_SIZE,page,keyW)方法查詢一定數(shù)量(一個分頁頁面要顯示的數(shù)量)的符合匹配關(guān)鍵詞條件的圖片。3建立PageBreakService.java文件定義分頁用的Service類,處理當(dāng)前頁,頁面總數(shù),總頁數(shù),總記錄數(shù)等參數(shù)。然后建立KeySearchService.java文件繼承PageBreakService,并添加一個findImageByKey()方法執(zhí)行關(guān)鍵詞查找的HQL語句.Stringhql="fromImgKwherekeyWlike'%"+keyW+"%'";這樣,這個圖像檢索系統(tǒng)的基本文件已經(jīng)建立好了,接下來打開網(wǎng)頁輸入本地網(wǎng)址及相應(yīng)端口號和工程名及JSP頁面http://localhost:8080/ImageSearch/index.jsp圖4-5圖像檢索系統(tǒng)HomePageUI其中高級是一個空連接,為以后的基于語義的圖像檢索的開發(fā)做一個接口輸入關(guān)鍵字,點擊“搜一下”,即可按關(guān)鍵詞從數(shù)據(jù)庫中查詢結(jié)果。4.3檢索結(jié)果展示圖4-6檢索結(jié)果展示圖4-7分頁跳轉(zhuǎn)功能實驗結(jié)果分析:總結(jié)和展望隨著Web技術(shù)的普及和信息技術(shù)的發(fā)展,推廣與應(yīng)用,以圖像,聲音和視頻為主的多媒體信息迅速成為信息交流和服務(wù)的主流,現(xiàn)代信息處理的對象和方法有了很大的變化,大量何種類型的信息在全球得到了采集,傳播,流通和應(yīng)用。人們正快速進入一個信息化的社會。由于大規(guī)模圖像數(shù)據(jù)庫的出現(xiàn)和應(yīng)用,每天都有大量額度圖像信息在不斷的生產(chǎn)(如衛(wèi)星,醫(yī)療,安全部門),這就迫切需要性能良好的檢索工具,能夠根據(jù)圖像的視覺特征和語義信息,從圖像庫中檢索所需的圖像,而傳統(tǒng)的基于關(guān)鍵字的信息查詢方法(IR技術(shù))不能有效的支持多媒體信息的查詢和檢索。如何組織,表達,存儲,管理,查詢和檢索這些海量的數(shù)據(jù),是對傳統(tǒng)數(shù)據(jù)庫技術(shù)的一個重大挑戰(zhàn),如果沒有對圖像及視頻數(shù)據(jù)的自動和有效的描述,大量信息將淹沒在信息的海洋之中,無法在需要的時候被檢索出來,因此,如何將數(shù)字圖像處理,模式識別技術(shù),計算機視覺技術(shù)與傳統(tǒng)的數(shù)據(jù)庫技術(shù)結(jié)合起來,建立高效的圖像檢索機制就成為目前迫切需要解決的問題,而基于內(nèi)容的圖像檢索技術(shù)便是解決這一問題的關(guān)鍵。本文基本完成了對一個圖像檢索系統(tǒng)的構(gòu)建,從利用網(wǎng)絡(luò)爬蟲爬取圖片和相關(guān)網(wǎng)頁,對爬下來的網(wǎng)頁進行分析,對圖片相關(guān)信息的提取,圖片數(shù)據(jù)庫的建立一直到圖像檢索Web系統(tǒng)的搭建。但本文還存在一些不足。首先是圖片周圍文字信息的提取不夠充分,有效。在對大量的實驗結(jié)果分析中表明仍有一些應(yīng)過濾的信息沒有過濾掉。現(xiàn)在還沒有找到很好的算法能統(tǒng)一解決不同模式網(wǎng)頁的有效解析。只能將覆蓋面縮小,以求盡可能準(zhǔn)確,但放掉了部分有用信息。 根據(jù)圖片檢索技術(shù)的發(fā)展趨勢,未來基于文本的圖像檢索技術(shù)將越來越受到關(guān)注,尤其是基于語義的圖像檢索技術(shù)的發(fā)展?jié)摿κ蔷薮蟮摹1疚闹皇菍崿F(xiàn)了圖像檢索技術(shù)中傳統(tǒng)的基于文本的部分。以及圖像檢索技術(shù)中的網(wǎng)頁圖片爬去及數(shù)據(jù)庫的建立部分??傊?,在未來的后續(xù)工作中,如何更好的對網(wǎng)頁進行解析和如何較好的利用圖像的物理和語義特征描述圖像,獲得更全面的文字信息及圖像語義特征,構(gòu)建更完善的圖像檢索系統(tǒng)是未來的努力方向。這項有意義的挑戰(zhàn)還有很多路要走,還有很多理論要研究,還有很多技術(shù)要實現(xiàn)。參考文獻RitendraDatta,DhirajJoshi,JiaLietal.ImageRetrieval:Ideas,Influences,andTrendsoftheNewAge[J].ACMComput.Surv.40,2,Article5.April2008.李曉明,閆宏飛,王繼民.搜索引擎-原理,技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2004.馬自萍.形狀和顏色特征的混合圖像檢索[D].銀川:北方民族大學(xué),2010.7.陳劍雄,張蓓.簡析圖像檢索中的CBIR技術(shù)[J].情報探索(第7期),2010.7.邱哲,符滔滔,王學(xué)松.開發(fā)自己的搜索引擎Lucene+Heritrix[M].北京:人民郵電出版社,2010-01.李剛.輕量級J2EE企業(yè)應(yīng)用實戰(zhàn)[M].北京:電子工業(yè)出版社,2008.11.周明全,耿國華,韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.7.沈蘭蓀,張箐,李曉光。圖像檢索與壓縮域處理技術(shù)的研究[M].北京:人名郵電出版社,2008.12.李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展2001年第3期.安志勇.基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)的研究[D].西安:西安電子科技大學(xué),2008.李偉,黃穎?;贖TMLParser的網(wǎng)頁信息提取[J].兵工自動化(第7期),2007,7.外文資料ImageRetrieval:Ideas,Influences,andTrendsoftheNewAgeRITENDRADATTA,DHIRAJJOSHI,JIALI,andJAMESZ.WANGThePennsylvania天津大學(xué)2007屆本科生畢業(yè)設(shè)計(論文)PAGE18中文譯文圖像檢索:思想,影響,以及新時代的趨勢當(dāng)尼爾斯玻爾亨里克大衛(wèi)說:“沒有人能用語言將你所想的表達得更清楚”時,每個人都在猜測這究竟意味著什么。鑒于目前的討論情況,一想到這個著名的引用所表達的是,在有時些時候和情況下,當(dāng)我們思考一下我們的想法時,卻無法用詞匯準(zhǔn)確表達這一想法。舉個實例,希望從集合找到一個完美的圖像。企圖表達什么使圖像“完美”,最終可能低估了圖像的美。從某種意義上說,比起使用文本描述。從集合中找出這樣的圖片可能會更容易。 我們組織東西是與生俱來的。多年來,我們了解到,這是一個取得進展的關(guān)鍵。數(shù)百年來,不同語言的文本已被設(shè)置為了有效檢索,無論是古代圖像或是現(xiàn)代數(shù)字圖像。但是,當(dāng)涉及到組織圖片,人在傳統(tǒng)上,勝過大多數(shù)執(zhí)行任務(wù)的機器。原因之一,造成這一區(qū)別的是,文字是人類的創(chuàng)造,而典型的圖像是一個單純的人類制造物,這些都是比較難以實現(xiàn)的具體描述。除此之外,還有理論認(rèn)為,人類視覺系統(tǒng)已經(jīng)發(fā)展了幾百年。當(dāng)然,我們所看到的解釋是很難的,更難教一臺機器。然而,在過去的十年中,雄心勃勃的嘗試,已作出讓計算機學(xué)會理解,索引和注釋圖片,代表一個廣泛概念,且范圍很大的進展。 基于內(nèi)容的圖像檢索(CBIR的),正如我們今天看到的,是幫住組織其視頻內(nèi)容的數(shù)字圖片技術(shù),按照這個定義,任何東西,從相似的功能包括圖像到充滿活力的形象注解發(fā)動機屬于職權(quán)范圍內(nèi)的圖像檢索。這種基于內(nèi)容作為一個研究領(lǐng)域在一個獨特的地方特征在科學(xué)界的時刻了。雖然我們在繼續(xù)努力解決問題,我們也看到來自不同領(lǐng)域的成就,例如,計算機視覺,機器學(xué)習(xí),信息檢索,人機交互,數(shù)據(jù)庫系統(tǒng),Web和數(shù)據(jù)挖掘,信息,人員理論,統(tǒng)計學(xué),心理學(xué),為圖像檢索做出共獻[Wangetal.2006]。此外,橫向之間的一些研究的一些空白的區(qū)正在逐步縮小作為副產(chǎn)品帶來的貢獻,其影響最終也可能超越CBIR的。同樣,我們今天看到的是一些跨領(lǐng)域在可預(yù)見的未來很可能成為新的研究領(lǐng)域。 由這個圖可以看到GoogleScholar可以檢索到一個科目的最新研究狀況,這是一個很有用的數(shù)據(jù),附上這樣一幅圖,那么可以更好的將國內(nèi)外的研究狀況做一個分析。一,早期圖像檢索在1994-2000年可以被看作是研究和開發(fā)的初期階段的圖像檢索的內(nèi)容。在這一階段取得了高水平的的進展。[2000],這已經(jīng)對在當(dāng)前十年取得進展及有明確的影響,并無疑將繼續(xù)影響未來的工作。因此,我們提供有關(guān)在描述新時代圖像檢索的想法,影響,以及早期幾年的趨勢摘要(其中很大一部分源于那些調(diào)查)。為了做到這一點,我們首先介紹有關(guān)各種定義和相關(guān)的大多數(shù)問題。--感知鴻溝,現(xiàn)實物體和我們對世界的感知差距--語義鴻溝,人們從視覺數(shù)據(jù)中抽取的信息和某個用戶在特定情況下對相同數(shù)據(jù)的描述缺乏一致性。雖然前者使得從圖像內(nèi)容識別挑戰(zhàn)由于在錄音的限制,后者本質(zhì)上是如何捕捉他們的視覺內(nèi)容中的圖片和用戶??的解釋問題。我們將繼續(xù)簡要總結(jié)早年主要貢獻及處理這些鴻溝的方法。圖像搜索領(lǐng)域被歸類為狹義和廣義,這仍然是一個用于系統(tǒng)設(shè)計的目的非常重要的區(qū)別。如上所述,通常狹義圖像域有限變異和較清晰的視覺特征(如航空相關(guān)的圖片[Airliners.Net2005]),這使得基于內(nèi)容的圖像搜索稍微有點比較容易形成。另一方面,廣泛的領(lǐng)域往往具有很高的變異性及不可預(yù)測性相同的基本語義概念(例如,Web圖像),這使推廣更有挑戰(zhàn)性。正如Huijsmans和Sebe[2005]提到的,狹義和廣義域也構(gòu)成的圖像搜索評價的一個問題,必須為標(biāo)準(zhǔn)的評價指標(biāo)的一致性作出適當(dāng)?shù)男薷?。該調(diào)查還列出了三個圖片搜索類別:(1)searchbyassociation聯(lián)合搜索,對于一副圖像沒有明確的意圖,而是通過反復(fù)提煉瀏覽進行搜索(2)aimedsearch有目的的搜索,搜索特定的圖片(3)categorysearch分類搜索,搜索一個語義類的單個圖片代表還討論了不同類型的領(lǐng)域知識,可以幫助減少在圖片搜索感覺差距。其中值得注意的是語法,感性的,和拓撲相似性的概念。因此,總的目標(biāo)仍然是縮小語義和感官鴻溝,利用現(xiàn)有的相關(guān)領(lǐng)域知識的視覺特征的圖像,并支持不同的搜索類別,最終滿足一般用戶。我們討論和擴展其中的一些想法。在調(diào)查中,從圖像抽取視覺內(nèi)容分為兩個部分:圖像處理和特征重建。這里的問題是用什么功能來提取,這將有助于執(zhí)行有意義的檢索。在文中,搜索已被描述為一個最小不變情況的模式下,用戶意圖減少因意外的扭曲、雜波、閉塞所造成的感知鴻溝。紋理的關(guān)鍵貢獻,抽象規(guī)范已經(jīng)進行了討論。其中最早的顏色直方圖的圖像索引的使用是在斯溫和Ballard[1991]。隨后,特征,如QBIC[Flickner等系統(tǒng)提取。1995],Pictoseek[格弗斯和Smeulders2000],及VisualSEEK[史密斯和張1997年b]。在色彩恒常性,也就是在相同的環(huán)境變化中感知顏色進行了創(chuàng)新,并考慮到[芬利森1996]鏡面反射和形狀。在黃等人[1999]提出了相關(guān)圖的顏色直方圖,也考慮到了顏色的空間分布。Gabor濾波器被成功地用于對局部形狀匹配和檢索在Manjunath和馬[1996]。Daubechies小波變換被用來改善顏色布局的WBIIS制度[王等人的特征提取。1998]。圖像檢索[施密德和Mohr1997]閉塞不變應(yīng)十分注意地方特色為手段,以彌補當(dāng)?shù)匮a丁的顯著特征[Tuytelaars和vanGool1999]感官gap.Work發(fā)現(xiàn)突出的領(lǐng)域,如圖像檢索和立體匹配。知覺組織的圖像,因為它識別圖片中的對象是重要的,也是一個非常具有挑戰(zhàn)性的問題。它一直在強/弱分割(數(shù)據(jù)驅(qū)動的分組),分區(qū)分類調(diào)查(數(shù)據(jù)無關(guān)的分組,例如,固定圖像塊),并簽署地點(分組基于固定模板)。已經(jīng)在圖像分割領(lǐng)域取得了重大進展,例如,朱和尤爾[1996],其中snake-和region日益增長的想法是一個原則性的框架內(nèi)結(jié)合,施和馬利克[2000],其中譜圖分割應(yīng)用了這一目的。從形狀和形狀分類來滿足需求。在德爾Bimbo和帕拉[1997],圖像彈性匹配成功地應(yīng)用于草圖為基礎(chǔ)的圖像檢索。圖片具有多尺度輪廓模型的代表性,研究了Mokhtarian[1995]。用圖的空間來表示對象之間的關(guān)系,特別是對面向醫(yī)療成像,在Petrakis和Faloutsos[1997]探討。在史密斯和張[1997年a],二維字符串[昌等人。1987]被用來表征各區(qū)域之間的空間關(guān)系。一種自動特征選擇方法,提出了在Swets和翁[1996]。在Smeulders等。[2000],視覺內(nèi)容描述的主題是結(jié)束時的優(yōu)點和圖像分割問題的討論,以及采取的方法,可避免強大的分割,同時仍然很好地刻畫形象結(jié)構(gòu)的圖像檢索。在當(dāng)前的十年中,許多地區(qū)為基礎(chǔ)的圖像檢索方法已經(jīng)提出不依賴強大的分割。我們討論了特征提取和其他新的創(chuàng)新。一旦圖像特征被抽取,問題將改變成為他們?nèi)绾伪辉诓煌臋z索過程從被索引和匹配。這些方法主要目的是盡量減低盡可能的語義鴻溝,有時減少感官的差距,以及在這一進程。相似的措施,歸納為基于特征的匹配(例如,斯溫和Ballard[1991]),對象的輪廓為基礎(chǔ)的匹配(例如,德爾Bimbo和帕拉[1997]),結(jié)構(gòu)特征匹配(即分層排列功能集,例如,威爾遜和漢考克[1997]),顯著特征匹配(例如,幾何散列沃爾夫森和Rigoutsos[1997]),在語義級別(例如,費金[1997])匹配,和學(xué)習(xí)為基礎(chǔ)的做法相似匹配(例如,吳等人。[2000]和Webe等。[2000])。緊密聯(lián)系在一起的相似性措施是如何模擬用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論