2013信息檢索課件第1章_第1頁
2013信息檢索課件第1章_第2頁
2013信息檢索課件第1章_第3頁
2013信息檢索課件第1章_第4頁
2013信息檢索課件第1章_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

信息檢索概述信息檢索(informationretrieval,簡稱IR)是在大規(guī)模的數(shù)字化文獻中,通過計算機自動處理,在海量文本中找出與用戶信息需要相符合的相關文檔和信息的過程。信息檢索延伸到了Web、社交媒體、數(shù)字圖書館、數(shù)字檔案和各種類型的多媒體信息領域。信息檢索的定義和應用場景移動信息檢索現(xiàn)代社會人手一機,移動設備上的信息檢索成為日常生活中不可或缺的一部分。移動設備數(shù)據(jù)量的快速增長以及智能手機的高性能都在驅(qū)動移動信息檢索的快速發(fā)展。文獻檢索從互聯(lián)網(wǎng)上收集、整理并存儲各類文獻,然后通過搜索引擎或檢索系統(tǒng)提供多種適用的條件,供讀者進行各類文獻檢索和查詢。職業(yè)信息檢索指求職者通過搜索引擎、招聘平臺等途徑獲取職位信息的過程。職業(yè)信息檢索是求職過程中必不可少的一環(huán)。數(shù)字圖書館數(shù)字圖書館通過建立一整套數(shù)字圖書館的環(huán)境(包括數(shù)據(jù)的結構化、存儲、維護、檢索、查詢等),使文獻資源得到最佳的管理和利用。信息檢索的發(fā)展歷程早期信息檢索20世紀40-50年代,基于關鍵字的檢索技術逐漸成熟。計算機技術的革新20世紀70-80年代,計算機技術的大幅革新使信息處理的范式產(chǎn)生了巨大變化。萬維網(wǎng)的出現(xiàn)20世紀90年代初期,WWW的出現(xiàn)導致了更為快速以及更高效的信息檢索方式。人工智能的運用21世紀,機器學習等人工智能相關領域的科技得到了廣泛的應用,成為了信息檢索的重要組成部分。信息檢索的基本模型1布爾模型對于檢索語句與文檔全文之間的精確匹配,僅僅通過單次構造相對于純自然語言的長問題,容易產(chǎn)生歧義。2向量空間模型將所有文檔向量化并建立向量空間,依據(jù)文檔與查詢的相對位置計算出相關度。3概率模型基于在統(tǒng)計學的框架內(nèi)對概率的識別的一種方式,使其不僅準確度提高了,而且又避免了歧義的問題。信息檢索的評價標準查詢精度包含召回率或者準確搜索率等方面,用于衡量搜索引擎返回結果的準確程度。檢索效率衡量搜索引擎返回結果的查詢時間。用戶滿意度基于用戶查詢行為、檢索結果等信息,衡量用戶對檢索的滿意程度。信息檢索的挑戰(zhàn)信息過載隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,已經(jīng)越來越難于過濾出與個人查詢相關的信息,情況越來越嚴峻。虛假信息虛假信息通過越來越精準的手段傳播,很可能挑戰(zhàn)到搜索引擎領域,導致更多的信息被較少檢索出來。隱私問題隨著搜索引擎與大數(shù)據(jù)技術的結合,用戶隱私保護成為了一系列監(jiān)管政策的焦點。信息檢索的主要任務文檔庫管理建立盡可能完整和精確的文檔庫。查詢理解對于所查詢的問題,上下文語境和查詢目的能夠明確理解。召回匹配針對所查詢的項目,將與之匹配的文檔提取到出來。結果評估依靠一系列的衡量方法,來對檢索結果進行評測。信息檢索中的查詢語言和語義分析查詢語言搜索引擎通過查詢語言建立索引,自然語言理解技術則提供了更多多樣化的查詢方式。語義分析指針對語義的分析,優(yōu)化查詢效果。語義分析可以分類為句法級別分析和語義級別分析。在Web搜索引擎中的相關性反饋技術用戶反饋搜索引擎建立起了用戶反饋系統(tǒng),用戶可以通過這一系統(tǒng)對檢索結果的相關性進行回饋,并引入到排序算法中。相關搜索計算與所搜索的內(nèi)容相關的其他信息或者搜索關系,將其提示給用戶,引導用戶獲得更好的搜索結果。搜索歷史搜索引擎記錄用戶查詢的過程,活動等,并推出相應的歷史查詢。信息檢索中的圖像和視頻檢索技術圖像檢索基于圖像內(nèi)容提取和比對獲得圖像之間的相似度程度,再組合索引查詢,獲得用戶需要查找的圖像信息。視頻檢索基于視頻的本質(zhì)屬性進行視頻內(nèi)容的特征分析和提取,通過各種搜索技術查詢并提供視頻結果。信息檢索的未來發(fā)展趨勢和方向現(xiàn)代信息檢索技術從原本只是在搜索引擎方面的運用轉(zhuǎn)為在針對各類領域的應用。現(xiàn)在越來越多的搜索能力被整合到其他領域當中。但是,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論