信息檢索doc修改_第1頁
信息檢索doc修改_第2頁
信息檢索doc修改_第3頁
信息檢索doc修改_第4頁
信息檢索doc修改_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)生序號(hào):課程論文論文題目:信息檢索技術(shù)小結(jié)課程名稱:現(xiàn)代信息檢索課程序號(hào):1110505學(xué)生姓名:王義龍學(xué)生學(xué)號(hào):1101530124 所在學(xué)院:建筑與交通工程學(xué)院所在專業(yè):土木工程2011-11-13隨著Internet的發(fā)展,網(wǎng)絡(luò)已成為人們獲得信息的必要途徑和手段,網(wǎng)絡(luò)中的海量信息既給人們帶來方便,也帶來了許多問題。信息內(nèi)容龐雜,為找到有用信息,人們經(jīng)常要耗費(fèi)大量寶貴的時(shí)間。因此,如何從大量信息中獲取有用的信息,如何從迅速爆炸的信息中及時(shí)獲取最新信息,都是目前面臨的挑戰(zhàn)性問題這些問題成為信息檢索的新熱點(diǎn),因此信息檢索技術(shù)成為現(xiàn)在信息技術(shù)的核心之一信息檢索,顧名思義就是指查找滿足特定需要的

2、過程。廣義信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來。狹義信息檢索僅指信息的檢索過程,即信息用戶根據(jù)自己的需要,利用信息檢索工具,在信息集中查找出所需要的信息的過程。信息的定義眾說紛紜,莫衷一是。人們從不同學(xué)科、不同角度或不同方法對(duì)信息下了許多定義。信息定義的多樣化,主要源于三方面的原因:第一,信息本身的復(fù)雜性。第二,信息科學(xué)尚不夠完善成熟。第三,實(shí)際需要的不同。一般對(duì)信息概念通俗的解釋是:“信息是物質(zhì)的一種普遍屬性,是物質(zhì)存在的方式和運(yùn)動(dòng)的規(guī)律與特點(diǎn)”。信息檢索的方法:(1)數(shù)據(jù)檢索數(shù)據(jù)檢索的條件一般具有清晰的定義,要求取得滿足條件的所有對(duì)象,主要針對(duì)結(jié)構(gòu)化的信息系統(tǒng)。這種檢索在查詢要求和

3、數(shù)據(jù)的存儲(chǔ)上都要遵從統(tǒng)一的格式,具有固定的的結(jié)構(gòu)。比較有代表性的是各種商業(yè)數(shù)據(jù)庫。數(shù)據(jù)檢索的特點(diǎn)有:依賴于代碼的質(zhì)量,檢索花費(fèi)大,檢出的信息相對(duì)精確度高但查全率偏低。由于數(shù)據(jù)檢索在檢索中使用的字段標(biāo)識(shí)方法和用戶的理解可能產(chǎn)生誤差,因此造成了數(shù)據(jù)檢索的局限性。這種相對(duì)嚴(yán)格的匹配,也使得其支持語義匹配的能力也較差。(2)全文檢索全文檢索主要研究對(duì)整個(gè)文檔信息的表示、存儲(chǔ)、組織和訪問方法,是以全文文本信息為主要檢索對(duì)象,允許用戶根據(jù)資料內(nèi)容而不是外在特征,以自然語言來實(shí)現(xiàn)信息檢索的先進(jìn)查詢手段。全面、準(zhǔn)確和快速是衡量全文檢索系統(tǒng)的關(guān)鍵指標(biāo)。一個(gè)好的全文檢索系統(tǒng)不僅要求將輸出信息進(jìn)行相關(guān)性排列,還應(yīng)該

4、能夠根據(jù)用戶的意圖、興趣和特點(diǎn)自適應(yīng)和智能似調(diào)整匹配機(jī)制,獲得用戶滿意的檢索輸出。全文檢索是把用戶查詢的請(qǐng)求以關(guān)鍵詞的形式與文中的每一個(gè)詞進(jìn)行比較,而不考慮查詢請(qǐng)求與文檔語義上的匹配。這種檢索方式主要基于詞頻分析技術(shù)。當(dāng)前正被人們廣泛使用的Google、Yahoo和百度等大多使用的就是全文檢索技術(shù)。由于全文檢索技術(shù)只針對(duì)字符串進(jìn)行匹配,它的優(yōu)點(diǎn)是檢出信息量大,人工干預(yù)少;而缺點(diǎn)是返回結(jié)果精確度低,產(chǎn)生很多無關(guān)信息,這也加重了用戶對(duì)查詢結(jié)果的再次篩選的負(fù)擔(dān)。(3)語義檢索語義檢索也稱為基于概念的信息檢索,其基本方法是通過對(duì)文獻(xiàn)中的原文信息進(jìn)行語義上的處理,析取各種概念信息,由此形成一個(gè)知識(shí)庫,然

5、后,根據(jù)對(duì)用戶提問的理解,在知識(shí)庫中的相關(guān)信息的幫助下,發(fā)掘用戶需要的信息。語義信息檢索有以下幾個(gè)特性:a)具有分析和理解自然語言的能力??梢詫?duì)輸入的原文根據(jù)其概念內(nèi)容進(jìn)行組織和安排,析取相關(guān)的概念信息和范疇知識(shí);b)可以將用戶查詢過程以概念的形式存儲(chǔ)到知識(shí)庫,并能實(shí)現(xiàn)知識(shí)庫的自動(dòng)補(bǔ)充與更新,為用戶提供更加智能化的服務(wù)。語義信息檢技術(shù)的上述特性,提高了系統(tǒng)的查全率和查準(zhǔn)率,同時(shí)由于其具備了智能檢索的一些特性,有較強(qiáng)的理解原文內(nèi)容及用戶提問信息的能力,因此,備受檢索用戶的青睞。信息檢索的意義:1.避免重復(fù)研究或走彎路 我們知道,科學(xué)技術(shù)的發(fā)展具有連續(xù)性和繼承性,閉門造車只會(huì)重復(fù)別人的勞動(dòng)或者走彎

6、路。研究人員在選題開始就必須進(jìn)行信息檢索,了解別人在該項(xiàng)目上已經(jīng)做了哪些工作,哪些工作目前正在做,誰在做,進(jìn)展情況如何等。這樣,用戶就可以在他人研究的基礎(chǔ)上進(jìn)行再創(chuàng)造,從而避免重復(fù)研究,少走或不走彎路。2.節(jié)省學(xué)習(xí)者的時(shí)間 科學(xué)技術(shù)的迅猛發(fā)展加速了信息的增長,加重了信息用戶搜集信息的負(fù)擔(dān)。許多學(xué)者在承接某個(gè)課題之后,也意識(shí)到應(yīng)該查找資料,但是他們以為整天泡在圖書館“普查”一次信息就是信息檢索,結(jié)果浪費(fèi)了許多時(shí)間,而有價(jià)值的信息沒有查到幾篇,查全率非常低。信息檢索是研究工作的基礎(chǔ)和必要環(huán)節(jié),成功的信息檢索無疑會(huì)節(jié)省大量時(shí)間,使其能用更多的時(shí)間和精力進(jìn)行科學(xué)研究。3.是獲取新知識(shí)的捷徑 大學(xué)生在校

7、期間,已經(jīng)掌握了一定的基礎(chǔ)知識(shí)和專業(yè)知識(shí)。但是,“授之以魚”只能讓其享用一時(shí)。如果掌握了信息檢索的方法便可以無師自通,找到一條吸收和利用大量新知識(shí)的捷徑,把大家引導(dǎo)到更廣闊的知識(shí)領(lǐng)域中去,對(duì)未知世界進(jìn)行探索。是謂“教人以漁”,才能終身受用無窮。文獻(xiàn)檢索:1文獻(xiàn)檢索的概念:狹義的檢索(Retrieval)是指依據(jù)一定的方法,從已經(jīng)組織好的大量有關(guān)文獻(xiàn)集合中,查找并獲取特定的相關(guān)文獻(xiàn)的過程。這里的文獻(xiàn)集合,不是通常所指的文獻(xiàn)本身,而是關(guān)于文獻(xiàn)的信息或文獻(xiàn)的線索。廣義的檢索包括信息的存儲(chǔ)和檢索兩個(gè)過程(Storage and Retrieval)。信息存儲(chǔ)是將大量無序的信息集中起來,根據(jù)信息源的外表

8、特征和內(nèi)容特征,經(jīng)過整理、分類、濃縮、標(biāo)引等處理,使其系統(tǒng)化、有序化,并按一定的技術(shù)要求建成一個(gè)具有檢索功能的數(shù)據(jù)庫或檢索系統(tǒng),供人們檢索和利用。而檢索是指運(yùn)用編制好的檢索工具或檢索系統(tǒng),查找出滿足用戶要求的特定信息。2.文獻(xiàn)檢索的方式:手工檢索是通過人工自己動(dòng)手去查找,去對(duì)比檢索標(biāo)識(shí)和書本式檢索工具(各種書本式目錄、索引、文摘等)中的存貯標(biāo)識(shí)的相符性,即通過“人書對(duì)話”來完成檢索過程。計(jì)算機(jī)檢索是通過計(jì)算機(jī)來模擬人的手工檢索過程,由計(jì)算機(jī)來處理檢索者的檢索提問,將檢索者輸入檢索系統(tǒng)的檢索提問(即檢索標(biāo)識(shí))按檢索者預(yù)先制定的檢索策略與系統(tǒng)文檔(機(jī)讀數(shù)據(jù)庫)中的存貯標(biāo)識(shí)進(jìn)行類比、匹配運(yùn)算,通過“

9、人機(jī)對(duì)話”而檢索出所需要的文獻(xiàn)。數(shù)據(jù)庫索引:設(shè)計(jì)高效的索引對(duì)于獲得良好的數(shù)據(jù)庫和應(yīng)用程序性能極為重要。為數(shù)據(jù)庫及其工作負(fù)荷選擇正確的索引是一項(xiàng)需要在查詢速度與更新所需開銷之間取得平衡的復(fù)雜任務(wù)。如果索引較窄,或者說索引關(guān)鍵字中只有很少的幾列,則需要的磁盤空間和維護(hù)開銷都較少。而另一方面,寬索引可覆蓋更多的查詢。您可能需要試驗(yàn)若干不同的設(shè)計(jì),才能找到最有效的索引??梢蕴砑?、修改和刪除索引而不影響數(shù)據(jù)庫架構(gòu)或應(yīng)用程序設(shè)計(jì)。因此,應(yīng)試驗(yàn)多個(gè)不同的索引而無需猶豫。SQL Server 中的查詢優(yōu)化器可在大多數(shù)情況下可靠地選擇最高效的索引。總體索引設(shè)計(jì)策略應(yīng)為查詢優(yōu)化器提供可供選擇的多個(gè)索引,并依賴查詢

10、優(yōu)化器做出正確的決定。這在多種情況下可減少分析時(shí)間并獲得良好的性能。不要總是將索引的使用等同于良好的性能,或者將良好的性能等同于索引的高效使用。如果只要使用索引就能獲得最佳性能,那查詢優(yōu)化器的工作就簡(jiǎn)單了。但事實(shí)上,不正確的索引選擇并不能獲得最佳性能。因此,查詢優(yōu)化器的任務(wù)是只在索引或索引組合能提高性能時(shí)才選擇它,而在索引檢索有礙性能時(shí)則避免使用它。搜索引擎的分類:1. 按組織信息的方式分類:(1)采用分類主題目錄形式。(2)使用關(guān)鍵詞匹配方式。2. 按語種分類:(1)單語種引擎指搜索時(shí)只能用一種語言在同一搜索引擎中搜索。如中文雅虎、hotbot等。(2)多語種搜索引擎指那些可以用多種語言在同一搜索引擎中搜索。如“Altavista”。常用的搜索引擎:谷歌http:/百度http:/雅虎http:/搜狗http:/搜搜http:/網(wǎng)易http:/愛問http:/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論