02139-計(jì)算機(jī)信息檢索_第1頁(yè)
02139-計(jì)算機(jī)信息檢索_第2頁(yè)
02139-計(jì)算機(jī)信息檢索_第3頁(yè)
02139-計(jì)算機(jī)信息檢索_第4頁(yè)
02139-計(jì)算機(jī)信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

02139計(jì)算機(jī)信息檢查2/2第一章互聯(lián)網(wǎng)信息資源1、網(wǎng)絡(luò)上的信息內(nèi)容:①政府信息(最有價(jià)值,權(quán)威性,可靠性、低廉);②科研信息;③教育信息;(各大學(xué)所設(shè)立的網(wǎng)站及相關(guān)信息)?;ヂ?lián)網(wǎng)已經(jīng)發(fā)展成為一種重要的教育手段、學(xué)習(xí)環(huán)境。④媒體信息;網(wǎng)絡(luò)媒體受眾廣泛、關(guān)注度高、交互性強(qiáng)、價(jià)格低廉⑤商務(wù)信息;(各種采購(gòu)、招標(biāo)、推廣與服務(wù)信息)⑥休閑娛樂(lè)信息;(最成功)2、互聯(lián)網(wǎng)的信息資源:(1)特點(diǎn):廣泛性,多樣性,共享性,新穎性,互動(dòng)性,經(jīng)濟(jì)性;(2)局限性:分散,無(wú)序,多變,信息質(zhì)量難以控制,信息安全難以保障。3、互聯(lián)網(wǎng)上信息資源的種類:(網(wǎng)絡(luò)傳輸協(xié)議劃分)(1)、Web信息資源:Web是WorldWideWeb(WWW,3W)的縮寫,“全球信息網(wǎng)”“萬(wàn)維網(wǎng)”。它把各種類型的信息(如文本、聲音、動(dòng)畫、錄像)和服務(wù)無(wú)縫鏈接,提供了豐富多彩的圖形界面,直觀方便。①超文本傳輸協(xié)議HTTP:是瀏覽器與Web服務(wù)器之間相互通信、傳輸、響應(yīng)用戶請(qǐng)求的協(xié)議。Web服務(wù)器根據(jù)客戶提出的HTTP請(qǐng)求,為用戶提供信息瀏覽、數(shù)據(jù)查詢、安全驗(yàn)證等方面的服務(wù);②超文本標(biāo)記語(yǔ)言HTML:一種專門編程語(yǔ)言,具體規(guī)定和描述了文件顯示的具體格式。③通用資源定位程序URL:又稱網(wǎng)絡(luò)資源的統(tǒng)一定位格式或統(tǒng)一資源定位器④主頁(yè)HomePage:主頁(yè)是瀏覽器訪問(wèn)某個(gè)Web服務(wù)器上的信息時(shí)第一個(gè)鏈接到的文檔。⑤鏈接Link:是Web網(wǎng)頁(yè)的元素,是指向其他信息資源的指針,把Web頁(yè)捆綁在一起。⑥瀏覽器:指Web服務(wù)客戶端的瀏覽程序,是顯示網(wǎng)頁(yè)服務(wù)器或檔案系統(tǒng)內(nèi)的文件,并讓用戶與這些文件互動(dòng)的一種軟件。(2)、Telnet(互聯(lián)網(wǎng)遠(yuǎn)程登錄服務(wù))資源的功能:通過(guò)在遠(yuǎn)程計(jì)算機(jī)上登錄,使用戶正在使用的計(jì)算機(jī)暫時(shí)成為它所登錄的某一遠(yuǎn)程主機(jī)的仿真遠(yuǎn)程終端,進(jìn)而實(shí)時(shí)訪問(wèn)、共享、使用到遠(yuǎn)程計(jì)算機(jī)系統(tǒng)中對(duì)用戶開(kāi)放的相應(yīng)資源。Telnet曾經(jīng)是一個(gè)強(qiáng)有力的互聯(lián)網(wǎng)資源共享工具,通過(guò)Telnet方式提供的信息資源主要有:政府部門、研究機(jī)構(gòu)對(duì)外開(kāi)放的數(shù)據(jù)庫(kù),某些商業(yè)性聯(lián)機(jī)檢索系統(tǒng),一些大學(xué)和研究機(jī)構(gòu)開(kāi)發(fā)的電子布告欄系統(tǒng)BBS,還有許多大中型圖書(shū)館的在線公共檢索目錄。(3)、通過(guò)FTP獲取文件的一般步驟:①登錄;②瀏覽目錄,找到所需文件;③設(shè)置文件傳輸參數(shù),選擇文件的傳輸模式;如:Ascii模式—用于傳輸文本文件;二進(jìn)制模式—用于傳輸非文本文件;④下載所需文件?;ヂ?lián)網(wǎng)使用的專門用來(lái)傳輸文件的協(xié)議,完成從一個(gè)系統(tǒng)到另一個(gè)系統(tǒng)完整的文件拷貝,即在互聯(lián)網(wǎng)計(jì)算機(jī)之間傳輸文件。(4)、用戶組信息資源:網(wǎng)上各種各樣的用戶新聞組、郵件群曾經(jīng)是互聯(lián)網(wǎng)上很流行的信息交流形式,包括:新聞組、電子郵件群、專題討論組、興趣組、論壇。雖名稱各異,但實(shí)質(zhì)上都是由一組對(duì)某一特定主題事物有共同興趣的網(wǎng)絡(luò)用戶組成的郵件群組或電子論壇,是一種有組織的電子郵件系統(tǒng),用戶在其間通過(guò)電子郵件進(jìn)行一對(duì)多的交流。特點(diǎn):直接交互、全球互聯(lián)、主題鮮明。盡管由于近年來(lái)隨著互聯(lián)網(wǎng)的發(fā)展、寬帶的普及,出現(xiàn)了更多快速、便捷的實(shí)時(shí)交流方式,如RSS、Blog、Twitter等,使用戶組的風(fēng)頭逐漸削弱。但在科研和教學(xué)方面,用戶組還是一種值得重視的、豐富的、自由的、最具開(kāi)放性的資源。4、互聯(lián)網(wǎng)信息資源的評(píng)價(jià)(1)、評(píng)價(jià)的標(biāo)準(zhǔn):目的、范圍、內(nèi)容(準(zhǔn)確性、權(quán)威性、新穎性、特征性、可靠性、鏈接、圖形和多媒體設(shè)計(jì)、信息的展示與設(shè)計(jì)、可操作性【用戶友好性,檢索性能,交互性】)、費(fèi)用、評(píng)論(2)、網(wǎng)絡(luò)信息資源質(zhì)量的評(píng)價(jià)方法:①定性評(píng)價(jià):按照一定的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)被評(píng)站點(diǎn)的各方面特征、質(zhì)量做出主觀評(píng)判,一般有問(wèn)卷調(diào)查、專家評(píng)議等方式;②定量評(píng)價(jià):利用數(shù)量分析方法,對(duì)相關(guān)數(shù)據(jù)進(jìn)行調(diào)查采集、統(tǒng)計(jì)分析,進(jìn)而做出較系統(tǒng)、客觀的評(píng)判。(3)、網(wǎng)絡(luò)信息資源的一般評(píng)價(jià)方法:①?gòu)腢RL中得到信息;②查看網(wǎng)站描述和版權(quán)說(shuō)明;③從鏈接中獲得信息;④參考他人的評(píng)價(jià)。第2章互聯(lián)網(wǎng)信息檢索概論1、互聯(lián)網(wǎng)信息檢索的類型:①“順鏈而行”的瀏覽;②基于目錄型檢索工具的互聯(lián)網(wǎng)信息檢查;③基于索引型檢索工具的互聯(lián)網(wǎng)信息檢索。2、目錄型網(wǎng)絡(luò)檢索工具也被稱為網(wǎng)絡(luò)資源目錄或網(wǎng)絡(luò)主題指南,它是一種基于人工的檢索工具,由人工發(fā)現(xiàn)、抓取、辨別互聯(lián)網(wǎng)信息,依靠編目、標(biāo)引人員的知識(shí),按照?qǐng)D書(shū)分類、學(xué)科分類或其他分類依據(jù)的體系,建立主題樹(shù)分層目錄,將采集、篩選后的信息分門別類地放入各大類或子類下面,用戶通過(guò)逐級(jí)瀏覽這些目錄來(lái)查尋自己所需要的內(nèi)容。3、互聯(lián)網(wǎng)信息檢索的特點(diǎn):①無(wú)限的檢索范圍,動(dòng)態(tài)的檢索對(duì)象;②豐富的檢索內(nèi)容,新興的檢索領(lǐng)域;③強(qiáng)大的檢索工具,低廉的檢索費(fèi)用。4、信息組織:就是把數(shù)據(jù)按照一定的結(jié)構(gòu)、順序、排列方式組織起來(lái),或者說(shuō)是按照信息查詢的需要,對(duì)數(shù)據(jù)根據(jù)其特征進(jìn)行組織;信息組織的目的是服務(wù)于信息查詢。5、信息查詢:就是通過(guò)搜索、定位以及取得數(shù)據(jù)的過(guò)程,也就是說(shuō)從大量數(shù)據(jù)集合中獲取用戶需要的相關(guān)信息,信息查詢的效果和成敗極大地依賴于信息組織的水平。6、建立索引:為了快速響應(yīng)檢索,在組織信息時(shí)就必須建立索引。索引是一種將關(guān)鍵詞詞目映射到相應(yīng)文檔的數(shù)據(jù)結(jié)構(gòu)。7、自動(dòng)分類方法又可分為:①歸類--自動(dòng)歸類:是分析網(wǎng)頁(yè)的內(nèi)容特征,并與實(shí)現(xiàn)擬定的種類類別中的特征描述進(jìn)行比較,然后將對(duì)象歸入為特征最接近的一類,并賦予相應(yīng)的分類號(hào);②聚類--自動(dòng)聚類:則是從待分類網(wǎng)頁(yè)中提出特征,然后將提出的特征進(jìn)行比較,再根據(jù)一定的原則或需要,將具有相同或相近特征的對(duì)象定義為一類,這個(gè)類目未必是事先擬定好的。8、元數(shù)據(jù):描述數(shù)據(jù)的數(shù)據(jù)。編制目錄的目的在于描述數(shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成輔助信息檢索的目的。而元數(shù)據(jù)就是用來(lái)揭示各類型電子文件的內(nèi)容和其他特征的有力工具,其典型的作業(yè)環(huán)境是互聯(lián)網(wǎng)。9、較為普遍的查詢算法模型包括:①布爾檢索模型:是最簡(jiǎn)單的模型,也是其他檢索模型的基礎(chǔ)。用戶根據(jù)所檢索關(guān)鍵詞在檢索結(jié)果中的邏輯關(guān)系遞交檢索,檢索模塊根據(jù)布爾邏輯的基本運(yùn)算法來(lái)給出檢索結(jié)果。優(yōu)點(diǎn):模型原理簡(jiǎn)單容易理解,容易在計(jì)算機(jī)上實(shí)現(xiàn),檢索速度快;缺點(diǎn):最終給出的檢索結(jié)果沒(méi)有相關(guān)性排序,不夠精確,不能反映不同的索引項(xiàng)對(duì)一個(gè)文檔的重要程度的差異。②擴(kuò)展布爾模型:對(duì)布爾模型的改進(jìn),優(yōu)點(diǎn):將非此即彼的相關(guān)判斷方式改為計(jì)算相似度,避免了“一刀切”的情況;缺點(diǎn):最終給出的檢索結(jié)果沒(méi)有相關(guān)性排序,不夠精確,不能反映不同的索引項(xiàng)對(duì)一個(gè)文檔的重要程度差異。③向量空間檢索模型:它的基本思想是,文檔和檢索提問(wèn)都可以用向量表示,引用線性代數(shù)理論,檢索過(guò)程就是計(jì)算文檔向量與檢索提問(wèn)向量之間的相似度,可以根據(jù)相似度值的不同,對(duì)檢索結(jié)果進(jìn)行排序;還可以根據(jù)檢索結(jié)果,做進(jìn)一步的相關(guān)檢索。優(yōu)點(diǎn):使用簡(jiǎn)單,并且在模型中有許多可調(diào)整的計(jì)算方式;缺點(diǎn):欠缺理論的支持與驗(yàn)證。④概率模型:優(yōu)點(diǎn):有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點(diǎn),缺點(diǎn):參數(shù)估計(jì)的難度比較大,文件和檢索的表達(dá)也比較困難。10、互聯(lián)網(wǎng)檢索工具的性能評(píng)價(jià):(1)收錄范圍(2)檢索功能(核心指標(biāo)):①檢索方式,單一還是多樣;②檢索技術(shù)是否先進(jìn)、多樣;③檢索限定,對(duì)所查信息是否有選擇與限定的自由。(3)檢索效率(檢全率和檢準(zhǔn)率)(4)檢索結(jié)果的處理和展示(5)用戶界面設(shè)計(jì)。11、檢全率:對(duì)于一項(xiàng)檢索,實(shí)際檢出的文件數(shù)目與所有應(yīng)該被檢出的文件數(shù)目的比率。12、檢準(zhǔn)率:對(duì)于一項(xiàng)檢索,實(shí)際檢出的文件之中有多少比率是真正應(yīng)該被檢出的文件。13、較高的檢準(zhǔn)率可以節(jié)省用戶從檢出的所有文檔中過(guò)濾掉無(wú)關(guān)信息的時(shí)間。第3章互聯(lián)網(wǎng)檢索工具(一)--搜索引擎1、搜索引擎:是一種能夠通過(guò)互聯(lián)網(wǎng)接受用戶的查詢指令,幫助用戶訊速地從網(wǎng)上查找所需要的信息,并向用戶提供符合其查詢要求的搜索結(jié)果列表及相關(guān)信息的檢索系統(tǒng)。2、Archie:是第一個(gè)互聯(lián)網(wǎng)信息檢索工具3、從搜索技術(shù)層面上分析,搜索引擎的發(fā)展大致經(jīng)歷了以下3個(gè)階段:①第一代搜索引擎是以文檔分類導(dǎo)航為特征,是基于文檔內(nèi)容的搜索引擎,代表:Yahoo。②第二代搜索引擎產(chǎn)生于20世紀(jì)90年代中期,以關(guān)鍵詞匹配為特征,并基于超鏈接分析技術(shù),從而實(shí)現(xiàn)網(wǎng)頁(yè)的自動(dòng)抓取、排序等。代表:Google③第三代搜索引擎是一種智能化的搜索引擎,可以實(shí)現(xiàn)自然語(yǔ)言的無(wú)障礙搜索。4、搜索引擎的一般工作流程是:首先對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行搜集,其次對(duì)搜集來(lái)的網(wǎng)頁(yè)進(jìn)行預(yù)處理,建立網(wǎng)頁(yè)索引庫(kù),實(shí)時(shí)響應(yīng)用戶的查詢請(qǐng)求,并對(duì)查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。5、搜索引擎的重要功能是對(duì)互聯(lián)網(wǎng)上的文本信息提供全文檢索。分步驟敘述搜索引擎的工作原理。①抓取--從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè):搜索引擎的信息搜集基本上是自動(dòng)的。②索引--建立索引數(shù)據(jù):此過(guò)程即為搜索引擎對(duì)搜集到的網(wǎng)頁(yè)信息進(jìn)行系統(tǒng)整理的過(guò)程。③搜索、排序—在索引數(shù)據(jù)庫(kù)中搜索排序:用戶輸入關(guān)鍵詞進(jìn)行檢索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。依據(jù)已經(jīng)計(jì)算好的所有網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度,按照其數(shù)值高低進(jìn)行排序。④顯示—對(duì)搜索結(jié)果進(jìn)行處理排序:搜索引擎定期對(duì)網(wǎng)頁(yè)進(jìn)行重新訪問(wèn),更新數(shù)據(jù)庫(kù)信息,同時(shí)根據(jù)網(wǎng)頁(yè)文字和鏈接關(guān)系的改變重新進(jìn)行排序。6、搜索引擎的關(guān)鍵技術(shù)有哪些:(1)信息收集和存儲(chǔ),(2)信息預(yù)處理技術(shù):①關(guān)鍵詞提取技術(shù);②垃圾信息消除技術(shù)③鏈接分析技術(shù)④網(wǎng)頁(yè)重要性計(jì)算術(shù);(3)信息索引技術(shù):①順排文檔檢索②倒排文檔索引③后綴數(shù)組索引7、搜索引擎技術(shù)的發(fā)展趨勢(shì):①自然語(yǔ)言檢索技術(shù)②目錄導(dǎo)航檢索與關(guān)鍵詞檢索相結(jié)合③智能化和個(gè)性化檢索技術(shù)④多媒體檢索技術(shù)⑤3G移動(dòng)搜索⑥交叉語(yǔ)言檢索技術(shù)8、網(wǎng)絡(luò)檢索工具的分類:(1)按檢索對(duì)象劃分:①Web資源檢索工具;②非Web資源檢索工具;(2)按檢索機(jī)制劃分:①目錄型Yahoo;②索引型Google;③混合型;(3)按檢索領(lǐng)域劃分:①綜合型網(wǎng)絡(luò)檢索工具;②專業(yè)型網(wǎng)絡(luò)檢索工具;③特殊型網(wǎng)絡(luò)檢索工具;(4)按集成檢索工具數(shù)量劃分:①獨(dú)立型網(wǎng)絡(luò)檢索工具;②集合型網(wǎng)絡(luò)檢索工具;(5)按運(yùn)行環(huán)境劃分:①互聯(lián)網(wǎng)搜索工具;②網(wǎng)站內(nèi)搜索工具;③桌面搜索工具;9、搜索引擎的主要類型:①通用搜索引擎②垂直搜索引擎③元搜索引擎10、Bing,是微軟公司于2009年5月發(fā)布的一款用以取代LiveSearch搜索引擎11、AckJeeves因采用“自然語(yǔ)言搜索”而一舉成名。12、Lycos是第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要,曾以遠(yuǎn)勝過(guò)其他搜索引擎的數(shù)據(jù)量著稱。13、國(guó)內(nèi)通用搜索引擎:搜狗、百度。14、垂直搜索:是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的信息搜索和有一定價(jià)值的相關(guān)信息服務(wù),特點(diǎn):就是專、精、深,且具有行業(yè)色彩。關(guān)鍵技術(shù):“主題爬蟲(chóng)”技術(shù)和Web信息提取技術(shù)。15、“主題爬蟲(chóng)”技術(shù):與通用搜索引擎不同,是根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留主題相關(guān)的鏈接并將其放入待抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)才停止。16、垂直搜索引擎的特征:(1)信息采集:采用主動(dòng)采集與被動(dòng)采集相結(jié)合的方式;(2)信息加工:對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息提取加工,通用搜索引擎進(jìn)行檢索的最小單位為網(wǎng)頁(yè),而垂直搜索引擎的最小單位是結(jié)構(gòu)化的數(shù)據(jù);(3)信息檢索:不僅能夠?qū)W(wǎng)頁(yè)信息的結(jié)構(gòu)化信息進(jìn)行檢索,還能提供結(jié)構(gòu)化與非結(jié)構(gòu)化相結(jié)合的方式進(jìn)行檢索。17、垂直搜索引擎常用工具介紹:①酷訊:是國(guó)內(nèi)的第一個(gè)全旅游搜索引擎;②智聯(lián)招聘網(wǎng);③搜房網(wǎng);④優(yōu)酷網(wǎng):視頻分享網(wǎng)站。18、元搜索引擎:又稱集合式搜索引擎、并行搜索引擎之搜索引擎。它是將多個(gè)搜索引擎集成在一起,并提供一個(gè)統(tǒng)一的檢索界面。19、元搜索引擎工作原理:將多個(gè)搜索引擎進(jìn)行集合,通過(guò)統(tǒng)一的檢索界面接受用戶的檢索提問(wèn),用戶只需遞交一次檢索請(qǐng)求,元搜索引擎就可根據(jù)知識(shí)庫(kù)中的信息,將用戶的檢索請(qǐng)求轉(zhuǎn)換為多個(gè)搜索引擎所能識(shí)別的格式,自動(dòng)地分發(fā)、提交給多個(gè)獨(dú)立的搜索引擎,同時(shí)進(jìn)行多個(gè)數(shù)據(jù)庫(kù)的檢索,最后元搜索引擎再把從各個(gè)搜索引擎返回的檢索結(jié)果收集起來(lái),進(jìn)行比較分析,合并冗余、去除重復(fù)信息,交以一定的格式返回給用戶。20、元搜索引擎與普通搜索引擎的區(qū)別:①可以將一次提問(wèn)提交多個(gè)數(shù)據(jù)庫(kù);②沒(méi)有自己獨(dú)立的數(shù)據(jù)庫(kù);③結(jié)果是基于獨(dú)立搜索引擎的結(jié)果的二次加工;④標(biāo)明結(jié)果記錄的來(lái)源搜索引擎及相關(guān)度。21、元搜索引擎的優(yōu)點(diǎn):①信息覆蓋面大,檢索效率高;②檢索工具擴(kuò)展性能強(qiáng);③服務(wù)多樣化;④無(wú)需考慮網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)的建立和維護(hù)。22、元搜索引擎的缺點(diǎn):①檢索結(jié)果全面性和可靠性差;②不能靈活控制結(jié)果的輸出;③檢索結(jié)果排序不夠理想;④信息搜索覆蓋面存在局限性;⑤檢索式處理較復(fù)雜。第4章互聯(lián)網(wǎng)檢索工具(二)--目錄型網(wǎng)絡(luò)檢索工具1、互聯(lián)網(wǎng)黃頁(yè)是目錄型目錄型檢索工具的特點(diǎn):①面向用戶的易用性;②提供準(zhǔn)確性較高的信息內(nèi)容;③提供導(dǎo)航作用良好的檢索體系結(jié)構(gòu);④以明確的主題和對(duì)象為中心設(shè)置確定類目;⑤有兼容性強(qiáng)的多元類目。2、目錄型網(wǎng)絡(luò)檢索工具的分類法:①主題分類法,其特征是一個(gè)主題充當(dāng)一個(gè)類目,像主題詞表一樣按字順排列,而不是以邏輯排列;②學(xué)科分類法,一般是以知識(shí)分類為基礎(chǔ),按照學(xué)科性質(zhì)及從屬、層次關(guān)系來(lái)組織網(wǎng)絡(luò)資源;③圖書(shū)分類法,④分面組配法,其原理是首先確定幾個(gè)分類標(biāo)準(zhǔn),再確定每個(gè)分類標(biāo)準(zhǔn)中的若干特征值,即類目,每一分面的類目與其他分面的類目分別組配,形成許多組配類目,達(dá)到細(xì)分的目的。3、目錄型網(wǎng)絡(luò)檢索工具的類型:①網(wǎng)絡(luò)資源目錄,即以整個(gè)互聯(lián)網(wǎng)資源為檢索對(duì)象,將一些重要、優(yōu)質(zhì)的網(wǎng)絡(luò)資源組織成分類目錄,提供給用戶查詢檢索;②學(xué)科信息門戶,是經(jīng)過(guò)人工處理、專家排選、定期檢查處理的學(xué)科信息導(dǎo)航系統(tǒng),其主要功能是:提供學(xué)科信息瀏覽檢索和有效資源的鏈接。③搜索工具門戶,以信息檢索工具、查詢網(wǎng)站為檢索對(duì)象,專門為人們了解、選擇適用的信息查詢工具提供推薦、引導(dǎo)服務(wù)(如hao123)。4、目錄型網(wǎng)絡(luò)檢索工具的使用方法:①采用廣度優(yōu)先查詢法;②注意了解各個(gè)檢索工具的收錄特點(diǎn),選擇適當(dāng)?shù)墓ぞ?;③掌握各目錄檢索工具的分類體系;④關(guān)注熱門主題和常用目錄;⑤關(guān)注開(kāi)放目錄型檢索工具。5、目錄型檢索工具主要適用于:①用戶進(jìn)行較籠統(tǒng)的主題瀏覽和檢索;②當(dāng)用戶尚未形成很精確的檢索概念時(shí),采用主題指南作為檢索起點(diǎn)非常有效。國(guó)外:Yahoo、Galaxy;國(guó)內(nèi):搜狗網(wǎng)址導(dǎo)航、新浪分類目錄7、BUBLLINK是一個(gè)覆蓋了所有學(xué)術(shù)領(lǐng)域的互聯(lián)網(wǎng)資源目錄。8、目錄型網(wǎng)絡(luò)檢索工具與搜索引擎的區(qū)別:①目錄結(jié)構(gòu)人工選擇;②學(xué)術(shù)性強(qiáng);③分類瀏覽直觀,適合新手;④適合目的不明確的檢索;⑤查準(zhǔn)率較高;⑥數(shù)據(jù)庫(kù)的規(guī)模相對(duì)較小,檢索到的信息數(shù)量有限。第5章多媒體信息檢索1、圖像搜索:是通過(guò)搜索圖像的文本表示或者視覺(jué)特征,為用戶提供互聯(lián)網(wǎng)上相關(guān)圖像資料檢索服務(wù)的專業(yè)搜索引擎系統(tǒng),是搜索引擎的一種類型。圖像特征包括基于文本的特征(關(guān)鍵詞、注釋等)和視覺(jué)特征(如顏色、紋理、形狀等)。2、基于文本的圖像搜索:借助網(wǎng)絡(luò)圖像的文本上下文環(huán)境,可以在一定程度上為圖像分析、標(biāo)引提供依據(jù)??梢杂脕?lái)幫助圖像分析、標(biāo)引的Web文檔內(nèi)容包括以下幾方面:①圖像文件名及網(wǎng)址;②圖像替代文字;③圖像周圍的文字;④圖像所在頁(yè)面的標(biāo)題;⑤圖像的超鏈接;⑥圖像所在網(wǎng)頁(yè)彼此間的鏈接3、基于內(nèi)容的圖像搜索:對(duì)圖像的媒體視覺(jué)特征、內(nèi)容語(yǔ)義,如圖像的顏色、形狀、紋理和空間布局等可視化內(nèi)容進(jìn)行分析和檢索的圖像檢索技術(shù),簡(jiǎn)稱CBIR技術(shù)??梢杂脕?lái)處理圖像的主要特征包括以下幾點(diǎn):①顏色,是在基于內(nèi)容圖像檢索中最廣泛使用的可視化特征;②紋理,是圖像的重要特征之一,它代表了物體的視覺(jué)模式,包含了物體表面的組織結(jié)構(gòu)以及與周圍環(huán)境之間的關(guān)系;③形狀,是刻畫物體最本質(zhì)的特征,也是最難描述的圖像特征之一,主要難在對(duì)圖像中感興趣目標(biāo)的分割。4、谷歌圖像:①概況,世界上最好用的圖像搜索工具;②檢索功能:一般檢索和高級(jí)檢索兩種模式;③結(jié)果顯示,檢索結(jié)果以縮略圖的方式顯示;④評(píng)價(jià),無(wú)愧于“最佳圖像搜索引擎”的稱號(hào),它提供給用戶最精準(zhǔn)的搜索。5、Flickr,被認(rèn)為是分眾分類法的典范,也是第一個(gè)使用標(biāo)簽云網(wǎng)站。6、百度圖片,號(hào)稱是世界上最大的中文圖片搜索引擎。7、基于內(nèi)容的圖像搜索引擎。查詢模式有以下3種:①按例查詢:用戶提供一個(gè)查詢圖片,在數(shù)據(jù)庫(kù)中搜索相似圖片;②按繪查詢:用戶在類似的畫板的接口上面進(jìn)行簡(jiǎn)單的繪畫,以此為標(biāo)準(zhǔn)進(jìn)行查詢;③按描述查詢:指定一定的條件來(lái)進(jìn)行查詢。8、QBIC:基于內(nèi)容圖像檢索系統(tǒng),商業(yè)化9、ALLmusic,基于文本的音頻搜索引擎10、OPERABASE是一個(gè)專門用來(lái)查找歌劇信息的網(wǎng)站11、目前視頻檢索的方法主要有以下三種:①基于關(guān)鍵幀的檢索:使用目標(biāo)特征的說(shuō)明;②基于運(yùn)動(dòng)的檢索:基于鏡頭和視頻對(duì)象的時(shí)間特征;③基于故事單元的瀏覽檢索:采用分層結(jié)構(gòu)和集束分類技術(shù)。第6章學(xué)術(shù)信息的網(wǎng)上檢索與獲取1、世界各地圖書(shū)館在開(kāi)發(fā)、建設(shè)數(shù)據(jù)圖書(shū)館系統(tǒng)的進(jìn)程中,已將傳統(tǒng)的圖書(shū)館目錄發(fā)展為“聯(lián)機(jī)圖書(shū)館公共可檢索目錄”(OPAC),即一個(gè)基于網(wǎng)絡(luò)的開(kāi)放式書(shū)目檢索系統(tǒng)。2、互聯(lián)網(wǎng)Worldcat是OCLC系統(tǒng)提供的一個(gè)在線聯(lián)合目錄數(shù)據(jù)庫(kù),是世界上最龐大、最完整、收錄圖書(shū)館最多的聯(lián)合目錄。3、方正Apabi數(shù)字圖書(shū)館是北京大學(xué)方正公司開(kāi)發(fā)的數(shù)字圖書(shū)系統(tǒng)。4、古騰堡計(jì)劃,是互聯(lián)網(wǎng)上最早的免費(fèi)電子圖書(shū)生產(chǎn)者,現(xiàn)在它幾乎平均每一天都生產(chǎn)一部電子書(shū)。5、IEEE/IEE,簡(jiǎn)稱IEL,是一套由IEEE和IEE出版的全文數(shù)據(jù)庫(kù),是當(dāng)今世界信息量最大的電子、工程類信息源之一。6、HighWire是全球最大的提供免費(fèi)全文學(xué)術(shù)文獻(xiàn)的出版商。7、中國(guó)學(xué)術(shù)會(huì)議在線,進(jìn)行會(huì)議檢索。8、學(xué)位論文:指高等院校或?qū)W術(shù)研究機(jī)構(gòu)的學(xué)生為獲得某種學(xué)位而撰寫的科學(xué)論文,包括學(xué)士論文、碩士論文、博士論文等。9、標(biāo)準(zhǔn):指按規(guī)定程序制訂,經(jīng)公認(rèn)權(quán)威機(jī)構(gòu)或主管機(jī)關(guān)批準(zhǔn)的一整套在特定領(lǐng)域內(nèi)必須執(zhí)行的規(guī)格、規(guī)則、技術(shù)要求等規(guī)范性文獻(xiàn)。10、中國(guó)標(biāo)準(zhǔn)服務(wù)網(wǎng),提供對(duì)標(biāo)準(zhǔn)信息的免費(fèi)查詢。11、國(guó)際組織:亦稱國(guó)際團(tuán)體或國(guó)際機(jī)構(gòu),是具有國(guó)際性行為特征的組織,是3個(gè)或3個(gè)以上國(guó)家(或其他國(guó)際法主體)為實(shí)現(xiàn)共同的政治經(jīng)濟(jì)目的,依據(jù)其締結(jié)的條約或其他正式法律文件建立的有一定規(guī)章制度的常設(shè)性機(jī)構(gòu)。12、會(huì)議文獻(xiàn)是在各種學(xué)術(shù)會(huì)議上所發(fā)表的論文、報(bào)告、講演等的統(tǒng)稱。其主要特點(diǎn)是時(shí)效性強(qiáng),反映新成果較快,質(zhì)量較高,專業(yè)性較突出,往往代表著某一學(xué)科或?qū)I(yè)領(lǐng)域的最新研究水平。13、圖書(shū)錧館藏目錄檢索途徑主要有:①題名檢索,包括書(shū)名、叢書(shū)名、并列書(shū)名、刊名;②責(zé)任者檢索,包括著者、編者、譯者、團(tuán)體著者(包括會(huì)議)名稱;③分類檢索,從圖書(shū)所屬學(xué)科、領(lǐng)域分類的角度,按分類號(hào)進(jìn)行檢索;④主題/關(guān)鍵詞檢索,以表征圖書(shū)內(nèi)容主題的主題詞或關(guān)鍵詞進(jìn)行檢索;⑤號(hào)碼檢索,包括國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)ISBN,國(guó)際標(biāo)準(zhǔn)刊號(hào)ISSN,中國(guó)書(shū)號(hào)或期刊號(hào);⑥出版社名稱檢索。第7章參考信息網(wǎng)上檢索1、參考信息:即指人名、地名、機(jī)構(gòu)、時(shí)間、統(tǒng)計(jì)數(shù)據(jù)等一類數(shù)據(jù)、事實(shí)信息,是人們?cè)诠ぷ餮芯亢腿粘I钪薪?jīng)常要查考、引用的信息。2、百科全書(shū)是人類一切門類知識(shí)或某一門類知識(shí)的概述性著述,集各種類型工具之大成,被稱為“工具書(shū)之王”。3、維基百科:是一個(gè)語(yǔ)言、內(nèi)容開(kāi)放的網(wǎng)絡(luò)百科全書(shū)計(jì)劃。4、傳記資料:記錄歷史人物或當(dāng)代著名人物的生平資料等相關(guān)信息,這些信息一般包括生卒年、學(xué)歷、職務(wù)、經(jīng)歷、家庭、政治背景、學(xué)術(shù)觀點(diǎn)、團(tuán)體、著述、評(píng)價(jià)、通信方式等。5、網(wǎng)上白頁(yè):是專用于查找個(gè)人信息的特殊工具,這些個(gè)人信息包括電話號(hào)碼、E_Mail地址、郵政編碼、通訊住址。6、IAF:為用戶提供極為優(yōu)質(zhì)的黃白頁(yè)檢索服務(wù),是目前世界上最好的黃白頁(yè)信息查詢工具之一。7、地理信息查詢:與人民的生活密切相關(guān),用戶可以根據(jù)自身的查詢需求選擇適當(dāng)?shù)牡乩硇畔⒖荚础?、地名工具書(shū)是地理信息的核心,可以用來(lái)查找古今中外的地名及所代表的地理、歷史、人文等簡(jiǎn)況。9、SkyAuction是一個(gè)非常流行的拍賣網(wǎng)站。10、年鑒:是指“每年出版的統(tǒng)計(jì)數(shù)據(jù)和事實(shí)的匯編,兼有現(xiàn)期性和回溯性內(nèi)容。其包含的地區(qū)和學(xué)科領(lǐng)域一般比較廣泛,也可能限于某一特定國(guó)家或特定的領(lǐng)域”。11、Infoplease是一個(gè)集百科全書(shū)、字典、地圖集合和年鑒與一體的網(wǎng)站。12、機(jī)構(gòu)名錄又稱名錄、指南、便覽、行名錄,是用來(lái)查找機(jī)構(gòu)團(tuán)體相關(guān)信息的一類檢索工具。不同于黃頁(yè)。13、詞典:是根據(jù)一定的編撰目的匯集詞語(yǔ)(或詞語(yǔ)的某些成分),并加以描述、說(shuō)明,通常按字順排列,供人們查找詞語(yǔ)信息的工具書(shū)。14、黃頁(yè)信息:將定位地點(diǎn)周邊商業(yè)劃分為娛樂(lè)、教育、餐飲等15大類,用戶可以根據(jù)需要分類檢索周邊商業(yè)設(shè)施。第8章互聯(lián)網(wǎng)信息檢索策略、技巧與提高信息需求的5W1H(whatwhowherewhenwhyhow)1、關(guān)鍵詞的選取步驟:①抽取基礎(chǔ)關(guān)鍵詞,排除常用詞;②考慮基礎(chǔ)關(guān)鍵詞的同義詞;③考慮上位詞(外延更廣)和下位詞(內(nèi)涵更窄);④考慮相關(guān)詞;⑤總結(jié)審視2、常見(jiàn)的布爾邏輯操作符:①AND操作符;②OR操作符;③“”引號(hào)操作符;④NEAR操作符BEFORE和AFTER操作符;⑤ANDNOR操作符;⑥通配符(*和?);⑦括號(hào)操作符3、引號(hào)操作符:對(duì)應(yīng)英文關(guān)鍵詞即為詞組檢索方式,詞組檢索強(qiáng)制檢索結(jié)果必須與詞組的形式完全一致(順序和間隔都不變),不允許拆分關(guān)鍵詞,這樣對(duì)檢索結(jié)果限制得更嚴(yán),檢準(zhǔn)率也更高。4、截詞檢索:分為前截詞檢索,后截詞檢索,中間截詞檢索、前后截詞檢索。同時(shí),各截?cái)嗖糠诌€可以分為精確截?cái)啵幢唤刈址淖址麛?shù)目是確定的,通常用通配符“?”表示,“?”的個(gè)數(shù)即是被截字符串的字符數(shù))和模糊截?cái)啵幢唤刈址淖址麛?shù)目是不確定,通常用通配符“*”表示,被截字符串的字符數(shù)可以為零,亦可以是具有檢索意義的任何字符個(gè)數(shù))。5、檢索策略,包括如何選擇檢索工具,如何根據(jù)檢索結(jié)果調(diào)整檢索表達(dá)式,以及對(duì)信息資源、對(duì)檢索工具的深入思考等。完善周密的檢索策略可以幫助檢索者解決那些看起來(lái)很困難的問(wèn)題,而一個(gè)不成熟的檢索策略很可能導(dǎo)致在一個(gè)簡(jiǎn)單的檢索上面浪費(fèi)大量的時(shí)間甚至造成檢索失敗。實(shí)施檢索策略的步驟:①判斷目標(biāo)信息可能存在的地方;②了解互聯(lián)網(wǎng)信息檢索的特殊性;③了解可用的檢索工具;④仔細(xì)分析自己的信息需求并選擇合適的工具;⑤根據(jù)檢索結(jié)果調(diào)整檢索策略6、目前,通用的互聯(lián)網(wǎng)檢索工具大致分為:搜索引擎、元搜索引擎、網(wǎng)絡(luò)資源目錄和專門數(shù)據(jù)庫(kù)。7、進(jìn)階檢索技巧:①猜測(cè)URL;②右截?cái)嗑W(wǎng)址;③利用網(wǎng)頁(yè)快照;④注意多義詞;⑤避免拼寫錯(cuò)誤;⑥利用瀏覽器的“查找”功能;⑦利用檢索工具的特殊功能;⑧使用輔助關(guān)鍵詞;⑨順藤摸瓜;⑩使用自然語(yǔ)言檢索;注意單詞的大小寫;垂直檢索;字段檢索;善于利用錯(cuò)誤信息。8、通用字段檢索語(yǔ)法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論