計(jì)算機(jī)信息檢索第三章_第1頁
計(jì)算機(jī)信息檢索第三章_第2頁
計(jì)算機(jī)信息檢索第三章_第3頁
計(jì)算機(jī)信息檢索第三章_第4頁
計(jì)算機(jī)信息檢索第三章_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息檢索與利用信息檢索與利用第三章第三章 文獻(xiàn)信息數(shù)據(jù)庫及計(jì)算機(jī)檢索文獻(xiàn)信息數(shù)據(jù)庫及計(jì)算機(jī)檢索 學(xué)習(xí)要點(diǎn)及要求學(xué)習(xí)要點(diǎn)及要求 了解文獻(xiàn)信息數(shù)據(jù)庫的類型、評價(jià)標(biāo)準(zhǔn)及了解文獻(xiàn)信息數(shù)據(jù)庫的類型、評價(jià)標(biāo)準(zhǔn)及計(jì)算機(jī)信息檢索的基本知識(shí),掌握布爾邏輯計(jì)算機(jī)信息檢索的基本知識(shí),掌握布爾邏輯檢索技術(shù)及搜索引擎檢索技術(shù)及搜索引擎GoogleGoogle的基本使用方法的基本使用方法及其主要特點(diǎn)。及其主要特點(diǎn)。 了解國際聯(lián)機(jī)檢索系統(tǒng)的了解國際聯(lián)機(jī)檢索系統(tǒng)的主要特點(diǎn);主要特點(diǎn);了解了解檢索效果評價(jià)的意義及其優(yōu)化手段。檢索效果評價(jià)的意義及其優(yōu)化手段。目目 錄錄1. 1. 文獻(xiàn)信息數(shù)據(jù)庫文獻(xiàn)信息數(shù)據(jù)庫 2. 2. 計(jì)算機(jī)信

2、息檢索基礎(chǔ)計(jì)算機(jī)信息檢索基礎(chǔ) 3. 3. 網(wǎng)上的信息檢索及搜索引擎網(wǎng)上的信息檢索及搜索引擎4. 4. 國際聯(lián)機(jī)檢索簡介國際聯(lián)機(jī)檢索簡介5. 5. 檢索效果評價(jià)及其優(yōu)化檢索效果評價(jià)及其優(yōu)化1. 1. 文獻(xiàn)信息數(shù)據(jù)庫文獻(xiàn)信息數(shù)據(jù)庫 文獻(xiàn)文獻(xiàn)是記錄一切人類知識(shí)信息的載體。 (文獻(xiàn)情報(bào)術(shù)語國際標(biāo)準(zhǔn)(ISO/DIS5217) 數(shù)據(jù)庫數(shù)據(jù)庫是結(jié)構(gòu)化的數(shù)據(jù)集合,至少由一種文檔組成并能夠滿足某種特定目的或特定數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合 。 當(dāng)數(shù)據(jù)庫記錄的對象為文獻(xiàn)信息時(shí),就稱為文獻(xiàn)信息數(shù)據(jù)庫文獻(xiàn)信息數(shù)據(jù)庫 。 文獻(xiàn)信息數(shù)據(jù)庫的結(jié)構(gòu)文獻(xiàn)信息數(shù)據(jù)庫的結(jié)構(gòu) 一個(gè)數(shù)據(jù)庫通常由一個(gè)一個(gè)數(shù)據(jù)庫通常由一個(gè)主文檔主文檔(Ma

3、ster File)(Master File)和若和若干個(gè)索引文檔或稱干個(gè)索引文檔或稱倒排文檔倒排文檔(Inverted File)(Inverted File)組成。組成。 文檔文檔是具有某種特征的全部記錄的集合。是具有某種特征的全部記錄的集合。 記錄記錄是構(gòu)成文檔的基本單元,由各種反映文獻(xiàn)是構(gòu)成文檔的基本單元,由各種反映文獻(xiàn)特征的字段組成。如一篇論文、一件專利、一本圖書、特征的字段組成。如一篇論文、一件專利、一本圖書、一個(gè)標(biāo)準(zhǔn)的相關(guān)信息都能夠成為文擋中的一條記錄。一個(gè)標(biāo)準(zhǔn)的相關(guān)信息都能夠成為文擋中的一條記錄。 字段字段是記錄的基本組成元素。一條記錄的常見是記錄的基本組成元素。一條記錄的常見

4、字段通常包含題名字段、著者字段、主題詞字段、文獻(xiàn)字段通常包含題名字段、著者字段、主題詞字段、文獻(xiàn)出處字段(如刊名等)多種字段。出處字段(如刊名等)多種字段。文獻(xiàn)信息數(shù)據(jù)庫的結(jié)構(gòu)n文獻(xiàn)數(shù)據(jù)庫中常見文獻(xiàn)數(shù)據(jù)庫中常見的字段字段和段碼段碼n基 本 字字 段段n題目題目Title TI 文摘文摘abstract AB n敘詞敘詞Descriptor DEn輔輔 助助 字字 段段n作者作者 Author AU n作者單位作者單位 Corporation Source CSn期刊名稱期刊名稱 Journal JNn出版年份出版年份Publishing year PY 文獻(xiàn)信息數(shù)據(jù)庫的類型文獻(xiàn)信息數(shù)據(jù)庫的類型

5、按數(shù)據(jù)庫所含信息的特征可分為按數(shù)據(jù)庫所含信息的特征可分為n 1.參考數(shù)據(jù)庫(參考數(shù)據(jù)庫(reference databases)n參考數(shù)據(jù)庫是指引用戶到另一信息源以獲參考數(shù)據(jù)庫是指引用戶到另一信息源以獲得原文或其他細(xì)節(jié)的一類數(shù)據(jù)庫。它包括得原文或其他細(xì)節(jié)的一類數(shù)據(jù)庫。它包括書目數(shù)據(jù)庫和指南數(shù)據(jù)庫兩種。書目數(shù)據(jù)庫和指南數(shù)據(jù)庫兩種。 文獻(xiàn)信息數(shù)據(jù)庫類型文獻(xiàn)信息數(shù)據(jù)庫類型n書目數(shù)據(jù)庫(bibliographic databases) 指存儲(chǔ)某個(gè)領(lǐng)域的二次文獻(xiàn)(如文摘、題錄、目錄等書目數(shù)據(jù))的數(shù)據(jù)庫,有時(shí)又稱為二次文獻(xiàn)數(shù)據(jù)庫,或簡稱文獻(xiàn)數(shù)據(jù)庫。例如,美國化學(xué)文摘數(shù)據(jù)庫CA Search,中國機(jī)械工程文

6、摘數(shù)據(jù)庫,各國生產(chǎn)發(fā)行的機(jī)讀目錄(MARC)等,即屬于此類型。n指南數(shù)據(jù)庫(reference databases) 指存儲(chǔ)關(guān)于某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動(dòng)等對象的簡要描述,指引用戶從其他有關(guān)信息源獲取更詳細(xì)的信息的一類數(shù)據(jù)庫。亦稱指示性數(shù)據(jù)庫。例如,各種機(jī)構(gòu)名錄數(shù)據(jù)庫、人物傳記數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫、軟件數(shù)據(jù)庫、研究開發(fā)項(xiàng)目數(shù)據(jù)庫、基金數(shù)據(jù)庫等,均屬此類。 文獻(xiàn)信息數(shù)據(jù)庫類型文獻(xiàn)信息數(shù)據(jù)庫類型n2. 源數(shù)據(jù)庫:n 是能直接提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫,用戶不必再查閱其他信息源可分為:n數(shù)值數(shù)據(jù)庫(numeric databases) 如統(tǒng)計(jì)數(shù)據(jù)庫、財(cái)務(wù)數(shù)據(jù)庫、科學(xué)技術(shù)數(shù)據(jù)庫等n文本

7、-數(shù)值數(shù)據(jù)庫(textual-numeric databases)產(chǎn)品市場報(bào)告數(shù)據(jù)庫、 n全文數(shù)據(jù)庫(full-text databases)法律法規(guī)全文庫、期刊全文庫 n術(shù)語數(shù)據(jù)庫(terminological bank) n圖像數(shù)據(jù)庫(graphics databases) n3混合型數(shù)據(jù)庫:多媒體數(shù)據(jù)庫數(shù)據(jù)庫(multimedia databases) 文獻(xiàn)信息數(shù)據(jù)庫的類型n按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為n書目型數(shù)據(jù)庫:二次文獻(xiàn)數(shù)據(jù)庫,僅提供書目型數(shù)據(jù)庫:二次文獻(xiàn)數(shù)據(jù)庫,僅提供文獻(xiàn)檢索,讀者根據(jù)其提供的線索查找文文獻(xiàn)檢索,讀者根據(jù)其提供的線索查找文獻(xiàn)原文。獻(xiàn)

8、原文。 可以分為:題錄型可以分為:題錄型 文摘型文摘型n 文獻(xiàn)信息數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為 全文數(shù)據(jù)庫全文數(shù)據(jù)庫 不僅提供文獻(xiàn)的基本信息及線索,同時(shí)還提不僅提供文獻(xiàn)的基本信息及線索,同時(shí)還提供原始文獻(xiàn)本身的數(shù)據(jù)庫。主要包括全文數(shù)供原始文獻(xiàn)本身的數(shù)據(jù)庫。主要包括全文數(shù)據(jù)庫、術(shù)語數(shù)據(jù)庫、圖像數(shù)據(jù)庫等等。據(jù)庫、術(shù)語數(shù)據(jù)庫、圖像數(shù)據(jù)庫等等。 如如: : 文獻(xiàn)信息數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為 混合型數(shù)據(jù)庫混合型數(shù)據(jù)庫指數(shù)據(jù)中的數(shù)據(jù),一部分只是提供參考數(shù)據(jù)庫指數(shù)據(jù)中的數(shù)據(jù),一部分只是提供參考數(shù)據(jù)庫中的信息(文獻(xiàn)的基

9、本情況及線索);另一中的信息(文獻(xiàn)的基本情況及線索);另一部分則可以提供全文數(shù)據(jù)庫中的信息(原始部分則可以提供全文數(shù)據(jù)庫中的信息(原始文獻(xiàn)本身)。文獻(xiàn)本身)。 如:如:文獻(xiàn)信息數(shù)據(jù)庫的類型按文獻(xiàn)數(shù)據(jù)庫收錄信息的學(xué)科范圍可分按文獻(xiàn)數(shù)據(jù)庫收錄信息的學(xué)科范圍可分為為 (1) (1) 專業(yè)性文獻(xiàn)信息數(shù)據(jù)庫專業(yè)性文獻(xiàn)信息數(shù)據(jù)庫 (CA)(CA) (2) (2) 綜合性文獻(xiàn)信息數(shù)據(jù)庫綜合性文獻(xiàn)信息數(shù)據(jù)庫 ( (中國期刊網(wǎng)中國期刊網(wǎng)) ) 文獻(xiàn)信息數(shù)據(jù)庫的評價(jià)標(biāo)準(zhǔn)文獻(xiàn)信息數(shù)據(jù)庫的評價(jià)標(biāo)準(zhǔn) 收錄內(nèi)容范圍收錄內(nèi)容范圍系統(tǒng)準(zhǔn)確。系統(tǒng)準(zhǔn)確。 揭示文獻(xiàn)詳略揭示文獻(xiàn)詳略完備詳細(xì)。完備詳細(xì)。 更新速度快慢更新速度快慢及時(shí)

10、快速。及時(shí)快速。 檢索字段多寡檢索字段多寡途徑豐富。途徑豐富。 檢索功能強(qiáng)弱檢索功能強(qiáng)弱高效完善。高效完善。 用戶使用方便用戶使用方便易學(xué)易用。易學(xué)易用。 維護(hù)服務(wù)質(zhì)量維護(hù)服務(wù)質(zhì)量及時(shí)到位。及時(shí)到位。2. 2. 計(jì)算機(jī)信息檢索基礎(chǔ)計(jì)算機(jī)信息檢索基礎(chǔ) 計(jì)算機(jī)信息檢索計(jì)算機(jī)信息檢索 指利用計(jì)算機(jī)及相關(guān)軟件和通信設(shè)施,對本地計(jì)算機(jī)、遠(yuǎn)程服務(wù)器及網(wǎng)上信息進(jìn)行檢索的過程或活動(dòng)。 隨著信息技術(shù)的快速發(fā)展及對各種文獻(xiàn)信息的數(shù)字化處理,計(jì)算機(jī)文獻(xiàn)信息檢索已經(jīng)成為文獻(xiàn)信息檢索的主要手段。 計(jì)算機(jī)信息檢索發(fā)展過程計(jì)算機(jī)信息檢索發(fā)展過程 脫機(jī)檢索階段脫機(jī)檢索階段(50年代中期到60年代中期)聯(lián)機(jī)檢索階段聯(lián)機(jī)檢索階段

11、(60年代中期到70年代中期)光盤數(shù)據(jù)庫檢索階段光盤數(shù)據(jù)庫檢索階段(70年代中期到80年代末)網(wǎng)絡(luò)化檢索階段網(wǎng)絡(luò)化檢索階段(90初年代至今) 計(jì)算機(jī)檢索的一般程序計(jì)算機(jī)檢索的一般程序 (1)分析檢索課題,明確檢索要求 (2)選擇適當(dāng)檢索系統(tǒng)(數(shù)據(jù)庫) (3)確定檢索途徑及檢索詞 (4)構(gòu)建檢索提問式 (5)上機(jī)檢索并調(diào)整檢索策略 (6)輸出檢索結(jié)果 (具體) 計(jì)算機(jī)檢索的一般程序n主題分析主題分析n明確檢索需求及檢索目標(biāo)明確檢索需求及檢索目標(biāo)n(1)檢索信息的學(xué)科范圍)檢索信息的學(xué)科范圍n(2)檢索信息的類型)檢索信息的類型n(3)檢索的目的)檢索的目的n選擇檢索系統(tǒng)(數(shù)據(jù)庫等)選擇檢索系統(tǒng)(

12、數(shù)據(jù)庫等) n(1)根據(jù)檢索目的確定所需數(shù)據(jù)庫的類型)根據(jù)檢索目的確定所需數(shù)據(jù)庫的類型n(2)根據(jù)信息需求的內(nèi)容、專業(yè)范圍選擇數(shù)據(jù)庫)根據(jù)信息需求的內(nèi)容、專業(yè)范圍選擇數(shù)據(jù)庫n(3)根據(jù)記錄來源選擇數(shù)據(jù)庫)根據(jù)記錄來源選擇數(shù)據(jù)庫n(4)根據(jù)熟悉程度選擇數(shù)據(jù)庫)根據(jù)熟悉程度選擇數(shù)據(jù)庫(注:是課題檢索的重點(diǎn)和難點(diǎn))n檢索目的(申報(bào)課題、開題報(bào)告、學(xué)術(shù)論文、成果查新、課程論文、商業(yè)需求以及其它需求類型等)n文獻(xiàn)類型(期刊論文、會(huì)議論文、科技報(bào)告、圖書、專利、標(biāo)準(zhǔn)、網(wǎng)站等)n結(jié)果形式(全文、文摘、題錄、數(shù)值、事實(shí)等)n檢索年限(如2000年以來的文獻(xiàn))n語種(中文、外文;英文、日文)n檢索結(jié)果數(shù)量(10

13、0?50?)計(jì)算機(jī)檢索的一般程序n確定檢索途徑確定檢索途徑n制訂檢索式(確定檢索詞、編制檢索式制訂檢索式(確定檢索詞、編制檢索式 ) 應(yīng)首先從相應(yīng)的主題詞表中選擇所需的檢索詞,以便獲得最佳應(yīng)首先從相應(yīng)的主題詞表中選擇所需的檢索詞,以便獲得最佳檢索效果檢索效果 沒有確切表達(dá)課題內(nèi)容的主題詞時(shí),可采用自由詞檢索沒有確切表達(dá)課題內(nèi)容的主題詞時(shí),可采用自由詞檢索。 以課題核心概念為主,排除無關(guān)概念,把重復(fù)概念進(jìn)行歸并,以課題核心概念為主,排除無關(guān)概念,把重復(fù)概念進(jìn)行歸并,簡化檢索式,提高檢索效果。簡化檢索式,提高檢索效果。 計(jì)算機(jī)檢索的一般程序構(gòu)建檢索提問式:用戶將自己的檢索需求組織成計(jì)算機(jī)檢索系統(tǒng)能

14、夠識(shí)別和處理的檢索提問式并輸入計(jì)算機(jī). 計(jì)算機(jī)信息檢索過程是檢索詞與標(biāo)引比較的過程.對于多概念主題(不相容),為了滿足檢索需要,檢索詞需進(jìn)行組配. 計(jì)算機(jī)檢索基本技術(shù)計(jì)算機(jī)檢索基本技術(shù) 布爾邏輯檢索技術(shù)布爾邏輯檢索技術(shù) 布爾檢索技術(shù)是指利用布爾運(yùn)算符連接各個(gè)檢索詞,然后由計(jì)算機(jī)進(jìn)行相應(yīng)邏輯運(yùn)算,以檢索出所需信息的方法。常用算符及含義: AND AND (*)表示由該符號(hào)連接的檢索式的運(yùn)算結(jié)果為邏輯”與”。 OR OR (+)表示由該符號(hào)連接的檢索式的運(yùn)算結(jié)果為邏輯”或”。 NOTNOT (-)表示由該符號(hào)連接的檢索式的運(yùn)算結(jié)果為邏輯”非”。計(jì)算機(jī)檢索基本技術(shù)布爾邏輯檢索技術(shù)nAND AND (

15、*)n 連接不相容的主題概念(或不同字段)n 檢索結(jié)果同時(shí)出現(xiàn)連接的詞n 限定 縮小范圍 提高準(zhǔn)確率nOR OR (+)n 連接同義詞 同族詞 相關(guān)詞n 檢索結(jié)果至少含有其中一詞或同時(shí)有n 擴(kuò)大檢索范圍 提高查全nNOTNOT (-)n 縮小檢索范圍,起到減少文獻(xiàn)輸出量計(jì)算機(jī)檢索基本技術(shù)布爾邏輯檢索技術(shù)判斷:計(jì)算機(jī)檢索基本技術(shù)布爾邏輯檢索技術(shù) 優(yōu)先處理算符優(yōu)先處理算符“( )”邏輯算符OR和AND的使用方法,如果歸納成一個(gè)模式,比如有 A、B、C、D四個(gè)檢索詞(其中A和B,C和D分別為同義概念),檢索提問式為: (A OR B)AND (C OR D) 即,同一組檢索提問既含有OR算符,又含有

16、AND算符,此時(shí)須使用優(yōu)先處理算符 “( )”,將OR算符前后的詞放入括號(hào)中,計(jì)算機(jī)將優(yōu)先運(yùn)算括號(hào)內(nèi)的算符。邏輯運(yùn)算符的應(yīng)用邏輯運(yùn)算符的應(yīng)用n例:n為檢索課題”固氮和固炭的生化機(jī)理或基因機(jī)制”編制檢索策略.n固氮* 固炭* ( 生化+ 生物化學(xué) + 基因)n練習(xí):n“航空或航天發(fā)動(dòng)機(jī)的設(shè)計(jì)和制造”* *截詞檢索技術(shù)截詞檢索技術(shù) 截詞檢索是為擴(kuò)大檢索范圍與增加檢索結(jié)果而采用的一種檢索技術(shù)。 常件的截詞符號(hào)及含義: “*”可代表多個(gè)字符 “#”代表單個(gè)的字符 一個(gè)“?”或者“n?”代表0個(gè)到9個(gè)額外的字符 。* *位置檢索技術(shù)位置檢索技術(shù) 位置檢索可要求檢索詞以用戶所規(guī)定的相對位置出現(xiàn)。比如:以詞

17、組形式表達(dá)的概念;彼此相鄰的兩個(gè)或兩個(gè)以上的詞;被被禁用詞或特殊符號(hào)分隔的詞以及化學(xué)分子式等。位置算符是調(diào)禁用詞或特殊符號(hào)分隔的詞以及化學(xué)分子式等。位置算符是調(diào)整檢索策略的一種重要手段。整檢索策略的一種重要手段。 位置算符與AND 常用的位置算符及含義: (W)算符(WITH) 表示兩個(gè)檢索詞緊挨著,詞序不能顛倒, 中間不得插入其他詞、字母或代碼,但允許有空格或標(biāo)點(diǎn)符號(hào),也可用()表示。 例:COMMUNICATION(W)SATELLITE *位置檢索技術(shù)COMMUNICATION AND SATELLITE 結(jié)果:communication satellite ,satellite com

18、munication ,communication devices for satellite ;communication links without satellite (n W)算符(n WORD) 表示兩個(gè)檢索詞中間可插入n個(gè)詞,但它們之間的順序不可顛倒。* *位置檢索技術(shù)位置檢索技術(shù)(本內(nèi)容將在第(本內(nèi)容將在第4-74-7章詳細(xì)介紹)章詳細(xì)介紹) (N)算符(NEAR) 表示兩個(gè)檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。 (n N)算符(n NEAR) 表示兩個(gè)檢索詞中間可以插入n個(gè)詞,且詞序可以顛倒。 位置檢索技術(shù)n如:internet(N)accessingn 命中記錄中出

19、現(xiàn)的匹配詞可能有:n internet accessing, accessing internet。n 如:internet(1N)accessingn 命中記錄中除上例的外,還會(huì)可能有:n accessing internet, accessing the internet, internet /intranet accessing等。* *位置檢索技術(shù)位置檢索技術(shù)(本內(nèi)容將在第(本內(nèi)容將在第4-74-7章詳細(xì)介紹)章詳細(xì)介紹) (S)算符(SUBFIELD) 表示兩個(gè)檢索詞必須出現(xiàn)在同一個(gè)子句子中,但兩詞的詞序和插入的詞數(shù)不限。句子位置算符 (F)算符(FIELD)表示兩個(gè)檢索詞必須同時(shí)出

20、現(xiàn)在同一個(gè)字段內(nèi),但兩詞的詞序和中間插入的詞數(shù)不限。字段位置算符 例:air(w)pollution (F)control* *位置檢索技術(shù)位置檢索技術(shù)(本內(nèi)容將在第(本內(nèi)容將在第4-74-7章詳細(xì)介紹)章詳細(xì)介紹) (C)算符(CITATION)表示兩個(gè)檢索詞必須出現(xiàn)在同一記錄中,但兩詞的詞序和所在的字段不限。 (L)算符(LINK)表示兩個(gè)檢索詞之間存在從屬關(guān)系或限制關(guān)系,如果其中一個(gè)為一級(jí)主題詞,另一個(gè)就為二級(jí)主題詞。 *位置檢索技術(shù)常用的位置算符有N 或 near、 W 、Adj等。各個(gè)檢索系統(tǒng)中的位置算符的表示方法有所不同。下面介紹的以Ei COMPENDEX數(shù)據(jù)庫使用的位置算符為例

21、。 *位置檢索技術(shù)算符算符實(shí)實(shí) 例例解解 釋釋NEARNEARBridge NEAR NEAR Piling 所檢出的文獻(xiàn)要同時(shí)含有這兩個(gè)詞,這兩個(gè)詞要彼此接近(間距不超過5 5個(gè)詞),前后順序不限。W/nW/nPig W/2 W/2 pine 檢出的文獻(xiàn)要同時(shí)含有這兩個(gè)詞,兩個(gè)詞的間距不能超過n n個(gè)單詞,前后順序不限。AdjAdjChannel adjadj tunnel 檢出的文獻(xiàn)要同時(shí)含有這兩個(gè)詞,兩個(gè)詞相鄰,位置一定加權(quán)檢索技術(shù)加權(quán)檢索技術(shù) 加權(quán)檢索是在檢索提問式中,根據(jù)每個(gè)提問詞在檢索要求中的重要程度,分別給予一定的加權(quán)數(shù)值加以區(qū)別,我們稱這個(gè)數(shù)值為權(quán)數(shù)。同時(shí)再給出檢索命中的閾值。

22、當(dāng)檢索結(jié)果達(dá)到所設(shè)定的閾值時(shí),系統(tǒng)將顯示為命中記錄。 采用加權(quán)檢索的目的在于提高檢索結(jié)果的準(zhǔn)確程度。 限制檢索技術(shù) 所謂限制檢索是通過限制檢索范圍,達(dá)到優(yōu)化檢索結(jié)果的方法。 具體形式主要有: (1)字段限制檢索 (2)使用符號(hào)限制 (3)進(jìn)行范圍限制 (4)采用限制指令 限制檢索技術(shù)基本字段限制基本字段限制字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(題目、敘詞、識(shí)別基本字段限制的用法是在需要指定字段(題目、敘詞、識(shí)別詞和文摘)的檢索詞后加上后綴運(yùn)算符詞和文摘)的檢索詞后加上后綴運(yùn)算符“/”和段碼。和段碼。 例如,檢索策略例如,檢索策略“OPTICAL/TI A

23、ND FIBER/TI”的含義是的含義是指定在題目字段中查找含有指定在題目字段中查找含有 “optical” 和和“fiber”兩詞的所有兩詞的所有記錄。字段段碼可以多個(gè)連用,段碼之間加記錄。字段段碼可以多個(gè)連用,段碼之間加“,”即可。即可。 例如,檢索策略例如,檢索策略“FIB?/TI,DE”的含義是指定在題目和敘詞字的含義是指定在題目和敘詞字段中查找以段中查找以 “fib”為詞干的所有記錄。為詞干的所有記錄。限制檢索技術(shù) 輔助字段限制輔助字段限制輔助字段運(yùn)算符的用法是在需要指定字段的檢索詞(有時(shí)檢輔助字段運(yùn)算符的用法是在需要指定字段的檢索詞(有時(shí)檢索詞須放在雙引號(hào)內(nèi))之前加上段碼和前綴運(yùn)算

24、符索詞須放在雙引號(hào)內(nèi))之前加上段碼和前綴運(yùn)算符“=”。例。例如檢索策略如檢索策略AU=“Robert, S.”的含義是在作者字段中查找含有的含義是在作者字段中查找含有“Robert, S.”的所有記錄。的所有記錄。 下面是其他常用的輔助字段限制及其實(shí)例:下面是其他常用的輔助字段限制及其實(shí)例: 指定著者單位字段指定著者單位字段 CS=SHANGHAI UNIVERSITY 指定刊物名稱字段指定刊物名稱字段 JN=APPLIED MATHEMATICS 指定語言字段指定語言字段 LA=ENGLISH 指定文獻(xiàn)類型字段指定文獻(xiàn)類型字段 DT=JOURNAL檢索式的調(diào)整檢索式的調(diào)整 檢索表達(dá)式輸入檢索

25、系統(tǒng)后,輸出的檢索結(jié)果檢索表達(dá)式輸入檢索系統(tǒng)后,輸出的檢索結(jié)果有時(shí)不一定能滿足課題的要求,或者檢出的有時(shí)不一定能滿足課題的要求,或者檢出的篇數(shù)過多,而且不相關(guān)文獻(xiàn)所占比例很大,篇數(shù)過多,而且不相關(guān)文獻(xiàn)所占比例很大,或者檢出的文獻(xiàn)數(shù)量太少,有時(shí)甚至為零,或者檢出的文獻(xiàn)數(shù)量太少,有時(shí)甚至為零,這時(shí)就需要調(diào)整檢索策略。這時(shí)就需要調(diào)整檢索策略。檢索式的調(diào)整檢索式的調(diào)整 調(diào)整檢索策略之前,首先要分析造成結(jié)果不理想的原因。對于調(diào)整檢索策略之前,首先要分析造成結(jié)果不理想的原因。對于輸出篇數(shù)過多的情況,應(yīng)分析是否可能是如下原因造成:輸出篇數(shù)過多的情況,應(yīng)分析是否可能是如下原因造成: a .選用了多義性的檢索詞

26、;選用了多義性的檢索詞; b .截詞截得過短;截詞截得過短; c. 輸入的檢索詞太少;輸入的檢索詞太少; d. 應(yīng)該使用應(yīng)該使用“與(與(AND)”的使用了的使用了“或(或(OR)”; e.優(yōu)先運(yùn)算符優(yōu)先運(yùn)算符“()()”使用錯(cuò)誤。使用錯(cuò)誤。檢索式的調(diào)整檢索式的調(diào)整n 對于輸出篇數(shù)過少的情況,應(yīng)分析是否方式對于輸出篇數(shù)過少的情況,應(yīng)分析是否方式如下原因造成:如下原因造成:n a. 檢索詞拼寫錯(cuò)誤;檢索詞拼寫錯(cuò)誤;n b. 遺漏重要的同義詞或隱含概念;遺漏重要的同義詞或隱含概念;n c. 檢索詞過于冷僻具體;檢索詞過于冷僻具體;n d. 沒有使用截詞算符;沒有使用截詞算符;n e. 位置算符和字

27、段算符使用的過多;位置算符和字段算符使用的過多;n f. 使用過多的使用過多的“AND”算符。算符。檢索式的調(diào)整檢索式的調(diào)整針對上述原因,如果是屬于需要擴(kuò)大檢索范圍,提高針對上述原因,如果是屬于需要擴(kuò)大檢索范圍,提高檢索結(jié)果查全率的,調(diào)整策略的方法有:檢索結(jié)果查全率的,調(diào)整策略的方法有: a. a. 減少減少“與(與(ANDAND)”算符,增加同義詞或同族相關(guān)算符,增加同義詞或同族相關(guān)詞用邏輯或(詞用邏輯或(OROR)將它們連接起來;)將它們連接起來; b. b. 在詞干相同的單詞后使用截詞符(?或在詞干相同的單詞后使用截詞符(?或* *);); c. c. 去除已有的字段限制、位置算符限制(

28、或者改用去除已有的字段限制、位置算符限制(或者改用限制程度較小的位置算符)。限制程度較小的位置算符)。檢索策略n推薦的檢索策略推薦的檢索策略n 檢索前研究您的主題. n 變化您所知道的檢索策略. n 除非找到目標(biāo)或?qū)W到新東西,否則不要局限在一種檢索方法中。n不推薦的檢索策略不推薦的檢索策略n瀏覽主題目錄 n在大型數(shù)據(jù)庫中使用簡單關(guān)鍵字n跟隨鏈接去那些大眾口味或商業(yè)利益所推崇的網(wǎng)站信息檢索實(shí)例分析信息檢索實(shí)例分析1.1 檢索需求類型檢索需求類型查找某概念的確切含義 如:什么是“blog” 查找某概念的背景知識(shí) 如:誰最先發(fā)現(xiàn)青霉素查找某些事物的數(shù)值及量化指標(biāo) 一般通過事實(shí)型、數(shù)值型數(shù)據(jù)庫和搜索引

29、擎獲得。查找某一學(xué)科的一般知識(shí) 如:關(guān)于分子生物學(xué)有哪些專著查找學(xué)科專業(yè)領(lǐng)域的新進(jìn)展 如:有關(guān)納米技術(shù)的研究綜述查找課題相關(guān)的專業(yè)文獻(xiàn) 最常見的!文獻(xiàn)數(shù)據(jù)庫更多實(shí)例:更多實(shí)例:n電子元器件的技術(shù)特性數(shù)據(jù),可用有關(guān)的電子元器件類手冊、產(chǎn)品目錄、樣本或書查找;n查過去某年度某種電氣電子類產(chǎn)品的產(chǎn)銷、貿(mào)易、市場概況,可用有關(guān)年鑒類資料;n查國內(nèi)外哪些大學(xué)招收電氣電子類研究生,可查大學(xué)類的機(jī)構(gòu)名錄或校方的招生簡章資料;n查“自動(dòng)化”一詞的概念與含義,可用百科全書、學(xué)科術(shù)語類解釋辭典和相關(guān)手冊;n查電子產(chǎn)品的電路圖,可用相應(yīng)的電路圖集或手冊;n查錢學(xué)森的主要論著和貢獻(xiàn),可用名人錄;等等。 聚類組合法聚類

30、組合法n在課題分析,構(gòu)造檢索提問式時(shí),可以采用“聚類組合法”。實(shí)施如下七項(xiàng)操作:n切分:對課題語句進(jìn)行切分,以詞為單位劃分句子或詞組; n刪除:對不宜做檢索詞的詞進(jìn)行刪除;n替換:用更具體、明確的詞替換掉某些n表達(dá)欠佳詞; n聚類:將彼此“非常相關(guān)的詞”歸于一組n補(bǔ)充:對縮略詞組進(jìn)行還原作為補(bǔ)充; n增加:通過邏輯“與”或“非”增加限義詞來避免由于檢索詞一詞多義造成的誤檢問題;n組合:最后組合成合乎需要的檢索式.刪除刪除 排除檢索意義不大而且比較泛指的概念 如: 展望、發(fā)展趨勢、現(xiàn)狀、近況、生產(chǎn)工藝、應(yīng)用、利用、作用、方法、影響、制備、結(jié)果n刪除過分具體的限定詞:干洗劑的近況 、生產(chǎn)工藝 配方

31、極其應(yīng)用 刪除存在蘊(yùn)含關(guān)系的可合并詞例:內(nèi)彈道高溫高壓高密度氣體狀態(tài)方程 排除重復(fù)無關(guān)的概念排除重復(fù)無關(guān)的概念項(xiàng)目“河豚毒素的液相色譜分析”n從項(xiàng)目名稱上看,其主要概念為n“河豚毒素”、“液相色譜”和“分析”,但由于液相色譜本身就是一種分析方法,它隱含了“分析”這一概念n主要概念: 河豚毒素、液相色譜n檢索式:河豚毒素 and 液相色譜n檢索詞之間存在部分與整體關(guān)系n例:檢索“歐洲能源”方面的文獻(xiàn) 按照“歐洲”;同時(shí)包括許多國家。英國 法 德意1.2.1 分析檢索課題的內(nèi)容實(shí)質(zhì)分析檢索課題的內(nèi)容實(shí)質(zhì)n例1從鍍鋅殘?jiān)谢厥珍\n實(shí)際是:從高品位鍍鋅殘?jiān)蟹蛛x鐵n所以課題可以這樣表述:“從鋅塊中分離

32、鐵”例2 “垃圾的處理”例3 大氣中細(xì)菌濃度的計(jì)算方法 課題分析直接從項(xiàng)目名稱中確定檢索課題分析直接從項(xiàng)目名稱中確定檢索概念概念例1:項(xiàng)目“聚乙烯的合成(synthesis of polyethylene) ”n主要概念:聚乙烯、合成(synthesis、 polyethylene )n檢索式:n聚乙烯 and 合成nSynthesis and polyethylene1.2.2 隱性主題的處理隱性主題的處理-主題概念主題概念具體化具體化n請分析主題概念?!澳蜔徜摗闭n題:高溫下使用的不銹鋼“不銹鋼”1.2.2 隱性主題的處理隱性主題的處理-主題概念具體主題概念具體化化例2:項(xiàng)目“灌溉用的橡塑多

33、孔管”Rubber-Plastic Porous Pipe For Irrigationn橡塑多孔管也稱為橡塑滲灌管,其主要原料為橡膠粉(由廢舊輪胎制得)和塑料(如粉狀聚乙烯)。隱含概念:橡膠、塑料n該產(chǎn)品主要用于農(nóng)林、園藝等方面的灌溉。n主要概念:橡膠、塑料、多孔管、灌溉n檢索式:(橡膠 or 塑料 or橡塑) and 多孔管 and 灌溉1.2.2 隱性主題的處理隱性主題的處理-主題概念具體主題概念具體化化例3:項(xiàng)目“唐山綜合防災(zāi)的研究”n由于唐山是一個(gè)城市,因此該項(xiàng)目實(shí)際上是“城市綜合防災(zāi)的研究”。n該項(xiàng)目針對的主要災(zāi)害是地震、洪水和火災(zāi),n所采用的研究手段是決策支持系統(tǒng)和專家系統(tǒng)。n防

34、災(zāi) 地震、洪水、火災(zāi) n研究決策支持系統(tǒng)、專家系統(tǒng)n主要概念:城市、地震、洪水、火災(zāi) 、決策支持系統(tǒng)、專家系統(tǒng)n檢索式:城市 and (地震 or 洪水 or 火災(zāi))and (決策支持系統(tǒng) or 專家系統(tǒng))隱性主題具體化隱性主題具體化如:酸洗費(fèi)液的處理:“回收”、“再生”如:煤灰利用具體利用:?檢索式:(粉煤灰+煤炭)*(利用+磚+水泥+混凝土+路基+)隱性主題具體化隱性主題具體化n“大氣環(huán)境容量的研究”n其主要概念為“大氣大氣”“環(huán)境容量環(huán)境容量”“研究”,但是“研究”是很泛指的概念,根據(jù)專業(yè)角度分析,可以找到體現(xiàn)“研究”的專指概念,如“蒙落卡羅模型”和“粒子模型”此類的詞還有:“工藝”“分

35、析”“應(yīng)用”“有機(jī)物”“無機(jī)物”“重金屬”“輕金屬”“高分子材料”“趨勢”“現(xiàn)狀”等 1.2.3 找出核心概念,簡化邏輯關(guān)找出核心概念,簡化邏輯關(guān)系系n并不是概念越多越好!n抓住主題的核心:最能表達(dá)檢索課題內(nèi)容,而且具有實(shí)際檢索意義的關(guān)鍵詞。n如“利用稻米皮糠提取天然食品色素”n稻米、皮糠、提取、天然、食品、色素 ?n稻米、色素1.2.4 明確概念間的邏輯關(guān)系明確概念間的邏輯關(guān)系n同義詞、近義詞是或的關(guān)系n上位詞 即擴(kuò)檢,如“教育心理學(xué)”n下位詞 即縮檢,如“智育心理”、“德育心理”、“美育心理”、“教學(xué)心理學(xué)”、“學(xué)習(xí)心理學(xué)”、“教師心理學(xué)”、“學(xué)生心理學(xué)”等。n若多個(gè)下位詞都用來檢索,相對

36、于一個(gè)上位詞來說,一般是擴(kuò)檢。n一個(gè)下位詞相對于一個(gè)上位詞來說,一般是縮檢。1.2.5 如何選詞如何選詞n1 選擇規(guī)范詞 選擇檢索詞時(shí),一般應(yīng)優(yōu)先選擇主題詞作基本檢索詞,但為了檢索的專指性也選用自由詞配合檢索。如查找“人造金剛石”的文獻(xiàn),很可能用“ manmade( 人造 ) ”、“ diamonds( 金剛石 ) ”作為檢索詞,但“人造”的實(shí)質(zhì)是“人工合成”,檢索詞的范圍可放寬至: synthetic(W)diamonds 合成金剛石; synthetic(W)gems 合成寶石; synthetic(W)materials 合成材料; synthetic(W)stones 合成石; syn

37、thetic(W)crystals 合成晶體; artificial(W)crystals 人造晶體; diamonds 金剛石。 檢索策略: 1+(2+3+4+5+6)*7 1.2.5 如何選詞如何選詞n2 盡量使用代碼 n不少文檔有自己的各種代碼,如世界專利索引 (WPI) 文檔的國際專利分類號(hào)代碼 IC ,世界工業(yè)產(chǎn)品市場與技術(shù)概況文檔中的產(chǎn)品代碼 PC 和事項(xiàng)代碼 EC ,化學(xué)文摘 (CA) 中的化學(xué)物質(zhì)登記號(hào) RN 等。如查找“ 20 年來 CA 收錄的錫酸鋇導(dǎo)電機(jī)理”的文獻(xiàn),就應(yīng)該用化學(xué)物質(zhì)登記號(hào)表示,即 rn 12009-18-6 。 其檢索式可為: rn 12009-18-6*

38、electric?(w)conduct? 。 而用如下檢索式則不能保證文獻(xiàn)查全: (barium (w)stannate+BaSn03)*eletrical(w)conductivity1.2.5 如何選詞如何選詞n3 注意選用國外慣用的技術(shù)術(shù)語 查閱外文文獻(xiàn)時(shí),一些技術(shù)概念的英文詞若在詞表查不到,可先閱讀國外的有關(guān)文獻(xiàn),再選擇正確的檢索詞。 1.2.5 如何選詞如何選詞nn4 同義詞盡量選全 檢索時(shí)為保證查全率,同義詞盡量選全。同義詞選擇應(yīng)主要考慮以下幾點(diǎn): 同一概念的幾種表達(dá)方式,如化學(xué)分析有 chemical analysis,analytical chemistry,chemical

39、determination,composition measurement等。 同一名詞的單、復(fù)數(shù) 、 動(dòng)詞、動(dòng)名詞、過去分詞形式等,如生產(chǎn)有 product,production,producing,produce,productive等,詞根相同時(shí),可用截詞符解決。1.2.5 如何選詞如何選詞n要考慮上位概念詞與下位概念詞,如水果榨汁,不僅要選 fruit ,也應(yīng)選各種水果,如 pear( 梨 ) 、 orange( 橙 ) 、 plum( 李子 ) 、 peach( 桃 ) 、 apple( 蘋果 ) 、 pineapple( 菠蘿 ) 等,反之,如某一種水果保鮮則應(yīng)參考水果保鮮?;瘜W(xué)物

40、質(zhì)用其名稱也要用其元素符號(hào),如氖, Nitrogen 和 N 。 植物和動(dòng)物名,其英文和拉丁名均要選。 1.2.5 如何選詞如何選詞n表示具體事物名稱的名詞術(shù)語,如汽車、變壓器、反應(yīng)堆、水稻、坐標(biāo)儀等;n表示事物的狀態(tài)或現(xiàn)象的名詞術(shù)語,如強(qiáng)度、失真、土壤熟化、日冕、船舶過載等;n表示科學(xué)分類的名詞術(shù)語,如數(shù)學(xué)、物理學(xué)、中醫(yī)學(xué)、電子學(xué)、建筑工程、水利工程等;n表示研究方法、技術(shù)方法的名詞術(shù)語,如分析(化學(xué))、針刺手法、有限元法、結(jié)構(gòu)功能法、力學(xué)性能試驗(yàn)等;1.2.5 如何選詞如何選詞n表示工藝方法、加工技術(shù)的名詞術(shù)語,如鑄造、鍛造、熱處理、焊接、釀造、取心鉆進(jìn)、爆破成型、激光切割等;n 表示化學(xué)

41、元素、化合物、金屬材料與合金的名詞術(shù)語,如鈉、氧原子、族元素、鈉化合物、硅化物、硫酸、鈦絡(luò)合物、釘胺、呋喃、吡啶、醇聚四氟乙烯、丁二酸()以及如金屬板耐蝕鋼、耐蝕合金等;n 表示國家名稱、地名、組織機(jī)構(gòu)名稱及人名的專有名詞以及文獻(xiàn)類型、文獻(xiàn)載體的名詞術(shù)語, 檢索課題實(shí)例檢索課題實(shí)例n激光加工技術(shù)在航空工業(yè)中的應(yīng)用激光加工技術(shù)在航空工業(yè)中的應(yīng)用 l有關(guān)激光加工;在航空工業(yè)中的應(yīng)用。l第一組面:激光。l從詞表中可以選取l(1)laser (激光) (2) laser bean (激光束)l 第二組面:激光加工技術(shù)。3-6 從詞表中可以選取l (3)laser annealing(激光熱處理)l(4

42、)laser cutting (激光切削)l(5)laser drilling (激光鉆孔)l(6)laser welding (激光焊接)檢索課題實(shí)例檢索課題實(shí)例n7-10加工技術(shù)n(7)Suface alloying (表面合金化)n(8)Surface hardening (表面硬化 )n(9)Remelting (再溶化)n(10)Radiation hardening (表面硬化 )n第三組面:航空工業(yè)n(11)aircraft n(12)aircraft industryn(13)aircraft equipment檢索課題實(shí)例檢索課題實(shí)例n擬定檢索式n (1+2)*(7+8+9+

43、10)+(3+4+5+6)*(11+12+13)n注意:對于復(fù)合詞可以用位置算符,截詞符. 一個(gè)完整的檢索實(shí)例一個(gè)完整的檢索實(shí)例n鎂合金壓鑄過程鑄件鑄型界面熱交換系數(shù)的研究項(xiàng)目簡介: 輕量化,節(jié)能型的目標(biāo)使得鎂合金壓鑄件在汽車、航空航天、醫(yī)療器械等制造業(yè)中得到廣泛應(yīng)用。高壓鑄造是一種生產(chǎn)效率較高并且能夠生產(chǎn)復(fù)雜形狀的鋁、鎂合金產(chǎn)品的近凈成形技術(shù)。壓鑄件的性能在很大程度上取決于壓鑄過程中鑄件與鑄型界面的換熱行為 ,而衡量界面換熱(熱阻)的一個(gè)重要參數(shù)就是界面換熱系數(shù)。確定主要概念確定主要概念n鎂合金n壓鑄n熱交換n檢索詞鎂 合金 MG | 壓鑄 高壓壓鑄 | 熱交換 熱阻 熱通量 熱流 反算 |

44、 系數(shù)檢索式檢索式(鎂 or合金 or MG) and (壓鑄 or 高壓壓鑄) and (熱交換 or換熱 or 熱阻 or 熱流 or 反算) 國內(nèi)檢索國內(nèi)檢索數(shù)據(jù)庫數(shù)據(jù)庫篇數(shù)篇數(shù)檢索式檢索式維普期刊庫20任意字段=(鎂 + 合金 + MG) and (壓鑄 + 高壓 + 壓力) and 鑄造 and (熱交換 + 換熱 + 熱阻 + 熱流 + 反算) 同方中國學(xué)術(shù)期刊15主題=鎂 or合金 or MG) and (壓鑄 or 高壓壓鑄) and (熱交換 or換熱 or 熱阻 or 熱流 or 反算) 萬方中國學(xué)位論文3題名=鎂 or合金 or MG) and (壓鑄 or 高壓壓鑄)

45、and (熱交換 or換熱 or 熱阻 or 熱流 or 反算) 檢索效果評價(jià)的指標(biāo)檢索效果評價(jià)的指標(biāo) 評價(jià)檢索效果的常用指標(biāo)有:查全率(Recall ratio)用R表示查準(zhǔn)率(Precision ratio)用P表示漏檢率(Omission ratio)用O表示誤檢率(Fall-out ratio)用F表示 高查全率或查準(zhǔn)率是人們在檢索活動(dòng)中通常所追求的目標(biāo)。n查全率查全率 查全率是指被檢出的相關(guān)文獻(xiàn)量與系統(tǒng)查全率是指被檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文檔中實(shí)有的相關(guān)文獻(xiàn)量之間的比率。它是文檔中實(shí)有的相關(guān)文獻(xiàn)量之間的比率。它是衡量信息檢索系統(tǒng)收錄內(nèi)容及其用戶檢索結(jié)衡量信息檢索系統(tǒng)收錄內(nèi)容及其用戶檢索

46、結(jié)果的完整程度的指標(biāo)??捎孟率奖硎荆汗耐暾潭鹊闹笜?biāo)??捎孟率奖硎荆?被檢出被檢出相關(guān)相關(guān)文獻(xiàn)量文獻(xiàn)量查全率(查全率(R R)= = 100% 100% 系統(tǒng)中系統(tǒng)中相關(guān)相關(guān)文獻(xiàn)總量文獻(xiàn)總量漏檢率漏檢率 未未被檢出被檢出相關(guān)相關(guān)量文獻(xiàn)量文獻(xiàn)漏檢率(O )= =100% 100% 系統(tǒng)中系統(tǒng)中相關(guān)相關(guān)文獻(xiàn)總量文獻(xiàn)總量n 檢準(zhǔn)率檢準(zhǔn)率 查準(zhǔn)率是指檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總查準(zhǔn)率是指檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量之間的比率。它是衡量信息檢索系統(tǒng)收錄內(nèi)容量之間的比率。它是衡量信息檢索系統(tǒng)收錄內(nèi)容及用戶檢索結(jié)果精確度的尺度??捎孟率奖硎荆杭坝脩魴z索結(jié)果精確度的尺度。可用下式表示: 檢出檢出相關(guān)相關(guān)文

47、獻(xiàn)量文獻(xiàn)量 檢準(zhǔn)率(檢準(zhǔn)率(P P)= = 100%100% 檢出文獻(xiàn)總量檢出文獻(xiàn)總量誤檢率誤檢率 被被檢出檢出無關(guān)無關(guān)文獻(xiàn)量文獻(xiàn)量誤檢率(F F)= = 100%100% 檢出文獻(xiàn)總量檢出文獻(xiàn)總量四指標(biāo)的相互關(guān)系四指標(biāo)的相互關(guān)系影響用戶查全率與查準(zhǔn)率的不良因素影響用戶查全率與查準(zhǔn)率的不良因素 (1 1) 對檢索目標(biāo)把握不準(zhǔn)確對檢索目標(biāo)把握不準(zhǔn)確 (2 2) 對檢索系統(tǒng)選擇不洽當(dāng)對檢索系統(tǒng)選擇不洽當(dāng) (3 3) 檢索詞和邏輯組配不當(dāng)檢索詞和邏輯組配不當(dāng) (4 4) 檢索途徑和方法選擇不當(dāng)檢索途徑和方法選擇不當(dāng) (5 5) 系統(tǒng)功能不熟悉、檢索技能不熟練系統(tǒng)功能不熟悉、檢索技能不熟練檢索效果的優(yōu)

48、化手段檢索效果的優(yōu)化手段 n 提高檢索系統(tǒng)的功能提高檢索系統(tǒng)的功能 n 提高數(shù)據(jù)庫的質(zhì)量提高數(shù)據(jù)庫的質(zhì)量 n 提高檢索人員的素質(zhì)提高檢索人員的素質(zhì) n 優(yōu)化檢索策略優(yōu)化檢索策略 提高查全率的主要方法提高查全率的主要方法(1) (1) 準(zhǔn)確把握檢索對象及目的準(zhǔn)確把握檢索對象及目的, ,選擇合適的數(shù)據(jù)庫。選擇合適的數(shù)據(jù)庫。(2) (2) 降低檢索詞或分類號(hào)的專指度。降低檢索詞或分類號(hào)的專指度。(3) (3) 更多地采用學(xué)科分類途徑來擴(kuò)大檢索范圍。更多地采用學(xué)科分類途徑來擴(kuò)大檢索范圍。(4) (4) 減少邏輯減少邏輯“與與”及邏輯及邏輯“非非”的使用。的使用。(5) (5) 增加邏輯增加邏輯“或或”

49、及截詞檢索技術(shù)的使用。及截詞檢索技術(shù)的使用。(6) (6) 采用采用“全文檢索全文檢索”。(7) (7) 不限定檢索對象的文獻(xiàn)類型、時(shí)間段、文種等。不限定檢索對象的文獻(xiàn)類型、時(shí)間段、文種等。 提高查準(zhǔn)率的主要方法提高查準(zhǔn)率的主要方法(1) (1) 準(zhǔn)確把握檢索對象及目的準(zhǔn)確把握檢索對象及目的, ,選擇合適的數(shù)據(jù)庫。選擇合適的數(shù)據(jù)庫。(2) (2) 提高檢索詞或分類號(hào)的專指度。提高檢索詞或分類號(hào)的專指度。(3) (3) 更多地采用專用名詞及特性檢索的途徑。更多地采用專用名詞及特性檢索的途徑。(4) (4) 選擇邏輯選擇邏輯“與與”及邏輯及邏輯“非非”的使用。的使用。(5) (5) 減少或不采用邏

50、輯減少或不采用邏輯“或或”及截詞檢索技術(shù)的使用。及截詞檢索技術(shù)的使用。(6) (6) 限定檢索詞出現(xiàn)的字段及在段落、文句中的位置。限定檢索詞出現(xiàn)的字段及在段落、文句中的位置。(7) (7) 不選不選“全文檢索全文檢索”. .(8) (8) 限定檢索對象的文獻(xiàn)類型、時(shí)間段、文種及其它特征。限定檢索對象的文獻(xiàn)類型、時(shí)間段、文種及其它特征。5 5 檢索效果的評價(jià)及其優(yōu)化檢索效果的評價(jià)及其優(yōu)化 檢索效果評價(jià)的意義檢索效果評價(jià)的意義 (1) (1) 提高檢索效率提高檢索效率 (2) (2) 改善系統(tǒng)性能改善系統(tǒng)性能3. 網(wǎng)上信息檢索及搜索引擎 因特網(wǎng)(Internet)又稱 國際互聯(lián)網(wǎng)。是將以往相互孤立

51、的、散落在各個(gè)地方的獨(dú)立的電腦或是相對獨(dú)立的計(jì)算機(jī)域網(wǎng),借助通信網(wǎng)絡(luò),和一定的通訊協(xié)議實(shí)現(xiàn)相互聯(lián)系、交流、通信并在一定程度上共享信息資源的世界范圍內(nèi)的計(jì)算機(jī)網(wǎng)絡(luò)。 網(wǎng)上信息資源,主要指以數(shù)字化形式記錄的、以多種媒體形式表達(dá)的、分布式存儲(chǔ)在互聯(lián)網(wǎng)不同主機(jī)上的,并通過計(jì)算機(jī)網(wǎng)絡(luò)通訊方式進(jìn)行傳遞的信息資源的集合。 網(wǎng)上信息的特點(diǎn)網(wǎng)上信息的特點(diǎn) 數(shù)字化存儲(chǔ)和傳遞。 數(shù)量巨大,增長迅速。 內(nèi)容豐富,形式多樣;表達(dá)生動(dòng);使用便利。 穩(wěn)定性差,變化頻繁。 結(jié)構(gòu)復(fù)雜,分布廣泛。 信息的組織具有局部有序性與整體無序性特征。 信息內(nèi)容新舊并存,時(shí)效不定。 免費(fèi)資源豐富;收費(fèi)資源難得。 信息質(zhì)量不一,良莠并存。 網(wǎng)

52、上信息的主要評價(jià)標(biāo)準(zhǔn)網(wǎng)上信息的主要評價(jià)標(biāo)準(zhǔn) 信息是否具有的可靠性、準(zhǔn)確性及時(shí)效性。 信息發(fā)布者的權(quán)威性、信息的獨(dú)特性如何。 提供信息是否具有一定的廣泛和深入程度。 主頁中的鏈接是否可靠、有效;內(nèi)容更新 是否及時(shí)、充分。 是否具有良好的可存取性、交互性和愉悅性。 用戶使用是否經(jīng)濟(jì)、便捷。 版面設(shè)計(jì)是否合理、美觀。 搜索引擎搜索引擎 搜索引擎(Search engineSearch engine)是對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后提供查詢的檢索系統(tǒng),它主要包括信息搜集、信息整理和用戶查詢?nèi)糠帧?搜索引擎既可以是一個(gè)專門的網(wǎng)站,也可以是某個(gè)網(wǎng)站上的一個(gè)檢索系統(tǒng)。 搜索引擎分類搜索引擎分類 搜

53、索引擎按其工作方式一般可分為三種情形搜索引擎按其工作方式一般可分為三種情形 (1 1)全文搜索引擎)全文搜索引擎 (Full Text Search EngineFull Text Search Engine) (2 2)目錄索引類搜索引擎)目錄索引類搜索引擎 (Search Index/DirectorySearch Index/Directory) (3 3)元搜索引擎)元搜索引擎 (Meta Search EngineMeta Search Engine) 全文搜索引擎全文搜索引擎 全文搜索引擎是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配

54、的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶的搜索引擎。 國外Google 、 Fast、AllTheWeb、Inktomi、Teoma、WiseNut等具有代表性。 國內(nèi)著名的有百度(Baidu)。目錄索引搜索引擎目錄索引搜索引擎 主要提供按類目對相關(guān)信息進(jìn)行搜索。用戶依靠分類目錄(逐級(jí)深入)可找到需要的某條或某類信息。 最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索 都屬于這一類。元搜索引擎元搜索引擎 元搜索引擎在接受用戶查詢請求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行

55、搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。 中文元搜索引擎中具代表性的有搜星 萬緯搜索。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。關(guān)鍵詞:震級(jí) 造成破壞 n中國互聯(lián)網(wǎng)創(chuàng)始人_先生通過國際互聯(lián)網(wǎng)向前西德卡爾斯魯厄大學(xué)發(fā)出了中國第一封電子郵件穿越長城,走向世界。 答案:錢天白n搜索關(guān)鍵詞:中國互聯(lián)網(wǎng)創(chuàng)始人穿越長城 走向世界中國互聯(lián)網(wǎng)創(chuàng)始人 穿越長城 走向世界 n科學(xué)家在顯微鏡下發(fā)現(xiàn),蚊子竟然長牙齒,那么請問:蚊子有_顆牙齒?(填阿拉伯?dāng)?shù)字)答案:22搜索關(guān)

56、鍵詞:蚊子 顆 牙齒 蚊子有 顆牙齒n中國的人口普查有悠久的歷史,最早的中國人口普查數(shù)字大約是多少? 中國 最早 人口普查或 中國 最早 人口調(diào)查 人口普查:人口、人數(shù)、普查、統(tǒng)計(jì)、調(diào)查,只有一個(gè)個(gè)試了,先試了人口普查。n世界四大沖浪勝地不包括以下那個(gè)地方?A、法國西海岸 B、塔西提島 C、民大威群島 D、馬里布海岸 答案:D搜索關(guān)鍵詞:四大沖浪勝地與題目答案不符,可以使用:“四大沖浪勝地”(加引號(hào))n使用計(jì)時(shí)碼表的第一步是什么? A、重新歸零 B、啟動(dòng)測速 C、調(diào)校指針答案:Bn搜索關(guān)鍵詞計(jì)時(shí)碼表 重新歸零,找到使用計(jì)時(shí)碼表的三個(gè)步驟:啟動(dòng)測速 停止測速 重新歸零。n想知道某個(gè)新名詞T3是什

57、么意思 n什么是T3 對于常見名詞,只要用什么是*就能準(zhǔn)確的搜到答案。 再如,什么是搜索引擎、如何遠(yuǎn)程登錄 、 什么是USB、遠(yuǎn)程登錄指南 等n高山流水,現(xiàn)在想從網(wǎng)上下載一首它的MP3試聽。 n搜索關(guān)鍵詞:高山流水 MP3 高山流水 MP3 下載高山流水 MP3 downn漢語“信息”一詞的最早出處 n“信息 最早 辭源”4)使用引號(hào)使用引號(hào)“”“”可以保證搜索時(shí)不會(huì)對引號(hào)內(nèi)的內(nèi)容進(jìn)行拆分。這一可以保證搜索時(shí)不會(huì)對引號(hào)內(nèi)的內(nèi)容進(jìn)行拆分。這一方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。像方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。像Google可以對中文句子作智能化處理,會(huì)自動(dòng)把句子可以對中文句

58、子作智能化處理,會(huì)自動(dòng)把句子分割成詞語作為關(guān)鍵詞。分割成詞語作為關(guān)鍵詞。搜索技巧搜索技巧n搜索之前先思考n學(xué)會(huì)使用兩個(gè)關(guān)鍵詞搜索n學(xué)會(huì)使用兩個(gè)以上的搜索引擎n常見錯(cuò)誤1:錯(cuò)別字n常見錯(cuò)誤2:關(guān)鍵詞太常見n常見錯(cuò)誤3:多義詞 要小心使用多義詞,比如搜索“Java”,你要找的信息究竟是太平洋上的一個(gè)島、一種著名的咖啡、還是一種計(jì)算機(jī)語言?n解決辦法;用“爪哇 印尼”、“爪哇 咖啡”、“Java 語言”n常見錯(cuò)誤4:不會(huì)輸關(guān)鍵詞,想要什么輸什么關(guān)鍵詞:國家 森林覆蓋率 沒有 60%常用搜索引擎常用搜索引擎GoogleGoogle(中文)(中文)特點(diǎn)概括特點(diǎn)概括 (1 1)分類檢索分類檢索、關(guān)鍵詞關(guān)鍵詞搜索都方便且速度較快;支搜索都方便且速度較快;支持通配符持通配符* *的使用。的使用。 (2 2)可以進(jìn)行邏輯組配;但精確度有限;可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論