級信息組織與檢索期末重點_第1頁
級信息組織與檢索期末重點_第2頁
級信息組織與檢索期末重點_第3頁
級信息組織與檢索期末重點_第4頁
級信息組織與檢索期末重點_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息組織第一章1. 信息組織的概念及基本屬性:1) 定義:信息是經(jīng)過采集、記錄、處理并以可檢索的形式存儲的數(shù)據(jù)2) 基本屬性:a. 可識別性,信息是可以采集并進行記錄的,它不僅可以通過人的感覺器官去感知,而且可以通過儀表進行檢測和識別b. 可處理性,不同形式的信息通過處理和加工(包括分類、標(biāo)引、概括、歸納等),可生成所需要的信息形式c. 可檢索性,經(jīng)處理后的信息是可以供相關(guān)用戶進行搜尋和調(diào)取d. 可存儲性,信息可以通過有關(guān)物理載體(如磁、光、大規(guī)模集成器件等)進行存儲2. 信息的分類方式加工深度按信息加工深度分,包括3類:一次文獻信息、二次文獻信息、三次文獻信息1) 一次文獻信息:指一切原始的

2、信息,包括決議、報告、記錄、心得、經(jīng)驗、消息、創(chuàng)作和研究成果等為內(nèi)容的原始文獻資料2) 二次文獻信息:指對原始文獻信息加工處理后的信息,包括卡片、目錄、索引、文摘等;二次文獻信息已經(jīng)變成有序的,有規(guī)則的信息,易于存儲檢索傳遞和使用,有較高的使用價值3) 三次文獻信息:指通過二次文獻信息提供的線索,對某一范圍內(nèi)的一次文獻信息進行分析、研究而加工生成的第三個層次的文獻信息,包括綜述、述評、專題研究報告、百科全書等;這種信息產(chǎn)生的源頭不是直接的人類社會活動,而是人類研究的結(jié)晶3. 信息資源的定義1) 廣義信息資源:a. 定義:人類社會活動中積累起來的信息、信息生產(chǎn)者、信息技術(shù)等信息活動要素的集合b.

3、 組成:人類社會經(jīng)濟活動中經(jīng)過加工處理有序化并大量積累后的有用信息的集合為某種目的而生產(chǎn)有用信息的信息生產(chǎn)者的集合加工、處理和傳遞有用信息的信息技術(shù)的集合2) 狹義的信息資源:a. 定義:指人類社會經(jīng)濟活動中經(jīng)過加工處理有序化并大量積累后的有用信息的集合b. 組成:人類社會經(jīng)濟活動中經(jīng)過加工處理有序化并大量積累后的有用信息的集合4. 信息組織的概念及原則1) 定義:信息組織是指利用一定的科學(xué)規(guī)則和方法,對信息外在特征和內(nèi)容特征進行的規(guī)范化和整序化,實現(xiàn)無序信息流向有序信息流的轉(zhuǎn)換,從而保證用戶對信息的有效獲取和利用及信息的有效流通和組合整序:的涵義一是把本質(zhì)上沒有必然聯(lián)系的信息,為了利用和管理

4、上的方便加以組織,二是把本質(zhì)上具有必然內(nèi)在聯(lián)系的信息,按其自身的客觀邏輯結(jié)構(gòu)加以組織優(yōu)化:是在整序的基礎(chǔ)上,針對某種目的,依據(jù)結(jié)構(gòu)功能優(yōu)化原理對信息進行再序化的過程,是信息整序的升華2) 作用:減少社會信息流的混亂程度提高信息產(chǎn)品的質(zhì)量和價值建立信息產(chǎn)品與用戶的聯(lián)系節(jié)省社會信息活動的總成本3) 原則:客觀性,三點要求:a. 信息組織中進行描述和揭示的基本依據(jù)就是信息本身。因此在描述和揭示信息內(nèi)容特征必須客觀而準(zhǔn)確,要根據(jù)信息本身所反映的各種特征加以科學(xué)地反映和整序化,形成相應(yīng)的信息組織的成果。b. 在信息組織中,不能損害信息的本來效用,不能歪曲信息本身,不能毫無根據(jù)地、人為地添加一些不準(zhǔn)確的思

5、想和觀點,要完整地、全面地、精確地反映信息的客觀特征c. 不斷跟蹤信息的發(fā)展變化和信息組織技術(shù)的發(fā)展變化,使信息組織與條件變化和環(huán)境變化保持客觀一致性系統(tǒng)性,四個關(guān)系:a. 微觀信息組織與宏觀信息組織的關(guān)系b. 信息組織機構(gòu)與其他部門的關(guān)系c. 信息組織工作的各個環(huán)節(jié)、過程間的關(guān)系d. 不同信息的處理方法間的關(guān)系目的性,兩個必須:a. 充分圍繞用戶的信息需求開展工作b. 必須充分注意信息人力組織機構(gòu)的目標(biāo)市場的需求狀態(tài)及其變化特征現(xiàn)代化,兩個方面:a. 信息組織思想觀念的現(xiàn)代化b. 信息組織技術(shù)手段的現(xiàn)代化5. 信息組織的基本要求:1)信息內(nèi)容有序化(有系統(tǒng)、條理、秩序、啟發(fā)) 2)信息流向明

6、確化(考慮用戶需求下,使其流向明確) 3)信息流速適度化(把握信息傳遞時期) 4)信息數(shù)量精約化(內(nèi)容簡練、簡明扼要) 5)信息質(zhì)量最優(yōu)化(提高精確度、保證可靠性、先進性)6. 信息組織的方法1) 優(yōu)化選擇標(biāo)準(zhǔn):相關(guān)性 可靠性 先進性 適用性 方法:比較法(時間比較、空間比較、來源比較、形式比較) 分析法 核查法 引用摘錄法(SCI、SSCI) 專家評估法(指標(biāo)評分法、德爾斐法)2) 確定標(biāo)識數(shù)據(jù)項的確定(描述信息外表特征或內(nèi)容性質(zhì)。選取數(shù)據(jù)項應(yīng)遵循原則:完整性原則、 標(biāo)準(zhǔn)化原則、方便性原則、低冗余度原則、靈活性原則) 信息外表特征的加工(外表特征、物質(zhì)形態(tài)加工) 信息內(nèi)容特征的加工(以學(xué)科分

7、類代碼作為信息標(biāo)識的分類標(biāo)引、以主題詞語符號作 為標(biāo)識的主題標(biāo)引)3) 組織排序分類組織法 主題組織法 字順組織法 號碼組織法 時空組織法 超文本組織法4) 改編重組匯編法:匯編是選取原始信息中的篇章、事實或數(shù)據(jù)等進行有機排列而形成的。案例: 剪報資料、文獻選編、年鑒名錄、數(shù)據(jù)手冊、音像剪輯等等。 摘要法:對原始信息內(nèi)容進行濃縮加工,即摘取其中的主要事實和數(shù)據(jù)而形成的二次 信息產(chǎn)品。案例:如會議文摘、機械工程文摘 綜述法:對某一課題某一時期內(nèi)的大量有關(guān)資料進行分析、歸納、綜合而成的具有高 度濃縮性、簡明性和研究性的信息產(chǎn)品。第二章1. ISBN號(五段13位)第一段:歐洲商品編號的圖書產(chǎn)品代碼

8、,3位,978第二段:地區(qū)號,最短的是一位數(shù)字,最長的達五位數(shù)字,0、1代表英語,7是中國出版物使用的代碼第三段:出版社代碼,2-5位數(shù)字,出書越多,其號碼就越短第四段:書序號,1-6 位,由出版社自己給出第五段:校驗碼2. MARC 格式:MARC 是 Machine Readable Catalogue 的英文縮寫形式,即機器可讀目錄。MARC 格式即機器可讀目錄格式。3. 分類法:1) 分類的定義:分類就是按照事物的性質(zhì)、特點、用途等作為區(qū)分的標(biāo)準(zhǔn),將符合同一標(biāo)準(zhǔn) 的事物聚類,不同的則分開的一種認識事物的方法。 2) 分類法的定義:分類法是指將類或組按照相互間的關(guān)系,組成系統(tǒng)化的結(jié)構(gòu),并

9、體現(xiàn)為許 多類目按照一定的原則和關(guān)系組織起來的體系表,作為分類工作的依據(jù)和工具。 3) 分類的規(guī)則:唯一性,完整性,科學(xué)性。4. 主題法:1) 主題法的定義:主題法是以自然語言中的名詞術(shù)語作為標(biāo)識符號,并依據(jù)這些標(biāo)識符號的 語義和字順,編排和組織文獻信息資源建立各種查詢工具和檢索系統(tǒng)。2) 主題法的演變:標(biāo)題法單元詞法敘詞法關(guān)鍵詞法 標(biāo)題法:以“標(biāo)題”表達文獻內(nèi)容主題,“標(biāo)題”最初取自篇名,逐漸發(fā)展到取自文獻的主題內(nèi)容。 敘詞法:是對單元詞語言的直接繼承,但克服了單元詞語言的不足,吸收并綜合了多種標(biāo) 引語言的原理和方法,是能結(jié)合計算機使用的后組式語言,是目前主要的受控語言。 關(guān)鍵詞:是從文獻題

10、目或文摘、正文中提取出來的具有實質(zhì)意義,能代表文獻主題內(nèi)容的 詞匯。它與敘詞的區(qū)別在于非規(guī)范化,是自然語言3) 搜索引擎的工作原理:搜集信息建立索引接受查詢4) 利用主題法組織網(wǎng)絡(luò)信息的優(yōu)勢(主要討論關(guān)鍵詞法):較高的檢準(zhǔn)率。 較強的組配性。 不存在詞匯滯后問題。 具有廣泛的用戶基礎(chǔ),檢索習(xí)慣和技巧易被接受。 抽取自動化,速度快、成本低5) 發(fā)展趨勢:分類主題一體化第三章1. 置標(biāo)語言:(1)標(biāo)準(zhǔn)通用置標(biāo)語言 SGML (2)超文本置標(biāo)語言 HTML:是為網(wǎng)頁創(chuàng)建和其它可在網(wǎng)頁瀏覽器中看到的信息設(shè)計的一種置 標(biāo)語言。HTML 被用來結(jié)構(gòu)化信息例如標(biāo)題、段落和列表等等。 (3)可擴展的置標(biāo)語言

11、XML:XML 要比 HTML 強大得多,它不再是固定的標(biāo)記,而是允許定義 數(shù)量不限的標(biāo)記來描述文檔中的資料,允許嵌套的信息結(jié)構(gòu)。 2. XML 語言的語法規(guī)則: (1) 必須有 XML 聲明語句。 格式為:<?XML version="1.0" standalone="yes/no" encoding="UTF-8"?>舉例:<?XML version="1.0" standalone="no" encode="UTF-8"?>(2) 一個有效的 X

12、ML 文檔必須要有 DTD 文件。 格式為:<!DOCTYPE type-of-doc SYSTEM/PUBLIC "dtd-name"> 舉例:<!DOCTYPE filelist SYSTEM "filelist.dtd">(3) 所有 XML 標(biāo)記都區(qū)分大小寫。 (4) 所有標(biāo)記的屬性必須用“”括起來。(5) 所有的標(biāo)記都必須要有一個相應(yīng)的結(jié)束標(biāo)記。 (6) 所有的空標(biāo)識也必須被關(guān)閉。 (7) 所有的 XML 標(biāo)記都必須合理嵌套。3. XML 標(biāo)記的命名規(guī)則: (1)名字中可以包含字母、數(shù)字以及其它字母。 (2)名字不能以數(shù)

13、字或“_”(下劃線) 開頭。 (3)名字不能以字母 xml (或 XML 或 XML .) 開頭。 (4)名字中不能包含空格。 4. XML 語言范例: <?XML version="1.0"?><myfile><title>XML Quick Start</title><author>ajie</author><email>ajie</email><date>20010115</date></myfile>信息檢索1. 信息組織與信息檢索的關(guān)

14、系:信息組織是信息檢索的基礎(chǔ),信息檢索是信息組織的目標(biāo)(發(fā)展依據(jù))。2. 信息檢索的作用:(1)能較全面地掌握有關(guān)的必要信息。 (2)能提高信息利用的效率,節(jié)省時間和費用。 (3)適應(yīng)時代發(fā)展,提高自身信息素養(yǎng)。 (4)經(jīng)濟性(競爭情報)3. 如何使用搜索引擎:title:檢索詞包含在網(wǎng)頁標(biāo)題中 title:”科比” site:搜索結(jié)果局限于某個具體網(wǎng)站或者網(wǎng)站頻道 信息檢索 site:” link:搜索鏈接,檢索與指定URL相鏈接的所有頁面 link:”4. 信息檢索的概述1) 數(shù)據(jù)、信息、知識、情報的概念、聯(lián)系、區(qū)別:a. 概念:數(shù)據(jù):泛指所有描述事物的形貌、特性、狀態(tài)或任何其他屬性的數(shù)字

15、、文字或符號。一般指原始、未經(jīng)處理過的數(shù)據(jù)信息:(認識論層次)信息是認識主體所感知或表達的事物運動的狀態(tài)及其變化方式知識:是在改造世界的實踐中所獲得的認識和經(jīng)驗的總和,是人類的主觀世界對客觀世界概括和反映情報:是知識通過傳遞并起作用的部分,或者說是傳遞中的有用的知識b. 聯(lián)系與區(qū)別:數(shù)據(jù)經(jīng)過處理仍然是數(shù)據(jù)。只有經(jīng)過解釋,數(shù)據(jù)才有意義,才成為信息信息是知識的表現(xiàn)形式。情報是活化了的、激活了的知識信息、知識、情報可以互相轉(zhuǎn)化2) 情報的三要素:知識性(根本屬性)、傳遞性、效用性3) 參考文獻著錄格式:圖書:主要責(zé)任者文獻題名出版地:出版者,出版年期刊:作者(多作者用逗號分開,超過3個者用“等”或e

16、t al).文章題目J.刊物名稱,年代,卷數(shù)(期數(shù)):頁數(shù)學(xué)位論文:責(zé)任者. 題名D. 學(xué)位授予地址:學(xué)位授予單位,年份4) 信息檢索概念:廣義的信息檢索包括信息的存儲和檢索兩個過程信息存儲是指工作人員將大量無序的信息集中起來,根據(jù)信息源的外表特征和內(nèi)容特征,經(jīng)過整理、分類、濃縮、標(biāo)引等處理,使其系統(tǒng)化、有序化,并按一定的技術(shù)要求建成一個具有檢索功能的工具或檢索系統(tǒng),供人們檢索和利用。信息檢索是指運用編制好的檢索工具或檢索系統(tǒng),查找出滿足用戶要求的特定信息狹義的信息檢索則僅指該過程的后半部分,即從某一信息集合中找出所需的信息的過程,相當(dāng)于人們通常所說的信息查詢5. 信息檢索的分類:(1)按檢索

17、結(jié)果內(nèi)容:文獻信息檢索,數(shù)據(jù)信息檢索,事實信息檢索。 (2)按組織方式:全文檢索,超文本檢索,超媒體檢索。 (3)按信息存儲與檢索方式:手工檢索,計算機檢索。6. 信息檢索原理1) 結(jié)構(gòu)框圖:通過對大量的、分散無序的文獻信息進行搜集、加工、組織、存儲,建立各種各樣的檢索系統(tǒng)。 通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標(biāo)識達到一致,以便有效地 獲得和利用信息源。 存儲是為了檢索,而檢索又必須先進行存儲。2) 檢索的步驟:(1)分析問題。 問題分類->選擇相應(yīng)的檢索工具 分析“已知”和“欲知”信息->確定檢索工具的類型 分析需求的主題內(nèi)容(所需信息的學(xué)科性質(zhì)、特點和水平層

18、次)->確定檢索策略 確定文獻類型和時間范圍->擴大檢索思路,提高檢索效果 (2)選擇檢索工具。 傳統(tǒng)檢索工具: .檢索性工具書(二次文獻):包括館藏目錄、書目、索引、文摘、文獻指南。 .參考性工具書(三次文獻):包括百科全書、類書、政書、年鑒、名錄、手冊。 .表譜性工具書:包括年表、歷表和表譜。 .圖錄性工具書:包括地圖、歷史圖錄、人物圖錄、文物圖錄、藝術(shù)圖錄、科技圖像。 .邊緣性工具書:包括各類資料匯編、史書、方志。 面向計算機和網(wǎng)絡(luò)的檢索工具: 包括網(wǎng)絡(luò)數(shù)據(jù)庫、聯(lián)機數(shù)據(jù)庫、光盤數(shù)據(jù)庫、各類搜索引擎、文件傳輸協(xié)議 FTP、電子 郵件、遠程登陸、電子公告板以及網(wǎng)站分類目錄等。 (

19、3)檢索工具的使用?!耙阎毙畔⑻卣?>檢索入口 (4)獲取全文。3) 檢索工具的評價標(biāo)準(zhǔn):良好的用戶界面:·檢索界面簡潔,易學(xué)易用·不要求用戶掌握復(fù)雜的檢索語言和符號·能夠使用自然語言進行檢索檢索內(nèi)容和結(jié)果符合用戶要求:·數(shù)據(jù)庫內(nèi)容全面、規(guī)模大、更新速度快·檢索結(jié)果包括檢索主題最為相關(guān)的文獻·適合簡單主題、復(fù)雜主題和冷僻主題的查詢·檢索結(jié)果格式清晰,內(nèi)容充實系統(tǒng)效率高:·查全率、查準(zhǔn)率高·系統(tǒng)反應(yīng)速度快4) 信息檢索的特點:相關(guān)性,檢索需求的相關(guān)性;檢索過程中的相關(guān)性(信息與需求的匹配);檢索結(jié)果

20、的相關(guān)性不確定性,存儲過程中標(biāo)引的不確定性;檢索中的需求不確定性邏輯性,邏輯性體現(xiàn)在檢索系統(tǒng)編排和檢索策略制定上5) 信息檢索的方法:主要分為三種:常規(guī)檢索法,它以主題、分類、作者等為檢索點,利用檢索工具獲的信息資源的方法回溯法(追溯法 、引文法等),以文獻后面所附的參考文獻為線索,逐一追溯查找相關(guān)文獻的方法越查越舊:課題如何起源、 修正、變遷、發(fā)展。 越查越新:該課題的演變、最新進展。循環(huán)法(綜合法),既要利用檢索工具進行常規(guī)檢索,又要利用文獻后所附參考文獻進行追溯檢索,分期分段地交替使用這兩種方法6) 信息檢索的途徑:分類途徑(準(zhǔn)確的分類號):是指按照文獻資料所屬學(xué)科(專業(yè))類別進行檢索的

21、途徑,它所依據(jù)的是檢索工具中的分類索引a. 優(yōu)點:族性檢索,查全率較高;按照人們認識事物的習(xí)慣,以學(xué)科分類為基礎(chǔ),容易被人們接受和應(yīng)用b. 缺點:不適用于特性檢索,查準(zhǔn)率比主題詞低;難以反映新學(xué)科和新名詞術(shù)語;不易反映交叉學(xué)科主題途徑(確定檢索詞):是指通過文獻資料的內(nèi)容主題進行檢索的途徑,它依據(jù)的是各種主題索引或關(guān)鍵詞索引,檢索者只需確定檢索詞(主題詞或關(guān)鍵詞)a. 優(yōu)點:適合特性檢索,查準(zhǔn)率高b. 缺點:通常不適合族性檢索,查全率比分類號低c. 專業(yè)性強著者法(著者索引):是指根據(jù)已知文獻著者來查找文獻的途徑,它依據(jù)的是著者索引,包括個人 著者索引和機關(guān)團體索引。7. 布爾邏輯算符:邏輯與

22、,用“and”、“*”或者空格表示邏輯或,用“or”、“+”或逗號表示邏輯非,用“not”、“-”表示優(yōu)先執(zhí)行順序通常是 NOT、AND、OR8. 信息檢索模型1) 信息檢索模型的形式化:是一個四元組D, Q, F, R(qi,dj) D: 文檔集的機內(nèi)表示 Q: 用戶需求的機內(nèi)表示 F: 文檔表示、查詢表示和它們之間的關(guān)系的模型框架 R: 排序函數(shù),給 query qi 和 document dj評分2) 布爾模型:a. 描述:文檔表示:一個文檔被表示為關(guān)鍵詞的集合查詢式表示:查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與、或、非”連接起來,并用括弧指示優(yōu)先次序匹配:一個文檔當(dāng)且僅

23、當(dāng)它能夠滿足布爾查詢式時,才將其檢索出來;檢索策略基于二值判定標(biāo)準(zhǔn)b. 優(yōu)點:布爾模型是最常用的檢索模型:由于查詢簡單,因此容易理解;通過使用復(fù)雜的布爾表達式,可以很方便地控制查詢結(jié)果相當(dāng)有效的實現(xiàn)方法:相當(dāng)于識別包含了一個某個特定term的文檔經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式布爾模型可以通過擴展來包含排序的功能,即“擴展的布爾模型”c. 問題:不支持部分匹配,而完全匹配會導(dǎo)致太多或者太少的結(jié)果文檔被返回很難控制被檢索的文檔數(shù)量很難對輸出進行排序很難進行自動的相關(guān)反饋3) 向量空間模型(D,T,Wk,S):a. 描述:文檔D:泛指文檔或文檔中的一個片段索引項t:指出現(xiàn)在文檔中能夠代表

24、文檔性質(zhì)的基本語言單位特征項權(quán)重Wk:指特征項能夠代表文檔D能力的大小相似度S:指兩個文檔內(nèi)容相關(guān)程度的大小b. 特點:基于關(guān)鍵詞(一個文本由一個關(guān)鍵詞列表組成)根據(jù)關(guān)鍵詞的出現(xiàn)頻率計算相似度用戶規(guī)定一個詞項集合,可以給每個詞項附加權(quán)重未加權(quán)的詞項: Q = á database; text; information ñ 加權(quán)的詞項: Q = á database 0.5; text 0.8; information 0.2 查詢式中沒有布爾條件根據(jù)相似度對輸出結(jié)果進行排序支持自動的相關(guān)反饋4) 相似度計算:向量內(nèi)積:sinD,Q=k=1t(dik·qk)𝑑𝑖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論