信息組織知識_第1頁
信息組織知識_第2頁
信息組織知識_第3頁
信息組織知識_第4頁
信息組織知識_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、知識要點第一章 緒論1、 什么是信息組織?(理解)信息組織:對信息資源對象進(jìn)行收集、加工、整合、存儲使之有序化、系統(tǒng)化的過程。2、 信息組織的發(fā)展階段按組織對象劃分(理解)按組織對象劃分信息組織經(jīng)歷了三個階段:文獻(xiàn)組織階段、信息組織階段、知識組織階段文獻(xiàn)組織階段組織對象:傳統(tǒng)文獻(xiàn)實體,不涉及文獻(xiàn)內(nèi)容本身。信息組織階段組織對象:從廣度上,以紙質(zhì)信息為中心轉(zhuǎn)向以電子媒介信息為中心;從深度上,除了對文獻(xiàn)實體進(jìn)行組織,還要深入信息內(nèi)容。知識組織階段組織對象:從顯性知識擴(kuò)展到隱性知識。知識組織直接給用戶提供直觀的、可操作的系統(tǒng)化知識。不再局限于利用片面的信息來滿足用戶的需求,而是對用戶的需求系統(tǒng)分析,向

2、用戶提供全面、完善的解決方案。按職能劃分信息組織經(jīng)歷了三個階段(補(bǔ)充):清冊職能時期查檢職能時期組織職能時期3、 網(wǎng)絡(luò)信息組織的基本方法(掌握)網(wǎng)絡(luò)信息組織方法一次信息二次信息文件方式自由文本方式主頁方式指引庫方式超文本方式搜索引擎方式主題樹方式數(shù)據(jù)庫方式文件方式 一般用于局域網(wǎng)內(nèi)的非結(jié)構(gòu)化信息組織。 優(yōu)點:通過FTP協(xié)議進(jìn)行傳輸,簡單方便 缺點:以文件為單位共享和傳輸信息會使網(wǎng)絡(luò)負(fù)載越來越大自由文本方式 主要用于全文數(shù)據(jù)庫的組織 對非結(jié)構(gòu)化的文本信息進(jìn)行組織和處理的方式 能夠完整地反映出一次文獻(xiàn)的全貌 通過計算機(jī)自動進(jìn)行文獻(xiàn)信息的處理和組織,支持全文檢索。數(shù)據(jù)庫方式 一般用于結(jié)構(gòu)化/規(guī)范化信

3、息組織。 優(yōu)點:最小存取單位是字段,從而大大降低網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)呢?fù)載。 缺點:對非結(jié)構(gòu)化信息處理難度大 數(shù)據(jù)庫方式是當(dāng)前普遍使用的網(wǎng)絡(luò)信息資源的組織方式。主頁方式 網(wǎng)頁一般通過HTML語言規(guī)則將文本、圖像、聲音、視頻等各種類型的信息集合在一起。超文本方式主題樹方式 主題樹方式是一種可供檢索和查詢的等級式主題目錄。它以人工方式或半自動方式搜集信息,然后將信息資源按照某種事先確定的概念體系結(jié)構(gòu),分門別類地逐層加以組織。 主題樹方式不太適合大型的綜合性的網(wǎng)絡(luò)信息資源系統(tǒng),而較適合專題指引庫的建立。 搜索引擎方式指引庫方式 指引庫,也稱導(dǎo)航庫。它并不存儲各種實際的信息資源,只存放有關(guān)主題的數(shù)據(jù)庫或服務(wù)器

4、的地址等信息,可指引用戶到特定的地址獲取所需的信息。5、信息的外表特征、內(nèi)容特征分別包括哪些?(理解)外表特征:與信息內(nèi)容無關(guān)的特征,如題目、作者、出處、作者工作單位、專利號等 內(nèi)容特征:信息所涉及的中心事物和學(xué)科屬性 ,如分類號、主題詞、關(guān)鍵詞、摘要等。模糊對應(yīng)外表特征內(nèi)容特征精確對應(yīng)信 息6、什么是標(biāo)引語言?什么是自然語言?什么是受控語言?自然語言區(qū)別于受控語言的特點有哪些?(理解)標(biāo)引語言:是表達(dá)文獻(xiàn)主題概念和文獻(xiàn)需求主題概念的簡明性、單義性和關(guān)聯(lián)性概念標(biāo)識系統(tǒng),是根據(jù)標(biāo)引和檢索需要而編制的人工語言。 也叫“情報語言”、“索引語言”、“檢索語言” 揭示信息的中心主題和內(nèi)容特征 信息標(biāo)引的

5、依據(jù) 用于將檢索用語和標(biāo)引用語進(jìn)行匹配 對自然語言進(jìn)行規(guī)范化處理后的人工語言 標(biāo)引語言實際上是檢索者與組織者之間的一種“約定” 自然語言:文獻(xiàn)作者所使用的書面語言受控語言:詞匯及語法都受到各種控制的人工語言。7、標(biāo)引包括哪些類型?自然語言標(biāo)引包括哪些方法?(理解)劃分標(biāo)準(zhǔn)信息標(biāo)引類型按使用的標(biāo)引工具分化分類標(biāo)引主題標(biāo)引按標(biāo)引工作的不同執(zhí)行者劃分手工標(biāo)引受控標(biāo)引自由標(biāo)引自由詞補(bǔ)充標(biāo)引自動標(biāo)引自動抽詞標(biāo)引自動賦詞標(biāo)引自動分類自動聚類按采用的不同標(biāo)識劃分受控語言標(biāo)引自然語言標(biāo)引幾個重要概念(補(bǔ)) 自然語言標(biāo)引:采用自然語言作為信息記錄主題內(nèi)容檢索標(biāo)識的標(biāo)引。自然語言標(biāo)引的方法:1.關(guān)鍵詞法2.文本檢

6、索3.自由標(biāo)引4.自然語言入口詞檢索8、索取號及其構(gòu)成(掌握)索取號:是信息服務(wù)機(jī)構(gòu)賦予每一種信息資源的唯一號碼。它反映每種信息資源的具體存放位置。索取號由兩部分組成:分類號和書次號(書次號通常采用“種次號”或“著者號”)?!胺N次號”是依照同類信息資源到信息服務(wù)機(jī)構(gòu)的先后次序編制的順序號或流水號;“著者號”是依照著者姓名的音、形等特征編制的號碼。9、信息存儲介質(zhì)(理解)存儲介質(zhì)紙張、磁盤、磁帶、縮微膠片、光盤等10、信息存取系統(tǒng)的類型(理解)信息檢索系統(tǒng)的類型 按照信息源類型劃分:文獻(xiàn)型、事實型、數(shù)值型、圖像型 按照工作方式和存取介質(zhì):手工、單機(jī)、聯(lián)機(jī)、光盤、網(wǎng)絡(luò)信息檢索系統(tǒng)的結(jié)構(gòu)信息檢索系統(tǒng)

7、一般包括五個子系統(tǒng): 選擇子系統(tǒng) 標(biāo)引子系統(tǒng) 詞表子系統(tǒng) 檢索子系統(tǒng) 交互子系統(tǒng)11、衡量檢索效率的指標(biāo)(理解)衡量檢索效率的指標(biāo)主要有: 查全率(漏檢率) 查準(zhǔn)率(誤檢率)第二章 分類法(重點)1、 什么是分類法?包括哪些類型(即構(gòu)成原理)?(理解)分類組織法:根據(jù)概念的劃分與概括原理,按照事先規(guī)定好的學(xué)科專業(yè)體系或事物范疇,根據(jù)某一特性將信息分門別類的組織成系統(tǒng),以便于用戶按照學(xué)科專業(yè)或事物范疇途徑查詢特定信息的信息組織法。 分類法使用分類號來標(biāo)識類目,分類號可反映類目在分類體系中的位置和排列次序。分類語言的構(gòu)成原理:1)等級體系分類法2)分面組配分類法3)等級體系分面組配分類法(也即混合

8、分類法)2、 什么是體系分類法?其主要代表有哪些?(理解)含義:類目按等級層層展開,并詳盡列舉的文獻(xiàn)分類法p 特點 將表達(dá)事物的概念(類目)按照知識分類與邏輯關(guān)系進(jìn)行縱向從屬、橫向并列的方式編排成概念等級體系; 是一種先組式定組型標(biāo)引語言,其類目與類號標(biāo)識都是在編制分類表時事先確定或大部分確定好的; 按照學(xué)科專業(yè)和事物范疇區(qū)分和集中文獻(xiàn); 標(biāo)識符號既可以用于組織分類目錄與索引,也可用于排書上架; 采用數(shù)字和字母作為標(biāo)識,便于國際標(biāo)準(zhǔn)化。p 種類 中國圖書館分類法(簡稱中圖法) 中國科學(xué)院圖書館分類法(簡稱科圖法) 杜威十進(jìn)分類法 (簡稱DDC) 國際十進(jìn)分類法(簡稱UDC) 美國國會圖書館圖書

9、分類法(簡稱LDC)p 局限性(補(bǔ)充) 列舉類目與無限增長的科學(xué)知識不相適應(yīng); 類目體系的單向線性結(jié)構(gòu)與概念多向成族的網(wǎng)狀結(jié)構(gòu)不相適應(yīng); 分類標(biāo)識的概括性與信息源主題的專指性不相適應(yīng); 號碼標(biāo)識的有限性與知識單元的無限性不相適應(yīng); 文獻(xiàn)單元標(biāo)引與知識單元檢索不相適應(yīng)。3、 什么是組配式分類法?其主要代表有哪些?(掌握)分面:一組性質(zhì)相同的概念因素分面組配分類法含義:依據(jù)概念的分析與綜合原理,將概括信息內(nèi)容與事物的主題概念分成若干個“分面”,通過各分面內(nèi)類目之間的組配來表達(dá)信息內(nèi)容的分類法,也叫分面分類法、范疇分類法。即一個復(fù)雜主題概念可以用若干個簡單概念標(biāo)識的組配來表達(dá)構(gòu)成:包括分面分析、分面

10、引用次序和分面標(biāo)記制度三大關(guān)鍵理論和技術(shù)。種類:冒號分類法(簡稱CC)布利斯書目分類法(簡稱BC)缺點:類表結(jié)構(gòu)和標(biāo)記方法復(fù)雜,類目體系欠直觀4、 什么是體系組配式分類法?其主要代表有哪些?(理解)含義:是一種在體系分類法的基礎(chǔ)上,引入分面分析和組配技術(shù)而形成的分類法結(jié)構(gòu)模式,亦稱半分面分類法。p 背景:全分面組配分類法很少被使用,分面分析和組配技術(shù)更多的是被體系分類法吸收,用來改善體系分類法的性能。p 特點:1)按照學(xué)科專業(yè)或事物范疇設(shè)置基本大類;2)通過設(shè)置各種分面輔助復(fù)分表提供分面組配技術(shù)與概念標(biāo)識。p 種類: 國際十進(jìn)分類法(簡稱UDC) 俄國圖書館書目分類法5、 分類法中基本標(biāo)記符號

11、包括哪些類型?(掌握)分類法的標(biāo)記符號也稱分類號、類號,是類目的代號。基本符號:單純數(shù)字單純字母數(shù)字、字母混合輔助符號(根據(jù)分類法的功能而定)6、 常用標(biāo)記制度包括哪些?(掌握)結(jié)構(gòu)型標(biāo)記制非結(jié)構(gòu)型標(biāo)記制層累標(biāo)記制混合標(biāo)記制分面標(biāo)記制順序標(biāo)記制層累標(biāo)記制 又稱等級標(biāo)記制,是一種類號的位數(shù)與類目等級相適應(yīng)的層次分明的標(biāo)記制度。它常用一位號碼表示一個大類,再加一位號碼表示其下位類(二級類),以號碼的層層累加表示類目的層層劃分。 中圖法基本采用層累標(biāo)記制混合標(biāo)記制 一種結(jié)合采用順序制和層累制的標(biāo)記方式。包括層累順序制和順序一層累制 科圖法采用的是順序一層累制。分類號的前兩位數(shù)字采用順序制,用于標(biāo)識基

12、本大類和二級、三級類目;兩位數(shù)字后,用小圓點隔開,其后基本使用層累標(biāo)記制。分面標(biāo)記制又稱分段標(biāo)記制,是用若干節(jié)段符號的組合來表達(dá)主題概念的標(biāo)記制度。它能顯示類目的組配關(guān)系。 例如:“20世紀(jì)90年代中國兒童圖書館圖書分類工作”的類號為2 ,61;43 :51 . 41 N9。順序標(biāo)記制按照類目在分類體系中的次序,順序配以號碼,號碼只表示類目的次序,不顯示類目的等級或其他關(guān)系 。7、 中圖法、科圖法、DDC、UDC分別采用什么標(biāo)記符號和標(biāo)記制度?(掌握)中圖法采用拉丁字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號碼制作為標(biāo)記符號,基本采用層累標(biāo)記制。 科圖法采用單純數(shù)字號碼作為標(biāo)記符號,號碼分為兩部分:第一部分

13、采用整數(shù)順序制,第二部分基本上采用小數(shù)層累制,簡而言之,采用混合標(biāo)記制。杜威十進(jìn)分類法(DDC):DDC是以阿拉伯?dāng)?shù)字作為基本的分類標(biāo)記符號的,并采用層累制。國際十進(jìn)分類法(UDC):UDC 與DDC一樣,采用單純阿拉伯?dāng)?shù)字作為標(biāo)記符號。基本采用層累制,第三章 主題法(重點)1、 什么是主題法?(理解)主題法是指用語詞作為概念標(biāo)識,將概念標(biāo)識進(jìn)行字順排列,并用參照系統(tǒng)等方法間接顯示概念之間相互關(guān)系的信息組織方法。2、 主題法有什么特點?(掌握)1.以主題為中心集中信息2.直接用自然語詞(主題詞)作為存取標(biāo)識3.主要按字順排列4.用參照系統(tǒng)顯示主題詞之間的關(guān)系3、 主題法包括哪些類型?(掌握)標(biāo)

14、題法:用規(guī)范化語詞標(biāo)題詞來表達(dá)主題概念 元詞法 (單元詞法):用規(guī)范化語詞單元詞的字面組配來表達(dá)主題概念敘詞法 (主題詞法):用規(guī)范化語詞敘詞的概念組配來表達(dá)主題概念關(guān)鍵詞法 :直接以文獻(xiàn)中的自然語詞關(guān)鍵詞來表達(dá)主題概念4、 主題法參照系統(tǒng)的構(gòu)成(理解)Y 用項符號:表示該主題是正式主題詞D 代項符號:表示該主題是非正式主題詞F 分項符號:表示該主題是“顯像管”的下位主題詞S 屬項符號:表示該主題是“顯像管”的上位主題詞C 參項符號:表示該主題是“顯像管”的相關(guān)主題詞5、 幾種代表性主題法中哪些是自然語言,哪些是人工語言?(理解)標(biāo)題法、元詞法、敘詞法為人工語言;而關(guān)鍵詞法則為自然語言6、 主

15、題法和分類法的比較(掌握)揭示對象不同主題法揭示文獻(xiàn)論述的主題事物(“是什么”);分類法揭示的是文獻(xiàn)內(nèi)容的學(xué)科屬性(“屬什么”)。使用標(biāo)識不同主題法直接用詞語表示文獻(xiàn)主題;分類法則以抽象的“分類號”表示文獻(xiàn)主題。排列方式不同主題法按詞語字順排列,如同詞典,易學(xué)易查;分類法按分類號排列,系統(tǒng)性較強(qiáng),但不熟悉有關(guān)分類表則難以有效地利用。用途不同主題法較適合于對單篇文獻(xiàn)的組織和檢索,且更適于計算機(jī)組織和檢索;分類法則比較適合于圖書或文集的組織和檢索。7、 什么是范疇索引、詞族索引?(理解)范疇索引,又稱分類索引,是將敘詞和非正式敘詞按所屬學(xué)科或范疇編制的詞匯分類索引。詞族索引,也稱等級索引,是將字順

16、表中具有等級關(guān)系的敘詞按屬分等級構(gòu)成詞族,并按各詞族的族首詞字順排列的詞匯索引。8、 什么是后控制,對網(wǎng)絡(luò)信息資源組織的作用?(掌握)后控制主要是通過后控詞表來實現(xiàn)的。后控制詞表是利用受控語言的基本原理和方法編制的自然語言檢索用詞表。它主要是對自然語言中大量存在的等同關(guān)系、等級關(guān)系和大部分相關(guān)關(guān)系進(jìn)行控制和揭示,用戶在檢索時通過瀏覽詞表選用檢索詞,或者由系統(tǒng)自動調(diào)整檢索式(擴(kuò)檢或縮檢)。所以,后控詞表是一種擴(kuò)檢或縮檢工具,一種羅列自然語言檢索標(biāo)識供選擇的工具。 后控制模式:“標(biāo)引不控制+檢索控制”模式。即在標(biāo)引階段使用自然語言,不對標(biāo)引進(jìn)行嚴(yán)格控制,而在檢索階段才對檢索詞進(jìn)行控制的自然語言檢索

17、優(yōu)化技術(shù)。 后控制技術(shù)是人工語言與自然語言相結(jié)合的典范。9、 網(wǎng)絡(luò)信息資源組織中的主題法(掌握)標(biāo)題詞法和敘詞法的應(yīng)用 標(biāo)題詞表和敘詞表用于網(wǎng)絡(luò)信息組織主要作為后控詞表使用,分為兩種情況: 第一,檢索前使用:用來規(guī)范用戶的檢索表達(dá)式; 第二,檢索后使用:在給出用戶檢索表達(dá)式及檢索結(jié)果的同時,提供相似詞以便用戶進(jìn)一步擴(kuò)檢或縮檢。關(guān)鍵詞法的應(yīng)用 關(guān)鍵詞法在網(wǎng)絡(luò)中的應(yīng)用相當(dāng)廣泛,目前,大部分搜索引擎幾乎都采用關(guān)鍵詞法進(jìn)行信息組織。 關(guān)鍵詞法的原理直接從文獻(xiàn)的題目、正文、摘要中抽取出具有實際意義的語詞作為文獻(xiàn)標(biāo)識,對標(biāo)識不加規(guī)范化或只作少量規(guī)范化處理。不編制受控詞表,不顯示詞間關(guān)系,只編制禁用詞表來控

18、制抽詞每個關(guān)鍵詞都是平等的,輪流排至檢索位置,提供多途徑的主題字順檢索。關(guān)鍵詞標(biāo)引 自由標(biāo)引 自動標(biāo)引 全文索引10、什么是自由標(biāo)引、全文檢索?(掌握) 自由標(biāo)引即人工關(guān)鍵詞標(biāo)引。即人工從文獻(xiàn)中提取自然語言作為主題標(biāo)識。 全文檢索不對文獻(xiàn)進(jìn)行任何標(biāo)引,直接通過計算機(jī)將自然語言檢索詞與文獻(xiàn)中的語詞進(jìn)行匹配。全文檢索進(jìn)行匹配的對象,可以是整個出版的文本,包括文章、報告甚整本圖書,也可以是它的部分,如文摘、摘錄或只是文獻(xiàn)的題名。第四章 置標(biāo)語言工具1、 什么是SGML?(理解)其基本思想、特點是什么?(掌握)SGML(標(biāo)準(zhǔn)通用標(biāo)記語言)一種通用的描述各種電子文件的結(jié)構(gòu)和內(nèi)容的國際標(biāo)準(zhǔn)。為創(chuàng)建結(jié)構(gòu)化、

19、可交換的電子文件提供了依據(jù)。SGML的基本思想是把文檔的內(nèi)容與樣式分開 SGML的主要特點是它的通用性與獨立性:所謂通用性是指SGML可支持無數(shù)的文檔結(jié)構(gòu)類型,例如布告、技術(shù)手冊、章節(jié)目錄、設(shè)計規(guī)范、各種報告、信函和備忘錄等。所謂獨立性是指它與硬件、軟件獨立。SGML可以創(chuàng)建與特定的軟硬件無關(guān)的文檔,因此很容易與使用不同計算機(jī)系統(tǒng)的用戶交換文檔。 2、 文檔三要素包括哪些?(掌握)文檔的三要素:文檔文檔內(nèi)容文檔結(jié)構(gòu)文檔樣式3、 HTML標(biāo)簽的主要作用?與SGML是什么關(guān)系?(理解)含義:HTML是一種表現(xiàn)語言,用來定義WEB上文字、圖像以及聲音等的顯示及格式。主要作用:HTML的主要作用是指示

20、瀏覽器按照相應(yīng)格式顯示信息。與SGML關(guān)系:HTML是標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)所創(chuàng)建的許多標(biāo)記語言之一,或者說是它的一個很小的子集。HTML是使用固定標(biāo)簽集的一種SGML文檔。主要在Web上使用。4、 什么是XML?具有哪些特性和優(yōu)勢?(掌握)XML eXtensible Markup Language(可擴(kuò)展標(biāo)記語言),是一種定義標(biāo)記語言的元標(biāo)記語言,是一套定義語義標(biāo)記的規(guī)則。特點: 可擴(kuò)展性可自定義標(biāo)簽,元標(biāo)記語言; 數(shù)據(jù)與顯示相分離同一數(shù)據(jù)可多視; 自我描述性標(biāo)簽具有語義,支持智能檢索; 高度結(jié)構(gòu)化采用樹形結(jié)構(gòu)。 簡明性SGML的子集,20%復(fù)雜、80%功能;優(yōu)勢: 結(jié)構(gòu)支持:HTM

21、L缺乏對復(fù)雜結(jié)構(gòu)的支持 內(nèi)容提取:HTML的標(biāo)記缺乏語義 國際化:HTML對特殊字符和國際字符集的支持還很不夠,在不同平臺上的實現(xiàn)很不一致 數(shù)據(jù)交換:HTML難以實現(xiàn)自動的數(shù)據(jù)交換 信息重用:HTML不易重復(fù)使用已有的信息 動態(tài)更新:用HTML創(chuàng)建的主頁不允許使用者改變頁面的外觀屬性,除非使用者載入新的頁面,或者使用Java小程序。但是,任何存儲在Java中的數(shù)據(jù)都不能被搜索引擎發(fā)現(xiàn)。5、 XML和HTML比較(掌握)比較內(nèi)容HTMLXML可擴(kuò)展性不具備擴(kuò)展性元標(biāo)記語言,可用于定義新的標(biāo)記語言側(cè)重點側(cè)重于如何表現(xiàn)信息側(cè)重于如何結(jié)構(gòu)化的描述信息語法要求不要求標(biāo)記的嵌套嚴(yán)格要求嵌套配對、呈樹形結(jié)構(gòu)

22、可讀性及可維護(hù)性難于閱讀、維護(hù)結(jié)構(gòu)清晰、便于閱讀、維護(hù)數(shù)據(jù)和顯示的關(guān)系內(nèi)容描述和顯示方式整合一體內(nèi)容描述與顯示方式相分離6、 XML中用來描述信息的結(jié)構(gòu)、內(nèi)容、樣式的語言規(guī)范分別是什么?(理解)結(jié)構(gòu):文檔結(jié)構(gòu)定義文件.DTD (或.XSD)<?xml version = “1.0” encoding=“GB2312” standalone = “no”?><!DOCTYPE 聯(lián)系人列表 SYSTEM “fclml.dtd”>內(nèi)容:文檔數(shù)據(jù)文件.XML<?xml version = “1.0” encoding=“GB2312” ?><body>我

23、的第一個XML文檔</body>樣式:樣式單文件.XML(或.CSS)<?xml version = “1.0” encoding=“GB2312” ?><?xml-stylesheet type=”text/xsl” href=”mystyle.xsl”?>第五章 元數(shù)據(jù)1、什么是元數(shù)據(jù)?(理解)元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data),同時也是結(jié)構(gòu)化的數(shù)據(jù)。它對信息資源進(jìn)行描述和解釋,促進(jìn)信息資源的檢索、管理和利用。元數(shù)據(jù)可以為各種形態(tài)的信息資源提供規(guī)范的描述方案和檢索工具,為分布的、由多種信息資源組成的信息系統(tǒng)(如數(shù)字圖書館)提供整合的

24、工具和紐帶。 關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù) 用于描述數(shù)據(jù)的內(nèi)容、覆蓋范圍、質(zhì)量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁 資源的信息 編目信息 管理、控制信息 是一組獨立的關(guān)于資源的說明 定義和描述其它數(shù)據(jù)的數(shù)據(jù)3、什么是MARC、MARC元數(shù)據(jù)?(掌握)MARC( Machine Readable Catalog ),機(jī)器可讀目錄(簡稱機(jī)讀目錄),是用于在計算機(jī)條件下描述、存儲、交換、控制和檢索著錄數(shù)據(jù)的標(biāo)準(zhǔn),已成為世界上流行最廣的書目元數(shù)據(jù)標(biāo)準(zhǔn)。MARC數(shù)據(jù),以代碼形式和特定格式結(jié)構(gòu)記錄在計算機(jī)存貯載體上,可由計算機(jī)進(jìn)行控制、處理和編輯輸出的目錄。其實質(zhì)是一種

25、元數(shù)據(jù)。 MARC數(shù)據(jù)的交換和共享通過Z39.50協(xié)議實現(xiàn)。 4、MARC中856字段的用途(理解) 856字段是專門用于記載電子信息資源定位與存取信息的字段,是在為網(wǎng)絡(luò)信息資源編目時才特有的字段。它包含定位與存取電子資源所需要的信息,第1指示符標(biāo)識存取方式;第2指示符標(biāo)識資源關(guān)系。5、什么是DC?DC包括幾個核心元素?(掌握) DC是都柏林核心(Dubin Core)的簡稱,全稱是都柏林核心元素集(Dubin Core Element Set)。核心DC指的是DC的15個核心元素: 題名、主題、描述、來源、語種、關(guān)聯(lián)、覆蓋范圍、創(chuàng)建者、出版者、其他責(zé)任者、權(quán)限、日期、類型、格式、標(biāo)記等。第八

26、章 搜索引擎(重點)1、 搜索引擎的分類(掌握)根據(jù)檢索方式分類: 分類目錄、關(guān)鍵詞搜索引擎、混合搜索引擎根據(jù)信息覆蓋范圍及適用用戶群分類: 綜合搜索引擎、專用搜索引擎(垂直搜索引擎)根據(jù)搜索范圍分類: 獨立搜索引擎、集成搜索引擎(元搜索引擎)2、 什么是元搜索引擎(掌握)元搜索引擎又稱集合式搜索引擎。即將多個搜索引擎集成在一起,并提供一個統(tǒng)一的檢索界面。3、 搜素引擎的發(fā)展趨勢(掌握)個性化;智能化;整合化;垂直化;移動化;開放化;4、 搜索引擎的體系結(jié)構(gòu)(掌握) 一個搜索引擎由以下五個部分組成: 搜索器 索引器 索引數(shù)據(jù)庫 檢索器 用戶接口  5、 搜索器的功能、工作原理及網(wǎng)頁選

27、取策略(理解)含義:搜索器(Spider)俗稱蜘蛛、網(wǎng)絡(luò)機(jī)器人、爬蟲,是一個自動收集網(wǎng)頁的系統(tǒng)程序。功能:搜索器的功能是日夜不停地在互聯(lián)網(wǎng)中漫游,搜集信息。不光搜集各種類型的新信息,還要定期更新已經(jīng)搜集過的舊信息,以避免出現(xiàn)死鏈。工作原理:搜索器首先將文檔格式過濾掉,變成純文本文件信息送回,然后將其放到“網(wǎng)頁數(shù)據(jù)庫”中。該庫里還記錄了這些網(wǎng)頁的URL,整個網(wǎng)頁的HTML代碼,網(wǎng)頁標(biāo)題等等信息。 網(wǎng)頁選取策略 廣度優(yōu)先:是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。   深度優(yōu)先: 是指網(wǎng)絡(luò)蜘

28、蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。 高權(quán)重優(yōu)先:是指對搜索到的文檔集合進(jìn)行評級,利用計算得到的結(jié)果從中挑選評級最高的鏈接作為下一個搜索的對象。6、 索引器的功能、具體工作步驟(理解)索引器的功能是理解搜索器所搜索的純文本信息,從中抽取出索引項(屬性),生成倒排索引文件,進(jìn)而建立索引數(shù)據(jù)庫。具體步驟: 分析網(wǎng)頁:提取正文信息并進(jìn)行分詞;統(tǒng)計詞出現(xiàn)的頻率及位置;提取其它相關(guān)信息,如被其他網(wǎng)頁鏈接次數(shù)等; 建立倒排索引:形成由文檔號到索引詞的正向索引;重組正向索引,建立從關(guān)鍵詞到文檔號集合的倒排索引; 相關(guān)度及重要性計算:通過關(guān)鍵詞頻率、

29、位置、表面特征及超鏈分析等因素來決定某一個網(wǎng)頁針對某一個關(guān)鍵詞的重要性。7、 檢索器的功能、工作內(nèi)容(理解)檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序。 檢索器的工作包括查詢匹配、結(jié)果排序和文檔摘要三個部分。8、 搜索引擎對搜索結(jié)果進(jìn)行排序的依據(jù)及主要排序算法(掌握)依據(jù):內(nèi)容相關(guān)度基于相關(guān)度算法(搜索引擎怎么評價)網(wǎng)站或網(wǎng)頁權(quán)威度基于鏈接分析(即其它網(wǎng)站怎么評價)網(wǎng)站或網(wǎng)頁的實用度基于用戶訪問模式(即用戶怎么評價) 排序算法: PageRank(網(wǎng)頁等級)算法 HillTop算法 Hits算法 9、 用戶接口的功能(理解

30、)用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。專題 多媒體信息標(biāo)引幾種主要多媒體數(shù)據(jù)標(biāo)引方法的基本原理外在特征標(biāo)引方法的典型代表標(biāo)簽法基本原理: 將多媒體信息的外在特征作為標(biāo)識。以內(nèi)容分析為主的標(biāo)引方法 編碼系統(tǒng)法基本原理: 采用某種特定的編碼系統(tǒng)標(biāo)識多媒體信息中分析出來的各個獨立對象,并根據(jù)對象間存在的聯(lián)系進(jìn)行相應(yīng)的代碼拼接、組合,以完成多媒體信息的整體標(biāo)引。自由文本法基本原理: 先將多媒體信息的內(nèi)容用文字進(jìn)行確切的描述,形成描述性的自由文本,然后通過對文本內(nèi)容的概念標(biāo)引,間接地完成對多媒體信息記錄內(nèi)容的標(biāo)引。特征描述法基本原理: 從圖像、聲音等多媒體信息中捕獲人們感

31、覺最明顯的特征,如圖像的形狀、顏色,音樂的基調(diào)、序曲等主要特征,直接建立相應(yīng)的“相似圖像”索引與“相似聲音”索引。全方位語義分析法基本原理: 強(qiáng)調(diào)內(nèi)容特征與外在特征相結(jié)合,從整體到局部,從各個角度為各個對象建立全面的特征標(biāo)引;并利用語義分析的方法,將各個部分、各個對象間豐富的語義聯(lián)系描繪成語義圖的形式,一起存儲于數(shù)據(jù)庫中。專題 自動標(biāo)引(重點)1、 自動標(biāo)引方法體系圖(掌握)標(biāo)引詞檢索全文檢索對應(yīng)對應(yīng)漢語自動分詞2、 什么是標(biāo)引詞檢索、全文檢索(掌握)標(biāo)引詞檢索:將用戶輸入的檢索詞與文獻(xiàn)的標(biāo)引詞進(jìn)行匹配。全文檢索(文本檢索):全文檢索不對文獻(xiàn)進(jìn)行任何標(biāo)引,直接通過計算機(jī)將自然語言檢索詞與文獻(xiàn)中

32、的語詞進(jìn)行匹配。3、什么是自動抽詞?影響標(biāo)引詞選擇的因素有哪些?涉及的主要技術(shù)有哪些?自動抽詞的方法有哪些(重點是統(tǒng)計法)?(掌握)含義:自動抽詞標(biāo)引即由計算機(jī)自動從文本中抽取詞或短語來表達(dá)信息資源的主題內(nèi)容。影響標(biāo)引詞選擇的因素: 詞語出現(xiàn)的頻率 出現(xiàn)的位置(如出現(xiàn)在標(biāo)題、文摘、圖表解說詞中等) 詞性 詞的價值 詞語的語言環(huán)境等。自動抽詞涉及的主要技術(shù): 文本分詞技術(shù) 詞頻分析技術(shù) 權(quán)重評價技術(shù)自動抽詞方法n 統(tǒng)計法 詞頻統(tǒng)計標(biāo)引法 加權(quán)統(tǒng)計標(biāo)引法 機(jī)器學(xué)習(xí)標(biāo)引法(統(tǒng)計學(xué)習(xí)標(biāo)引法)n 語言法 句法分析法 語義分析法n 人工智能法4、什么是自動賦詞?(掌握) 所謂賦詞標(biāo)引就是從某種形式的受控詞表中選取詞語來表達(dá)文獻(xiàn)主題內(nèi)容。 自動賦詞標(biāo)引則是指由計算機(jī)來自動完成這一標(biāo)引過程。它與自動抽詞標(biāo)引的最大區(qū)別就是,所使用的標(biāo)引詞來自于某一受控詞表,而不是來自文獻(xiàn)本身。包括: (1)基于關(guān)聯(lián)詞表的自動賦詞標(biāo)引 (2)基于中介詞典的自動賦詞標(biāo)引 5、什么是自動歸類?基于詞的自動歸類方法的主要思想?(掌握) 自動歸類是指先分析待分類對象中的特征,將其與各種類別中對象具有的共同特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論