版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1Chap1信息檢索序論
1-1信息社會中的信息檢索
1-2信息檢索的概念和類型
1-3信息檢索的基本原理
1-4信息檢索新編年
思考題21-1信息社會中的信息檢索一、信息進入視野成為論域二、信息社會的基本特征三、信息檢索教學的主要意義四、信息檢索教學的基本內(nèi)容附錄:有關(guān)《信息檢索與利用》文件3
一、信息進入視野成為論域1、信息的概念2、信息的基本特征3、信息的基本類型41、信息·日常生活概念在日常生活中,信息與符號、數(shù)據(jù)、消息、事實、新聞、情報、知識等概念混用,核心義項是消息。李中(924~975)在《碧云集》之《暮春懷故人》一詩中最早提出了“信息”一詞。符號是指人類感官接受外界刺激后,大腦中產(chǎn)生的刺激的組合;數(shù)據(jù)是各種事實、數(shù)字和字符等符號的集合;信息是指語法特征上相互關(guān)聯(lián)的數(shù)據(jù)對象的集合;知識是有語法、語義關(guān)聯(lián)的信息結(jié)構(gòu);而智能則是知識精華的集合。5信息·科學概念科學概念根植于理性的理論框架中,并與不定性、概率、熵、有序化、變異度等概念密切相關(guān)。L.V.R.Hartley:信息是選擇的自由度(1928);C.E.Shannon:信息是用來減少隨機不定性的東西(1948);N.Wiener:信息是指人們適應外部世界,并使這種適應為外部世界所感知的過程中,同外部世界交換的東西的名稱(1948);L.Brillouin:信息就是負熵,是系統(tǒng)組織結(jié)構(gòu)和有序程度的度量(1951);W.R.Ashby:信息是集合的變異度(1956)。
一般說來,設(shè)隨機事件X(x1,x2,…,xn),每個事件(狀態(tài))發(fā)生的概率為P(p1,p2,…,pn),那么這一隨機事件提供的信息量為I(xi)=﹣㏒Pi,而整個信源的信息熵為H(X)=﹣∑Pi㏒Pi。6信息·哲學概念在對信息進行哲學探討時,信息與物質(zhì)、能量、運動、反映、意識等概念息息相關(guān)。信息是一切事物運動狀態(tài)和方式的表象或表征。這里,“事物”泛指一切可能的研究對象,可以是外部世界的物質(zhì)客體,也可以是主觀世界的精神現(xiàn)象;“運動”泛指一切意義上的變化;“運動狀態(tài)”是指事物運動在空間上所展現(xiàn)的性狀和態(tài)勢,是事物的靜態(tài)特征;“運動方式”則是指事物運動在時間上所呈現(xiàn)的過程和規(guī)律,是事物的動態(tài)特征?!氨硐蟆闭f明信息并不是事物本身;而“表達”則是認識論上的主體所感知并能夠表示的、與人類生活有關(guān)的東西,這是上述本體論意義上的信息引入認識主體這一約束條件后的產(chǎn)物。72、信息的基本特征和屬性
普遍性與無限性
客觀性與相對性
抽象性與依附性
動態(tài)性與異步性
傳遞性與共享性8普遍性。信息是物質(zhì)的普遍屬性,是物質(zhì)運動的狀態(tài)和方式。信息的物質(zhì)性以及物質(zhì)的普遍性決定了信息的普遍存在性。無限性。物質(zhì)的更替和人事的代謝無窮無盡,信息因此是無限的;即使在有限的時空中,由于物質(zhì)的多樣性和物質(zhì)運動的連續(xù)性,信息也是無限的。信息無限性的重要表現(xiàn)是信息的多樣性和衍生性:就多樣性而言,它一方面表現(xiàn)為信息的內(nèi)容范圍無所不包的多樣性,另一方面表現(xiàn)為同一信息的表述、表達方式的多樣性。就衍生性而言,信息的信息仍然是信息;觀察的結(jié)果是信息,關(guān)于觀察結(jié)果的表述是信息,關(guān)于觀察結(jié)果的描述作為文獻的內(nèi)容也是信息,而關(guān)于該文獻的目錄索引還是信息,……信息的信息,可以形成無窮無盡的衍生鏈帶。9客觀性。信息的客觀性源于客觀存在的物質(zhì)運動的特征。信息不是虛無飄渺的東西,也不是可以隨意想象和“創(chuàng)造”的事物,它是現(xiàn)實世界各種事物運動的狀態(tài)和方式,有非常具體和真實的品格。各類信息的表達、存貯、傳遞、轉(zhuǎn)換和利用等都必須以客觀存在的物質(zhì)載體為依托。相對性。由于認識能力、認識目的及其所儲備的先驗信息各不相同,各個認識主體從同一事物中獲取的信息及信息量(實得語法信息量、實得語義信息量和實得語用量)并不相同。假定事物X的實在信息量I(X)是常數(shù),在這樣的條件下,第i個觀察者Ri的實得信息量I(X;Ri)就為:I(X;Ri)=I(X)-Io(X;Ri)。既然各個觀察者的先驗信息量Io(X;Ri)各不相同,它們的實得信息量當然也就各有差異。10抽象性。信息本身是看不見摸不著的,我們所能夠看得見摸得著的只是信息載體(包括語言、文字、圖畫、符號、紙張、磁帶和光盤等)而非信息內(nèi)容。依附性。任何信息都必須以某種物質(zhì)的特定的運動形式表現(xiàn)出來,即信息必須依附于一定的物質(zhì)載體上,用文字、語言、圖像、符號等把信息記錄下來,并寄載在紙張、磁帶、膠卷和光盤等介質(zhì)上,通過聲波、光波、電波等物質(zhì)載體進行傳遞。信息的依附性是抽象性的延伸,是信息具有可傳遞性、可轉(zhuǎn)換性、可貯存性和可處理性的基礎(chǔ),是信息能夠?qū)嶋H利用的前提;正是因為有了這些載體,信息才能變?yōu)橐环N廣泛的資源和財富。11動態(tài)性,或稱信息的時效性。信息的時效是指信息從產(chǎn)生、傳遞到接收利用的時間間隔及效率,而時效性就是指信息的內(nèi)容和信息量大小都會隨時間的變化而不斷得到更新、充實、積累或取舍。在我們考察物質(zhì)運動規(guī)律時,所取的空間界面和時間區(qū)段不同,所得到的有關(guān)信息的時效就會有所不同。異步性。異步性是動態(tài)性的延伸,包括滯后性和超前性兩個方面。信息脫離源物質(zhì)后需要經(jīng)過輸入、處理、傳遞和輸出等過程才能為人們所理解和掌握,而此時源物質(zhì)已發(fā)生新的變化,這些信息因而就成為“過時”的信息,它們所反映的已是某一時刻之前的源物質(zhì)運動的狀態(tài)和方式。換言之,任何信息總是產(chǎn)生、傳遞在事實之后,即先有事實而后有關(guān)于該事實方面的信息等,這是由于人的認識與客觀事物運動的異步性造成的,并導致信息都有一定的滯后性和不完全性。另一方面,人們在掌握大量信息的基礎(chǔ)上,又可以通過計劃、預測等方式測知未來的信息,超前于現(xiàn)實,因而信息又具有超前性。12傳遞性。信息傳遞的實質(zhì)就是一種事物的運動狀態(tài)與方式脫離源物質(zhì)而附著于另一事物,并通過后者的運動將這種狀態(tài)與方式在時空上從一點傳遞到另一點。信息的傳遞總是同物質(zhì)的運動和能量的轉(zhuǎn)換聯(lián)系在一起。信息傳遞經(jīng)歷了點-點、點-面、面-面的發(fā)展模式。共享性。指同一內(nèi)容的信息,可以在同一時間內(nèi)為眾多的使用者所接收和使用,當信息從傳者轉(zhuǎn)移到受者時,傳者不會因此丟失信息。⑴信息共享實現(xiàn)的條件在于信息對于物質(zhì)依附性的相對性,即同一信息可以采用多種相同的或不同的物質(zhì)載體及其運動形式構(gòu)成。
⑵信息共享的基礎(chǔ)在于信息存在的普遍性和信息價值的非對稱性。信息產(chǎn)品的使用價值是一個點集或面,其價值和使用價值具有非對稱性;而物質(zhì)產(chǎn)品的使用價值在同一時刻僅為一個點,且遵循等值交換原則。⑶信息共享的意義在于它從根本上改變了人類對資源的態(tài)度和方式。⑷不同的信息在共享范圍和程度上是有差異的。13
3、信息的基本類型3、1以認識主體為依據(jù)對信息進行的劃分3、2以信息的生成領(lǐng)域?qū)π畔⑦M行的劃分3、3以信息的媒體形式對信息進行的劃分3、4以信息的邏輯意義對信息進行的劃分143、1以認識主體為依據(jù)對信息進行的劃分客觀信息,是指對事物不加判斷的如實和公正的報道,即關(guān)于認識對象的信息。主觀信息,一般是依據(jù)事實和分析,闡明個人對論題的觀點和見解,是經(jīng)過思維主體加工的信息。153、2以信息的生成領(lǐng)域?qū)π畔⑦M行的劃分自然信息,非生命物質(zhì)的自然信息,是無機界事物屬性及事物之間內(nèi)在聯(lián)系的表征。自然信息是融合式的、特殊的、彌漫的。生物信息,包括生物與外界聯(lián)系時做出的反應以及生物體內(nèi)傳遞的信息。生物信息是信號形態(tài)的信息。社會信息,人類活動和社會發(fā)展的信息以及人類接收并破譯的自然信息。它以符號信息為特征。思維信息,以人腦為載體,以語言為外殼,以各種感覺器官為接收器,對各種外界信息進行加工、轉(zhuǎn)換,并實現(xiàn)思維分析、語言表達的過程。思維信息是社會信息運動的主體源泉,而社會信息則是思維信息運動的外化和現(xiàn)實化的結(jié)果。163、3以信息的媒體形式對信息進行的劃分文本信息。按線性順序排列的,閱讀時,人們跟隨文本的線性流向吸收其中的知識單元。超文本信息。按知識單元及其關(guān)系建立的知識結(jié)構(gòu)網(wǎng)絡。其數(shù)據(jù)庫由結(jié)點和鏈路組成,查閱超文本信息時,以知識片段及其關(guān)系作為追蹤、檢索的依據(jù)。多媒體信息。多媒體是包括文本、圖像和聲音在內(nèi)的各種信息表達或傳播形式的總稱。多媒體信息系統(tǒng)能針對用戶的需求提供各種形式的信息。超媒體信息。是指通過計算機控制,把各種文獻載體和各種內(nèi)容綜合為一個整體,從而向讀者提供各種形式和各種內(nèi)容的資料。超媒體是超文本與多媒體兩種技術(shù)的結(jié)合,即在信息瀏覽環(huán)境下超文本的信息管理方式與多媒體的信息表現(xiàn)方法結(jié)合在一起時,就稱為超媒體。173、4以信息的邏輯意義和利害關(guān)系劃分有益信息:對社會發(fā)展有積極作用的、能夠消除人們對未知事物不確定性的信息,它是人類社會的資源和財富。無用信息:指對信息使用者所從事的某種活動沒有作用的、多余的信息。衡量無用信息可以使用以下
3個指標:一是德國文獻學家瓦斯提出的廢頁率。二是美國信息科學家彭德爾伯里和加菲爾德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在傳遞中屬于多余的內(nèi)容。信息的冗余度R=1-H/Hmax。有害信息:指對社會發(fā)展和信息用戶有消極和阻礙作用的不真實或庸俗、媚俗的信息,主要有虛假信息和色情信息等。18
4、信息與知識、情報、文獻的關(guān)系
4、1信息與知識
4、2信息與情報
4、3信息與文獻
4、4
聯(lián)系與轉(zhuǎn)換194、1信息與知識知識是人類認識的成果,它是在實踐的基礎(chǔ)上產(chǎn)生又經(jīng)過實踐檢驗的對客觀實際的反映。人們在日常生活、社會活動和科學研究中所獲得的對事物的了解,其中可靠的成分就是知識。依照反映對象的深刻性和系統(tǒng)性程度,知識分為生活常識和科學知識;按知識的成熟程度,分為經(jīng)驗知識、理論知識。除了一部分基礎(chǔ)知識外,大部分都是專門知識,是關(guān)于某個領(lǐng)域、某個主題、某種思想方法、某門科學、某種技術(shù)、某種價值體系、某種社會組織形式的認識。知識具有意識性、信息性、實踐性、規(guī)律性、繼承性和滲透性等基本屬性。204、2信息與情報
/4、3信息與文獻情報是指被傳遞的知識或事實,其概念和功能尚在發(fā)展中。古代,情報是指“戰(zhàn)時關(guān)于敵情的報告”。20世紀90年代以來,大情報觀逐步確立,情報概念被認為是人類社會中傳遞的信息。情報3性:知識性、傳遞性和效用性。情報按應用范圍分為科學情報、經(jīng)濟情報、技術(shù)情報、軍事情報、政治情報等;按內(nèi)容及其作用分為戰(zhàn)略情報、戰(zhàn)術(shù)情報等等。文獻是記錄有知識的一切載體。文獻是在時間上、空間內(nèi)用符號和載體積累和傳播情報的最有效的手段。214、4聯(lián)系與轉(zhuǎn)換聯(lián)系:⑴信息概念不僅包括人與人之間的消息的交換,而且還包括人機之間、機器與機器之間的消息交換,以及動、植物界信號的交換。⑵知識是人類通過加工吸收信息,對自然界、人類社會以及思維方式與運動規(guī)律的認識與掌握,是人的大腦通過思維重新組合的系統(tǒng)化信息的集合。⑶情報屬于人工信息的范疇,信息和知識都它的來源。轉(zhuǎn)換:⑴物質(zhì)運動發(fā)出信息;⑵信息經(jīng)人腦加工變成知識;⑶知識被記錄形成文獻、被傳遞成為情報;⑷情報應用于實踐產(chǎn)生新的信息、失去時效又還原為知識和信息。
發(fā)出大腦加工事物信息知識
反饋傳遞利用存貯情報傳遞利用文獻22
二、信息社會的基本特征1、信息數(shù)量的激增。2、信息職業(yè)的擴大。信息業(yè)成為經(jīng)濟發(fā)展中的基干產(chǎn)業(yè),從事信息業(yè)的人數(shù)占社會勞動力的多數(shù)。3、信息資源的顯化。信息與能源、材料并駕齊驅(qū)、甚至成為更重要的戰(zhàn)略資源。我們把一個社會從以材料、能源即物質(zhì)為基礎(chǔ)向以信息、材料和能源并立而信息更具有基礎(chǔ)性的發(fā)展態(tài)勢,稱之為社會信息化。4、信息應用的泛化。信息技術(shù)和信息產(chǎn)品深入到日常生活中。決策科學化、生活多樣化、權(quán)力分散化和技術(shù)綜合化等等都與信息網(wǎng)絡的發(fā)展息息相關(guān)。5、信息意識的強化。信息意識是指對有關(guān)信息、知識和情報具有高度的敏感性和洞察力,并且及時對其進行分析、聯(lián)想、綜合、推理等,從而判斷該信息是否能為自己或某一團體所用,是否能解決現(xiàn)實中某一特定問題等一系列思維過程。主要包括對信息功能的認同意識,對信息來源的選擇意識,對信息內(nèi)涵的同構(gòu)-再生意識,對信息的檢索、利用和開發(fā)意識等。23三、信息檢索教學的主要意義1、一個平臺:培養(yǎng)學生的信息意識,提高其自學能力和獨立研究的能力。1992年國家教委高教司在《文獻檢索課教學基本要求》的通知中指出:“文獻檢索課是培養(yǎng)學生掌握利用圖書文獻/情報檢索,不斷提高自學能力和科研能力的一門科學方法課?!?/p>
2、一個引擎:促進信息資源的開發(fā)利用,使文獻信息機構(gòu)成為社會信息化發(fā)展的智力引擎。信息資源是人類最寶貴的智慧資源,具有可再生性、可建設(shè)性、價值的潛在性等特征,是人類所有依賴的資源中最重要的資源。隨著自然資源的日益減少甚至枯竭,信息資源的重要性表現(xiàn)得更為明顯。3、一個工具:避免科研勞動的重復浪費,協(xié)助管理者做出正確的決策。24四、信息檢索與利用教學的基本內(nèi)容1、信息檢索的基本知識:文獻、情報、知識、信息的概念;不同文獻類型的特點;專業(yè)文獻概況及主要收藏單位;情報與InformationLiteracy對科學活動及個人知識增殖的作用;文獻檢索的意義和作用。2、信息檢索的基本原理:信息檢索類型、檢索程序和方法;檢索語言與排檢法;檢索工具和參考工具書的類別、特點、功用及其結(jié)構(gòu);數(shù)據(jù)庫、計算機檢索的基本策略。3、信息檢索的基本技能:①掌握若干種基本的綜合性和專業(yè)性中外文檢索工具,了解其內(nèi)容特點、結(jié)構(gòu)和著錄格式,能夠通過多種途徑使用它們檢索和專業(yè)相關(guān)的不同類型的文獻。②掌握若干種主要綜合性和專業(yè)性參考工具書,了解其內(nèi)容特點、適用范圍和查閱方法,能夠使用它們進行事實檢索和數(shù)據(jù)檢索。③初步掌握機檢方法,包括選擇數(shù)據(jù)庫、制訂檢索策略、分析檢索結(jié)果。④能夠獨立地根據(jù)檢索課題選用適當?shù)臋z索工具,并綜合使用多種檢索工具和參考工具書完成檢索課題。⑤掌握獲取原始文獻的主要方法。4、信息利用的基本素質(zhì):掌握科學研究的基本方法,熟悉學位論文的要求;掌握一定的文獻閱讀、整理和分析研究的基本方法和技能,具備初步的科學研究方法與研究論文的寫作能力等。2024/3/2025一、信息檢索的概念信息檢索是指知識的有序化識別和查找的過程。1、信息檢索是信息獲取的一種主要方式。2、信息檢索萌芽于圖書館的參考工作。3、信息檢索是人類信息活動的高層次,包括存與取兩個環(huán)節(jié)。4、信息檢索的本質(zhì)是一種通訊。5、信息檢索是一個發(fā)展中的概念。信息檢索“就是最終用戶借助信息源(或知識源)、推理機,通過人-機、機-機或人-人等系統(tǒng)之間的交互聯(lián)作,以期達到啟迪的認知結(jié)構(gòu)動態(tài)的建構(gòu)過程”。2024/3/2026CalvinN.Mooers,1919~1994
穆爾斯(CalvinN.Mooers,1919~1994)在1948
年提出此術(shù)語時,把它定義為一種“延時性通訊形式”。其特點是:發(fā)信者在某一時刻發(fā)出信息,而接收者可以在晚一些時刻才收到該信息;發(fā)信者必須發(fā)出一切可能的信息,而接受者必須有某種檢索裝置以便從大量發(fā)送的信息中篩選出適合自己需要的信息。Mooerscoinedtheterms"informationretrieval"anddescriptors"inhisMITMaster'sthesisin1948.HethenwentontodeveloptheZatocodingsystemofsuperimposedrandomcoding.MooersfirstdevelopedtheTRACprogramminglanguagebetween1959-1964.Mooerswasanearlyadvocateoftheuseofintellectualpropertylaw,includingcopyrightandpatents,toprotectcomputerprogramminglanguages.2024/3/2027二、信息檢索的類型1、按照存貯與檢索的對象進行劃分2、按照存儲的載體和查找的技術(shù)手段進行劃分3、按照存貯文獻的時間進行的劃分4、按照檢索系統(tǒng)的結(jié)構(gòu)進行的劃分2024/3/20281、按照存貯與檢索的對象進行劃分1、1Documentretrieval:以文獻為檢索對象的信息檢索,是指將文獻按一定的方式存貯起來,然后根據(jù)需要從中查出有關(guān)課題或主題文獻的過程。書目檢索:以文獻線索為檢索對象。換言之,檢索系統(tǒng)存貯的是書目、專題書目、索引和文摘等二次文獻。全文檢索:以文獻所含的全部信息作為檢索內(nèi)容,即檢索系統(tǒng)存貯的是整篇文章或整部圖書。1、2Dataretrieval:以具有數(shù)量性質(zhì)并以數(shù)值形式表示的數(shù)據(jù)為檢索內(nèi)容的信息檢索,或稱數(shù)值檢索。1、3Factretrieval:以文獻中抽取的事項為檢索內(nèi)容的信息檢索,或稱“事項檢索”。2024/3/20292、按照存儲的載體和查找的技術(shù)手段進行劃分2、1Manualretrieval:用人工方式查找所需信息的檢索方式。2、2Mechanicalretrieval:利用某種機械裝置來處理和查找文獻的檢索方式。穿孔卡片檢索:Punchcard是一種由薄紙板制成的、用孔洞位置表示信息,通過穿孔或軋口方式記錄和存儲信息的方形卡片??s微品檢索:把檢索標識變成黑白點矩陣或條形碼,存儲在縮微膠片或膠卷上,利用光電效應,通過檢索機查找。2、3Computer-basedretrieval2024/3/20302、3Computer-basedretrieval計算機檢索是指把信息及其檢索標識轉(zhuǎn)換成電子計算機可以閱讀的二進制編碼,存儲在磁性載體上,由計算機根據(jù)程序進行查找和輸出。脫機檢索:成批處理檢索提問的計算機檢索方式。聯(lián)機檢索:檢索者通過檢索終端和通信線路,直接查詢檢索系統(tǒng)數(shù)據(jù)庫的機檢方式。1964年,美國國家醫(yī)學圖書館開始MEDLARS聯(lián)機情報檢索系統(tǒng)商品服務。光盤檢索:以光盤數(shù)據(jù)庫為基礎(chǔ)的一種獨立的計算機檢索,包括單機光盤檢索和光盤網(wǎng)絡檢索兩種類型。1983年首張高密度只讀光盤存儲器誕生;1984年美國、日本和歐洲開始利用CD-ROM存貯科技文獻。網(wǎng)絡檢索:利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW等檢索工具,在Internet等網(wǎng)絡上進行信息存取的行為。2024/3/20313、按照存貯文獻的時間進行的劃分3、1SelectiveDisseminationofInformation:它是預先把用戶需要的有關(guān)文獻存貯在計算機的存貯器中,定期按用戶提問要求從存貯器中檢索出用戶所需要的最新文獻,發(fā)給用戶,使用戶能定期得到所需要的文獻信息。3、2RetrospectiveSearch:它是根據(jù)用戶提出的課題,提供某一時間以前文獻的檢索方式。2024/3/2032一、信息檢索的基本原理檢索的基本原理:對信息集合與需求集合的匹配和選擇。個人問題特征化選擇與特征化信息與知識表示匹配D&I表示集合I需求集合D2024/3/2033信息檢索基本過程可定義為一個四維組,即S=(D,Q,T,δ)。D為文獻集合,Q為用戶查詢,T是標引集合,而δ為匹配函數(shù)。δ:D/×Q/→R,D/是標引的文獻集合,Q/是標引的查詢集合,R為函數(shù)值集合。每個具體的δ值就表示具體的文獻d關(guān)于某次查詢q的相關(guān)程度。(借助于檢索語言)信息處理中心σ查尋Q標引Q’輸出ψ(q)文獻D標引D’2024/3/2034二、信息檢索基本原理的闡釋1、需求集合2、信息集合3、匹配與選擇2024/3/20351、需求集合需求集合涉及人類生存所必需的一切東西,其中包括信息需求。信息需求的結(jié)構(gòu)與規(guī)律。⑴信息需求是一種運動狀態(tài),并表現(xiàn)為三個層次結(jié)構(gòu)。⑵信息需求的心理行為規(guī)律包括Mooers定律、Zipf最少省力法則、馬太效應和羅賓漢效應。⑶學生信息需求特征。信息需求的識別與表達。信息需求的處理與加工。即采用特定的檢索語言將信息需求表示出來,換言之,將檢索問題或課題進行處理,抽取出主題內(nèi)容或其他特征。經(jīng)過這樣處理的信息需求稱之為Query。2024/3/20362、信息集合信息集合是指有關(guān)某一領(lǐng)域的文獻或數(shù)據(jù)的集合。信息集合的復雜性。信息集合的序化。Accesspoint。每件信息都包含有其內(nèi)部和外部的特征即信息的屬性,這些特征可以用來作為檢索的出發(fā)點和匹配的依據(jù)。我們稱之為檢索點。2024/3/20373、匹配與選擇匹配與選擇是一種機制,它負責把需求集合與信息集合進行相似性比較,然后根據(jù)一定的標準選出符合需要的信息。采用布爾模型,一個文檔通過一個關(guān)鍵詞條的集合來表示,這些詞條來自一個詞典。在查詢與文檔的匹配過程中,主要看該文檔中的詞條是否滿足查詢的條件。采用向量模型,計量文檔向量與查詢詞串之間的相似度。采用概率論模型,將文檔按照與查詢的概率相關(guān)性的大小進行排序,排在最前面的文檔是最有可能被獲取的文檔。此外,還可以采用神經(jīng)網(wǎng)絡模型、基于命題邏輯模型、聚類模型、基于規(guī)則模型、模糊模型和語義模型等,來深入研究查詢與文檔之間的匹配過程。2024/3/2038
討論題Topic你了解哪些信息需求和信息系統(tǒng)?Topic你在學習方面的信息需求的分布狀況(按降序或升序排列)?Topic你查尋信息的基本途徑有哪些?2024/3/2039Topic你了解哪些信息需求和信息系統(tǒng)?由于父母培養(yǎng)孩子的方法不當,尤其是在最初三年間,許多孩子不能充分發(fā)揮其潛力信息經(jīng)濟日新月異,但西北地區(qū)的信息水平卻很低。孩子教育費用、撫育費用逐年變化情況。肚子餓了,想在蘭州市找家飯店卻無法弄清孰好孰壞。2024/3/2040Topic你在學習方面的信息需求的分布狀況?類型上:教科書、專著、工具書、研究報告、專利文獻等;內(nèi)容上:專業(yè)文獻、課外讀物(文學、管理、經(jīng)濟、政治等)等;地域上:本單位、外單位、外地等;語種上:中文、外文、少數(shù)民族文字等。2024/3/2041Topic你查尋信息的基本途徑有哪些?檢索即是一種交流,它可以是內(nèi)向的,也可以是外向的。2、同行同事3、中介4、技術(shù)5、已記載的知識1、生存環(huán)境1、文獻信息檢索階段(前兩千年~1954)。
公元前兩千年,類似文摘的東西首先出現(xiàn)在封裝美索不達米亞人用楔形文字寫成的文獻的陶制封套上。2、脫機信息檢索階段(1954~1964)。1954年,美國海軍軍械實驗站圖書館研制出計算機信息檢索試驗系統(tǒng)。3、
聯(lián)機信息檢索階段(1964~1972)。1964年,美國醫(yī)學圖書館開始了MEDLARS聯(lián)機信息檢索系統(tǒng)商業(yè)化服務,使計算機信息檢索進入了新的歷史發(fā)展階段。4、網(wǎng)絡信息檢索階段(1972~目前)。1972年,MEDLINE率先加入TYMNET通信網(wǎng),然后又加入TELENET通信網(wǎng)。隨后,DIALOG、ORBIT等系統(tǒng)也相繼進入網(wǎng)絡,從而使信息檢索進入到網(wǎng)絡檢索階段。5、光盤信息檢索階段(1985~目前)。1985年,第一張商品化的CD-ROM數(shù)據(jù)庫Bibliofile,即美國會圖書館的MARC問世,標志著光盤信息檢索異軍突起,并大有與網(wǎng)絡信息檢索平分秋之勢。43
信息源概念與類型1、信息源的概念與一般特征信息源是指能夠提供信息、滿足人類信息需求的來源,凡是人類能夠獲取信息的實體都是信息的來源。信息源具有結(jié)構(gòu)上的多樣性和功能上的互補性。2、信息源的基本類型與特點口頭信息源實物信息源機構(gòu)信息源文獻信息源44口頭信息源與實物信息源口頭信息源:傳播口頭信息的個人或場合??陬^信息源具有廣泛性、針對性、適時性、隨意性和層次性等特點。實物信息源:載有信息內(nèi)容的各種實際物體的總稱。實物信息源具有真實性、綜合性、直觀性、間接性和商品性等特點。45機構(gòu)信息源與文獻信息源機構(gòu)信息源:傳播信息和提供信息的社會機構(gòu)。⑴創(chuàng)造信息的機構(gòu):學術(shù)機構(gòu)和團體、高校、科研單位和政府部門等;⑵生產(chǎn)信息的機構(gòu):出版發(fā)行機構(gòu)、編輯部、報社等;⑶研究信息的機構(gòu):信息研究所、數(shù)據(jù)中心、咨詢中心等;⑷傳播信息的機構(gòu):大眾傳媒,如電視臺、廣播電臺等;⑸收藏信息的機構(gòu):圖書館、文獻中心、資料室、檔案館等。文獻信息源:記錄和傳播信息的各類文獻,是信息源的主體和檢索的主要對象。文獻信息源具有交流性、積累性、社會性、時效性和可整理性等特點。46
2-1初識文獻
一、文獻概念二、文獻要素三、文獻資源四、經(jīng)濟管理文獻47一、文獻概念:文獻是記錄有知識和
信息的一切載體“文獻”一詞最早見于《論語·八佾》,“夏禮吾能言之,杞不足徵也;殷禮吾能言之,宋不足徵也;文獻不足故也。足,則吾能徵之矣”。漢·鄭玄釋文獻為文章和賢才;宋·朱熹注:“文,典籍也,獻,賢也?!痹鸟R端臨在《文獻通考》自序中指出:“引古經(jīng)史謂之文,參以唐宋以來諸臣之奏疏,諸儒之議論謂之獻。故名曰:‘文獻通考’?!苯F(xiàn)代,文獻作為一個整體術(shù)語,在兩個層面上使用:狹義上,文獻被理解為“具有歷史價值的圖書文物資料”和“與某一學科有關(guān)的重要圖書資料”;廣義上,文獻被理解為記錄有知識和信息的一切載體。在國外,Document一詞最早由法國文獻學家保羅·奧特勒(P.Otlet)提出,泛指“固定、傳遞、使用信息的物質(zhì)客體”。48二、文獻要素:人們認識文獻的關(guān)鍵
1、信息內(nèi)容
2、信息符號
西平石經(jīng)
3、記錄方式
4、載體材料
甲骨文獻
扶風紙
老子帛書49信息內(nèi)容與信息符號信息內(nèi)容:文獻中所表達的思想意識和知識觀念。它是文獻的內(nèi)涵、靈魂之所在,直接體現(xiàn)了文獻精神產(chǎn)品的性能,具有知識和情報價值。信息符號:符號系統(tǒng)是揭示文獻信息內(nèi)容的標識,表達知識情報的手段,記錄和傳播文獻信息內(nèi)容的媒介。文獻信息符號主要是從語言不斷衍化而來的,并逐步發(fā)展為文字、圖畫、表格、公式、編碼、聲頻和視頻等類型。50記錄方式與載體材料記錄方式:是指將文獻符號系統(tǒng)所代表的信息內(nèi)容通過特定的人工記錄手段和方法使其附著于一定的文獻載體材料上。文獻記錄方式具體包括刻劃、書寫、印刷、拍攝、錄制、復印和計算機錄入等。載體材料:是可供記錄信息符號的物質(zhì)材料,是全部信息載體中一個重要的子系統(tǒng)。文獻載體反映了文獻物質(zhì)產(chǎn)品的性能,具有商品、保存和流通價值。文獻載體大體經(jīng)歷了泥板、紙草、羊皮、蠟板、甲骨、金文、石頭、簡牘、縑帛等早期載體,到紙的出現(xiàn),再到現(xiàn)代各種新興文獻的發(fā)展過程。文獻是物化的精神產(chǎn)品,或者說,文獻是知識信息的物化形態(tài)。其中,信息內(nèi)容是文獻的知識內(nèi)核,載體材料是文獻的存在形式和外殼,而符號系統(tǒng)和記錄方式則是二者聯(lián)系的橋梁和紐帶。這4個要素相互聯(lián)系就構(gòu)成了文獻的四維框架結(jié)構(gòu)。51三、文獻資源:人們認識文獻的根本所在文獻是一種資源,文獻資源是人類社會積累、貯存的有序文獻的總和或集合,是人類智力資源的主要存在形式。1、可再生性。文獻資源不同于一次性消耗資源,它可以反復利用、異地傳播、原文復制。2、可建性。文獻資源是人類自己創(chuàng)造的智力資源,人們可以對它進行規(guī)劃、建設(shè)、改造和優(yōu)化。3、共享性。人類有可能、也應當共同分享全世界的文獻資源,使之為全人類的進步發(fā)揮更大的作用。4、冗余性。社會文獻資源并不是各單位文獻的簡單算術(shù)和,相同內(nèi)容文獻的重復積累不僅不能增加信息總量,并形成體系完備、功能最佳的文獻資源,相反還會阻塞文獻交流通道,使有用信息的傳遞發(fā)生遲滯性干擾。5、價值潛在性。文獻資源的作用往往是間接的,其經(jīng)濟和社會效益的實現(xiàn)完全依賴于文獻資源被開發(fā)利用的程度。52四、經(jīng)濟管理文獻經(jīng)濟管理文獻是記錄有經(jīng)濟管理知識和信息的一切載體。經(jīng)濟管理文獻具有較強的生命力,具有較強的經(jīng)濟和管理效益,具有明顯的情報價值。經(jīng)濟類文獻的基本類型管理類文獻的基本類型53
經(jīng)濟類文獻的基本類型經(jīng)濟學理論類:包括馬克思主義政治經(jīng)濟學和西方各經(jīng)濟學派的經(jīng)濟理論和經(jīng)濟學說等文獻。經(jīng)濟史類:包括經(jīng)濟發(fā)展史、經(jīng)濟思想史、經(jīng)濟技術(shù)史和各種經(jīng)濟學說史等文獻。部門經(jīng)濟學類:研究某一具體經(jīng)濟領(lǐng)域內(nèi)經(jīng)濟發(fā)展規(guī)律的文獻。技術(shù)經(jīng)濟學類:研究和記錄各個部門所使用的先進技術(shù)手段和先進管理方法及其經(jīng)濟效益和社會效益的文獻。經(jīng)濟法規(guī)和經(jīng)濟政策類:包括一切有關(guān)經(jīng)濟的法律、法令、條例、規(guī)則和章程及各種綱領(lǐng)性措施和方法。經(jīng)濟統(tǒng)計類:以客觀或直觀的數(shù)據(jù)圖表等形式反映某一地區(qū)或某一國家在某一時期內(nèi)經(jīng)濟發(fā)展的變化、動態(tài)和趨勢。經(jīng)濟組織機構(gòu)和人物資料類。經(jīng)濟信息類:指傳遞和指導經(jīng)濟實踐活動中有關(guān)經(jīng)濟信息和發(fā)展動態(tài)的文獻。54Primaryliterature是指作者對已經(jīng)創(chuàng)造的知識信息進行第一次加工固化而形成的文字記載。一次文獻具有原始性、創(chuàng)造性和分散性等特點。Secondaryliterature是指文獻工作者對一次文獻進行加工整理后的產(chǎn)物,即對無序的一次文獻的外部特征或基本內(nèi)容進行著錄、改組,并按照一定的學科或?qū)I(yè)加以有序化而形成的文獻形式。二次文獻具有匯集性、檢索性和通報性、系統(tǒng)性等特點。目錄、索引、文摘是最基本的二次文獻類型。Tertiaryliterature是指文獻研究者按給定的課題,利用二次文獻選擇有關(guān)的一次文獻加以分析綜合而創(chuàng)作出來的文獻形式。三次文獻具有綜合性、針對性和價值性等特點。文獻經(jīng)過外部替代、內(nèi)容改組和綜合研究,從一次文獻到二次文獻再到三次文獻,使文獻由博而約、由分散到集中、由無組織到系統(tǒng)化,使離散和個別的信息遞增為系統(tǒng)的和定型的知識。55二、以文獻的物質(zhì)載體形式為標準劃分1、Originaldocument2、Paperdocument3、Microformdocument4、Audio-visualdocument5、Machine-readabledocument56早期文獻:笨重、昂貴、荷載信息少,并具有偏倚時間等特征。紙質(zhì)文獻:以紙張為載體,用書寫或印刷等方式記錄知識的文獻??s微文獻:用縮微照像的方式,將原始文獻縮小若干倍存儲在感光材料上,并借助于專用閱讀器而使用的文獻。包括Microfiche、Microfilm和Microcard(Micro-opaque)等類型??s微文獻具有自己的特點。57音像型文獻:以磁性材料、光學材料等為記錄載體,利用專門的機械裝置記錄與顯示聲音和圖像的文獻。主要有Videoform、Audiodocument和Audio-visualdocument等。音像文獻具有存儲密度高,內(nèi)容直觀真切、表現(xiàn)力強,易于接受和理解,傳播效果好等優(yōu)點。機讀文獻:是指以機器(主要是計算機)能閱讀和處理的形式存儲在某些特殊載體上的信息集合體。機讀文獻具有信息存儲量大,編輯出版迅速、傳輸存取方便,可提供立體的、動態(tài)的圖文信息以及保存時間長等特點。機讀目錄、文摘索引磁帶、聯(lián)機數(shù)據(jù)庫、光盤、電子票據(jù)、電子郵件等都是機讀文獻的家族成員。光盤是指利用激光將信息寫入和讀出的高密度存儲媒體。有只讀光盤、一次寫入光盤、可擦除光盤等類型。58三、以文獻的出版形式為主要標準的綜合性劃分1、Book2、Serial3、Scientific&TechnicalReport4、ConferenceLiterature5、StandardsLiterature6、ProductSampleBook7、GovernmentPublication8、PatentLiterature9、Archives10、DissertationforAcademicDegree59
1、Book用文字、圖畫或其他符號手寫或印刷于紙張等形式的載體上并具有相當篇幅的文獻?!皥D書”一詞最早見于《史記·蕭相國世家》。廣義的圖書泛指一切書籍、期刊、小冊子、圖片等文獻。狹義的“圖書或稱專著,以印刷方式單本刊行的出版物”。就內(nèi)容而言,圖書的主題鮮明,內(nèi)容系統(tǒng)完整,論述全面深入,知識相對成熟穩(wěn)定;但由于編撰出版周期較長,其內(nèi)容有滯后現(xiàn)象,一般不含最新的信息。就形式而言,圖書都有相當篇幅,裝訂成冊,完整成型。圖書的類型多種多樣,Textbook和Referencebooks是較為重要的圖書類型。60
2、Serial印刷或非印刷形式的出版物,具有統(tǒng)一的題名,定期或不定期以連續(xù)分冊形式出版,有卷期或年月標識、并計劃無限期地連續(xù)出版(GB3792.3-85《連續(xù)出版物著錄規(guī)則》)。連續(xù)性、及時性和穩(wěn)定性是連續(xù)出版物的主要特點。連續(xù)出版物通常包括期刊、報紙、年刊(年鑒、指南等)、成系列的報告、學術(shù)會刊、會議錄和專著叢刊等。其中Periodical和Newspaper是最基本的兩種類型。61Periodical:有固定名稱,定期或按宣布期限出版,并計劃無限期出版的一種連續(xù)出版物。主要刊登論文、記事或其他著述。通常每年至少出版兩期。世界上最早的期刊是1665年1月法國巴黎創(chuàng)刊的《學者雜志》和1665年3月英國皇家學會創(chuàng)辦的《哲學匯刊》。第一份中文期刊是英國傳教士馬禮遜于1815年8月5日在馬六甲創(chuàng)辦的《察世俗每月統(tǒng)計傳》。期刊的類型是多種多樣的,有學術(shù)性期刊(常冠以Proceeding/Bulletin/Journal等)、情報資料性期刊(Newsletter/Progress/Advance),檢索性期刊、普及性期刊、時政性期刊等。核心期刊是期刊研究中最重要的問題。Newspaper:主要刊載新聞和評論,出版周期較短的定期連續(xù)出版物。報紙具有傳遞信息快,現(xiàn)實感強,信息量大等特點。中國唐代官府的“邸報”和古羅馬元老院的《每日紀聞》被視為古代最早的報紙。近代較早的報紙有1609年在德國出版的《報道新聞報》、《政府報》等。1858年香港出版的《中外新聞》是最早的中文報紙。623、Scientific&TechnicalReport科技報告是對科學技術(shù)研究成果或研究進展的記錄。
美國四大報告。在內(nèi)容上,科技報告具有新穎性、多樣性、保密性、真實性和專業(yè)性等特點;在形式上,科技報告入藏統(tǒng)一、格式統(tǒng)一、著錄項目完整、篇名較為冗長,同時,每份報告都自成一冊,印刷裝幀比較簡單。報告的類型:按科技報告反映的研究階段劃分為研究過程中的報告,如Statusreports、Preliminaryreports、Interimreports、Progressreports、Informalreports;研究工作結(jié)束時的報告,如Finalreports、Definitivereports、Testresultsreports、Completionreports、Formalreports、Publicreports等。按報告的文獻形式劃分為Reports、Notes、Papers、Memorandum、Bulletin和Technicaltranslation等。按報告的使用范圍劃分為Secretrep.、Confidentialrep.、Unclassified/Limitedrep.、Delimitedrep.和Declassifiedrep.等63
美國四大報告及其檢索工具PB報告:1945年6月,美國成立商務部出版局(OfficeofthePublicationBoard),負責整理公布從戰(zhàn)敗國獲取的科技資料,并編號出版,號碼前統(tǒng)一冠以PB字樣。20世紀40年代的PB報告主要為戰(zhàn)敗國的科技資料;50年代起,主要是美國政府科研機構(gòu)及其有關(guān)合同機構(gòu)的科技報告;20世紀70年代以后,PB報告?zhèn)戎赜诿裼霉こ碳夹g(shù)。AD報告:1951年5月,美國成立ArmedServiceTechnicalInformationAgency,負責收集、整理、編輯、出版國防部所屬海陸空三軍軍事系統(tǒng)科研機構(gòu)及其與該部訂有合同的工業(yè)企業(yè)、高等院校提出的軍事科研報告,在該部規(guī)定的范圍內(nèi)發(fā)行。AD報告即是這個情報局出版的文獻。PB、AD報告的主要檢索工具是美國商務部國家技術(shù)情報服務處NTIS編輯出版的U.S.GovernmentReportsAnnouncementandIndex,簡稱GRA&I。64NASA報告:美國NationalAeronauticsandSpaceAdministration擁有的研究機構(gòu)產(chǎn)生的技術(shù)報告。該局成立于1958年10月1日,其前身是美國國家航空咨詢委員會(NationalAdvisoryCommitteeforAeronautics,NACA)。NACA報告創(chuàng)刊于1915年,主要檢索工具是1963年創(chuàng)刊的《宇航科技報告》(ScientificandTechnicalAerospaceReports,STAR)。AEC/ERDA/DOE報告:1946年美國建立AtomicEnergyCommission,AEC報告即為該委員會所屬單位及其合同戶編寫的報告。1975年,該委員會更名為EnergyResearchandDepartmentAdministration,AEC報告于1976年相應改稱為ERDA報告。1977年,該署又擴大為USDepartmentofEnergy,1978年7月起逐漸冠以DOE報告。主要檢索工具為NuclearScienceAbstracts,(NSA,1948~1978)、EnergyResearchAbstracts(ERA,1978~)。654、ConferenceLiterature在學術(shù)會議上宣讀和交流的論文、報告及其他有關(guān)資料。按會議的性質(zhì)和規(guī)模劃分有Congress/Conference/General
Assembly/Seminar/Symposium/Workshop/Discussiongroupmeeting/Committee/Workinggroup等類型;按會議的級別劃分有國際性會議、全國會議、地區(qū)會議和基層會議等。會議文獻具有內(nèi)容新穎,傳遞及時;專業(yè)性和針對性較強;數(shù)量龐大,類型多樣等特點。會議文獻通常分為Pre-meetingpublications,包括征文啟事、會議通知書、Program、AdvancedAbstracts和Preprints等;會中文獻;Post-meetingpublications,包括Proceedings、Conferencepapers、Transactions等。其中,會議錄是會后將論文、報告及討論記錄整理匯編而公開出版或發(fā)表的系統(tǒng)化文獻。許多國家出版有各種會議文獻檢索工具或數(shù)據(jù)庫。665、StandardsLiterature狹義指按規(guī)定程序制訂,經(jīng)權(quán)威機構(gòu)或主管機關(guān)批準的一整套在特定領(lǐng)域內(nèi)必須執(zhí)行的規(guī)格、規(guī)則、技術(shù)要求等規(guī)范性文獻。廣義指與標準化工作有關(guān)的一切文獻。標準文獻有多種類型和特征,國外經(jīng)常使用Standard、Specification、Recommendation、RulesInstruction、Handbook、Practice、Code和Bulletin等來表示標準文獻?,F(xiàn)代標準文獻產(chǎn)生于20世紀初。1901年英國成立了第一個全國性標準化機構(gòu),1906年成立的InternationalElectrotechnicalCommission和1947年2月成立的InternationalOrganizationforStandardization是最重要的國際標準化機構(gòu)。1956年我國設(shè)立國家標準局,1957年8月加入IEC,并頒布了第一批國家標準;1978年成立國家標準總局,并于同年9月加入ISO。1989年4月1日《中華人民共和國標準化法》實施。中國標準化綜合研究所標準館是中國標準文獻中心,收藏有各種級別的標準文獻數(shù)十萬件。676、ProductSampleBook
廠商為向用戶宣傳和推銷其產(chǎn)品而印發(fā)的介紹產(chǎn)品情況的文獻。但也有少數(shù)是產(chǎn)品主管部門出版的。產(chǎn)品樣本主要包括產(chǎn)品說明書、產(chǎn)品數(shù)據(jù)手冊、產(chǎn)品目錄、廠商介紹和廠刊、外貿(mào)刊物等。產(chǎn)品文獻所介紹的多是已經(jīng)投產(chǎn)或行銷的產(chǎn)品,反映的是較為成熟的技術(shù),所列的各種特征曲線、數(shù)據(jù)、表格等比較具體,但不詳細,不提供理論依據(jù)。產(chǎn)品文獻是工程人員設(shè)計、制造新產(chǎn)品的重要參考資料,是產(chǎn)品使用人員和維修人員的指南,也是決策管理和市場營銷工作者掌握產(chǎn)品市場情況和動向的重要信息源。有許多產(chǎn)品目錄、手冊、樣本數(shù)據(jù)庫、年鑒等可供檢索。687、GovernmentPublication由政府機構(gòu)制作出版或由政府編輯、由政府指定出版商出版的文獻。UNESCO規(guī)定:政府出版物是根據(jù)國家機關(guān)的命令并且由國家負擔經(jīng)費而出版的一切記錄。常見的出版形式有報告、公報、文件匯編、會議錄、統(tǒng)計資料、政府工作手冊、官員名錄、國家機關(guān)指南、地圖、地名詞典等。西方國家多設(shè)有政府出版物的專門出版機構(gòu),美國政府出版局和英國皇家出版局都是世界上著名的出版機構(gòu)。政府出版物主要包括行政性文獻和科技文獻兩種類型,并具有內(nèi)容廣泛、可靠性強,一定的保密性,售價低廉或免費供應。政府出版物與其他文獻重復現(xiàn)象比較突出。一個國家的政府出版物的封面往往有其慣用的顏色。美國政府文件、英國下議院文件冠以白皮書,英國國會文件冠以藍皮書,法國政府公布的報告冠以黃皮書,意大利政府的報告和外交文件、英國政府各部發(fā)表的文件冠以綠皮書,美國外交文書、英國中央統(tǒng)計處的國際收支表冠以紅皮書,而日本則將外務省的外交文書等冠以灰皮書。698、PatentLiterature8、1概念與發(fā)展8、2特征與類型708、1專利文獻的概念與發(fā)展專利文獻是指記錄有關(guān)發(fā)明創(chuàng)造信息的文獻。廣義包括專利申請書、專利說明書、專利公報、專利檢索工具以及與專利有關(guān)的一切資料;狹義僅指各個國家或地區(qū)的專利局出版的專利說明書或發(fā)明說明書。專利文獻是專利制度的產(chǎn)物。世界上最早建立專利制度的是威尼斯城邦,1416年2月20日,它批準了第1件記載的專利;1474年威尼斯共和國頒布了世界上第1部專利法。17世紀末~18世紀初,西方各國相繼頒布了專利法。19世紀下半葉出現(xiàn)了國際性專利組織并締結(jié)了多種國際條約和協(xié)定。20世紀80年代初,全世界有130多個國家建立了專利制度。1980年1月,國務院正式批準中國建立專利制度,并成立了中華人民共和國專利局;1984年3月12日,我國制訂并通過了《中華人民共和國專利法》,1985年4月1日正式實施。718、2專利文獻的特征與類型專利文獻寓技術(shù)、法律和經(jīng)濟信息于一體,內(nèi)容新穎、出版迅速,內(nèi)容可靠、實用性強,規(guī)格統(tǒng)一、分類科學,專利文獻的數(shù)量龐大,重復性較高。目前已經(jīng)有系列檢索工具(專利公報、文摘索引刊物、專利光盤等)。1980年,中國建立中國專利文獻服務中心。729、Archives國家機構(gòu)、社會組織以及個人從事政治、軍事、經(jīng)濟、科技、文化、宗教等活動直接形成的具有保存價值的各種文字、圖表、聲像等不同形式的歷史記錄。中國明代以前檔案有典冊、簡牘、文書、簿書、案卷、文案、案牘等稱謂。檔案的主要特點:⑴記錄性和原始性。檔案是由文件轉(zhuǎn)化而來的歷史記錄。⑵定向積累性和歷史聯(lián)系性。檔案是各種機關(guān)、組織和個人在特定的社會活動中積累而成的文件組合體,其產(chǎn)生與存在始終淵源于專門的形成單位和其職能活動,并由此構(gòu)成檔案材料之間的內(nèi)在聯(lián)系。⑶可靠性和稀有性。檔案材料是歷史的原始記錄,具有可靠性,并且多具有單一性和稀有性。我國通常把檔案分為文書檔案、科技檔案和專門檔案3種基本類型。7310、DissertationforAcademicDegree學位論文通常是指高?;蜓芯繖C構(gòu)的學生為取得學位在導師指導下完成的科學研究、科學試驗成果的書面報告。它是科技論文的一種重要類型。此外,Records、MusicScore、Map等都是文獻家族中的重要成員。74四、按文獻傳播和使用范圍進行的劃分1、白色文獻:即通過正式渠道公開發(fā)行的文獻,具備內(nèi)容的公開性、發(fā)行范圍的廣泛性等特點。2、黑色文獻:指不正式出版、發(fā)行范圍狹窄、內(nèi)容保密的文獻。絕大部分黑色文獻都有密級規(guī)定,其制作、保管和流通都有嚴格控制;非特定讀者無法獲取。3、灰色文獻:指不正式出版、也非秘密文獻。75
經(jīng)濟管理類核心期刊核心期刊是指在某一學科或?qū)I(yè)信息密度大、刊載論文數(shù)量多、借閱率和被引率較高的少數(shù)期刊。一般來說,與某學科有關(guān)的論文總數(shù)的50%刊登在相關(guān)期刊總數(shù)5%~10%的期刊上,這小部分期刊,我們就稱之為核心期刊。我國核心期刊的研究始于20世紀70年代。《世界圖書·B輯》1981年第6期刊出《國外科技核心期刊專輯》,報道了88個不同學科的核心期刊表。以后,陸續(xù)出版了《中國科技核心期刊》(1990)、《國外科技核心期刊手冊》(1991)、《中文核心期刊要目總覽》(1992)、《中國自然科學核心期刊百種表》(1992)、《中國科學引文數(shù)據(jù)庫核心期刊》(1994)、《自然科學一流學術(shù)期刊》(1995)和《國外人文社會科學核心期刊總覽》(1997)等重要成果。全面掌握經(jīng)濟管理核心期刊的刊名、刊期、創(chuàng)刊時間、創(chuàng)辦者、地址、主要內(nèi)容等,并能夠在實際工作和科學研究中有效地利用這些核心期刊。76
我國核心期刊研究77一、數(shù)量龐大,增長迅速1、現(xiàn)象描述:據(jù)統(tǒng)計,世界圖書產(chǎn)量為80萬種/年,期刊為10萬種/年,并以5%的速度增長。科技期刊的增長速度更快,每7~8年就增長一倍;有些新興學科,每隔3年左右就翻一番。目前,全世界專利文獻每年增加100萬件,技術(shù)標準增加20萬件,產(chǎn)品樣本增加50~60萬件,會議文獻增加100萬篇左右,各種連續(xù)出版物40萬種。若以信息單位計算,當今每天約有40億個信息單位的信息量向全世界發(fā)送,年遞增速度為18~20%。782、數(shù)學描述:1961年,D.Price在ScienceSinceBabylon一書中指出:“似乎沒有理由懷疑任何正常的、日益增長的科學領(lǐng)域內(nèi)的文獻是按指數(shù)增加的,每隔大約10~15年時間增加一倍,每年增長約5~7%。”他進一步指出,整個科學系統(tǒng)資金、人力和物力的指數(shù)輸入是造成科研成果和科技文獻指數(shù)輸出的重要原因;并且認為,科研人員、科研經(jīng)費與文獻量呈n、n2、n1/2三個階數(shù)關(guān)系。通過對科學期刊的歷時性研究,普賴斯得出科學文獻增長同時間呈指數(shù)函數(shù)關(guān)系。793、圖像描述:以歷史年代為橫軸,以文獻量為縱軸,普賴斯描繪了文獻增長的指數(shù)模型。即:F(t)=aebt,a>0,b>0,t為時間,a為條件常數(shù),即t=0時的文獻量,b為時間常數(shù)即持續(xù)增長率。
F(t)F(t)=aebtF(t)
科學期刊
106104文摘雜志
t102
t
16651770180019001965804、理論研究之進展。B·納里莫夫邏輯曲線增長模型;A·И·米哈依諾夫直線增長模型:F(t)=bt+a。一般的看法,文獻增長經(jīng)歷四個階段:緩慢增長的初始階段,指數(shù)增長階段,線性增長階段和緩慢增長階段。5、文獻增長對文獻檢索的影響是多方面的。勒希爾的分級滑動指數(shù)模型:F(t)為文獻總量,則在λ級上的文獻量為[F(t)]λ,λ為文獻的質(zhì)量等級指標,0≤λ≤1。具體而言:(1)λ=1,起碼是常規(guī)文獻(代表了所有文獻):F(t)λ=1=aebt;(2)λ=3/4,起碼是有意義的文獻:F(t)λ=3/4=[aebt]3/4;(3)λ=1/2,重要文獻:F(t)λ=1/2=[aebt]1/2;(4)λ=1/4,起碼是非常重要的文獻:F(t)λ=1/4=[aebt]1/4;(5)λ=0,頭等重要的文獻:F(t)λ=0=㏑a+bt。81二、時效性強,代謝頻繁文獻老化(Obsolescence)是指文獻隨著時間推移而使用頻次逐漸減少的現(xiàn)象。2、1文獻老化的衡量指標
Half-life、Price’sIndex和Residualutility2、2文獻老化的數(shù)學模型負指數(shù)模型和伯爾頓-凱普勒老化方程
822、1文獻老化的衡量指標衡量文獻時效,一般有3個指標:半衰期:指現(xiàn)有活性文獻中一半的出版時間,或者說,某一學科或?qū)I(yè)被利用的文獻總量中,一半文獻失去效用所經(jīng)歷的時間。各個學科領(lǐng)域和文獻類型的半衰期。普賴斯指數(shù):在某一知識領(lǐng)域內(nèi),把對年限不超過5年的文獻的引文數(shù)量與引文總量之比當作指數(shù),用以度量文獻老化。即P=被引文獻數(shù)量(≤5年)/被引文獻總量×100%。剩余有益性。有益性是指某一年份某一期刊被用戶利用的文章的次數(shù),經(jīng)過若干年后,期刊還保留的有益性即稱為剩余有益性。83各個學科領(lǐng)域和文獻類型的半衰期Burton&Kebler對9個領(lǐng)域半衰期的測定數(shù)據(jù)(1960):蘇聯(lián)《發(fā)明雜志》對各類文獻半衰期的統(tǒng)計研究數(shù)據(jù):學科領(lǐng)域冶金物理學化工機械生理學化學植物學數(shù)學地質(zhì)學半衰期(年)3.94.64.85.27.28.110.010.511.8文獻類型圖書科技報告學位論文技術(shù)標準連續(xù)出版物產(chǎn)品樣本半衰期(年)10~20105~753~53~5842、2文獻老化的數(shù)學模型負指數(shù)模型:1970年,英國的B.C.Brookes提出了科技期刊文獻的被引數(shù)量隨著時間推移的衰減過程服從簡單的負指數(shù)規(guī)律的假設(shè):C(t)=C0e-bt
。式中,t表示文獻的出版年齡(以10年為單位),C(t)表示t年所發(fā)表的文獻的引用頻率,C0為t=0時文獻被引用的初始量,b為文獻老化速度,0<b<1。伯爾頓-凱普勒老化方程:1960年,美國的伯爾頓和物理學家凱普勒發(fā)現(xiàn)科技文獻衰變曲線并求出了這一曲線的標準公式:Y=1-(a/ex+b/e2x),式中,a+b=1,Y是被文獻量累積百分數(shù)(經(jīng)過一定時間該學科尚在利用的文獻的相對數(shù)量),x為時間即被引文獻出版年齡(以10年為單位),a、b是因?qū)W科專業(yè)而變化的常數(shù)。文獻老化規(guī)律對信息檢索的具有重要的影響。85三、廣泛分散,交叉重復科技知識的高度分化和高度綜合,使科技文獻呈現(xiàn)出高度的離散性和冗余性。就離散性而言,同一專業(yè)文獻分散在眾多的相關(guān)專業(yè)刊物上,與此同時,某一學科或?qū)I(yè)的刊物,除刊載本學科或?qū)I(yè)的文獻外,還刊載其他學科或?qū)I(yè)的文獻。這種離散性使用戶無法檢索到專業(yè)文獻的全部;但同時也把用戶引入到一個交叉滲透的科技世界,有利于用戶思考和研究學科的相關(guān)性以及科學發(fā)展的網(wǎng)絡結(jié)構(gòu)。就冗余性而言,科研選題的重復,同一知識內(nèi)容的不同表現(xiàn)方式等使文獻的內(nèi)容交叉重復現(xiàn)象比比皆是。86四、載文聚散,分布有序[英]文獻學家S.C.Bradford在1934年發(fā)表的DocumentaryChaos一文中,首次揭示出文獻分布的規(guī)律。Vickery稱之為Bradford’sLawofScattering。4、1布氏定律的基本表述4、2布氏定律的基礎(chǔ)與應用874、1布氏定律的基本表述如果將科學期刊按某一給定學科的論文刊載量多少,以遞減順序排列起來,就可以將這些期刊分成專門論述該學科的核心區(qū)和另外幾個區(qū),其中每區(qū)期刊的載文量與核心區(qū)期刊載文量相等,這時各區(qū)的期刊數(shù)成1∶n∶n2∶…。n為布氏常數(shù),n>1,約等于5。如果將一定時間內(nèi)的按載文量等級排序的期刊分為3個區(qū),使每個區(qū)所包含的相關(guān)論文數(shù)量相等,即恰好等于全部期刊就此學科發(fā)表論文總數(shù)的1/3,那么就可以發(fā)現(xiàn):Zone1所涉及的論文來自數(shù)量不多但效率最高的P1種期刊;Zone2包括數(shù)量較大、效率中等的P2種期刊;Zone3包括數(shù)量最大但效率很低的P3種期刊。3個區(qū)的期刊數(shù)量成下列關(guān)系:P1∶P2∶P3=1∶n∶n2
。884、2布氏定律的基礎(chǔ)與應用布氏定律的基礎(chǔ)是科學的統(tǒng)一性和多樣性原則。科學既是統(tǒng)一的力場,也有著復雜多樣的聯(lián)系。布氏定律在信息檢索中的應用:⑴測定核心期刊。采用載文率、摘引率和流通率等指標來進行。⑵測定檢索工具的完備性。對文摘或索引的實際款目數(shù)量和摘引的期刊數(shù)量進行比較。⑶測定全檢論文總數(shù),估計檢索范圍,計算檢全率等指標。89五、形式多樣,文種復雜文獻類型復雜多樣,尤其是電子型信息資源大量涌現(xiàn)。這就要求信息檢索不能固守于傳統(tǒng)的書本而應當熟練掌握各種類型文獻信息,尤其是現(xiàn)代各種數(shù)據(jù)庫的檢索技能。世界各國出版的科技出版物所有文種有70~80種,比較常用的也有7~8種,其分布大體為:英文50%,德、俄文各占10%,法文7%,日文3%,西班牙文2%,中文和其他文種則占18%左右。與此同時,各種專業(yè)術(shù)語和符號越來越多,這些都增加了信息檢索和利用的難度。據(jù)UNESCO統(tǒng)計,在全世界出版的科技文獻中,有50%以上的文獻是用50%以上的科學家不懂的語種發(fā)表的。90附錄:社會科學文獻的基本特征社科文獻的內(nèi)容特征社科文獻的形式特征社科文獻的運動特征91社科文獻的內(nèi)容特征較多主觀因素,較少客觀因素。按科學知識所含的主觀因素遞增排序為:自然科學→技術(shù)科學→社會科學。較多相對性,較少絕對性。社科理論的提出總是根據(jù)某一特定時間段,而科學理論則往往是超越時間的。多為定性思辨,較少定量分析?!胺治鼋?jīng)濟形式,既不能用顯微鏡,也不能用化學試劑;二者必須用抽象力來代替”。多為綜合性,少有專業(yè)性。由于社會現(xiàn)象或社會問題的多面性,社會科學研究中的高度綜合并與科技理論相滲透,使得社會科學文獻在內(nèi)容上的綜合性比較突出。較多依附性,較少獨立性。社科理論與其創(chuàng)始者的命運息息相關(guān)。根據(jù)D.Pendlebury和Garfield等人引文分析,物理、化學等自然科學的不引率為40%,而在社會科學和人文科學、藝術(shù)中,不引率卻高達74.7%和98%。這說明社會科學和人文科學存在著嚴重的學問自體性。92社科文獻的形式特征社科信息的術(shù)語經(jīng)常有不統(tǒng)一的現(xiàn)象,同一術(shù)語在不同的時間和場合常常會有不同的含義,從而造成一種特殊的語言障礙。社科成果常常以專著為主,尤其是在學科發(fā)展的常規(guī)時期。社會科學研究常常具有辯論甚至論戰(zhàn)的性質(zhì),需要利用較多的資料,不僅要闡明新結(jié)論,而且還要敘述問題的歷史演變、研究現(xiàn)狀,不同觀點的分析,研究邏輯和過程,這就要求較大的篇幅。社科信息的內(nèi)容除了使用規(guī)范的科學語體外,還常常采用政論語體。社科文獻的風格、結(jié)構(gòu)、語氣等也具有一定的信息內(nèi)容。93社科文獻的運動特征分散性較大;傳遞有一定的局限性;老化慢,生命力強。943-1檢索語言概述
一、檢索語言的概念和特點二、檢索語言的類型與譜系三、檢索語言的構(gòu)成和基本功能四、檢索語言的基本原理五、檢索語言的基本要求95一、信息檢索語言的概念和特點信息檢索語言是根據(jù)信息檢索的需要而創(chuàng)制的人工語言,其實質(zhì)是表達一系列概括文獻信息內(nèi)容的概念及其相互關(guān)系的概念標識系統(tǒng)。它可以是從自然語言中精選出來并加以規(guī)范化的一套詞匯,也可以是代表某種分類體系的一套分類號碼,還可以是代表某一類事物的某一方面特征的一套代碼,用以對文獻內(nèi)容和信息需要進行主題標引、邏輯分類或特征描述。⑴簡明扼要地表達文獻及其檢索課題的主題概念,使詞語和概念一一對應,排除一詞多義、多詞一義或詞義含糊等現(xiàn)象。⑵科學準確地匹配概念,即將檢索時的標引用語和檢索用語進行相符性比較。⑶全面有效地顯示概念之間的相互關(guān)系。采用等級結(jié)構(gòu)、參照系統(tǒng)、輪排聚類法、范疇聚類法和圖示法等各種顯示概念之間關(guān)系的方法,來實現(xiàn)對內(nèi)容相同或相關(guān)的信息加以集中或揭示其相關(guān)性。96二、檢索語言的類型與譜系2、1依據(jù)檢索語言的構(gòu)成原理,把檢索語言劃分為分類檢索語言、主題檢索語言、分類-主題一體化語言、代碼語言和引文語言等類型。2、2依據(jù)檢索語言的受控情況,把檢索語言分為ArtificialLanguage和NaturalLanguage。此外,可以按檢索語言的學科或?qū)I(yè)范圍、適用范圍、檢索標識的組合使用方法以及對信息特征的描述等標準,對檢索語言進行劃分。2、3檢索語言的譜系972、1按構(gòu)成原理對檢索語言進行劃分分類檢索語言是指使用分類號碼表達文獻主題標識,并按照知識分類的原理加以排列的一類信息檢索語言。主題檢索語言則是指使用名詞術(shù)語表達文獻主題標識,并照按字順加以排列的一類信息檢索語言。分類檢索語言和主題檢索語言相互影響、滲透、補充和結(jié)合,從而出現(xiàn)了分類主題一體化語言,即分類語言和敘詞語言在術(shù)語系統(tǒng)、參照系統(tǒng)、標識系統(tǒng)和索引系統(tǒng)等方面完全實現(xiàn)兼容所組成的統(tǒng)一體。如分面敘詞表、敘詞表式字順索引、分類表-敘詞表對照索引及集成詞表等等。代碼檢索語言是指用來標引、檢索特定專業(yè)文獻的某種代碼系統(tǒng)。引文檢索語言則是基于文獻之間的引證關(guān)系而形成的一種檢索語言。它以引文為檢索詞,根據(jù)引證關(guān)系將有關(guān)文獻自然地耦合在一起。982、2按語言受控情況對檢索語言進行劃分ArtificialLanguage是指采用Controlledterm并進行人工控制的語言,或稱受控語言。所謂規(guī)范詞是指采用特定的詞匯來專指或網(wǎng)羅相應的概念,它們能夠?qū)νx詞、近義詞、相關(guān)詞、多義詞及縮略語等進行規(guī)范。使用規(guī)范詞能夠提高檢索效率。單元詞語言、標題詞語言、敘詞語言等都是規(guī)范語言。NaturalLanguage是指采用Uncontrolledterm,即不加規(guī)范、不受控制的Freeterm,它們直接來自所處理的文獻本身的標引用語或檢索用語,在使用前未經(jīng)優(yōu)選和規(guī)范化處理。992、3檢索語言的譜系一般地,可以將檢索語言類型按親屬關(guān)系劃分為4個層次,從而構(gòu)成檢索語言的譜系。
檢索語言語系檢索語言語族檢索語言語支檢索語言語種描述文獻內(nèi)容分類檢索語言標題詞法特征的檢索語言主題檢索語言元詞法分類主題一體敘詞法漢語主題詞表描述文獻外在化語言鍵詞法特征的檢索語言
100三、檢索語言的構(gòu)成和基本功能1、檢索語言的構(gòu)成。檢索語言包括兩個部分:一是檢索語言詞匯,即登錄在分類表、詞表中的全部標識。一個標識(分類號、檢索詞、代碼)就是它的一個語詞,而分類表、詞表、代碼表則是它的詞典。二是檢索語言語法,它是指如何創(chuàng)造和運用那些標識來正確表達文獻內(nèi)容和信息需要,以有效地實現(xiàn)信息檢索的一整套規(guī)則。檢索語言語法可以進一步分為詞法和句法兩個方面。2、檢索語言的基本功能。對文獻的信息知識內(nèi)容及某些外部特征加以標引;對內(nèi)容相同或相關(guān)的信息加以集中或揭示其相關(guān)性;對大量信息加以系統(tǒng)化或組織化;便于對標引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營養(yǎng)素補充劑的市場前景與監(jiān)管-洞察分析
- 網(wǎng)絡時代的文化傳播路徑-洞察分析
- 圖像處理與排版協(xié)同優(yōu)化-洞察分析
- 異常流量監(jiān)測與識別-洞察分析
- 《臨江仙》(夢后樓臺高鎖)課件
- 人際關(guān)系與溝通風格-組織行為學課件
- 辦公環(huán)境中的創(chuàng)新教育實踐與思考
- 辦公環(huán)境下的學生運動團隊建設(shè)與組織
- 企業(yè)中層管理崗位的工作規(guī)劃與管理執(zhí)行
- 企業(yè)員工子女教育的政策支持
- 阿托品化課件
- 《休閑學概論》課后習題參考答案
- (新版教材)蘇教版三年級上冊科學全冊單元測試卷
- 剛曉觀所緣緣論略講
- 雙橋靜力觸探分層統(tǒng)計及承載力表0421
- 八卦五行-PPT課件
- ISO8573-2測定懸浮狀油含量的試驗方法學習資料
- 薪酬管理試卷及答案
- 大學無機及分析化學----氣體練習題及答案
- 保險行業(yè)新會計準則實施指南征求意見稿
- 形式發(fā)票模板 PI模板 英文版
評論
0/150
提交評論