版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
信息采集技術(shù)信息采集的途徑與方法(二)信息采集技術(shù)信息采集的途徑與方法(二)一、光盤檢索采集方法一、光盤檢索采集方法光盤檢索簡介 光盤檢索:光盤的使用起始于70年代,最初主要用于制作激光唱片。80年代以來,隨著計(jì)算機(jī)技術(shù)和數(shù)字化計(jì)算機(jī)的發(fā)展,光盤才開始應(yīng)用于文獻(xiàn)信息領(lǐng)域。光盤在文獻(xiàn)信息領(lǐng)域的應(yīng)用對信息的存儲(chǔ)介質(zhì)(紙、磁介質(zhì)、縮微膠片等)帶來了革命性的影響,并強(qiáng)烈地沖擊著聯(lián)機(jī)產(chǎn)業(yè)。由于以CD-ROM為代表的光盤技術(shù)具有易用、存儲(chǔ)容量大等獨(dú)特的特點(diǎn),因而受到了人們的普遍歡迎,并很快發(fā)展成為一種新的檢索系統(tǒng)——光盤檢索系統(tǒng)。90年代初期,光盤數(shù)據(jù)庫檢索系統(tǒng)以它存儲(chǔ)數(shù)據(jù)量大、操作簡單、檢索效率高、成本低廉、運(yùn)行環(huán)境要求簡單等特性,在高校圖書館中的到了廣泛的應(yīng)用,達(dá)到了它的頂峰時(shí)期。近兩年來隨著Internet的普及使得光盤數(shù)據(jù)庫檢索系統(tǒng)逐漸發(fā)展為光盤網(wǎng)絡(luò)檢索系統(tǒng),但是目前光盤數(shù)據(jù)庫的獨(dú)特的優(yōu)點(diǎn)使它仍然成為利用現(xiàn)代化手段進(jìn)行文獻(xiàn)檢索的主要方式之一。
光盤檢索簡介 光盤檢索:3光盤檢索的特點(diǎn)優(yōu)點(diǎn):
(1)運(yùn)行速度快
光盤數(shù)據(jù)庫采用單機(jī)檢索,不受檢索線路是否擁擠的影響,即使連接在校園網(wǎng)上,由于傳輸距離較近,其運(yùn)行速度也比較快。
(2)成本低,檢索效果好
一般而言,CD-ROM數(shù)據(jù)庫的檢索費(fèi)用比聯(lián)機(jī)檢索費(fèi)用低得多,并具有很好的檢索效果。購買CD-ROM數(shù)據(jù)庫后,在一年內(nèi)可以任意使用,利用率愈高,分?jǐn)偟某杀居?,且在整個(gè)檢索過程中不涉及遠(yuǎn)程通信網(wǎng)絡(luò)問題,也不需要使用專線電話之類的通信線路,并考慮機(jī)時(shí)費(fèi)與流通量的問題,沒有聯(lián)機(jī)檢索按時(shí)間收費(fèi)的緊張感,可為用戶提供良好的檢索條件和環(huán)境氣氛。
(3)下載方便
用戶可以方便地將光盤上的部分所需數(shù)據(jù)拷貝到軟盤或其他計(jì)算機(jī)系統(tǒng)里,從而形成本部門或個(gè)人的局部數(shù)據(jù)庫,以便隨時(shí)查詢。
(4)安全性能高
對于光盤數(shù)據(jù)庫來講,它是只讀光盤,具有不可擦除性,更不會(huì)因病毒而造成文獻(xiàn)丟失。
光盤檢索的特點(diǎn)優(yōu)點(diǎn):
(1)運(yùn)行速度快
光盤4光盤檢索的特點(diǎn)缺點(diǎn):
(1)使用范圍有限
目前光盤數(shù)據(jù)庫的規(guī)模和容量有限,一般都以某一領(lǐng)域?qū)W科為主,不可能囊括所有學(xué)科,而且受到所購置光盤專業(yè)種類的限制,有時(shí)會(huì)影響查全率。
(2)更新周期長
一般的光盤數(shù)據(jù)庫更新需要3個(gè)月,最快也需要1個(gè)月。
(3)檢索系統(tǒng)不兼容
不同出版商制作的光盤數(shù)據(jù)庫不能在一個(gè)系統(tǒng)中兼容,使用上有很多不便。
(4)需要不斷換盤
一個(gè)大型數(shù)據(jù)庫,一般都是幾張光盤,特別是全文數(shù)據(jù)庫,例如中國學(xué)術(shù)期刊全文光盤數(shù)據(jù)庫,每年都有一百多張光盤,檢索時(shí)需要不斷更換光盤。光盤檢索的特點(diǎn)缺點(diǎn):
(1)使用范圍有限
目前光5光盤檢索提供的服務(wù)(1)追溯檢索服務(wù)
目前引進(jìn)的CD-ROM數(shù)據(jù)庫一般存儲(chǔ)近5~10年的文獻(xiàn),對科研項(xiàng)目的研究提供追溯檢索的服務(wù)。(2)定題服務(wù)
定題服務(wù)是為了跟蹤某課題的最新動(dòng)態(tài),按用戶事先預(yù)定的檢索內(nèi)容,主動(dòng)連續(xù)地從新到的文獻(xiàn)庫中檢出有關(guān)信息,提供給用戶。CD-ROM數(shù)據(jù)庫檢索系統(tǒng)還具備保留和重新執(zhí)行檢索策略的功能,可以對檢索策略進(jìn)行任意修改和補(bǔ)充,因此實(shí)施定題服務(wù)是比較方便易行的。(3)專題追溯檢索服務(wù)
教育技術(shù)研究者在開始一項(xiàng)新課題研究時(shí),需要系統(tǒng)全面地了解這一課題的進(jìn)展情況,需查找過去若干年中前人有關(guān)此課題的文獻(xiàn)資料。由于CD-ROM數(shù)據(jù)庫的使用幾乎不受時(shí)間限制,因此可以為特定用戶制定的專題提供專題追溯檢索服務(wù)。由于受機(jī)時(shí)和費(fèi)用的限制,聯(lián)機(jī)檢索系統(tǒng)一般不提供這類服務(wù)。光盤檢索提供的服務(wù)(1)追溯檢索服務(wù)
目前引進(jìn)的CD-6光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成
光盤檢索系統(tǒng)由光盤、光驅(qū)、計(jì)算機(jī)和相應(yīng)軟件組成。
(1)光盤
數(shù)據(jù)存儲(chǔ)單元,一般由數(shù)據(jù)庫供應(yīng)商提供,數(shù)據(jù)在制作過程中固定在其物理介質(zhì)上,不能抹掉也無法修改,稱為CD-ROM。
(2)CD-ROM驅(qū)動(dòng)器或光盤塔
光盤讀取的專用設(shè)備,其發(fā)射的激光束聚焦在光盤的信息軌道上,在有小孔或無小孔處形成不同的光反射,這兩種不同的光反射經(jīng)光學(xué)系統(tǒng)接收后轉(zhuǎn)換成電信號,計(jì)算機(jī)二進(jìn)制信息“0”或“1”,經(jīng)計(jì)算機(jī)解碼后,成為原紀(jì)錄的數(shù)字化信息。
(3)計(jì)算機(jī)及相應(yīng)軟件
光盤本身是一種機(jī)讀文獻(xiàn),需在計(jì)算機(jī)上讀取。目前使用的光盤檢索系統(tǒng)都以計(jì)算機(jī)為基礎(chǔ)設(shè)備,在普通的計(jì)算機(jī)上加載光盤驅(qū)動(dòng)器的驅(qū)動(dòng)軟件和數(shù)據(jù)庫的檢索軟件,即可成為光盤檢索系統(tǒng)。
光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成
光盤檢索系統(tǒng)7光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)
光盤檢索網(wǎng)絡(luò)系統(tǒng)是90年代發(fā)展起來的計(jì)算機(jī)文獻(xiàn)檢索系統(tǒng)。隨著光盤數(shù)據(jù)庫的大量涌現(xiàn),單機(jī)光盤檢索需頻繁換盤,給用戶帶來不便。而且在同一時(shí)刻只能有一個(gè)讀者使用,無法充分發(fā)揮昂貴的光盤數(shù)據(jù)庫的效益。在計(jì)算機(jī)網(wǎng)絡(luò)的硬件和軟件環(huán)境的支持下,產(chǎn)生了光盤網(wǎng)絡(luò)檢索系統(tǒng)。目前建成的光盤網(wǎng)絡(luò)檢索系統(tǒng)都是以計(jì)算機(jī)的局域網(wǎng)為基礎(chǔ),有多種模式,其共同特點(diǎn)是擁有能同時(shí)運(yùn)行幾十張光盤的光盤塔驅(qū)動(dòng)器,它可供上百個(gè)用戶同時(shí)檢索同一張光盤。
光盤數(shù)據(jù)庫網(wǎng)絡(luò)的組成包括光盤塔和各種光盤組網(wǎng)軟件以及光盤塔服務(wù)器等。
光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)
光盤檢索網(wǎng)絡(luò)系統(tǒng)是98光盤檢索的基本流程 光盤檢索的基本流程為根據(jù)檢索的課題選擇合適的數(shù)據(jù)庫,并確定檢索詞,根據(jù)檢索要求編寫檢索式,開始檢索,檢索完畢后,分析判斷檢索結(jié)果,如不合適需修改檢索詞和檢索式進(jìn)行二次檢索,最終得到滿意的檢索結(jié)果。
1.分析研究課題,明確查找要求
明確所需信息及文獻(xiàn)內(nèi)容、性質(zhì)、水平等情況;在分析課題的基礎(chǔ)上形成主題概念;根據(jù)檢索主題概念的學(xué)科性質(zhì),確定檢索的學(xué)科范圍。
2.選擇檢索數(shù)據(jù)庫
由于當(dāng)前數(shù)據(jù)庫的種類繁多,各數(shù)據(jù)庫的內(nèi)容相差很大,從國內(nèi)外出版的數(shù)據(jù)庫來看,一般從數(shù)據(jù)庫的學(xué)科范圍、數(shù)據(jù)庫的文獻(xiàn)范圍、數(shù)據(jù)庫的國別或語種范圍三個(gè)方面來確定數(shù)據(jù)庫的內(nèi)容。
光盤檢索的基本流程 光盤檢索的基本流程為根據(jù)檢索的課題選擇9光盤檢索的基本流程3.確定檢索詞
所謂檢索詞,就是將檢索要求概括成的簡潔詞語。檢索詞的選擇必須符合兩個(gè)要求,一是能準(zhǔn)確反映課題的檢索要求,二是必須符合數(shù)據(jù)庫對輸入詞的要求。4.編寫檢索式
一個(gè)課題往往需要用多個(gè)檢索詞來描述其含義,這些檢索詞又往往需要用一定的語法規(guī)則來規(guī)定,才能完整描述檢索要求,這就要編寫檢索式。檢索式是將檢索詞之間的關(guān)系用布爾邏輯算符和位置算符來描述的式子。5.檢索結(jié)果顯示及判斷
根據(jù)顯示文獻(xiàn)信息的內(nèi)容和篇數(shù),可以判斷檢索結(jié)果是否符合要求,如果不符合要求,則調(diào)整檢索詞和檢索式再次進(jìn)行檢索。
光盤檢索的基本流程3.確定檢索詞
所謂檢索詞,就是將檢10常用的光盤數(shù)據(jù)庫1.《中文科技期刊數(shù)據(jù)庫》光盤
《中文科技期刊數(shù)據(jù)庫》光盤由中國科技信息研究所重慶分所于1992年6月開發(fā)成功。1993年面世,其前身為中文科技期刊篇名數(shù)據(jù)庫軟盤版?!爸锌瘞臁笔悄壳皣鴥?nèi)最大的綜合性文獻(xiàn)數(shù)據(jù)庫,收錄了自1989年以來的中文科技期刊文獻(xiàn)200多萬條,引用期刊達(dá)5400余種,年報(bào)道量26萬條,該庫每季更新一次。
2.《中國專利文獻(xiàn)》光盤數(shù)據(jù)庫
中國專利文獻(xiàn)光盤數(shù)據(jù)庫(CNPAT)由中國專利信息中心出版,該數(shù)據(jù)庫1992年開發(fā)成功,收錄了自1985年至今在中國專利局申請并公開的全部專利信息約43萬件,內(nèi)容有題錄、文摘和主權(quán)項(xiàng),提供了關(guān)鍵詞、發(fā)明名稱、國際專利分類號、范疇分類號、申請?zhí)?、發(fā)明人、公告號、優(yōu)先權(quán)項(xiàng)、國別省市代碼、申請日、公告日、申請人地址、代理機(jī)構(gòu)代碼共14個(gè)檢索入口,其中申請人、發(fā)明人、發(fā)明名稱為全文檢索。3.英國《科學(xué)文摘》光盤數(shù)據(jù)庫
英國《科學(xué)文摘》光盤數(shù)據(jù)庫(INSPECOndisc)由英國IEE學(xué)會(huì)出版,是書本型ScienceAbstract(《科學(xué)文摘》)的機(jī)讀版。其信息來源于世界范圍內(nèi)已出版了的計(jì)算機(jī)、電子學(xué)、物理學(xué)方面的文獻(xiàn),涉及期刊4200余種,會(huì)議、圖書、技術(shù)報(bào)告和學(xué)位論文1000余種,每年提供25萬條信息。INSPEC數(shù)據(jù)庫中每條記錄的著錄項(xiàng)目有:論文題目、作者姓名、作者單位、期刊、會(huì)議、圖書、報(bào)告、學(xué)位論文的信息、文摘、分類、敘詞、自由詞等主要項(xiàng)目,同時(shí)提供了分類號、主題詞、自由詞、數(shù)值索引、化學(xué)索引等27項(xiàng)檢索入口。常用的光盤數(shù)據(jù)庫1.《中文科技期刊數(shù)據(jù)庫》光盤
11光盤檢索采集的模式模式:單用戶的光盤數(shù)據(jù)庫信息采集模式點(diǎn)對點(diǎn)光盤數(shù)據(jù)庫信息采集模式以局域網(wǎng)為依托的光盤數(shù)據(jù)庫信息采集模式文件服務(wù)器模式/對等模式以廣域網(wǎng)為基礎(chǔ)的光盤數(shù)據(jù)庫信息采集模式在虛擬網(wǎng)絡(luò)基礎(chǔ)上的光盤數(shù)據(jù)庫信息采集模式E-mail,FTP、傳真、程控電話等光盤檢索采集的模式模式:12光盤檢索采集的途徑與方法途徑與方法運(yùn)用規(guī)范化的語言檢索采集運(yùn)用非規(guī)范化的語言檢索采集運(yùn)用規(guī)范化與非規(guī)范化語言相結(jié)合的檢索采集運(yùn)用文獻(xiàn)的外形特征檢索采集運(yùn)用連續(xù)出版物的國際標(biāo)準(zhǔn)號碼檢索光盤檢索采集的途徑與方法途徑與方法13二、全文檢索采集方法二、全文檢索采集方法全文檢索一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。
全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。
功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結(jié)果集,增加索引,優(yōu)化索引結(jié)構(gòu)等功能。結(jié)構(gòu)上具有索引引擎,查詢引擎,文本分析引擎和對外接口等。全文檢索15全文檢索西文全文檢索數(shù)據(jù)庫的索引機(jī)制是心自然語言的單詞為基本單元的,詞與詞之前有自然界限(以空格為標(biāo)志)漢語的詞則是以單音節(jié)為基礎(chǔ)層層組合構(gòu)成的,常用方法有“詞典匹配法”、“詞頻統(tǒng)計(jì)法”、“聯(lián)想詞群法”、“設(shè)立標(biāo)志法”、“知識與規(guī)則法”、“人工智能法”等等全文檢索西文全文檢索數(shù)據(jù)庫的索引機(jī)制是心自然語言的單詞為基本16全文數(shù)據(jù)庫的結(jié)構(gòu)與特點(diǎn)結(jié)構(gòu):包括兩個(gè)部分順序文檔結(jié)構(gòu)倒排文檔結(jié)構(gòu)特點(diǎn):文本客觀性/語言自然性/后控詞表性/檢索徹底性/較大穩(wěn)定性全文數(shù)據(jù)庫的結(jié)構(gòu)與特點(diǎn)結(jié)構(gòu):17全文檢索系統(tǒng)的模式單漢字無標(biāo)引全文檢索系統(tǒng)此系統(tǒng)是為了讓原文每一個(gè)字都具有可檢性,便通過計(jì)算機(jī)替原文的各個(gè)字都建立倒排檔,以便信息人員或用戶以各個(gè)單字檢索入口進(jìn)行檢索的過程。全文檢索系統(tǒng)在主文檔中包括題名、著者、正文等字段;在倒排檔中,包括字與地址集合,其中地址集合由三元組成,即文獻(xiàn)記錄號、增加字段標(biāo)識與字的起始位置。特點(diǎn):容易實(shí)現(xiàn),維護(hù)方便,檢索速度慢,浪費(fèi)存儲(chǔ)空間,查全率與查準(zhǔn)率不高全文檢索系統(tǒng)的模式單漢字無標(biāo)引全文檢索系統(tǒng)18例:例:19為有效檢索主文檔中的信息,依據(jù)主文檔抽取一些字建立的倒排檔:為有效檢索主文檔中的信息,依據(jù)主文檔抽取一些字建立的倒排檔:20檢索過程檢索過程21全文后控檢索系統(tǒng)是為了在詞與詞之間建立一種指引關(guān)系,而運(yùn)用后控詞給予控制的體系。詞與詞之間有從屬關(guān)系、等同關(guān)系、相關(guān)關(guān)系等。后控詞表是由專家編制的一種輔助表,并由專家定期檢查、更新與完善。系統(tǒng)特點(diǎn):提高了查全和查準(zhǔn)率;易產(chǎn)生歧義,量大時(shí)長;B2B1BEFGAA是B與E的上位詞,E是B的同位詞,B1、B2是B的同義詞,F(xiàn)、G是B的相關(guān)詞或近義詞全文后控檢索系統(tǒng)是為了在詞與詞之間建立一種指引關(guān)系,而運(yùn)用后22例:與信息產(chǎn)業(yè)相關(guān)之詞詞間聯(lián)系的參照符號:例:與信息產(chǎn)業(yè)相關(guān)之詞詞間聯(lián)系的參照符號:23三、現(xiàn)代信息間諜采集方法三、現(xiàn)代信息間諜采集方法現(xiàn)代信息間諜采集方法概念-現(xiàn)代信息間諜采集方法,是間諜機(jī)構(gòu)通過派遣間諜,運(yùn)用現(xiàn)代化手段,以合法或非法的方式,采集本國或本單位所急需的、競爭對手中有極大價(jià)值的信息的方法現(xiàn)代信息間諜活動(dòng)現(xiàn)狀現(xiàn)代信息間諜采集方法概念-現(xiàn)代信息間諜采集方法,是間諜機(jī)構(gòu)通25現(xiàn)代信息間諜盛行的原因是兩軍決用的秘密武器是搞跨競爭對手的法寶是取得奇效的上等秘訣現(xiàn)代信息間諜盛行的原因是兩軍決用的秘密武器26現(xiàn)代信息間諜活動(dòng)的特點(diǎn)間諜與工具結(jié)合公開與隱蔽并施盟國與友軍不存企業(yè)與企業(yè)較量專家與學(xué)者出動(dòng)政府與民間攜手生態(tài)間諜游蕩現(xiàn)代信息間諜活動(dòng)的特點(diǎn)間諜與工具結(jié)合27現(xiàn)代間諜采集信息的方式方法秘密方式:高空拍攝/竊取機(jī)密/行賄拉攏/美人利誘/安插內(nèi)線/威脅恐嚇/破譯密碼/假而實(shí)之公開方式衛(wèi)星偵察/參觀考察/分析文獻(xiàn)/會(huì)議交流/留學(xué)搜集/無償饋贈(zèng)/發(fā)表論文/外交活動(dòng)現(xiàn)代間諜采集信息的方式方法秘密方式:28四、社會(huì)調(diào)查采集信息的方法四、社會(huì)調(diào)查采集信息的方法社會(huì)調(diào)查采集信息的方法是針對用戶的需要,向各種社會(huì)活動(dòng)了解其活動(dòng)情況、數(shù)據(jù)與資料的方法社會(huì)調(diào)查采集信息的方法是針對用戶的需要,向各種社會(huì)活動(dòng)了解其30社會(huì)調(diào)查的方法普遍調(diào)查(普查):對采集對象的運(yùn)動(dòng)狀況、特征與趨向等進(jìn)行全面采集與分析的方法,是統(tǒng)計(jì)調(diào)查的一種重要方式。有自上而下式和自下而上式如大規(guī)模的全國人口普查/經(jīng)濟(jì)普查等社會(huì)調(diào)查的方法普遍調(diào)查(普查):對采集對象的運(yùn)動(dòng)狀況、特征與31社會(huì)調(diào)查的方法問卷調(diào)查:是采用出題與回答的方式采集信息的一種方法。是進(jìn)行市場調(diào)查常用的有效方法之一。具有準(zhǔn)確、可靠、及時(shí)的特點(diǎn)問卷題目的擬定要準(zhǔn)確、簡潔、易答、省時(shí)等社會(huì)調(diào)查的方法問卷調(diào)查:是采用出題與回答的方式采集信息的一種32社會(huì)調(diào)查的方法問卷調(diào)查常見的題型:是非題選擇題品等題比較題填空題(比較式填空/定距定量填空)問答題社會(huì)調(diào)查的方法問卷調(diào)查常見的題型:33社會(huì)調(diào)查的方法觀察調(diào)查:是信息人員深入現(xiàn)場后,借助于人的感覺器官與現(xiàn)代化設(shè)備(錄音機(jī)、錄像機(jī)、攝像機(jī)等)而采集信息的方法。具體辦法有:瀏覽與詢問結(jié)合扮演與混入相結(jié)合代銷與觀察相結(jié)合留心與捕捉相結(jié)合社會(huì)調(diào)查的方法觀察調(diào)查:是信息人員深入現(xiàn)場后,借助于人的感覺34社會(huì)調(diào)查的方法試驗(yàn)調(diào)查:是采用市場營銷與直接消費(fèi)的方式而采集信息的方式。途徑有:營銷試驗(yàn)直接消費(fèi)社會(huì)調(diào)查的方法試驗(yàn)調(diào)查:是采用市場營銷與直接消費(fèi)的方式而采集35社會(huì)調(diào)查的方法追蹤調(diào)查:是將征求用戶對本企業(yè)產(chǎn)品意見的卡片,放入產(chǎn)品包裝盒、袋、柜等之中,待用戶購買此產(chǎn)品時(shí),用戶便收到卡片。通過用戶的使用反饋而獲得信息。社會(huì)調(diào)查的方法追蹤調(diào)查:是將征求用戶對本企業(yè)產(chǎn)品意見的卡片,36社會(huì)調(diào)查的方法重點(diǎn)調(diào)查:是在被調(diào)查的對象中,選擇部分有相當(dāng)實(shí)力與影響的重點(diǎn)單位進(jìn)行非全面的調(diào)查方法。社會(huì)調(diào)查的方法重點(diǎn)調(diào)查:是在被調(diào)查的對象中,選擇部分有相當(dāng)實(shí)37社會(huì)調(diào)查的方法典型調(diào)查:是在被調(diào)查的對象中,有意識地選擇一些具有代表性的單位或個(gè)人進(jìn)行調(diào)查,而后依據(jù)所調(diào)查的資料推論總體的方法。要選好典型!社會(huì)調(diào)查的方法典型調(diào)查:是在被調(diào)查的對象中,有意識地選擇一些38社會(huì)調(diào)查的方法抽樣調(diào)查:是從全體調(diào)查對象中,隨機(jī)選取部分單位進(jìn)行調(diào)查,將調(diào)查所得的信息,從數(shù)量上推算總體信息的方法。抽樣調(diào)查的類型:隨機(jī)抽樣調(diào)查(單純隨機(jī)/抽簽法/查亂數(shù)表法)分層隨機(jī)抽樣/分群隨機(jī)抽樣/等距隨機(jī)抽樣非隨機(jī)抽樣配額抽樣/判斷抽樣/任意抽樣社會(huì)調(diào)查的方法抽樣調(diào)查:是從全體調(diào)查對象中,隨機(jī)選取部分單位39信息采集技術(shù)信息采集的途徑與方法(二)信息采集技術(shù)信息采集的途徑與方法(二)一、光盤檢索采集方法一、光盤檢索采集方法光盤檢索簡介 光盤檢索:光盤的使用起始于70年代,最初主要用于制作激光唱片。80年代以來,隨著計(jì)算機(jī)技術(shù)和數(shù)字化計(jì)算機(jī)的發(fā)展,光盤才開始應(yīng)用于文獻(xiàn)信息領(lǐng)域。光盤在文獻(xiàn)信息領(lǐng)域的應(yīng)用對信息的存儲(chǔ)介質(zhì)(紙、磁介質(zhì)、縮微膠片等)帶來了革命性的影響,并強(qiáng)烈地沖擊著聯(lián)機(jī)產(chǎn)業(yè)。由于以CD-ROM為代表的光盤技術(shù)具有易用、存儲(chǔ)容量大等獨(dú)特的特點(diǎn),因而受到了人們的普遍歡迎,并很快發(fā)展成為一種新的檢索系統(tǒng)——光盤檢索系統(tǒng)。90年代初期,光盤數(shù)據(jù)庫檢索系統(tǒng)以它存儲(chǔ)數(shù)據(jù)量大、操作簡單、檢索效率高、成本低廉、運(yùn)行環(huán)境要求簡單等特性,在高校圖書館中的到了廣泛的應(yīng)用,達(dá)到了它的頂峰時(shí)期。近兩年來隨著Internet的普及使得光盤數(shù)據(jù)庫檢索系統(tǒng)逐漸發(fā)展為光盤網(wǎng)絡(luò)檢索系統(tǒng),但是目前光盤數(shù)據(jù)庫的獨(dú)特的優(yōu)點(diǎn)使它仍然成為利用現(xiàn)代化手段進(jìn)行文獻(xiàn)檢索的主要方式之一。
光盤檢索簡介 光盤檢索:42光盤檢索的特點(diǎn)優(yōu)點(diǎn):
(1)運(yùn)行速度快
光盤數(shù)據(jù)庫采用單機(jī)檢索,不受檢索線路是否擁擠的影響,即使連接在校園網(wǎng)上,由于傳輸距離較近,其運(yùn)行速度也比較快。
(2)成本低,檢索效果好
一般而言,CD-ROM數(shù)據(jù)庫的檢索費(fèi)用比聯(lián)機(jī)檢索費(fèi)用低得多,并具有很好的檢索效果。購買CD-ROM數(shù)據(jù)庫后,在一年內(nèi)可以任意使用,利用率愈高,分?jǐn)偟某杀居停以谡麄€(gè)檢索過程中不涉及遠(yuǎn)程通信網(wǎng)絡(luò)問題,也不需要使用專線電話之類的通信線路,并考慮機(jī)時(shí)費(fèi)與流通量的問題,沒有聯(lián)機(jī)檢索按時(shí)間收費(fèi)的緊張感,可為用戶提供良好的檢索條件和環(huán)境氣氛。
(3)下載方便
用戶可以方便地將光盤上的部分所需數(shù)據(jù)拷貝到軟盤或其他計(jì)算機(jī)系統(tǒng)里,從而形成本部門或個(gè)人的局部數(shù)據(jù)庫,以便隨時(shí)查詢。
(4)安全性能高
對于光盤數(shù)據(jù)庫來講,它是只讀光盤,具有不可擦除性,更不會(huì)因病毒而造成文獻(xiàn)丟失。
光盤檢索的特點(diǎn)優(yōu)點(diǎn):
(1)運(yùn)行速度快
光盤43光盤檢索的特點(diǎn)缺點(diǎn):
(1)使用范圍有限
目前光盤數(shù)據(jù)庫的規(guī)模和容量有限,一般都以某一領(lǐng)域?qū)W科為主,不可能囊括所有學(xué)科,而且受到所購置光盤專業(yè)種類的限制,有時(shí)會(huì)影響查全率。
(2)更新周期長
一般的光盤數(shù)據(jù)庫更新需要3個(gè)月,最快也需要1個(gè)月。
(3)檢索系統(tǒng)不兼容
不同出版商制作的光盤數(shù)據(jù)庫不能在一個(gè)系統(tǒng)中兼容,使用上有很多不便。
(4)需要不斷換盤
一個(gè)大型數(shù)據(jù)庫,一般都是幾張光盤,特別是全文數(shù)據(jù)庫,例如中國學(xué)術(shù)期刊全文光盤數(shù)據(jù)庫,每年都有一百多張光盤,檢索時(shí)需要不斷更換光盤。光盤檢索的特點(diǎn)缺點(diǎn):
(1)使用范圍有限
目前光44光盤檢索提供的服務(wù)(1)追溯檢索服務(wù)
目前引進(jìn)的CD-ROM數(shù)據(jù)庫一般存儲(chǔ)近5~10年的文獻(xiàn),對科研項(xiàng)目的研究提供追溯檢索的服務(wù)。(2)定題服務(wù)
定題服務(wù)是為了跟蹤某課題的最新動(dòng)態(tài),按用戶事先預(yù)定的檢索內(nèi)容,主動(dòng)連續(xù)地從新到的文獻(xiàn)庫中檢出有關(guān)信息,提供給用戶。CD-ROM數(shù)據(jù)庫檢索系統(tǒng)還具備保留和重新執(zhí)行檢索策略的功能,可以對檢索策略進(jìn)行任意修改和補(bǔ)充,因此實(shí)施定題服務(wù)是比較方便易行的。(3)專題追溯檢索服務(wù)
教育技術(shù)研究者在開始一項(xiàng)新課題研究時(shí),需要系統(tǒng)全面地了解這一課題的進(jìn)展情況,需查找過去若干年中前人有關(guān)此課題的文獻(xiàn)資料。由于CD-ROM數(shù)據(jù)庫的使用幾乎不受時(shí)間限制,因此可以為特定用戶制定的專題提供專題追溯檢索服務(wù)。由于受機(jī)時(shí)和費(fèi)用的限制,聯(lián)機(jī)檢索系統(tǒng)一般不提供這類服務(wù)。光盤檢索提供的服務(wù)(1)追溯檢索服務(wù)
目前引進(jìn)的CD-45光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成
光盤檢索系統(tǒng)由光盤、光驅(qū)、計(jì)算機(jī)和相應(yīng)軟件組成。
(1)光盤
數(shù)據(jù)存儲(chǔ)單元,一般由數(shù)據(jù)庫供應(yīng)商提供,數(shù)據(jù)在制作過程中固定在其物理介質(zhì)上,不能抹掉也無法修改,稱為CD-ROM。
(2)CD-ROM驅(qū)動(dòng)器或光盤塔
光盤讀取的專用設(shè)備,其發(fā)射的激光束聚焦在光盤的信息軌道上,在有小孔或無小孔處形成不同的光反射,這兩種不同的光反射經(jīng)光學(xué)系統(tǒng)接收后轉(zhuǎn)換成電信號,計(jì)算機(jī)二進(jìn)制信息“0”或“1”,經(jīng)計(jì)算機(jī)解碼后,成為原紀(jì)錄的數(shù)字化信息。
(3)計(jì)算機(jī)及相應(yīng)軟件
光盤本身是一種機(jī)讀文獻(xiàn),需在計(jì)算機(jī)上讀取。目前使用的光盤檢索系統(tǒng)都以計(jì)算機(jī)為基礎(chǔ)設(shè)備,在普通的計(jì)算機(jī)上加載光盤驅(qū)動(dòng)器的驅(qū)動(dòng)軟件和數(shù)據(jù)庫的檢索軟件,即可成為光盤檢索系統(tǒng)。
光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成
光盤檢索系統(tǒng)46光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)
光盤檢索網(wǎng)絡(luò)系統(tǒng)是90年代發(fā)展起來的計(jì)算機(jī)文獻(xiàn)檢索系統(tǒng)。隨著光盤數(shù)據(jù)庫的大量涌現(xiàn),單機(jī)光盤檢索需頻繁換盤,給用戶帶來不便。而且在同一時(shí)刻只能有一個(gè)讀者使用,無法充分發(fā)揮昂貴的光盤數(shù)據(jù)庫的效益。在計(jì)算機(jī)網(wǎng)絡(luò)的硬件和軟件環(huán)境的支持下,產(chǎn)生了光盤網(wǎng)絡(luò)檢索系統(tǒng)。目前建成的光盤網(wǎng)絡(luò)檢索系統(tǒng)都是以計(jì)算機(jī)的局域網(wǎng)為基礎(chǔ),有多種模式,其共同特點(diǎn)是擁有能同時(shí)運(yùn)行幾十張光盤的光盤塔驅(qū)動(dòng)器,它可供上百個(gè)用戶同時(shí)檢索同一張光盤。
光盤數(shù)據(jù)庫網(wǎng)絡(luò)的組成包括光盤塔和各種光盤組網(wǎng)軟件以及光盤塔服務(wù)器等。
光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)
光盤檢索網(wǎng)絡(luò)系統(tǒng)是947光盤檢索的基本流程 光盤檢索的基本流程為根據(jù)檢索的課題選擇合適的數(shù)據(jù)庫,并確定檢索詞,根據(jù)檢索要求編寫檢索式,開始檢索,檢索完畢后,分析判斷檢索結(jié)果,如不合適需修改檢索詞和檢索式進(jìn)行二次檢索,最終得到滿意的檢索結(jié)果。
1.分析研究課題,明確查找要求
明確所需信息及文獻(xiàn)內(nèi)容、性質(zhì)、水平等情況;在分析課題的基礎(chǔ)上形成主題概念;根據(jù)檢索主題概念的學(xué)科性質(zhì),確定檢索的學(xué)科范圍。
2.選擇檢索數(shù)據(jù)庫
由于當(dāng)前數(shù)據(jù)庫的種類繁多,各數(shù)據(jù)庫的內(nèi)容相差很大,從國內(nèi)外出版的數(shù)據(jù)庫來看,一般從數(shù)據(jù)庫的學(xué)科范圍、數(shù)據(jù)庫的文獻(xiàn)范圍、數(shù)據(jù)庫的國別或語種范圍三個(gè)方面來確定數(shù)據(jù)庫的內(nèi)容。
光盤檢索的基本流程 光盤檢索的基本流程為根據(jù)檢索的課題選擇48光盤檢索的基本流程3.確定檢索詞
所謂檢索詞,就是將檢索要求概括成的簡潔詞語。檢索詞的選擇必須符合兩個(gè)要求,一是能準(zhǔn)確反映課題的檢索要求,二是必須符合數(shù)據(jù)庫對輸入詞的要求。4.編寫檢索式
一個(gè)課題往往需要用多個(gè)檢索詞來描述其含義,這些檢索詞又往往需要用一定的語法規(guī)則來規(guī)定,才能完整描述檢索要求,這就要編寫檢索式。檢索式是將檢索詞之間的關(guān)系用布爾邏輯算符和位置算符來描述的式子。5.檢索結(jié)果顯示及判斷
根據(jù)顯示文獻(xiàn)信息的內(nèi)容和篇數(shù),可以判斷檢索結(jié)果是否符合要求,如果不符合要求,則調(diào)整檢索詞和檢索式再次進(jìn)行檢索。
光盤檢索的基本流程3.確定檢索詞
所謂檢索詞,就是將檢49常用的光盤數(shù)據(jù)庫1.《中文科技期刊數(shù)據(jù)庫》光盤
《中文科技期刊數(shù)據(jù)庫》光盤由中國科技信息研究所重慶分所于1992年6月開發(fā)成功。1993年面世,其前身為中文科技期刊篇名數(shù)據(jù)庫軟盤版?!爸锌瘞臁笔悄壳皣鴥?nèi)最大的綜合性文獻(xiàn)數(shù)據(jù)庫,收錄了自1989年以來的中文科技期刊文獻(xiàn)200多萬條,引用期刊達(dá)5400余種,年報(bào)道量26萬條,該庫每季更新一次。
2.《中國專利文獻(xiàn)》光盤數(shù)據(jù)庫
中國專利文獻(xiàn)光盤數(shù)據(jù)庫(CNPAT)由中國專利信息中心出版,該數(shù)據(jù)庫1992年開發(fā)成功,收錄了自1985年至今在中國專利局申請并公開的全部專利信息約43萬件,內(nèi)容有題錄、文摘和主權(quán)項(xiàng),提供了關(guān)鍵詞、發(fā)明名稱、國際專利分類號、范疇分類號、申請?zhí)?、發(fā)明人、公告號、優(yōu)先權(quán)項(xiàng)、國別省市代碼、申請日、公告日、申請人地址、代理機(jī)構(gòu)代碼共14個(gè)檢索入口,其中申請人、發(fā)明人、發(fā)明名稱為全文檢索。3.英國《科學(xué)文摘》光盤數(shù)據(jù)庫
英國《科學(xué)文摘》光盤數(shù)據(jù)庫(INSPECOndisc)由英國IEE學(xué)會(huì)出版,是書本型ScienceAbstract(《科學(xué)文摘》)的機(jī)讀版。其信息來源于世界范圍內(nèi)已出版了的計(jì)算機(jī)、電子學(xué)、物理學(xué)方面的文獻(xiàn),涉及期刊4200余種,會(huì)議、圖書、技術(shù)報(bào)告和學(xué)位論文1000余種,每年提供25萬條信息。INSPEC數(shù)據(jù)庫中每條記錄的著錄項(xiàng)目有:論文題目、作者姓名、作者單位、期刊、會(huì)議、圖書、報(bào)告、學(xué)位論文的信息、文摘、分類、敘詞、自由詞等主要項(xiàng)目,同時(shí)提供了分類號、主題詞、自由詞、數(shù)值索引、化學(xué)索引等27項(xiàng)檢索入口。常用的光盤數(shù)據(jù)庫1.《中文科技期刊數(shù)據(jù)庫》光盤
50光盤檢索采集的模式模式:單用戶的光盤數(shù)據(jù)庫信息采集模式點(diǎn)對點(diǎn)光盤數(shù)據(jù)庫信息采集模式以局域網(wǎng)為依托的光盤數(shù)據(jù)庫信息采集模式文件服務(wù)器模式/對等模式以廣域網(wǎng)為基礎(chǔ)的光盤數(shù)據(jù)庫信息采集模式在虛擬網(wǎng)絡(luò)基礎(chǔ)上的光盤數(shù)據(jù)庫信息采集模式E-mail,FTP、傳真、程控電話等光盤檢索采集的模式模式:51光盤檢索采集的途徑與方法途徑與方法運(yùn)用規(guī)范化的語言檢索采集運(yùn)用非規(guī)范化的語言檢索采集運(yùn)用規(guī)范化與非規(guī)范化語言相結(jié)合的檢索采集運(yùn)用文獻(xiàn)的外形特征檢索采集運(yùn)用連續(xù)出版物的國際標(biāo)準(zhǔn)號碼檢索光盤檢索采集的途徑與方法途徑與方法52二、全文檢索采集方法二、全文檢索采集方法全文檢索一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。
全文檢索是計(jì)算機(jī)程序通過掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。
功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結(jié)果集,增加索引,優(yōu)化索引結(jié)構(gòu)等功能。結(jié)構(gòu)上具有索引引擎,查詢引擎,文本分析引擎和對外接口等。全文檢索54全文檢索西文全文檢索數(shù)據(jù)庫的索引機(jī)制是心自然語言的單詞為基本單元的,詞與詞之前有自然界限(以空格為標(biāo)志)漢語的詞則是以單音節(jié)為基礎(chǔ)層層組合構(gòu)成的,常用方法有“詞典匹配法”、“詞頻統(tǒng)計(jì)法”、“聯(lián)想詞群法”、“設(shè)立標(biāo)志法”、“知識與規(guī)則法”、“人工智能法”等等全文檢索西文全文檢索數(shù)據(jù)庫的索引機(jī)制是心自然語言的單詞為基本55全文數(shù)據(jù)庫的結(jié)構(gòu)與特點(diǎn)結(jié)構(gòu):包括兩個(gè)部分順序文檔結(jié)構(gòu)倒排文檔結(jié)構(gòu)特點(diǎn):文本客觀性/語言自然性/后控詞表性/檢索徹底性/較大穩(wěn)定性全文數(shù)據(jù)庫的結(jié)構(gòu)與特點(diǎn)結(jié)構(gòu):56全文檢索系統(tǒng)的模式單漢字無標(biāo)引全文檢索系統(tǒng)此系統(tǒng)是為了讓原文每一個(gè)字都具有可檢性,便通過計(jì)算機(jī)替原文的各個(gè)字都建立倒排檔,以便信息人員或用戶以各個(gè)單字檢索入口進(jìn)行檢索的過程。全文檢索系統(tǒng)在主文檔中包括題名、著者、正文等字段;在倒排檔中,包括字與地址集合,其中地址集合由三元組成,即文獻(xiàn)記錄號、增加字段標(biāo)識與字的起始位置。特點(diǎn):容易實(shí)現(xiàn),維護(hù)方便,檢索速度慢,浪費(fèi)存儲(chǔ)空間,查全率與查準(zhǔn)率不高全文檢索系統(tǒng)的模式單漢字無標(biāo)引全文檢索系統(tǒng)57例:例:58為有效檢索主文檔中的信息,依據(jù)主文檔抽取一些字建立的倒排檔:為有效檢索主文檔中的信息,依據(jù)主文檔抽取一些字建立的倒排檔:59檢索過程檢索過程60全文后控檢索系統(tǒng)是為了在詞與詞之間建立一種指引關(guān)系,而運(yùn)用后控詞給予控制的體系。詞與詞之間有從屬關(guān)系、等同關(guān)系、相關(guān)關(guān)系等。后控詞表是由專家編制的一種輔助表,并由專家定期檢查、更新與完善。系統(tǒng)特點(diǎn):提高了查全和查準(zhǔn)率;易產(chǎn)生歧義,量大時(shí)長;B2B1BEFGAA是B與E的上位詞,E是B的同位詞,B1、B2是B的同義詞,F(xiàn)、G是B的相關(guān)詞或近義詞全文后控檢索系統(tǒng)是為了在詞與詞之間建立一種指引關(guān)系,而運(yùn)用后61例:與信息產(chǎn)業(yè)相關(guān)之詞詞間聯(lián)系的參照符號:例:與信息產(chǎn)業(yè)相關(guān)之詞詞間聯(lián)系的參照符號:62三、現(xiàn)代信息間諜采集方法三、現(xiàn)代信息間諜采集方法現(xiàn)代信息間諜采集方法概念-現(xiàn)代信息間諜采集方法,是間諜機(jī)構(gòu)通過派遣間諜,運(yùn)用現(xiàn)代化手段,以合法或非法的方式,采集本國或本單位所急需的、競爭對手中有極大價(jià)值的信息的方法現(xiàn)代信息間諜活動(dòng)現(xiàn)狀現(xiàn)代信息間諜采集方法概念-現(xiàn)代信息間諜采集方法,是間諜機(jī)構(gòu)通64現(xiàn)代信息間諜盛行的原因是兩軍決用的秘密武器是搞跨競爭對手的法寶是取得奇效的上等秘訣現(xiàn)代信息間諜盛行的原因是兩軍決用的秘密武器65現(xiàn)代信息間諜活動(dòng)的特點(diǎn)間諜與工具結(jié)合公開與隱蔽并施盟國與友軍不存企業(yè)與企業(yè)較量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借錢補(bǔ)充合同范本寫
- 倉儲(chǔ)送貨批發(fā)合同范例
- 一次合同范本
- 關(guān)于轉(zhuǎn)讓車輛合同范本
- 勞務(wù)派遣保潔合同范本
- 產(chǎn)權(quán)經(jīng)紀(jì)合同范本
- 出租兒童書架合同范例
- 2025年度化工產(chǎn)品綠色包裝設(shè)計(jì)與采購合同
- 修車搬運(yùn)服務(wù)合同范本
- 2025年精煉銅線項(xiàng)目投資可行性研究分析報(bào)告
- 2025門診護(hù)理工作計(jì)劃
- 員工互評表(含指標(biāo))
- 電氣領(lǐng)域知識培訓(xùn)課件
- 山東省部分學(xué)校2024-2025學(xué)年高一上學(xué)期12月選科指導(dǎo)聯(lián)合測試地理試題( 含答案)
- focus-pdca改善案例-提高護(hù)士對糖尿病患者胰島素注射部位正確輪換執(zhí)行率
- 八年級物理下冊全冊課課練【全冊每課齊全】
- 美國電話區(qū)號一覽表
- 針對老年人的交通安全宣傳
- 2023年廣東省公務(wù)員錄用考試《行測》真題及答案解析
- 中央空調(diào)系統(tǒng)維保服務(wù)報(bào)價(jià)清單
- 2024年山西省中考數(shù)學(xué)試卷含答案
評論
0/150
提交評論