版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
4.1網(wǎng)絡(luò)信息資源概述
4.2搜索引擎
4.3開放存取4.1網(wǎng)絡(luò)信息資源概述4.1.1網(wǎng)絡(luò)信息資源的定義和特點(diǎn)1.網(wǎng)絡(luò)信息資源的定義網(wǎng)絡(luò)信息資源是指通過計(jì)算機(jī)網(wǎng)絡(luò)可以利用的各種信息資源的總和,即以數(shù)字化形式記錄的,以多媒體形式表達(dá)的,分布式存儲在網(wǎng)絡(luò)計(jì)算機(jī)的存儲介質(zhì)以及各類通信介質(zhì)上,并通過計(jì)算機(jī)網(wǎng)絡(luò)通信方式進(jìn)行傳遞的信息內(nèi)容的集合。網(wǎng)絡(luò)信息資源將原本相互獨(dú)立、分布于世界各地的數(shù)據(jù)庫、信息中心、文獻(xiàn)中心等聯(lián)結(jié)在一起,形成一個內(nèi)容與結(jié)構(gòu)全新的信息整體。2.?InternetInternet是世界上規(guī)模最大、覆蓋面最廣、信息資源最為豐富的計(jì)算機(jī)信息資源網(wǎng)絡(luò)。它將遍布全球的各個國家和地區(qū)的計(jì)算機(jī)系統(tǒng)連接而成了一個計(jì)算機(jī)互聯(lián)網(wǎng)絡(luò)。從技術(shù)角度看,Internet是一個以TCP/IP作為通信協(xié)議連接各國、各地區(qū)、各機(jī)構(gòu)計(jì)算機(jī)網(wǎng)絡(luò)的數(shù)據(jù)通信網(wǎng)絡(luò);從資源角度來看,它是一個集各部門、各領(lǐng)域的各種信息資源為一體的,供網(wǎng)絡(luò)用戶共享的信息資源網(wǎng)絡(luò)。Internet最早起源于美國國防部高級研究計(jì)劃局建立的軍用計(jì)算機(jī)網(wǎng)絡(luò)ARPAnet。ARPAnet于1969年開通,它利用分組交換技術(shù)將斯坦福研究所、加州大學(xué)圣塔芭芭拉分校、加州大學(xué)洛杉磯分校和猶他大學(xué)連接起來。ARPA后改名為DefenseAdvancedResearchProjectAgency,簡稱DARPA,ARPAnet被稱為DARPAnetInternet,簡稱Internet。1974年提出的TCP/IP協(xié)議在ARPAnet上的應(yīng)用使ARPAnet成為初期Internet的主干網(wǎng)。1985年,美國國家科學(xué)基金會籌建了互聯(lián)網(wǎng)中心,將位于新澤西州、加州、伊利諾伊州、紐約州、密歇根州和科羅拉多州的6臺超級計(jì)算機(jī)連接起來,形成NSFnet,并通過NSFnet資助建立了按地區(qū)劃分的近20個區(qū)域性的計(jì)算機(jī)廣域網(wǎng)。同時,NSF確定了Internet的TCP/IP通信協(xié)議,所有網(wǎng)絡(luò)都采用TCP/IP協(xié)議集并連接到ARPAnet,從而使各個NSFnet用戶都能享用所有用于Internet的服務(wù)。隨后,NSFnet又把各大學(xué)和學(xué)術(shù)團(tuán)體的各種區(qū)域性網(wǎng)絡(luò)與全國學(xué)術(shù)網(wǎng)絡(luò)連接起來。1990年3月,ARPAnet停止運(yùn)轉(zhuǎn),NSFnet接替ARPAnet成為Internet新的主干網(wǎng)絡(luò)。1995年4月,NSFnet停止運(yùn)行,由美國政府指定的PacificBell、AmeritechAdvancedDataServicesandBellcore和Sprint三家私營企業(yè)介入網(wǎng)絡(luò)的運(yùn)作,網(wǎng)絡(luò)進(jìn)入了商業(yè)化全盛發(fā)展時期。很快,Internet將遍布世界各地的大小不等的網(wǎng)絡(luò)連接成一個開放的計(jì)算機(jī)網(wǎng)絡(luò)體系。1997年6月,諾基亞、愛立信、摩托羅拉和無線星球(UnwiredPlanet)共同組成了WAP論壇。在WAP論壇成員的努力下,WAP(無線通信協(xié)議)誕生了。WAP是在數(shù)字移動電話、互聯(lián)網(wǎng)或其他個人數(shù)字助理機(jī)(PDA)、計(jì)算機(jī)乃至未來的信息家電之間進(jìn)行通信的全球性開放標(biāo)準(zhǔn)。通過WAP技術(shù),可以將Internet的大量信息及各種各樣的業(yè)務(wù)引入到移動電話、PALM等無線終端之中。無論何時何地,只需打開WAP手機(jī),用戶就可享受無窮無盡的網(wǎng)上信息或者網(wǎng)上資源。1987年至1993年,以中國科學(xué)院高能物理研究所為首的一批科研院所與國外機(jī)構(gòu)合作開展了一些與Internet聯(lián)網(wǎng)的科研課題,通過撥號方式使用Internet的電子郵件系統(tǒng),并為國內(nèi)一些科研機(jī)構(gòu)提供Internet電子郵件服務(wù)。1990年10月,中國正式向國際互聯(lián)網(wǎng)絡(luò)信息中心(InterNIC)登記注冊了最高域名CN,從而開通了使用自己域名的Internet電子郵件。1994年4月,由中國科學(xué)院主持建設(shè)的中國國家計(jì)算與網(wǎng)絡(luò)設(shè)施(TheNationalComputingandNetworkingFacilityofChina,NCFC,又稱中關(guān)村地區(qū)教育科研示范網(wǎng)NCFCnet),以專線形式連入Internet,開通了Internet的全功能服務(wù)。幾十年來,中國互聯(lián)網(wǎng)蓬勃發(fā)展。據(jù)《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì),截至2023年6月底,我國上網(wǎng)用戶總?cè)藬?shù)達(dá)10.79億,其中手機(jī)網(wǎng)民規(guī)模達(dá)到10.76億,域名總數(shù)超過3000萬個。3.網(wǎng)絡(luò)信息資源的特點(diǎn)網(wǎng)絡(luò)信息資源是通過網(wǎng)絡(luò)生產(chǎn)和傳播的數(shù)字化資源。在Internet這個信息媒體和交流渠道的支持下,網(wǎng)絡(luò)信息資源日益成為人們獲取信息的首選。與傳統(tǒng)信息資源相比,網(wǎng)絡(luò)信息資源在數(shù)量、結(jié)構(gòu)、分布、傳播范圍、類型、載體形態(tài)等方面都有顯著的差異。
1)信息量大、傳播廣泛Internet具有結(jié)構(gòu)的開放性和信息發(fā)布的自由性。近20年來,人類生產(chǎn)的信息已超過過去5000年信息生產(chǎn)的總和。網(wǎng)絡(luò)信息資源又有著廣泛的可獲取性,通過Internet,用戶可以利用分布于世界各地的信息資源,遠(yuǎn)遠(yuǎn)突破了傳統(tǒng)檢索系統(tǒng)所能提供的信息資源范圍。2)信息類型多樣、內(nèi)容豐富網(wǎng)絡(luò)信息資源是多媒體、多類型、集成式的信息混合體,覆蓋了人類生活、工作、學(xué)習(xí)等各個領(lǐng)域。從信息的類型來看,有文本、圖表、圖像以及多媒體信息;從存在的形式看,有文件、數(shù)據(jù)庫、超文本和超媒體等。3)信息時效性強(qiáng)、動態(tài)、不穩(wěn)定網(wǎng)絡(luò)信息更新快、時效性很強(qiáng)。不但各種信息處在不斷生產(chǎn)、更新、淘汰的狀態(tài),它所連接的網(wǎng)絡(luò),其網(wǎng)站、網(wǎng)頁也都處在變化之中。網(wǎng)絡(luò)信息的快速變化和不可預(yù)測性,使得網(wǎng)絡(luò)信息的組織和管理難度大大增加。4)信息分散無序,但關(guān)聯(lián)程度高從宏觀上看,分散存儲在聯(lián)網(wǎng)計(jì)算機(jī)上的信息沒有統(tǒng)一的控制,網(wǎng)絡(luò)信息是分散、無序、不規(guī)范的。但從某個局部來看,如某個網(wǎng)站、網(wǎng)頁、數(shù)據(jù)庫,信息是有控制的,也是相對集中、有序和規(guī)范的。由于網(wǎng)絡(luò)信息資源是借助于Internet特有的超文本和超媒體鏈接技術(shù)組織在一起的,所以其內(nèi)容之間具有較高的關(guān)聯(lián)程度。而這種局部有序、總體無序的特點(diǎn),凸現(xiàn)了網(wǎng)絡(luò)信息組織與整合的重要性。5)信息價值差異大,難于管理網(wǎng)絡(luò)的共享性與開放性使得人人都可以通過網(wǎng)絡(luò)獲取和存放信息。由于缺乏質(zhì)量控制和監(jiān)管機(jī)制,很多信息沒有經(jīng)過嚴(yán)格編輯和整理,導(dǎo)致大量不良和無用的信息充斥在網(wǎng)絡(luò)上,形成了一個紛繁復(fù)雜的信息世界,給用戶選擇和利用網(wǎng)絡(luò)信息帶來了障礙。4.1.2網(wǎng)絡(luò)信息資源的類型1.按網(wǎng)絡(luò)傳輸協(xié)議劃分1)?WWW信息資源WWW信息資源是建立在超文本、超媒體技術(shù)以及超文本傳輸協(xié)議(HyperTextTransferProtocol,HTTP)基礎(chǔ)上的集文本、圖形、圖像、聲音于一體,以直觀的圖形界面來展現(xiàn)和提供信息的網(wǎng)絡(luò)資源形式。WWW其實(shí)是Internet中一個特殊的網(wǎng)絡(luò)區(qū)域,這個區(qū)域是由網(wǎng)上所有超文本格式的文檔(網(wǎng)頁)集合而成的。超文本文檔里既有數(shù)據(jù)又有包含指向其他文檔的“鏈(Link)”,使得不同文檔里的相關(guān)信息連接在一起。通過這些“鏈”,用戶在WWW上查找信息時,可以從一個文檔跳到另一個文檔,而不必考慮這些文檔在網(wǎng)絡(luò)上的具體地點(diǎn)。WWW信息資源是Internet信息資源的最主要、最常見的形式。2)?TELNET信息資源TELNET信息資源是指在遠(yuǎn)程登錄協(xié)議(TelecommunicationNetworkProtocol,TELNET)的支持下,用戶計(jì)算機(jī)經(jīng)Internet登錄遠(yuǎn)程計(jì)算機(jī),使自己的本地計(jì)算機(jī)暫時成為遠(yuǎn)程計(jì)算機(jī)的一個終端,進(jìn)而可以實(shí)時訪問,并在權(quán)限允許的范圍內(nèi)實(shí)時使用遠(yuǎn)程計(jì)算機(jī)系統(tǒng)中的各種硬件資源和軟件資源。通過TELNET方式提供的信息資源主要有政府部門和研究機(jī)構(gòu)的對外開放數(shù)據(jù)庫,圖書館的公共目錄系統(tǒng)及信息服務(wù)機(jī)構(gòu)的綜合信息系統(tǒng)等。Dialog、OCLC等商用聯(lián)機(jī)信息檢索系統(tǒng)提供了TELNET形式的連接方式,付費(fèi)取得賬號和口令后,可以檢索其數(shù)據(jù)庫資源。3)?FTP信息資源信息資源文件傳輸協(xié)議(FileTransferProtocol,F(xiàn)TP)的主要功能是利用網(wǎng)絡(luò)在本地與遠(yuǎn)程計(jì)算機(jī)之間建立連接,從而使不同操作系統(tǒng)的計(jì)算機(jī)之間實(shí)現(xiàn)文件傳送。FTP不僅允許從遠(yuǎn)程計(jì)算機(jī)獲取和下載文件(Download),也可將文件從本地機(jī)復(fù)制到遠(yuǎn)程計(jì)算機(jī)(Upload),因此,F(xiàn)TP實(shí)質(zhì)上相當(dāng)于在網(wǎng)絡(luò)上兩個主機(jī)之間復(fù)制文件。FTP信息資源是指借助于FTP訪問Internet上各種FTP服務(wù)器,以文件方式在聯(lián)網(wǎng)計(jì)算機(jī)之間傳輸?shù)男畔①Y源。FTP一般在組織或機(jī)構(gòu)內(nèi)部比較常見,使用的網(wǎng)絡(luò)信息資源可為任何類型,不過目前以應(yīng)用程序軟件和多媒體信息資源為主。目前,F(xiàn)TP仍是發(fā)布、共享、傳遞軟件和長文件的主要方法。4)新聞組信息資源新聞組是一種利用網(wǎng)絡(luò)環(huán)境提供專題討論服務(wù)的應(yīng)用軟件,是Internet服務(wù)體系的一部分。在此體系中,有眾多的新聞組服務(wù)器,它們接收和存儲有關(guān)主題的消息供用戶查閱。新聞組實(shí)質(zhì)上是由一組對某一特定主題有共同興趣的網(wǎng)絡(luò)用戶組成的電子論壇,用戶在自己的主機(jī)上運(yùn)行新聞組閱讀程序,申請加入某個感興趣的新聞組,便可以從服務(wù)器中讀取新聞組信息。同時,用戶也可以將自己的見解發(fā)送到新聞組中,供其他用戶參考。新聞組信息資源是一種豐富、自由、開放的信息資源。5)電子郵件信息資源電子郵件是借助網(wǎng)絡(luò)傳遞信息的現(xiàn)代化通信方式。只要知道收件人的郵箱地址,就可以利用計(jì)算機(jī)網(wǎng)絡(luò)將郵件發(fā)送給對方。同時,也可以接收來自世界各地的郵件。用戶可向提供電子郵件服務(wù)的機(jī)構(gòu)申請電子郵箱來利用該類信息資源。6)?Gopher信息資源Gopher是一種基于菜單的網(wǎng)絡(luò)服務(wù)程序,能為用戶提供廣泛、豐富的信息。通過Gopher,用戶無需知道信息的存放位置和掌握相關(guān)的操作命令就能快速找到并訪問所需的網(wǎng)絡(luò)資源。用戶在各級菜單的指引下,逐層展開菜單,在菜單中選擇項(xiàng)目和瀏覽相關(guān)內(nèi)容,就能訪問因特網(wǎng)(Internet)上遠(yuǎn)程聯(lián)機(jī)計(jì)算機(jī)信息系統(tǒng)。這是Gopher的一大優(yōu)勢,即它可以跨越多個計(jì)算機(jī)系統(tǒng),在本地計(jì)算機(jī)與遠(yuǎn)程Gopher服務(wù)器之間實(shí)現(xiàn)連接與信息共享。此外,Gopher還設(shè)有工具轉(zhuǎn)換接口,可直接調(diào)用其他的信息資源檢索工具或轉(zhuǎn)入其他的服務(wù)器,如WWW、FTP、TELNET、WAIS、Archie服務(wù)器等。Gopher曾經(jīng)以簡單、統(tǒng)一的界面,方便易用的特點(diǎn)和豐富的資源構(gòu)成了Internet上的一種重要的資源類型,但隨著網(wǎng)絡(luò)的發(fā)展,只能提供文本信息的Gopher服務(wù)器已大多被Web服務(wù)器所取代。7)?WAIS信息資源信息資源廣域信息服務(wù)器(WideAreaInformationServer,WAIS)是一種雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的網(wǎng)絡(luò)全文信息資源和檢索體系,允許用戶在不同結(jié)構(gòu)的遠(yuǎn)程數(shù)據(jù)庫之間傳輸和檢索信息。網(wǎng)上有數(shù)百個免費(fèi)的WAIS數(shù)據(jù)庫,可通過訪問匿名服務(wù)器/pub.Directory-of-servers,了解所需信息存放的WAIS服務(wù)器后,再通過相應(yīng)的WAIS服務(wù)器查詢所需的數(shù)據(jù)庫。2.按網(wǎng)絡(luò)信息資源的組織方式劃分信息組織是將無序狀態(tài)的特定信息,根據(jù)一定的原則和方法,使其成為有序狀態(tài)的過程。其目的在于將無序信息變?yōu)橛行蛐畔ⅲ奖闳藗冇行Ю煤蛡鬟f信息。面對紛繁、無序的網(wǎng)絡(luò)信息,人們采取了多種方式對其進(jìn)行組織。目前使用較為普遍的方式主要有以下四種。1)文件方式文件(File)是一種較為古老的信息組織方式,適用于網(wǎng)絡(luò)信息資源。文件方式簡單方便,適合存儲文本、程序、圖形、圖像、圖表、音頻、視頻等非結(jié)構(gòu)化信息。在Web中,網(wǎng)頁就屬于超文本文件,F(xiàn)TP類檢索工具也是用來幫助用戶利用那些以文件形式組織和保存的信息資源。但是文件方式對結(jié)構(gòu)化信息的管理則顯得力不從心,因?yàn)槲募到y(tǒng)只能涉及信息的簡單邏輯結(jié)構(gòu),當(dāng)信息結(jié)構(gòu)較為復(fù)雜時,就難以實(shí)現(xiàn)有效的控制和管理。而且,隨著網(wǎng)絡(luò)信息量的不斷增長,以文件為單位的信息資源共享和傳輸還會使網(wǎng)絡(luò)負(fù)載加大。因此,文件本身只能作為信息單位成為其他信息組織方式的管理對象。2)超文本/超媒體方式超文本/超媒體方式是一種新型的信息管理組織方式,不僅注重所要管理的信息本身,而且更加注重信息之間關(guān)系的建立與表達(dá)。超文本/超媒體方式是將網(wǎng)絡(luò)信息按照相互關(guān)系非線性存儲在許多的節(jié)點(diǎn)(Node)上,節(jié)點(diǎn)間以鏈路(Link)相連,形成一個可任意連接的、有層次的、復(fù)雜的網(wǎng)狀結(jié)構(gòu)。超文本方式以線性和靜態(tài)的文本信息為處理對象;超媒體方式是超文本與多媒體技術(shù)的結(jié)合,將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織管理。超文本/超媒體方式不僅體現(xiàn)了信息的層次關(guān)系,而且也符合人們思維的聯(lián)想和跳躍性習(xí)慣。正是由于這個優(yōu)點(diǎn),超文本/超媒體方式已成為Internet上占主流地位的信息組織與檢索方式。但對于一些大型的超文本/超媒體檢索系統(tǒng),由于涉及的節(jié)點(diǎn)和鏈路太多,用戶很容易出現(xiàn)信息迷航和知識認(rèn)知過載的問題,很難迅速而準(zhǔn)確地定位到真正需要的信息節(jié)點(diǎn)上。為了避免這些檢索瓶頸,需要設(shè)立導(dǎo)航工具,并輔以搜索查詢機(jī)制,以便用戶在任何位置都能到達(dá)想要去的節(jié)點(diǎn)。3)數(shù)據(jù)庫方式數(shù)據(jù)庫是對大量的規(guī)范化數(shù)據(jù)進(jìn)行管理的技術(shù)。它將要處理的數(shù)據(jù)經(jīng)合理分類和規(guī)范化處理后,以記錄形式存儲于計(jì)算機(jī)中,用戶通過關(guān)鍵詞及其組配查詢,就可以找到所需信息或其線索。利用數(shù)據(jù)庫技術(shù)組織信息資源可在很大程度上提高信息的有序性、完整性和安全性,提高對大量的結(jié)構(gòu)化數(shù)據(jù)的處理效率。此外,數(shù)據(jù)庫以字段作為存取單位,用戶可根據(jù)需要靈活地改變查詢結(jié)果集的大小,從而大大降低網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)呢?fù)載。傳統(tǒng)數(shù)據(jù)庫方式對非結(jié)構(gòu)化信息的處理難度較大,不能提供數(shù)據(jù)信息之間的知識關(guān)聯(lián),無法處理結(jié)構(gòu)日益復(fù)雜的信息單元,檢索界面也缺乏直觀性和人機(jī)交互性。但隨著信息處理技術(shù)的發(fā)展,集Web技術(shù)和數(shù)據(jù)庫技術(shù)于一體的Web數(shù)據(jù)庫已經(jīng)成為Web信息資源的重要組成部分,其所存儲的都是經(jīng)過人工嚴(yán)格收集、整理加工和組織的具有較高學(xué)術(shù)價值、科研價值的信息。由于各個數(shù)據(jù)庫后臺的異構(gòu)性和復(fù)雜性,以及對其使用的限制,利用一般的網(wǎng)絡(luò)信息檢索工具已無法檢索其信息資源,因此必須利用各個數(shù)據(jù)庫的專用檢索系統(tǒng)進(jìn)行檢索。4)網(wǎng)站網(wǎng)站(WebSite)一般綜合采用文件、超文本/超媒體和數(shù)據(jù)庫等方式將內(nèi)容相關(guān)的信息組織到主頁和從屬頁面中。它們既是信息資源開發(fā)的要素,又是網(wǎng)絡(luò)中的實(shí)體。從網(wǎng)絡(luò)的組織結(jié)構(gòu)可以看出,信息資源主要分布在網(wǎng)站上。作為網(wǎng)絡(luò)信息與網(wǎng)絡(luò)用戶之間的中介,網(wǎng)站集網(wǎng)絡(luò)信息提供、網(wǎng)絡(luò)信息組織和網(wǎng)絡(luò)信息服務(wù)于一體,其最終目的是將網(wǎng)絡(luò)信息有序化、整合化,向用戶提供優(yōu)質(zhì)的信息服務(wù)。3.按網(wǎng)絡(luò)信息資源的內(nèi)容劃分1)網(wǎng)絡(luò)數(shù)據(jù)庫網(wǎng)絡(luò)數(shù)據(jù)庫是借助Internet,以Web為檢索平臺提供信息檢索服務(wù)的數(shù)據(jù)庫,它是數(shù)據(jù)庫技術(shù)和Web技術(shù)相結(jié)合的產(chǎn)物。除了傳統(tǒng)紙本工具書、聯(lián)機(jī)數(shù)據(jù)庫與光盤數(shù)據(jù)庫改造而成的網(wǎng)絡(luò)數(shù)據(jù)庫外,還出現(xiàn)了大量依托Web產(chǎn)生的商業(yè)網(wǎng)絡(luò)數(shù)據(jù)庫。這些網(wǎng)絡(luò)數(shù)據(jù)庫內(nèi)容涉及各種不同的專業(yè)領(lǐng)域和文獻(xiàn)類型,如萬方知識服務(wù)系統(tǒng)、OCLC的數(shù)據(jù)庫系列、INSPEC網(wǎng)絡(luò)數(shù)據(jù)庫等。2)網(wǎng)絡(luò)出版物網(wǎng)絡(luò)出版物是以數(shù)字代碼形式將文字、圖像、聲音、視頻等信息存儲在磁、光、電介質(zhì)上,通過Internet高速傳播,并通過計(jì)算機(jī)或者類似設(shè)備閱讀使用的出版物。信息技術(shù)和網(wǎng)絡(luò)技術(shù)為出版物的出版、發(fā)行和傳播創(chuàng)造了良好的條件,不僅大量的紙本文獻(xiàn)開始發(fā)行電子版本,很多出版物更完全以電子化、數(shù)字化形式進(jìn)行編輯、制作、出版和發(fā)布,并以網(wǎng)絡(luò)化形式發(fā)行。3)社會信息社會信息是機(jī)構(gòu)和個人發(fā)布的數(shù)據(jù)、資料、新聞和服務(wù)等多方面的信息。社會信息范圍廣泛、內(nèi)容龐雜,主要包括政府機(jī)構(gòu)部門的政策和服務(wù)信息、社會新聞、生活娛樂信息、機(jī)構(gòu)名錄、產(chǎn)品目錄、廣告信息、商品信息、股市信息和專題評論等。4)軟件資源軟件資源主要是指通過網(wǎng)絡(luò)提供給用戶使用的各種應(yīng)用程序。它們以文件形式存在,幫助用戶實(shí)現(xiàn)某些應(yīng)用功能,如殺毒、解壓、聊天、系統(tǒng)維護(hù)、多媒體播放、文件傳輸、程序編輯等。5)其他類型的信息其他類型的信息包括網(wǎng)絡(luò)論壇交流信息、電子公告、網(wǎng)絡(luò)日志等存在于Internet上的信息。4.1.3網(wǎng)絡(luò)信息檢索的一般方法網(wǎng)絡(luò)信息資源存儲在連接到網(wǎng)絡(luò)的主機(jī)和服務(wù)器中,如果知道資源的地址,就可通過瀏覽器或其他方式利用這些信息。不管是哪一種檢索方法,都是以找到服務(wù)器在網(wǎng)上的地址(URL)為目標(biāo),再通過該地址去訪問服務(wù)器提供的信息。1.網(wǎng)上瀏覽網(wǎng)上瀏覽需要從一個相關(guān)網(wǎng)站或網(wǎng)頁出發(fā),通過超文本文檔中的鏈接找到一批新的相關(guān)網(wǎng)站或網(wǎng)頁,在瀏覽這些網(wǎng)頁后,再從這些網(wǎng)站或網(wǎng)頁提供的鏈接找到下一批相關(guān)網(wǎng)站,如此循環(huán)下去,像滾雪球一樣不斷擴(kuò)大搜索范圍。網(wǎng)上瀏覽類似于文獻(xiàn)檢索方法中的引文法,只是檢索對象不是普通文獻(xiàn),而是網(wǎng)站。用網(wǎng)上瀏覽的方法,通常會有意外的發(fā)現(xiàn),但耗費(fèi)的時間較多,且需要預(yù)先收集網(wǎng)址。在研究課題時用這種方法收集信息,其效率相對較低,并且收集到的信息也不全面。2.網(wǎng)絡(luò)資源指南網(wǎng)絡(luò)資源指南是專業(yè)人員對網(wǎng)絡(luò)信息資源進(jìn)行采集、評價、組織、過濾和控制,從而開發(fā)出的可供用戶瀏覽和檢索的多級主題分類體系。當(dāng)用戶需要某一類信息資源的時候,通過逐級瀏覽網(wǎng)頁主題指南的分類體系,就可獲取相關(guān)信息。網(wǎng)絡(luò)資源指南的局限性在于管理和維護(hù)跟不上網(wǎng)絡(luò)信息的增長和更新,收錄范圍不夠全面,各網(wǎng)站的分類體系不統(tǒng)一。3.搜索引擎利用搜索引擎是較為普遍的網(wǎng)絡(luò)信息檢索方式。用戶以關(guān)鍵詞、詞組或自然語言構(gòu)成檢索表達(dá)式,提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中檢索,并將檢索結(jié)果提供給用戶。利用搜索引擎檢索的優(yōu)點(diǎn)是簡單方便,檢索速度快、范圍廣,能及時獲取新增信息。其缺點(diǎn)在于檢索準(zhǔn)確性不理想。4.?RSS閱讀工具RSS是一種用于發(fā)布和獲取網(wǎng)絡(luò)內(nèi)容的XML格式的工具。使用RSS閱讀工具,用戶可以輕松地訂閱所需信息。這些被稱做RSS閱讀工具的軟件,會自動將用戶訂閱的RSS源內(nèi)容聚合成一個網(wǎng)頁,并不斷自主更新,使用戶無需一個個打開有關(guān)的目標(biāo)網(wǎng)頁即可瀏覽所需內(nèi)容。4.2搜索引擎4.2.1搜索引擎的概念搜索引擎是根據(jù)一定的策略,運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,并對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。換句話說,搜索引擎是通過Internet接受用戶的查詢指令,并向用戶提供符合查詢要求的信息資源網(wǎng)址系統(tǒng)。它在Web中主動搜索信息(網(wǎng)頁上的單詞和特定的描述內(nèi)容)并將其自動索引,存儲在可供檢索的大型數(shù)據(jù)庫中。當(dāng)用戶輸入關(guān)鍵詞查詢時,搜索引擎會告訴用戶包含該關(guān)鍵詞信息的所有網(wǎng)址,并提供通向該網(wǎng)絡(luò)的鏈接。搜索引擎既是用于檢索的軟件,又是提供查詢、檢索的網(wǎng)站。所以,搜索引擎也可稱為Internet上具有檢索功能的網(wǎng)頁。4.2.2搜索引擎的基本工作原理看似簡單的搜索引擎背后涉及包括數(shù)據(jù)結(jié)構(gòu)、索引、算法、知識表示、自然語言處理、信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘等多個方面的內(nèi)容。通常,搜索引擎主要包括信息采集、信息加工、信息檢索與檢索結(jié)果提供這幾個部分。信息采集模塊(搜集器)以一定的策略在因特網(wǎng)等信息源中采集相關(guān)信息。大多數(shù)搜索引擎利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著網(wǎng)頁中的URL爬到其他網(wǎng)頁。不斷重復(fù)此過程,并把爬過的所有網(wǎng)頁收集回來。信息加工模塊是對收集到的網(wǎng)頁資源進(jìn)行標(biāo)引、建立索引、編制摘要、完成分類等過程,即由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其他網(wǎng)頁的鏈接關(guān)系等),并根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈接中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。信息檢索模塊根據(jù)用戶的檢索提問對檢索項(xiàng)與索引項(xiàng)進(jìn)行匹配運(yùn)算以獲取對應(yīng)的檢索結(jié)果集。當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。
檢索結(jié)果提供是在進(jìn)行必要的相關(guān)分析后以超鏈接形式給出檢索結(jié)果,即由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容、摘要等內(nèi)容組織起來提供給用戶。搜索引擎基本工作原理如圖4-1所示。事實(shí)上,搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法排序后,這些結(jié)果將按照與搜索關(guān)鍵詞相關(guān)度的高低,依次排列并呈現(xiàn)?,F(xiàn)在的搜索引擎已普遍使用超鏈接分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URL和AnchorText,甚至鏈接周圍的文字。所以,有時候,即使某個網(wǎng)頁A中并沒有某個詞比如“信息素質(zhì)”,但如果有別的網(wǎng)頁B用鏈接“信息素質(zhì)”指向這個網(wǎng)頁A,那么用戶搜索“信息素質(zhì)”時也能找到網(wǎng)頁A。如果有越多網(wǎng)頁(C、D、E、F…)用名為“信息素質(zhì)”的鏈接指向這個網(wǎng)頁A,或者給出這個鏈接的源網(wǎng)頁(B、C、D、E、F…)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“信息素質(zhì)”時會被認(rèn)為更相關(guān),排序會越靠前。4.2.3搜索引擎的發(fā)展歷史一般認(rèn)為搜索引擎的雛形是1990年加拿大麥吉爾大學(xué)開發(fā)的Archie系統(tǒng),它通過定期搜集并分析FTP系統(tǒng)中的文件名信息,提供查找分布在各個FTP主機(jī)中的文件。1993年,美國內(nèi)華達(dá)大學(xué)開發(fā)出功能更為全面的提供網(wǎng)頁檢索的Veronica系統(tǒng)。緊隨其后,搜索引擎開始采用網(wǎng)頁自動采集器,即網(wǎng)絡(luò)蜘蛛Spider來提高信息采集的性能。1994年初,美國華盛頓大學(xué)開發(fā)出了因特網(wǎng)上實(shí)現(xiàn)全文搜索的搜索引擎WebCrawler。同年7月,MichaelMauldin開發(fā)出基于Spider技術(shù)的搜索引擎Lycos。接著,美國斯坦福大學(xué)的大衛(wèi)·菲勒(DavidFilo)和美籍華人楊致遠(yuǎn)(GerryYang)共同開發(fā)出目錄索引式搜索引擎Yahoo。從此,搜索引擎進(jìn)入了快速發(fā)展的新時期。1995年12月,DEC正式發(fā)布的AltaVista是第一個支持自然語言搜索的搜索引擎,也是第一個實(shí)現(xiàn)高級搜索語法(如AND、OR、NOT等)的搜索引擎。近年來,Google、百度等搜索引擎日益成熟,功能日趨完善。縱觀搜索引擎的發(fā)展歷史,一般來說,可根據(jù)其在不同時期的研發(fā)重點(diǎn)和性能的不同分為三代。第一代搜索引擎以早期的Yahoo、AltaVista和Infoseek等為代表,這類搜索引擎的特征是基于人工分類目錄搜索。以Google、DirectHit等為代表的搜索引擎一般稱為第二代搜索引擎。第二代搜索引擎的主要特征是運(yùn)用“符號計(jì)算”,基于關(guān)鍵詞搜索以及以關(guān)鍵詞組合為基礎(chǔ)的全文搜索和模糊搜索。與第一代搜索引擎相比,基于關(guān)鍵詞搜索的優(yōu)勢是使用方便,搜索速度快,直接搜索內(nèi)容,這是第一代搜索引擎無法比擬的。目前,搜索引擎已進(jìn)入了一個空前繁榮的時期?,F(xiàn)今的搜索引擎不僅索引規(guī)模大,而且更多地結(jié)合了自然語言理解、個性化等智能化技術(shù),有人亦稱這一時期的搜索引擎為第三代搜索引擎。4.2.4發(fā)展中的搜索引擎作為Internet必不可少的核心技術(shù)之一,搜索引擎技術(shù)是人們利用海量網(wǎng)絡(luò)資源的重要工具。Google中國原總裁李開復(fù)認(rèn)為,目前的搜索引擎只是對海量的網(wǎng)頁進(jìn)行簡單排序,事實(shí)上,最聰明的搜索引擎,并非要提供多元化信息,而是能夠?yàn)橛脩籼峁┧岢鰡栴}的答案,甚至解決問題。因此,隨著Internet的快速發(fā)展,未來的搜索引擎應(yīng)該更能夠滿足用戶的信息查詢需求。整合搜索、社區(qū)搜索和移動搜索等正在成為今后發(fā)展的趨勢。1.整合搜索用戶通過網(wǎng)絡(luò)搜索并獲得海量信息是利用信息抓取技術(shù)實(shí)現(xiàn)的,屬于剛性搜索。如果搜索引擎能夠通過對用戶信息的整合,預(yù)知用戶搜索的目的,就能從海量信息中整理出用戶最需要、最實(shí)用的信息,并通過整合其他渠道幫助用戶解決實(shí)際問題,這就是剛性搜索的軟化處理。網(wǎng)絡(luò)實(shí)名、用戶注冊信息以及IP地址分析等是軟性搜索的必要條件。另外,整合搜索不是簡單地把搜索結(jié)果羅列在一起,而是經(jīng)過頁面搜索、垂直搜索之后,在更高層次上為用戶提供最佳搜索結(jié)果,即通過將其他搜索產(chǎn)品的結(jié)果整合到網(wǎng)頁搜索中,使結(jié)果信息內(nèi)容更加豐富、形式更為多媒體化。整合搜索的前提是基于對關(guān)鍵詞的智能分析判斷。但是,隨著用戶需求的提高,對整合搜索的要求也越來越高。如何美觀、簡潔地呈現(xiàn)多種類型的信息,如何提高信息查詢結(jié)果的精度、檢索的有效性與整合的質(zhì)量,仍是搜索引擎不可回避的命題。2.社區(qū)搜索社區(qū)搜索代表一種理念,即把大眾的智慧匯集起來給需要的人(搜索)使用。比如通過百度旗下的“百度知道”,用戶可以用提問的形式將問題提交給搜索引擎,不同的人將會回答提出的問題,過一段時間后大多都能有滿意的答案。這些答案匯集起來,逐漸壯大,形成一個知識庫。當(dāng)然,對于很多問題,用戶可以直接搜索得到答案。雖然大部分都還處于發(fā)展期,不過在不久的將來,社區(qū)搜索將會越來越完善。3.移動搜索隨著手機(jī)等移動終端的逐漸普及,移動搜索已經(jīng)成為獲取信息資源的重要方式。移動搜索是基于移動網(wǎng)絡(luò)的搜索技術(shù)的總稱,用戶可以通過SMS、WAP、IVR等多種接入方式進(jìn)行搜索,獲取互聯(lián)網(wǎng)信息、移動增值服務(wù)及本地信息等信息服務(wù)內(nèi)容。移動搜索的核心是將搜索引擎與移動設(shè)備有機(jī)結(jié)合,生成符合產(chǎn)品和用戶特點(diǎn)的搜索結(jié)果。目前,知名的移動搜索引擎有百度、搜狗、360搜索、神馬搜索、Google、Bing、微信搜一搜、頭條搜索、中國搜索、夸克搜索等。Google已在全球范圍發(fā)布谷歌中文語音搜索,谷歌手機(jī)搜索已經(jīng)加入中文語音搜索功能,用戶在手機(jī)上只需按下通話鍵即可進(jìn)行語音搜索,這是手機(jī)搜索與PC互聯(lián)網(wǎng)搜索最大的不同之處。蘋果公司也推出了Siri語音控制功能。通過這個語音功能,可以把iPhone變成一個智能化的機(jī)器人,實(shí)現(xiàn)天氣查詢、搜索查詢等功能。未來的移動搜索將會變得更加個性化,移動的搜索結(jié)果也將基于搜索位置、搜索偏好以及個人的社交網(wǎng)絡(luò)信息等。4.垂直搜索垂直搜索引擎也常常被稱為專業(yè)搜索引擎、專題搜索引擎,是有針對性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供專門的信息檢索服務(wù),以滿足用戶個性化的信息需求的搜索引擎。垂直搜索引擎是對特定領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專業(yè)和深入的分析挖掘、過濾篩選,對其信息定位更為精準(zhǔn)的專業(yè)搜索,實(shí)際上是搜索引擎的細(xì)分和延伸。垂直搜索引擎的特點(diǎn)是“專、精、深”,且具有行業(yè)特色,即與綜合搜索引擎的海量信息無序化相比,垂直搜索引擎則更加專業(yè)、具體和深入。垂直搜索引擎的Spider更加專業(yè)化和可定制化,能夠定向采集與垂直搜索范圍相關(guān)的網(wǎng)頁,對內(nèi)容相關(guān)的以及適于進(jìn)一步處理的網(wǎng)頁進(jìn)行優(yōu)先采集。其信息采集可以通過人工設(shè)定網(wǎng)址和網(wǎng)頁分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶。由于垂直搜索引擎在信息抓取的過程中已經(jīng)進(jìn)行了去重、分類、比較分析、數(shù)據(jù)挖掘等深度加工,因此垂直搜索引擎提供給我們的信息具有較高的價值。4.2.5搜索引擎的類型搜索引擎按不同的分類原則可以有多種分類方式。例如:按信息標(biāo)引的方式,搜索引擎可以分為目錄式搜索引擎、機(jī)器人搜索引擎和混合式搜索引擎;按信息查詢的方式,搜索引擎可以分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種,搜索引擎又可以分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等;按工作方式或者檢索機(jī)制,搜索引擎可以分為目錄型搜索引擎、索引型搜索引擎和元搜索引擎。目錄型搜索引擎層次結(jié)構(gòu)清晰、易于查找,而且所收錄的網(wǎng)絡(luò)信息資源經(jīng)過了專業(yè)信息人員的鑒別、選擇和組織,從而確保了檢索工具的質(zhì)量和檢索的準(zhǔn)確性。但目錄型搜索引擎的數(shù)據(jù)庫規(guī)模相對較小,某些分類主題收錄內(nèi)容不夠全面,系統(tǒng)更新、維護(hù)的速度受到很大的制約,查全率不高。目錄型搜索引擎一般比較適合于查找綜合性、概括性的主題概念或類屬明確的課題。著名的目錄型搜索引擎有Yahoo、Galaxy、搜狐、新浪、OpenDirectory、Infoseek、TheWWWVirtualLibrary、BUBLLINK、AOLSearch和藍(lán)帆等。目前,只有數(shù)量很少的目錄型搜索引擎仍在提供服務(wù)。2.索引型搜索引擎基于關(guān)鍵詞檢索的索引型搜索引擎是名副其實(shí)的搜索引擎。索引型搜索引擎也稱為機(jī)器人搜索引擎或關(guān)鍵詞搜索引擎,它實(shí)際上是一個WWW網(wǎng)站。與普通網(wǎng)站不同的是,索引型搜索引擎網(wǎng)站的主要資源是包括WWW等眾多資源的索引數(shù)據(jù)庫。索引型搜索引擎主要使用“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”等自動跟蹤索引軟件,通過自動分析網(wǎng)頁的超鏈接,依靠超鏈接和HTML代碼分析獲取網(wǎng)頁信息內(nèi)容,并采用自動搜索、自動標(biāo)引、自動文摘等方式建立和維護(hù)索引數(shù)據(jù)庫,以Web形式提供用戶檢索界面,用戶輸入關(guān)鍵詞后,其后臺的檢索代理軟件代替用戶在索引數(shù)據(jù)庫中查找出與檢索提問匹配的記錄,并將檢索結(jié)果反饋給用戶。索引型搜索引擎的索引數(shù)據(jù)庫的容量非常龐大,收錄、加工信息的范圍廣、速度快,能向用戶及時提供最新信息。但由于標(biāo)引過程缺乏人工干預(yù),加之檢索代理軟件的智能化程度不是很高,導(dǎo)致其檢索準(zhǔn)確性不是很高。索引型搜索引擎比較適合于檢索特定主題的信息以及較為專深、具體或類屬不明確的課題。3.元搜索引擎元搜索引擎是一種將多個獨(dú)立的搜索引擎集成到一起,提供統(tǒng)一的用戶查詢界面,將用戶的檢索提問同時提交給多個獨(dú)立搜索引擎,檢索其共享的獨(dú)立搜索引擎的資源庫,再經(jīng)過聚合、去重和排序等處理,將最終檢索結(jié)果一并提供給用戶的網(wǎng)絡(luò)檢索工具。元搜索引擎是對搜索引擎進(jìn)行搜索的搜索引擎,是對多個獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。因此,元搜索引擎被稱為“搜索引擎之母”。相對于元搜索引擎,可被利用的獨(dú)立搜索引擎稱為“源搜索引擎”或“成員搜索引擎”。元搜索引擎一般都沒有自己的網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,通常都有自己研發(fā)的特色元搜索技術(shù)。在搜索引擎的發(fā)展進(jìn)程中,元搜索引擎有一種初級形態(tài),稱為集合式搜索引擎(All-In-OneSearchPage)。集合式搜索引擎曾以其方便、實(shí)用在網(wǎng)絡(luò)搜索工具家族中占據(jù)了一席之地。集合式搜索引擎通過網(wǎng)絡(luò)技術(shù),在一個網(wǎng)頁上鏈接很多個獨(dú)立搜索引擎,檢索時,需點(diǎn)選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結(jié)果由各搜索引擎分別以不同的頁面顯示,其實(shí)質(zhì)是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合,而并非真正意義上的搜索引擎。集合式搜索引擎無自建數(shù)據(jù)庫,不需研發(fā)支持技術(shù),也不能控制和優(yōu)化檢索結(jié)果。4.2.6常用搜索引擎1.索引型搜索引擎1)百度()百度是全球最大的中文搜索引擎,1999年底由李彥宏、徐勇創(chuàng)建于美國硅谷,2000年開始在中國發(fā)展。2000年5月,百度首次為門戶網(wǎng)站—硅谷動力提供搜索技術(shù)服務(wù),之后迅速占領(lǐng)中國搜索引擎市場,成為最主要的搜索技術(shù)提供商。2001年8月,百度發(fā)布了B搜索引擎Beta版,從后臺服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國首創(chuàng)了競價排名的商業(yè)模式。2001年10月22日,百度正式發(fā)布Baidu搜索引擎。2005年8月5日,百度在美國納斯達(dá)克上市,成為2005年全球資本市場上最為引人注目的上市公司,百度由此進(jìn)入一個嶄新的發(fā)展階段。百度主頁如圖4-2所示。百度運(yùn)用了中文智能語言的處理方法,支持主流的中文編碼標(biāo)準(zhǔn),包括漢字內(nèi)碼擴(kuò)展規(guī)范(GBK)、簡體(GB2312)、繁體(BIG5)等,并且能夠在不同的編碼之間轉(zhuǎn)換,極大地方便了來自全球各個國家的中文搜索請求。除網(wǎng)頁搜索外,百度還提供MP3音樂、新聞、地圖、影視等多樣化的搜索服務(wù),創(chuàng)造了以貼吧、知道、百科、空間為代表的搜索社區(qū)。百度還為各類企業(yè)提供競價排名推廣業(yè)務(wù),以及關(guān)聯(lián)廣告服務(wù)。隨著移動互聯(lián)網(wǎng)的發(fā)展,百度網(wǎng)頁搜索完成了由PC向移動的轉(zhuǎn)型,由連接人與信息擴(kuò)展到連接人與服務(wù),用戶可以在PC、Pad、手機(jī)上訪問百度主頁,通過文字、語音、圖像多種交互方式瞬間找到所需要的信息和服務(wù)。在提供同樣的海量應(yīng)用、精準(zhǔn)搜索外,百度移動應(yīng)用客戶端還具備云推送、精準(zhǔn)語音搜索等功能。(1)網(wǎng)頁搜索。
(2)視頻搜索。(3)圖片搜索。在圖片搜索框中輸入要搜索的關(guān)鍵字(黨的二十大),點(diǎn)擊“百度一下”按鈕,即可搜索出相關(guān)的圖片。搜索結(jié)果頁面支持圖片尺寸選擇、顏色選擇、圖片類型等篩選項(xiàng),可以得到更為精確的結(jié)果,如圖4-3所示。(4)?MP3搜索。(5)新聞搜索。(6)地圖搜索。(7)常用搜索。(8)百度的搜索技巧。①
輸入多個詞語搜索(不同字詞之間用一個空格隔開,相當(dāng)于邏輯“與”),可以縮小檢索范圍,獲得更精準(zhǔn)的搜索結(jié)果。在百度查詢時不需要使用邏輯符號“AND”或“+”,百度會在空格隔開的詞語之間自動添加邏輯“與”運(yùn)算符。②
減除無關(guān)資料(邏輯“非”)。有時候,搜索結(jié)果中某一方面的不相關(guān)內(nèi)容特別多,這時可以利用“減除無關(guān)資料”功能,縮小查詢范圍,提高命中率。百度支持“-”功能,用于有目的地刪除某些無關(guān)網(wǎng)頁,但減號之前必須留一空格。③
并行搜索(邏輯“或”)。使用“A|B”來搜索“或者包含詞語A,或者包含詞語B”的網(wǎng)頁。例如,要查詢“歐債危機(jī)”或“次貸危機(jī)”的相關(guān)資料,無需分兩次查詢,只要輸入“歐債危機(jī)|次貸危機(jī)”搜索即可。④
相關(guān)檢索。百度的“相關(guān)搜索”,會列出一些和當(dāng)前搜索很相似的一系列檢索詞。當(dāng)搜索結(jié)果不理想時,用戶可以通過參考別人進(jìn)行過的搜索來獲得一些啟發(fā)。如果無法確定輸入什么詞語才能找到滿意的資料,則可以使用百度相關(guān)搜索??梢韵容斎胍粋€關(guān)鍵詞搜索,百度搜索引擎會在搜索結(jié)果頁面的下方顯示“其他用戶搜索過的相關(guān)搜索詞語”作參考。點(diǎn)擊其中一個相關(guān)搜索詞,就能得到這個相關(guān)搜索詞的搜索結(jié)果,如圖4-4所示。⑤
百度快照。如果無法打開某個搜索結(jié)果,或者打開速度特別慢,可以使用“百度快照”。每個未被禁止搜索的網(wǎng)頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。當(dāng)用戶遇到網(wǎng)站服務(wù)器暫時故障或網(wǎng)絡(luò)傳輸堵塞時,可以通過“百度快照”快速瀏覽頁面文本內(nèi)容。百度快照只會臨時緩存網(wǎng)頁的文本內(nèi)容,所以那些圖片、音樂等非文本信息,仍是存儲于原網(wǎng)頁。當(dāng)原網(wǎng)頁修改、刪除或者屏蔽后,百度搜索引擎會自動修改、刪除或者屏蔽相應(yīng)的網(wǎng)頁快照。⑥
專業(yè)文檔搜索。網(wǎng)上很多有價值的資料以Word、PowerPoint、PDF等格式存在,百度支持這些文檔的搜索。搜索時,在輸入的關(guān)鍵詞后面加一個“filetype:文檔類型”即可?!癴iletype:”后的文檔類型可以是DOC、XLS、PPT、PDF、RTF、ALL等文件格式。其中,ALL表示搜索所有以上文件類型。例如,查找交易費(fèi)用方面的WORD文檔,可以輸入“交易費(fèi)用filetype:doc”。在搜索結(jié)果頁面下,點(diǎn)擊結(jié)果標(biāo)題,可下載文檔。⑦
在指定網(wǎng)站內(nèi)搜索。百度默認(rèn)搜索整個互聯(lián)網(wǎng),利用“site:”命令可以限制只搜索某個具體網(wǎng)站、網(wǎng)站頻道或某域名內(nèi)的網(wǎng)頁。例如,“植物生理site:”表示在蘭州大學(xué)網(wǎng)站內(nèi)搜索與“植物生理”相關(guān)的資料;“intelsite:”表示在域名以“”結(jié)尾的網(wǎng)站內(nèi)搜索與“intel”相關(guān)的資料;“甘肅site:cn”表示在域名以“cn”結(jié)尾的網(wǎng)站內(nèi)搜索與“甘肅”相關(guān)的資料。需要注意的是,利用“site:”命令時,搜索關(guān)鍵詞在前,“site:”及網(wǎng)址在后;關(guān)鍵詞與“site:”之間需留一空格隔開;site后的冒號“:”可以是半角,也可以是全角,百度搜索引擎會自動辨認(rèn);“site:”后最好不要有“http://”前綴或“/”后綴;網(wǎng)站頻道只局限于“頻道名.域名”方式,不能是“域名/頻道名”方式。⑧
在標(biāo)題中搜索。利用“intitle:”命令,可以限制只搜索網(wǎng)頁標(biāo)題中含有某些關(guān)鍵詞的網(wǎng)頁。例如,“intitle:十九大”表示搜索標(biāo)題中含有關(guān)鍵詞“十九大”的網(wǎng)頁;“intitle:搜索引擎
互聯(lián)網(wǎng)”表示搜索標(biāo)題中含有關(guān)鍵詞“搜索引擎”和“互聯(lián)網(wǎng)”的網(wǎng)頁。
⑨
在url中搜索。利用“inurl:”命令,可以限制只搜索url中含有這些文字的網(wǎng)頁。例如:“inurl:mp3”表示搜索url中含有“mp3”的網(wǎng)頁;“inurl:網(wǎng)頁”表示搜索url中含有“網(wǎng)頁”的網(wǎng)頁;“inurl:chinanews”表示搜索url中含有“china”和“news”的網(wǎng)頁。
⑩
高級搜索。如果對百度各種查詢語法不熟悉,可以使用百度的高級搜索。例如,要查找題名中包含網(wǎng)絡(luò)數(shù)據(jù)庫PPT的課件,可以在高級搜索頁面中按圖4-5所示進(jìn)行檢索,執(zhí)行檢索后得到的檢索結(jié)果如圖4-6所示。2)?Google中文版(.hk)Google公司是由斯坦福大學(xué)拉里·佩奇(LarryPage)和謝爾蓋·布林(SergeyBrin)于1998年9月組建的,公司提供的核心服務(wù)就是搜索引擎。Google原是一個數(shù)學(xué)名詞,表示一個1后面跟著100個零,Google公司使用這一術(shù)語作為公司名體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。自2000年開始商業(yè)運(yùn)作以來,Google以其先進(jìn)的技術(shù)、全面的檢索功能和簡單有效的服務(wù),在全球范圍內(nèi)擁有了大量的用戶。目前,Google已經(jīng)發(fā)展成為世界范圍內(nèi)最優(yōu)秀的搜索引擎。Google搜索引擎的成功得益于其強(qiáng)大的功能和獨(dú)到的特點(diǎn)。Google采用超文本鏈接結(jié)構(gòu)分析技術(shù)和大規(guī)模的數(shù)據(jù)挖掘技術(shù),能根據(jù)Internet本身的鏈接結(jié)構(gòu)對相關(guān)網(wǎng)站用自動方法進(jìn)行分類,提供便捷的網(wǎng)上信息查詢方法,并為查詢提供快速準(zhǔn)確的結(jié)果。Google使用PageRank技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高,然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位。PageRank并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對網(wǎng)頁B所投的一票。這樣,PageRank會根據(jù)網(wǎng)頁B所收到的投票數(shù)量來評估該頁的重要性。此外,PageRank還會評估每個投票網(wǎng)頁的重要性,因?yàn)槟承┚W(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。重要網(wǎng)頁獲得的PageRank(網(wǎng)頁排名)較高,從而顯示在搜索結(jié)果的頂部。Google技術(shù)使用網(wǎng)上反饋的綜合信息來確定某個網(wǎng)頁的重要性。搜索結(jié)果沒有人工干預(yù)或操縱,這也是為什么Google會成為一個廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來源。Google支持使用中、英、德、日、法等57種語言,支持新聞組的Web方式瀏覽和張貼、目錄服務(wù)、PDF文檔搜索、地圖搜索、工具條、搜索結(jié)果翻譯、搜索結(jié)果過濾等功能。Google不僅擁有自身的獨(dú)立搜索引擎網(wǎng)站,還將其搜索引擎技術(shù)出售給世界上許多公司,目前,包括美國在線(AOL)在內(nèi)的全球150多家公司采用了Google搜索引擎技術(shù)。2010年3月,Google宣布停止了中國大陸地區(qū)的搜索服務(wù)。谷歌香港域名為.hk。(1)基本搜索(如圖4-7所示)。(2)高級搜索。單擊Google中文主頁中的“高級搜索”鏈接,進(jìn)入高級搜索頁面,如圖4-8所示。在高級搜索方式下,用戶可以通過檢索文本框和下拉列表來確定搜索條件。除了可對關(guān)鍵詞的內(nèi)容和匹配方式進(jìn)行限制外,還可以從語言、文件格式、日期、字詞位置、網(wǎng)域、使用權(quán)限、搜索特定網(wǎng)頁和特定主題等方面進(jìn)行檢索條件和檢索范圍的限定。此外,Google允許用戶按照個人愛好設(shè)置“使用偏好”,并可以保存以供將來使用。(3)搜索范圍限制功能。除了高級搜索提供的多種搜索條件選擇外,Google還提供按鏈接和網(wǎng)域等進(jìn)行搜索范圍的限制。“site:”表示搜索結(jié)果局限于某個具體網(wǎng)站或者網(wǎng)站頻道,如“信息素質(zhì)site:”表示在新浪網(wǎng)上搜索信息素質(zhì)的有關(guān)資料。如果要排除某網(wǎng)站或者域名范圍內(nèi)的頁面,則用“-site:網(wǎng)站/域名”即可?!癴iletype”是Google開發(fā)的非常實(shí)用的一個搜索語法。也就是說,Google不僅能搜索一般的文字頁面,還能對某些二進(jìn)制文檔進(jìn)行檢索。目前,Google已經(jīng)能檢索?.xls、.ppt、.doc、.rtf、.pdf、.swf等多種文檔。如搜索資產(chǎn)負(fù)債表的Office文檔,可輸入“資產(chǎn)負(fù)債表filetype:docORfiletype:xlsORfiletype:ppt”。Google中可用“inurl”語法,使搜索的關(guān)鍵詞包含在URL鏈接中?!癷nurl”語法表示返回的網(wǎng)頁鏈接中一定包含第一個關(guān)鍵詞,后面的關(guān)鍵詞可出現(xiàn)在鏈接中或者網(wǎng)頁文檔中。有很多網(wǎng)站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁名稱中,比如“MP3”“GALLARY”等,于是,就可以用“inurl”語法找到這些相關(guān)資源鏈接,然后,用第二個關(guān)鍵詞確定是否有某項(xiàng)具體資料。例如,查找MIDI曲“滄海一聲笑”,可以輸入“inurl:midi“滄海一聲笑””?!癷nurl”語法和基本搜索語法的最大區(qū)別在于,前者通常能提供非常精確的專題資料。Google中可使用“intitle”語法,使搜索的關(guān)鍵詞包含在網(wǎng)頁標(biāo)題中?!癷ntitle”的用法類似于上面的inurl,只是后者對URL進(jìn)行查詢,而前者對網(wǎng)頁的標(biāo)題欄進(jìn)行查詢。網(wǎng)頁標(biāo)題就是HTML標(biāo)記語言title中間的部分。通常,網(wǎng)頁設(shè)計(jì)的一個原則就是要把主頁的關(guān)鍵內(nèi)容用簡潔的語言表示在網(wǎng)頁標(biāo)題中。因此,只查詢標(biāo)題欄,通常也可以找到符合要求的專題頁面。Google可查找所有包含了某個指定URL的頁面列表。如果你擁有一個個人網(wǎng)站,估計(jì)很想知道有多少人對你的網(wǎng)站作了鏈接,而“l(fā)ink”語法就能迅速達(dá)到這個目的。例如,搜索所有含指向華軍軟件園“”鏈接的網(wǎng)頁,可輸入“l(fā)ink:”。需要注意的是,“l(fā)ink”不能與其他語法混合操作,所以“l(fā)ink:”后面即使有空格,也將被Google忽略。另外還要說明的是,link只列出了Google索引鏈接的很小一部分,而非全部,所以如果使用Google沒有搜到鏈接到你主頁的鏈接,也不必灰心喪氣。除了上述功能,link語法還有其他妙用。例如,做友情鏈接的網(wǎng)站都有相似地方。這樣,通過這些友情鏈接,可以找到一大批具有相似內(nèi)容的網(wǎng)站。Google可使用“related”命令查找與某個頁面結(jié)構(gòu)內(nèi)容相似的頁面。例如,搜索所有與中文新浪網(wǎng)主頁相似的頁面,可輸入“related:”。Google中使用“cache”命令可搜索Google服務(wù)器上某頁面的緩存,查找某些已經(jīng)被刪除的死鏈接網(wǎng)頁。也就是說,“cache”命令相當(dāng)于使用普通搜索結(jié)果頁面中的“網(wǎng)頁快照”功能。(4)特色查詢功能。Google還提供一些特色的查詢功能,如手氣不錯、集成化工具條、網(wǎng)頁快照、類似網(wǎng)頁、網(wǎng)頁翻譯、單詞英文解釋和搜索結(jié)果過濾等。①
手氣不錯。如果在輸入關(guān)鍵詞后選擇“手氣不錯”按鈕,Google將帶你到它所推薦的網(wǎng)頁,省去許多麻煩。一般情況下,返回的網(wǎng)頁是符合檢索要求的第一個檢索結(jié)果的頁面。②
網(wǎng)頁快照。網(wǎng)頁快照是Google為網(wǎng)頁做的一份索引快照,用戶通過“網(wǎng)頁快照”功能,可以查看數(shù)據(jù)庫緩存中該網(wǎng)頁的存檔文件,而無須鏈接到網(wǎng)頁所在的網(wǎng)站。③
類似網(wǎng)頁。如果用戶對某一網(wǎng)站的內(nèi)容很感興趣,但網(wǎng)頁資源卻有限,可以單擊“類似網(wǎng)頁”,Google會幫助找尋與這一網(wǎng)頁相關(guān)的網(wǎng)頁和資料。④
集成化工具條。為了方便用戶,Google提供了工具條,集成在IE瀏覽器中,用戶無需打開Google主頁,就可以在工具條內(nèi)輸入關(guān)鍵字進(jìn)行檢索。此外,利用Google工具條,用戶可以快捷地在Google主頁、目錄服務(wù)、新聞組搜索、字典、高級搜索和搜索設(shè)定之間進(jìn)行切換。⑤
多元化服務(wù)。除了提供Web信息資源的檢索外,Google還推出了許多其他方面的服務(wù),如計(jì)算器、天氣查詢、股票查詢、郵編區(qū)號、電子郵件等。另外,Google還提供圖片搜索、新聞搜索、文檔搜索、網(wǎng)上論壇搜索、博客搜索、學(xué)術(shù)搜索、快訊搜索和代碼搜索等功能。用戶可以根據(jù)自己的需求體驗(yàn)Google更多產(chǎn)品,如圖4-9所示。3)雅虎()雅虎是美國著名的互聯(lián)網(wǎng)門戶網(wǎng)站,由楊致遠(yuǎn)和大衛(wèi)·費(fèi)羅于1994年在美國創(chuàng)立。雅虎是20世紀(jì)末互聯(lián)網(wǎng)奇跡的創(chuàng)造者之一,雅虎是全球第一家提供因特網(wǎng)導(dǎo)航服務(wù)的網(wǎng)站,是最老的“分類目錄”搜索數(shù)據(jù)庫,也是最重要的搜索服務(wù)網(wǎng)站之一。2003年3月,雅虎完成對Inktomi的收購,成為Google的主要競爭對手之一。在過去的幾年中,雅虎公司又收購了Inktomi、Overtune、Fast、AltaVista、Kelkoo等五家可與Google匹敵的國際知名搜索服務(wù)商,打造出獨(dú)特的雅虎搜索技術(shù)。在美國,有400余名雅虎資深工程師組成的開發(fā)團(tuán)隊(duì)在進(jìn)行YST的核心技術(shù)開發(fā)。2014年9月,雅虎宣布關(guān)閉目錄搜索服務(wù)。雅虎主頁如圖4-10所示。4)?Lycos()Lycos是一個多功能搜索引擎,主頁如圖4-11所示。它于1994年8月開始在網(wǎng)上運(yùn)行,目前是Lycos集團(tuán)公司Lycosnetwork服務(wù)的成員之一。Lycos借助自動搜索軟件收集網(wǎng)頁、人名、企業(yè)名錄、多媒體、音樂/MP3、討論組、新聞、產(chǎn)品信息等多種類型的資源,搜索結(jié)果精確度較高,尤其是搜索圖像和音頻文件的功能很強(qiáng)。Lycos支持布爾邏輯運(yùn)算符(AND、OR、NOT)、精確檢索符(雙引號),也可在檢索詞前加“+”表示該詞一定出現(xiàn),檢索詞前加“-”表示該詞一定不出現(xiàn)。個人Lycos主頁可根據(jù)個人興趣和愛好設(shè)置相關(guān)的檢索參數(shù)。此外,Lycos還提供游戲、電子郵件、音樂、購物、個性化Lycos、新聞快訊等服務(wù)。5)?Excite(http://www.E)Excite是由斯坦福大學(xué)的幾個大學(xué)生于1993年8月創(chuàng)建的Architext擴(kuò)展而成的萬維網(wǎng)搜索引擎,目前屬于AskJeeves公司。Excite提供網(wǎng)頁檢索、主題目錄檢索、新聞檢索、圖片檢索和視頻檢索等服務(wù)。Excite可以采用雙引號進(jìn)行精確檢索,“+”表示其后的檢索詞一定出現(xiàn),“-”表示其后的檢索詞不能出現(xiàn)。此外,Excite還提供個性化定制服務(wù),用戶可以根據(jù)自己的興趣愛好設(shè)置個性化的界面格式、內(nèi)容、布局或者顏色。2.元搜索引擎1)?MetaCrawler()MetaCrawler是最早的一個集合型搜索引擎,由華盛頓大學(xué)的EricSelberg和OrenEtzioni于1994年開發(fā),曾被評為綜合性能最優(yōu)良的集合搜索引擎。2000年MetaCrawler加入InfoSpaceNetwork服務(wù),隸屬于InfoSpace公司。MetaCrawler沒有自己的網(wǎng)頁索引數(shù)據(jù)庫,只充當(dāng)用戶的檢索代理,可調(diào)用Google、Yahoo!和Yandex等幾個搜索引擎來查找信息。在檢索過程中,MetaCrawler提供統(tǒng)一的檢索界面,將用戶檢索請求轉(zhuǎn)換成成員搜索引擎的檢索指令,然后對檢索結(jié)果進(jìn)行轉(zhuǎn)換、查重和排序。MetaCrawler可檢索網(wǎng)頁、圖片、視頻、新聞、黃頁、白頁等多種信息資源,檢索界面簡潔、直觀,操作簡便,有基本檢索和高級檢索兩種方式?;緳z索無法構(gòu)造復(fù)雜檢索式,不支持布爾邏輯運(yùn)算符、精確檢索符(“”)、通配符(*)等。高級檢索提供了大量限制檢索條件的選項(xiàng),用戶可以指定檢索式包含的檢索詞(組)式、不包含的檢索詞(組),運(yùn)用布爾邏輯運(yùn)算符構(gòu)造檢索式,設(shè)置是否過濾相關(guān)的語種和網(wǎng)站。2)?Dogpile()Dogpile創(chuàng)建于1996年1月。早期的Dogpile只提供晨報(bào)新聞檢索,后來逐步發(fā)展成為最受歡迎的元搜索引擎之一。Dogpile是性能較好的元搜索引擎,可以調(diào)用包括Google、Yahoo!等搜索引擎來查找信息。Dogpile的搜索技術(shù)十分先進(jìn),可以使用“*”作為通配符,支持邏輯運(yùn)算符NOT、AND、OR和括號。Dogpile具有智能化的檢索程序和簡單易用的界面,用戶只需輸入檢索詞,然后單擊“GoFetch!”即可,如圖4-12所示。3.垂直搜索引擎(專業(yè)性搜索引擎)1)圖像搜索引擎萬維網(wǎng)上的圖像信息有多種形式,如圖像、圖形、位圖和動畫等。對于這些信息的查找,既可以利用Yahoo!、百度、Google、Lycos和AltaVista等綜合性搜索引擎的圖片檢索功能,也可以訪問一些搜集各種圖像資料的專業(yè)資料庫和俱樂部網(wǎng)站。此外,還可利用一些專門的圖像搜索引擎,如。2)地圖搜索引擎地圖搜索引擎是面向公眾提供電子地圖服務(wù)的網(wǎng)站,是檢索全國乃至世界地圖信息的重要工具。常用的地圖搜索引擎主要有百度地圖()、谷歌地圖(/maps)、高德地圖()、搜狗地圖(https://map.)、360地圖()、騰訊地圖()等。3)視頻搜索引擎利用視頻搜索引擎可以搜索感興趣的視頻。常用的視頻搜索引擎有百度視頻()、搜狗視頻()、騰訊視頻()、愛奇藝()和360視頻()等。4)讀書搜索引擎利用讀書搜索引擎可以搜索圖書全文,查找感興趣的圖書。常用的讀書搜索引擎有豆瓣讀書()、百度閱讀()、網(wǎng)易云閱讀(http://yuedu.163.com/book)、多看閱讀()、超星讀書()和讀秀()等。5)論壇搜索引擎論壇搜索引擎專注于抓取論壇里的內(nèi)容,是一種專業(yè)化的搜索引擎。論壇具有交互性和參與性等特點(diǎn),很多時候,譬如想查找關(guān)于某人某事的評論,論壇搜索引擎是不錯的選擇。常用的論壇搜索引擎有搜狗知乎()、360問答(/)和百度知道()等。6)工作搜索引擎
以前,求職或者招聘信息通常通過紙媒、電視和廣播等途徑傳播。網(wǎng)絡(luò)興起以后,有許多專業(yè)招聘網(wǎng)站,如前程無憂()、智聯(lián)招聘()等開始提供招聘信息,通過網(wǎng)絡(luò)找工作成了流行的求職方法。后來,又出現(xiàn)了許多工作搜索引擎,如職友集()和C()等。
7)法律搜索引擎若想了解有關(guān)法律法規(guī)的內(nèi)容,可以利用國家法律法規(guī)數(shù)據(jù)庫(https://flk.npc./xf.html)、法律教育網(wǎng)(/falvfagui/)、中國法律檢索系統(tǒng)(https://law./)、法律快搜(/)和法律之星(/)等。8)?P2P搜索引擎P2P(Peer-to-Peer)意為對等網(wǎng)絡(luò),是與C/S相對應(yīng)的網(wǎng)絡(luò)運(yùn)作模式,其顯著特點(diǎn)是整個網(wǎng)絡(luò)不存在中心節(jié)點(diǎn)(或中心服務(wù)器),其中的每一個節(jié)點(diǎn)(Peer)同時具有信息消費(fèi)者、信息提供者和信息通信等三方面的功能。P2P搜索引擎相對一般網(wǎng)站搜索引擎而言,傳播速度更快,獲取更方便,適用于大流量網(wǎng)絡(luò)信息資源的共享和獲取。目前,我國的P2P搜索主要在BT搜索領(lǐng)域,多用于軟件、電影、音樂、書籍和游戲的搜索和獲取。目前常用的P2P搜索引擎主要有P2PSearcher、BTDigg等。4.3開放存取4.3.1開放存取的含義開放存取(OpenAccess,OA)是國際科技界、學(xué)術(shù)界、出版界、圖書館界為推動科研成果自由傳播而發(fā)起的運(yùn)動,其目的是促進(jìn)科學(xué)信息的廣泛傳播,促進(jìn)學(xué)術(shù)信息的交流與出版,提升科學(xué)研究的公共利用程度,保障科學(xué)信息的長期保存。開放存取是一種新的學(xué)術(shù)信息交流方法,作者提交作品不是為了得到直接的金錢回報(bào),而是為了作品的傳播和利用。對于“開放存取”,國內(nèi)外很多組織和研究者都分別按照自己的理解給出了不同的定義。2001年12月1~2日,開放社會研究所在匈牙利布達(dá)佩斯召集了一次有關(guān)OA的國際研討會,起草和發(fā)表了《布達(dá)佩斯開放存取計(jì)劃》。該計(jì)劃首次給出了開放存取的完整定義:“對于某文獻(xiàn),存在多種不同級別和種類的、范圍更廣、更容易操作的存取方法。對某文獻(xiàn)的‘開放存取’意味著它在Internet公共領(lǐng)域里可以被免費(fèi)獲取。2003年4月,來自德國、英國和美國的24位科學(xué)家在美國馬里蘭州的百斯達(dá)(Bethesda)HowardHughes醫(yī)學(xué)研究所召開了會議,達(dá)成并起草了會議聲明,以促進(jìn)實(shí)現(xiàn)生物醫(yī)學(xué)原創(chuàng)科技文獻(xiàn)的開放存取。同年的6月20日正式發(fā)表的《關(guān)于開放存取出版的百斯達(dá)宣言》認(rèn)為開放存取的作品必須滿足以下兩個條件:(1)文獻(xiàn)作者或著作權(quán)人授權(quán)世界范圍的所有用戶,可以合理地在任何數(shù)字媒體上免費(fèi)、無條件地獲取他們的文獻(xiàn)。用戶可以公開地復(fù)制、利用、擴(kuò)散、傳遞和演示這些文獻(xiàn),可以創(chuàng)作和傳播基于這些文獻(xiàn)的新作品,可為個人使用打印出少量復(fù)本。(2)作品的完整版本、所有附件和上述授權(quán)聲明要以適當(dāng)?shù)臉?biāo)準(zhǔn)電子格式,應(yīng)立即存儲在至少一個網(wǎng)絡(luò)數(shù)據(jù)庫中。這些數(shù)據(jù)庫通常由某些研究機(jī)構(gòu)、學(xué)術(shù)團(tuán)體、政府部門或其他知名組織采用適當(dāng)?shù)募夹g(shù)標(biāo)準(zhǔn)建立和維護(hù),旨在將其建設(shè)成為開放存取的、傳播不受限制的、可互操作的、長期保存的檔案。這一概念從開放存取作品的角度來定義開放存取,強(qiáng)調(diào)開放存取作品必須具備的兩個要素。美國研究圖書館協(xié)會將開放存取解釋為“在基于訂閱的傳統(tǒng)出版模式以外的另一種選擇”,即通過新的數(shù)字技術(shù)和網(wǎng)絡(luò)化通信,任何人都可以及時、免費(fèi)、不受任何限制地通過網(wǎng)絡(luò)獲取各類文獻(xiàn),包括經(jīng)過同行評議過的期刊文章、參考文獻(xiàn)、技術(shù)報(bào)告、學(xué)位論文等全文信息,用于科研教育及其他活動,從而促進(jìn)科學(xué)信息的廣泛傳播和學(xué)術(shù)信息的交流與出版,提升科學(xué)研究的被利用程度,保障科學(xué)信息的長期保存。4.3.2開放存取的特點(diǎn)1.學(xué)術(shù)信息交流方便快捷開放存取以因特網(wǎng)為信息交流平臺,主要有開放存取期刊和開放存取知識庫等形式。開放存取期刊以網(wǎng)絡(luò)期刊為主,作者網(wǎng)上投稿,專家網(wǎng)上審稿。開放存取知識庫以學(xué)科或機(jī)構(gòu)為依托。開放存取模式注重信源、信宿之間交流的直接性和交互性,可以實(shí)現(xiàn)作者、編輯、讀者之間一對一、一對多、多對多的交互模式;開放存取注重學(xué)術(shù)交流的時效性,免去了傳統(tǒng)出版物漫長的評審與出版過程,縮短了出版周期,提高了信息交流的效率。2.學(xué)術(shù)信息易于獲取開放存取的宗旨是在網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)學(xué)術(shù)信息的廣泛傳播和自由共享。開放存取不僅極大地方便了科研人員獲取研究所需的文獻(xiàn)資料,也增加了作者發(fā)表作品的機(jī)會,提高了作者的影響力和學(xué)術(shù)地位。3.開放存取內(nèi)容豐富、形式多樣開放存取模式對學(xué)術(shù)信息的質(zhì)量要求非常嚴(yán)格,而在內(nèi)容和形式方面則沒有限制。開放存取作品形式多樣,不僅包括純文本的電子出版物,如電子學(xué)術(shù)論文、學(xué)位論文,還包括視頻、音頻等各種媒體形式的學(xué)術(shù)信息,如會議錄、會議文獻(xiàn)、技術(shù)報(bào)告、數(shù)據(jù)集、教學(xué)資料和講座等。4.學(xué)術(shù)信息可以自由傳播開放存取是基于網(wǎng)絡(luò)傳播學(xué)術(shù)信息的,科研人員可以隨時發(fā)布學(xué)術(shù)成果,可以在線與同行交流,也可以隨時修改已經(jīng)發(fā)表的作品。因而,開放存取具有很高的靈活度。開放存取強(qiáng)調(diào)開放式傳播,同一文獻(xiàn)可以在多個網(wǎng)絡(luò)服務(wù)器上存儲,可以以多種途徑檢索和閱覽,交流范圍覆蓋整個因特網(wǎng),各系統(tǒng)間具有良好的互操作性。4.3.3開放存取的主要實(shí)現(xiàn)途徑開放存取是基于開放存取理念,通過網(wǎng)絡(luò)向用戶免費(fèi)提供信息所采用的各種方式和方法。一般認(rèn)為,開放存取的途徑包括開放存取期刊、開放存取知識庫、個人Web站點(diǎn)、電子書、郵件列表服務(wù)、論壇、博客、維基、RSS種子、P2P的文檔共享網(wǎng)絡(luò)等多種形式。1.開放存取期刊開放存取期刊就是能在因特網(wǎng)上自由獲取的學(xué)術(shù)性網(wǎng)絡(luò)期刊。開放存取期刊允許用戶進(jìn)行閱讀、下載、復(fù)制、分發(fā)、打印、檢索鏈接到全文,用于編制索引、作為軟件數(shù)據(jù)使用或者其他合法目的,除需要上網(wǎng)之外,沒有其他的經(jīng)濟(jì)、法律以及技術(shù)障礙。但進(jìn)行分發(fā)和復(fù)制的唯一限制和規(guī)定是允許文章作者對其作品完整性以及署名權(quán)和引用權(quán)進(jìn)行控制。開放存取期刊之所以能夠?yàn)閺V大網(wǎng)絡(luò)用戶免費(fèi)使用,關(guān)鍵在于其獨(dú)特的付費(fèi)模式即現(xiàn)在最流行的作者付費(fèi)模式。作者付費(fèi)模式是針對傳統(tǒng)讀者付費(fèi)模式而言的,即作者為出版自己的研究成果需要支付一定的出版費(fèi)用,并為讀者提供免費(fèi)服務(wù)。開放存取的倡導(dǎo)者認(rèn)為作者付費(fèi)模式具有合理性并可以保證開放存取期刊出版的可持續(xù)發(fā)展,因?yàn)榭蒲泄ぷ髡呔哂刑烊话l(fā)表自己的科研成果的愿望,而且,發(fā)表論文的作者大多數(shù)有來自基金項(xiàng)目或研究單位的經(jīng)費(fèi)支持。目前,已有越來越多的機(jī)構(gòu)同意為通過開放存取這種方式發(fā)表論文支付費(fèi)用。影響較大的開放存取期刊有科學(xué)公共圖書館期刊和生物醫(yī)學(xué)中心期刊等。2.開放存取知識庫開放存取知識庫包括基于學(xué)科的開放存取知識庫和基于機(jī)構(gòu)的開放存取知識庫。arXive印本文庫是前者的代表,目前主要有物理學(xué)、數(shù)學(xué)、非線性科學(xué)、計(jì)算機(jī)科學(xué)以及計(jì)量生物學(xué)等學(xué)科。佛羅里達(dá)州立大學(xué)的D-Scholarship知識庫是后者的典型,主要為佛羅里達(dá)州立大學(xué)的各個院系及研究人員提供研究成果和教學(xué)資料等方面的自我存檔和自我管理的全面服務(wù)。從存儲對象來看,D-Scholarship知識庫不僅存儲論文的預(yù)印本,而且存儲包括工作文檔、技術(shù)報(bào)告、會議錄、實(shí)驗(yàn)數(shù)據(jù)、電子演示文稿和多媒體文件等電子格式的學(xué)術(shù)內(nèi)容。開放存取知識庫的資源不是依靠同行評審來保證質(zhì)量的,而是主要通過限定學(xué)科范圍,并依靠機(jī)構(gòu)和作者的水平來進(jìn)行衡量的。開放存取知識庫的內(nèi)容既包括預(yù)印本,也包括后印本。除了電子文本格式的資料外,開放存取還包括各種課件甚至多媒體聲像資料等數(shù)字化資源。開放存取知識庫的免費(fèi)使用程度由作者控制。在預(yù)印本狀態(tài),作者擁有版權(quán),可以自由決定是否將文獻(xiàn)加入知識庫。如果后印本版權(quán)已經(jīng)轉(zhuǎn)給了期刊出版機(jī)構(gòu),作者要將文獻(xiàn)加入知識庫就必須征得期刊出版機(jī)構(gòu)的許可,當(dāng)然大多數(shù)期刊(超過70%)還是允許這樣做的。開放存取知識庫最實(shí)用之處在于它們都遵循開放文檔創(chuàng)始計(jì)劃協(xié)議,即可以進(jìn)行元數(shù)據(jù)收割以達(dá)到相互操作的目的,這就意味著用戶在檢索知識庫中的文獻(xiàn)時并不需要明確知道其準(zhǔn)確的位置以及詳細(xì)內(nèi)容。作為最主要的開放存取實(shí)現(xiàn)方式之一,開放存取知識庫的發(fā)展前景令人看好。其運(yùn)行費(fèi)用低廉,適用軟件眾多,操作使用方便,一般依靠大學(xué)或者研究機(jī)構(gòu),多方處于一種共贏的局面,確保了其良好的發(fā)展基礎(chǔ)。5.1數(shù)據(jù)庫概述
5.2綜合全文數(shù)據(jù)庫
5.3數(shù)字圖書
5.4著名的學(xué)術(shù)評價檢索系統(tǒng)搜索引擎搜索到的信息大約只占網(wǎng)絡(luò)信息資源的16%,其余84%的資源對于這些搜索工具是不可見的,稱為隱蔽網(wǎng)絡(luò)。這些“隱蔽網(wǎng)絡(luò)”中包含對學(xué)習(xí)科研極為重要的各類中外文網(wǎng)絡(luò)數(shù)據(jù)庫。中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)庫資源系統(tǒng)、維普數(shù)據(jù)庫系統(tǒng)、EBSCOhost、ProQuest、SpringerLink、Elsevier和ISIWebofScience等均是國內(nèi)影響力和利用率都很高的中外文數(shù)字資源。它們已經(jīng)成為大多數(shù)高等院校、公共圖書館和科研機(jī)構(gòu)文獻(xiàn)信息保障系統(tǒng)的重要組成部分,是科研人員進(jìn)行科學(xué)研究、科技查新、論文寫作的重要信息來源,也是中外文學(xué)術(shù)信息的重要代表。5.1數(shù)據(jù)庫概述數(shù)據(jù)庫是對大量的規(guī)范化數(shù)據(jù)進(jìn)行管理的技術(shù),它將要處理的數(shù)據(jù)經(jīng)合理分類和規(guī)范化處理后,以記錄形式存儲于計(jì)算機(jī)中,用戶通過關(guān)鍵詞及其組配查詢,就可以找到所需信息或其線索。利用數(shù)據(jù)庫技術(shù)進(jìn)行網(wǎng)絡(luò)信息資源的組織可以很大程度地提高信息的有序性、完整性、可理解性和安全性,提高了對大量的結(jié)構(gòu)化數(shù)據(jù)的處理效率。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,集網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)于一體的網(wǎng)絡(luò)數(shù)據(jù)庫已經(jīng)成為網(wǎng)絡(luò)資源的重要組成部分,其所存儲的都是經(jīng)過人工嚴(yán)格收集、整理加工和組織的具有較高的學(xué)術(shù)價值和科研價值的信息。由于各個數(shù)據(jù)庫后臺的異構(gòu)性和復(fù)雜性,以及對其使用的限制,利用一般性的網(wǎng)絡(luò)信息檢索工具,如搜索引擎等,無法檢索出其中的信息資源,因此必須利用各個數(shù)據(jù)庫的專用檢索系統(tǒng)。在海量信息的背景下,許多數(shù)據(jù)庫引入了知識發(fā)現(xiàn)技術(shù),以幫助用戶更加高效、便捷地檢索到所需信息,避免用戶“迷失”在海量的信息中。按照收錄的信息類型不同,可將數(shù)據(jù)庫分為綜合全文數(shù)據(jù)庫、文摘題錄數(shù)據(jù)庫、引文數(shù)據(jù)庫、數(shù)字圖書數(shù)據(jù)庫等。5.2綜合全文數(shù)據(jù)庫5.2.1中國知網(wǎng)(CNKI)1.?CNKI概述CNKI即中國知識基礎(chǔ)設(shè)施工程(ChinaNationalKnowledgeInfrastructure,CNKI,網(wǎng)址為),又稱中國知網(wǎng)、中國知識資源總庫、中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫,由清華大學(xué)、清華同方光盤股份有限公司、中國學(xué)術(shù)期刊電子雜志社等單位共同研制開發(fā),始建于1999年6月,是目前世界上信息量最大、信息內(nèi)容最全的中文數(shù)字圖書館。其內(nèi)容覆蓋各個學(xué)科領(lǐng)域,文獻(xiàn)類型包括學(xué)術(shù)期刊、博士學(xué)位論文、優(yōu)秀碩士學(xué)位論文、工具書、重要會議論文、年鑒、專著、報(bào)紙、專利、標(biāo)準(zhǔn)、科技成果、知識元、哈佛商業(yè)評論數(shù)據(jù)庫、古籍等。中國知網(wǎng)已經(jīng)與一些外文數(shù)據(jù)庫建立了合作關(guān)系,可與德國Springer公司期刊庫等外文資源進(jìn)行統(tǒng)一檢索。CNKI所有資源都提供免費(fèi)題錄檢索,檢索結(jié)果可顯示到文獻(xiàn)的題錄和文摘。但獲取全文需付費(fèi),用戶可通過3種方式使用該網(wǎng)站全文資源:(1)購買讀者卡。(2)包庫或鏡像。(3)通過銀行或網(wǎng)絡(luò)實(shí)時支付。對于包庫用戶,站點(diǎn)一般通過用戶的IP地址控制;對于個人用戶,站點(diǎn)只進(jìn)行身份驗(yàn)證。2.數(shù)據(jù)庫介紹CNKI數(shù)據(jù)庫中的期刊、學(xué)位論文、報(bào)紙、會議文獻(xiàn)、引文數(shù)據(jù)庫都按學(xué)科分為自然科學(xué)與工程技術(shù)、人文與社會科學(xué)兩大類十大專輯。自然科學(xué)與工程技術(shù)類包括基礎(chǔ)科學(xué)(數(shù)、理、化、天、地、生)、工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 珠寶首飾設(shè)計(jì)與傳統(tǒng)手工藝結(jié)合考核試卷
- 石墨在磁共振成像(MRI)材料的應(yīng)用考核試卷
- 玻璃藝術(shù)壁畫考核試卷
- 燃料銷售點(diǎn)的服務(wù)流程再造考核試卷
- 教育培訓(xùn)行業(yè)的市場趨勢與資本運(yùn)作模式考核試卷
- 森林經(jīng)營與管護(hù)的人才評價與激勵考核試卷
- 玻璃纖維增強(qiáng)塑料的防潮防霉技術(shù)考核試卷
- 2024年度廣西壯族自治區(qū)國家保安員資格考試考試題庫
- 燃?xì)饩咝袠I(yè)新能源技術(shù)發(fā)展趨勢考核試卷
- 2024年美縫施工綠色環(huán)保合同樣本3篇
- 三年級下冊美術(shù)教案-第9課 畫古樹 ▏人美版(北京)
- GB/T 11085-1989散裝液態(tài)石油產(chǎn)品損耗
- 紫外線燈管強(qiáng)度監(jiān)測表
- 市場營銷中心項(xiàng)目建設(shè)方案
- 質(zhì)量信得過班組創(chuàng)建計(jì)劃
- 浙江英語中考作文范文10篇
- 遼寧大學(xué)2023年畢業(yè)生就業(yè)質(zhì)量報(bào)告(同名21742)
- 新聞學(xué)概論重點(diǎn)總結(jié)
- 制袋機(jī)的基礎(chǔ)知識課件
- 電力排管工程施工組織方案
- 2022年中考英語復(fù)習(xí)新題速遞之選句補(bǔ)全短文4
評論
0/150
提交評論