



全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從引文分析看網(wǎng)絡(luò)結(jié)構(gòu)挖掘洪光宗深圳圖書(shū)館 廣東 深圳 518026摘要本文在闡述引文分析的原理及作用的基礎(chǔ)上,分析了網(wǎng)絡(luò)結(jié)構(gòu)挖掘的原理和作用,并給出了網(wǎng)絡(luò)結(jié)構(gòu)挖掘技術(shù)在搜索引擎中幾例初步應(yīng)用。關(guān)鍵詞引文分析 網(wǎng)絡(luò)結(jié)構(gòu)挖掘 網(wǎng)絡(luò)數(shù)據(jù)挖掘Analyzing Web Structure Mining From Citation Analysis AspectHong GuangzongShenzhen Library, Shenzhen , Guangdong 518026AbstractThe method of web structure mining originates from citation analysis, the article at first sets forth the principle and function of the citation analysis, then analyses the principle and function of web structure mining. At present, the technology of web structure mining is applied into search engine and has got a good effect on it.KeywordCitation; Citation analysis; Web structure mining; Web data mining1955 年,加菲爾德博士發(fā)表了具有劃時(shí)代意義的引文索引論文Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas, 1964 年,推出了第一個(gè)科學(xué)引文索引。如今,世界各地的研究人員利用引文索引深入地研究和評(píng)估他們的工作。時(shí)代已經(jīng)跨入21世紀(jì),互聯(lián)網(wǎng)風(fēng)行全球,大量的數(shù)據(jù)資源以二進(jìn)制的形式存貯,并以超級(jí)鏈接的形式將這些資源聯(lián)結(jié)成一個(gè)立體網(wǎng)絡(luò)。那么,挖掘出這些數(shù)據(jù)資源之間的內(nèi)在聯(lián)系,為我們科學(xué)地分析和評(píng)估這些數(shù)據(jù)資源提供幫助,這正是網(wǎng)絡(luò)結(jié)構(gòu)挖掘的作用之所在。1 引文分析的原理及作用1.1 引文及引文分析 任何一篇論文都不是孤立存在的, 而是相互影響和相互聯(lián)系的,不同文獻(xiàn)間的聯(lián)系突出表現(xiàn)在文獻(xiàn)間的相互引用。那么,什么叫引文呢?簡(jiǎn)單而言,引文就是引用他人的著述。在科學(xué)著述活動(dòng)中,作者往往要直接或間接地引用他人的著述,以提供文章的佐證,提供歷史背景材料,來(lái)加強(qiáng)論述的可信度,幫助讀者更好地理解作者的觀點(diǎn)。詳細(xì)而言,引文便可以這樣描述:在文獻(xiàn)甲中提到或描述了文獻(xiàn)乙,并以文后參考書(shū)目或腳注的形式列出了文獻(xiàn)乙的出處,其目的在于指出信息的來(lái)源、提供某一觀點(diǎn)的依據(jù)、借鑒陳述某一事件(實(shí))等。這時(shí),便稱(chēng)文獻(xiàn)乙為文獻(xiàn)甲的引文,稱(chēng)文獻(xiàn)甲為文獻(xiàn)乙的引證文獻(xiàn)。引文通常也稱(chēng)為被引文獻(xiàn)或參考文獻(xiàn),引證文獻(xiàn)通常也稱(chēng)為來(lái)源文獻(xiàn)。文獻(xiàn)間的相互引用,表明知識(shí)信息內(nèi)容的繼承和利用, 標(biāo)志著學(xué)術(shù)研究的進(jìn)展。正因?yàn)橐脑诳茖W(xué)發(fā)展、學(xué)術(shù)研究中的特殊作用,對(duì)引文進(jìn)行研究分析,可以讓我們更清楚地發(fā)現(xiàn)文獻(xiàn)間的內(nèi)在聯(lián)系。所謂引文分析,就是對(duì)專(zhuān)業(yè)人員論著之間的引用與被引用的現(xiàn)象運(yùn)用統(tǒng)計(jì)、歸納、比較、抽象、概括等分析方法, 對(duì)科學(xué)期刊、論文、著者等各種分析對(duì)象的引用或被引用現(xiàn)象進(jìn)行分析,以揭示各種文獻(xiàn)集合以及與文獻(xiàn)交流有關(guān)的各種集合特征和集合之間聯(lián)系的文獻(xiàn)計(jì)量研究方法。引文分析作為一項(xiàng)學(xué)術(shù)成果,同時(shí)作為一種研究方法,其應(yīng)用十分廣泛。比如說(shuō),我們可以用引文分析法來(lái)進(jìn)行機(jī)構(gòu)和人才的評(píng)價(jià),作為科學(xué)管理的工具;也可以用來(lái)研究引文間立體網(wǎng)絡(luò)關(guān)系,從而提示科學(xué)發(fā)展、歷史背景、前景等;還可以用來(lái)進(jìn)行文獻(xiàn)檢索,對(duì)期刊地位進(jìn)行學(xué)術(shù)評(píng)價(jià)等。1.2 引文分析的原理從宏觀的角度來(lái)看,文獻(xiàn)間引用和被引用的特有關(guān)系構(gòu)成了文獻(xiàn)信息的整體,整個(gè)文獻(xiàn)信息構(gòu)成一張網(wǎng),這張網(wǎng)是以文獻(xiàn)(作者或期刊)為節(jié)點(diǎn)、以文獻(xiàn)引證關(guān)系為邊的鏈型、樹(shù)型、網(wǎng)型的結(jié)構(gòu),這些鏈、樹(shù)、網(wǎng)可以用加權(quán)有向圖統(tǒng)一描述。根據(jù)劃分的標(biāo)準(zhǔn)不同,網(wǎng)絡(luò)結(jié)構(gòu)也不一樣。時(shí)序網(wǎng)絡(luò)。在一組重要的具有代表性的引文中,每篇論文(或著者、或某期刊) 作為節(jié)點(diǎn),按時(shí)間先后標(biāo)以序號(hào),連接這些節(jié)點(diǎn)并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成引文時(shí)序網(wǎng)絡(luò)圖。時(shí)序網(wǎng)絡(luò)圖能夠展示出某個(gè)研究主題的論文源流、最初著者以及該主題發(fā)展的來(lái)龍去脈,從中可以探討科學(xué)技術(shù)的歷史發(fā)展和研究規(guī)律。同引網(wǎng)絡(luò)。當(dāng)兩篇或兩篇以上的文獻(xiàn)共同被后來(lái)的一篇或多篇的文獻(xiàn)引用,則稱(chēng)這兩篇文獻(xiàn)為同引,具有同引關(guān)系的兩篇文獻(xiàn)分別與其他文獻(xiàn)構(gòu)成同引關(guān)系,這些具有同引關(guān)系的文獻(xiàn)形成的網(wǎng)絡(luò)被稱(chēng)為同引網(wǎng)絡(luò)。利用同引關(guān)系進(jìn)行分析研究,可以展示和預(yù)測(cè)科學(xué)情報(bào)交流、傳遞的結(jié)果,同時(shí)也是文獻(xiàn)檢索的一種好方法。耦合網(wǎng)絡(luò)。若兩篇文獻(xiàn)共同引用了一篇或多篇文獻(xiàn),則稱(chēng)這兩篇文獻(xiàn)有耦合關(guān)系,如果多篇文獻(xiàn)間具有耦合關(guān)系,則構(gòu)成一個(gè)耦合網(wǎng)絡(luò)。從文獻(xiàn)耦合關(guān)系可以定量地分析文獻(xiàn),描繪出某一領(lǐng)域內(nèi)的科學(xué)研究趨向,還可彌補(bǔ)傳統(tǒng)檢索方法的不足。1.3 引文分析的作用科學(xué)文獻(xiàn)的相互引用,說(shuō)明了知識(shí)信息內(nèi)容的繼承和利用,標(biāo)志著科學(xué)循序漸進(jìn)的發(fā)展。利用引文分析,我們可以通過(guò)影響因子來(lái)評(píng)價(jià)期刊的影響程度,也可以利用論文被引證次數(shù)可以評(píng)價(jià)個(gè)人,同時(shí)還可以對(duì)期刊和學(xué)科的學(xué)術(shù)影響力進(jìn)行評(píng)價(jià)。因此,引文分析的作用是多方面的。(1)研究文獻(xiàn)結(jié)構(gòu)和科學(xué)結(jié)構(gòu)。引用文獻(xiàn)與被引文獻(xiàn)在學(xué)科上是相關(guān)的,這種相關(guān)性使文獻(xiàn)在學(xué)科上建立了的有機(jī)聯(lián)系,并以學(xué)科自行組織,構(gòu)成前后連貫的脈絡(luò)。通過(guò)求本溯源,找出文獻(xiàn)之間的聯(lián)系,從而研究文獻(xiàn)結(jié)構(gòu)和學(xué)科結(jié)構(gòu)。(2)研究文獻(xiàn)的動(dòng)態(tài)規(guī)律和用戶行為特征。引用數(shù)據(jù)顯示了用戶利用文獻(xiàn)的習(xí)慣和特征,無(wú)需通過(guò)其他方式對(duì)用戶進(jìn)行調(diào)查就可以獲得用戶的習(xí)慣與特征。了解了用戶的引用習(xí)慣,我們可以為其提供針對(duì)性很強(qiáng)的信息服務(wù)。 (3)研究科學(xué)發(fā)展史。每一篇文獻(xiàn)和引用文獻(xiàn)都是科學(xué)發(fā)展進(jìn)程中一個(gè)特定事件的記錄,因此,通過(guò)引文分析可以展現(xiàn)這些事件的發(fā)生和發(fā)展、揭示某種思想和實(shí)驗(yàn)的改善、擴(kuò)充及修正等等,據(jù)此進(jìn)行科學(xué)發(fā)展史的研究。 (4)評(píng)價(jià)人才、機(jī)構(gòu)和成果。文獻(xiàn)被引的多少、次數(shù),可以作為學(xué)術(shù)水平、價(jià)值的測(cè)度。目前,利用引文來(lái)評(píng)價(jià)機(jī)構(gòu)的科研實(shí)力的做法已被較為普遍地采用,例如中國(guó)科技信息研究所每年都根據(jù)SCI收錄的論文數(shù)和論文被引次數(shù)對(duì)我國(guó)高校和科研院所進(jìn)行排名,以比較這些高校和科研院所的創(chuàng)造能力。引文分析除了上述列舉的應(yīng)用之外,許多國(guó)家還用引文分析來(lái)確定科研資助政策和重點(diǎn)研究領(lǐng)域等等。2 網(wǎng)絡(luò)數(shù)據(jù)挖掘網(wǎng)絡(luò)信息挖掘是指在大量樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提取。例如,當(dāng)信息挖掘系統(tǒng)發(fā)現(xiàn)“信息源”,它就會(huì)自動(dòng)過(guò)濾掉與“信息源”無(wú)關(guān)的數(shù)據(jù),這樣可以大大減少用戶的檢索時(shí)間和成本。即除了處理傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)值型結(jié)構(gòu)化數(shù)據(jù)外,還可以是文本、圖形、圖像、網(wǎng)絡(luò)信息資源等半結(jié)構(gòu)、非結(jié)構(gòu)的數(shù)據(jù)。根據(jù)挖掘的對(duì)象不同, 網(wǎng)絡(luò)數(shù)據(jù)挖掘可以分為網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘以及網(wǎng)絡(luò)用法挖掘。2.1 網(wǎng)絡(luò)內(nèi)容挖掘網(wǎng)絡(luò)內(nèi)容挖掘即從網(wǎng)絡(luò)的內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息的過(guò)程。在互聯(lián)網(wǎng)中,一些信息是顯性的,而另外有一些網(wǎng)絡(luò)信息是“隱藏”著的數(shù)據(jù), 如由用戶的提問(wèn)而動(dòng)態(tài)生成的結(jié)果, 或存在于數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù), 它們無(wú)法被索引, 從而無(wú)法提供對(duì)它們有效的檢索方式。而通過(guò)網(wǎng)絡(luò)內(nèi)容挖掘,可出找出隱含在web頁(yè)面中的內(nèi)容,進(jìn)行更深層次的加工與處理。2.2 網(wǎng)絡(luò)用法挖掘通過(guò)網(wǎng)絡(luò)用法挖掘, 可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。網(wǎng)絡(luò)用法挖掘面對(duì)的是在用戶和網(wǎng)絡(luò)交互的過(guò)程中抽取出來(lái)的第二手?jǐn)?shù)據(jù)。這些數(shù)據(jù)包括: 網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡(jiǎn)介、注冊(cè)信息、用戶對(duì)話或交易信息、用戶提問(wèn)式等等。2.3 網(wǎng)絡(luò)結(jié)構(gòu)挖掘網(wǎng)絡(luò)結(jié)構(gòu)挖掘即挖掘Web 潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析, 即通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立Web 自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)歸類(lèi), 并且可以由此獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn), 并且可以概觀指向眾多權(quán)威站點(diǎn)的相關(guān)主題的站點(diǎn)。3 從引文分析看網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)挖掘網(wǎng)絡(luò)結(jié)構(gòu)挖掘理論源自于引文分析,它是引文分析在網(wǎng)絡(luò)領(lǐng)域的繼續(xù)與發(fā)展。引文分析主要著重于平面文獻(xiàn)之間的信息挖掘,找出引用文獻(xiàn)與被引文獻(xiàn)之間的邏輯關(guān)系,進(jìn)而為科學(xué)評(píng)估與科學(xué)管理、決策等服務(wù),而網(wǎng)絡(luò)結(jié)構(gòu)挖掘著重于網(wǎng)絡(luò)文獻(xiàn)之間和網(wǎng)絡(luò)文獻(xiàn)內(nèi)部的信息挖掘,找出同一主題下各超級(jí)鏈接間的鏈接與被鏈之間的邏輯關(guān)系,進(jìn)而找出同一主題下的中心站點(diǎn)、中心網(wǎng)頁(yè)和權(quán)威站點(diǎn)、權(quán)威網(wǎng)頁(yè),為用戶能夠準(zhǔn)確、快捷地使用網(wǎng)絡(luò)信息資源服務(wù)。3.1網(wǎng)絡(luò)中超級(jí)鏈接網(wǎng)絡(luò)就像由成千上萬(wàn)個(gè)互相連接、交織在一起的細(xì)胞組織起來(lái)的一個(gè)復(fù)雜結(jié)構(gòu),它將世界各地的眾多的計(jì)算機(jī)用戶和企業(yè)產(chǎn)品放在一個(gè)巨大的數(shù)據(jù)庫(kù)中。這些網(wǎng)絡(luò)中的龐大的數(shù)據(jù)資源正是通過(guò)超級(jí)鏈接作用到一起的。這些超鏈一方面引導(dǎo)用戶進(jìn)行網(wǎng)頁(yè)瀏覽,另一方面也反映出網(wǎng)頁(yè)創(chuàng)建者的一種判斷,即如果網(wǎng)頁(yè)甲存在一條超鏈指向網(wǎng)頁(yè)乙,那么表明網(wǎng)頁(yè)甲的作者認(rèn)為網(wǎng)頁(yè)乙包含了有價(jià)值的信息,網(wǎng)絡(luò)結(jié)構(gòu)挖掘正是分析與研究WWW中超鏈結(jié)構(gòu)信息的工具。3.2網(wǎng)絡(luò)結(jié)構(gòu)挖掘原理正是由于這些網(wǎng)絡(luò)資源并不是有序的,而是處于雜亂、無(wú)序的狀態(tài)。例如,同一主題的問(wèn)題它會(huì)出現(xiàn)在不同的站點(diǎn)中,并且這些內(nèi)容相關(guān)的WEB網(wǎng)頁(yè)并不一定會(huì)有鏈接。在互聯(lián)網(wǎng)中,超級(jí)鏈接的使用是隨機(jī)的,并非所有的超級(jí)鏈接都包含十分重要的信息,有的只是為了給用戶的瀏覽提供方便,而沒(méi)有其它的意義,我們?cè)谶@種提供瀏覽方便的超級(jí)鏈接稱(chēng)為瀏覽超級(jí)鏈接。而那些包含有語(yǔ)義信息的超級(jí)鏈接叫做語(yǔ)義超級(jí)鏈接。只有挖掘出語(yǔ)義超級(jí)鏈接才能幫助我們理解網(wǎng)頁(yè)文檔之間的意義,因此,我們?cè)谶M(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)挖掘時(shí)要?jiǎng)h去瀏覽超級(jí)鏈接,找出語(yǔ)義超級(jí)鏈接。網(wǎng)絡(luò)結(jié)構(gòu)挖掘的原理正是來(lái)源于引文分析,它認(rèn)為若網(wǎng)頁(yè)甲通過(guò)超鏈指向網(wǎng)頁(yè)乙,則網(wǎng)頁(yè)乙與網(wǎng)頁(yè)甲是主題相關(guān)的,網(wǎng)頁(yè)乙對(duì)于網(wǎng)頁(yè)甲來(lái)講是值得關(guān)注的網(wǎng)頁(yè),其中隱含著對(duì)網(wǎng)頁(yè)甲來(lái)說(shuō)有價(jià)值的信息。在互聯(lián)網(wǎng)中,相關(guān)主題的站點(diǎn)和頁(yè)面之間一般都存在大量的鏈接,通過(guò)這種鏈接方式相聚集。但主題相同的所有站點(diǎn)或頁(yè)面不一定會(huì)圍繞一個(gè)中心相聚集,也就是說(shuō)一個(gè)主題會(huì)存在多個(gè)聚集中心。聚集中心的站點(diǎn)或頁(yè)面之間的鏈接關(guān)系最為密切,內(nèi)容也最為相似,隨著內(nèi)容相似度的降低,相互的鏈接關(guān)系也會(huì)逐漸減少。另外,內(nèi)容上的關(guān)聯(lián)關(guān)系也會(huì)隨著鏈接級(jí)數(shù)的增加而降低,會(huì)從一個(gè)主題逐漸演化為另外一個(gè)主題。3.3網(wǎng)絡(luò)結(jié)構(gòu)挖掘的作用正如引文分析的作用一樣,我們分析網(wǎng)絡(luò)結(jié)構(gòu)挖掘,是因?yàn)樗軌驗(yàn)槲覀冊(cè)谶M(jìn)行網(wǎng)站評(píng)估、網(wǎng)站分析等提供量化的佐證。(1)了解各網(wǎng)站受歡迎和關(guān)注的程度。如果一個(gè)網(wǎng)站在同類(lèi)網(wǎng)站中被用戶點(diǎn)擊的次數(shù)越多,那么它就越受用戶的關(guān)注。同樣,如果一個(gè)網(wǎng)站在同類(lèi)網(wǎng)站中被別的網(wǎng)站鏈接的次數(shù)越多,那么它也受到同類(lèi)網(wǎng)絡(luò)主管的重視。相反,根據(jù)馬太效應(yīng),一個(gè)網(wǎng)站很少被點(diǎn)擊或者很少被鏈接,那么,它就會(huì)沉沒(méi)在茫茫網(wǎng)海中,無(wú)人問(wèn)津。(2)了解本站點(diǎn)與其它站點(diǎn)之間的關(guān)系。如果一個(gè)站點(diǎn)被別的站點(diǎn)鏈接,我們?cè)诔魹g覽超鏈的基礎(chǔ)上,那么這兩個(gè)站點(diǎn)之間應(yīng)該有語(yǔ)義相關(guān)關(guān)系,這兩個(gè)站點(diǎn)就可能為同一主題的相關(guān)站點(diǎn)。通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)挖掘,我們可以找出同一主題下分布在世界各地的站點(diǎn)中的相關(guān)文檔。(3)快速了解一個(gè)網(wǎng)站的內(nèi)部結(jié)構(gòu)。超鏈分為站內(nèi)超鏈和站外超鏈,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)挖掘分析站內(nèi)超鏈,可以找出本網(wǎng)頁(yè)和父網(wǎng)頁(yè)、子網(wǎng)頁(yè)之間的關(guān)系,進(jìn)而了解一個(gè)網(wǎng)站的內(nèi)部結(jié)構(gòu),為我們進(jìn)行網(wǎng)站設(shè)計(jì)提供參考與借鑒。(4)找出中心站點(diǎn)和核心站點(diǎn)??蜖柎髮W(xué)的Jon Kleinberg充分利用網(wǎng)站間的鏈接關(guān)系為人們?cè)跓o(wú)序的網(wǎng)絡(luò)世界中找出自己感興趣的、權(quán)威知識(shí)提供了一種方法。由于一個(gè)好的站點(diǎn),它的管理及設(shè)計(jì)人員都愿意提供鏈接可信度高的鏈接。因此,一個(gè)站點(diǎn)可以通過(guò)它所鏈接的網(wǎng)站的權(quán)威程度來(lái)衡量,同時(shí)它會(huì)推薦用戶許多好的權(quán)威站點(diǎn)。反過(guò)來(lái),這些又對(duì)其它網(wǎng)站的權(quán)威性起到了一定的增強(qiáng)作用,一個(gè)站點(diǎn),如果鏈接了許多權(quán)威站點(diǎn),那么它就是一個(gè)中心站點(diǎn);如果一個(gè)站點(diǎn)被其它中心站點(diǎn)鏈接,那么它就是一個(gè)權(quán)威站點(diǎn)。(5)找出同鏈關(guān)系和藕合鏈接關(guān)系。同鏈關(guān)系即二個(gè)或二個(gè)以上網(wǎng)站(頁(yè))同時(shí)被一個(gè)或多個(gè)網(wǎng)站(頁(yè))鏈接,藕合鏈接是二個(gè)以上的網(wǎng)站(頁(yè))同時(shí)鏈接一個(gè)或多個(gè)其它網(wǎng)頁(yè)。通過(guò)對(duì)它們進(jìn)行結(jié)構(gòu)挖掘,可以找出網(wǎng)站(頁(yè))之間的相互關(guān)系,同時(shí),還可以作為網(wǎng)站(頁(yè))檢索的一個(gè)好方法。3.4網(wǎng)絡(luò)結(jié)構(gòu)挖掘的應(yīng)用網(wǎng)絡(luò)結(jié)構(gòu)挖掘最典型的應(yīng)用是用于搜索引擎中,著名的網(wǎng)絡(luò)搜索引擎Google就是利用網(wǎng)絡(luò)結(jié)構(gòu)挖掘的相關(guān)原理。Google是通過(guò)爬蟲(chóng)軟件在網(wǎng)上“爬行”,URL服務(wù)器則負(fù)責(zé)向這些爬蟲(chóng)提供URL的列表,爬蟲(chóng)所找到的網(wǎng)頁(yè)被送到存儲(chǔ)服務(wù)器中,存儲(chǔ)服務(wù)器于是就把這些網(wǎng)頁(yè)壓縮后存入一個(gè)知識(shí)庫(kù)中。在存儲(chǔ)服務(wù)器中每個(gè)網(wǎng)頁(yè)都有一個(gè)關(guān)聯(lián)ID,當(dāng)一個(gè)新的URL從一個(gè)網(wǎng)頁(yè)中解析出來(lái)時(shí),就會(huì)被分配一個(gè)關(guān)聯(lián)ID。索引庫(kù)負(fù)責(zé)從知識(shí)庫(kù)中讀取記錄,將文檔解壓并進(jìn)行解析,同時(shí)分析網(wǎng)頁(yè)中所有鏈接并將重要信息存在相應(yīng)的文檔中。這個(gè)文檔包含了足夠信息,可以用來(lái)判
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)向個(gè)人汽車(chē)租賃合同
- 軟件服務(wù)轉(zhuǎn)讓合同
- 土方轉(zhuǎn)包運(yùn)輸合同
- 業(yè)務(wù)合作伙伴招募合同
- 合肥手房交易合同
- 衣柜合租合同范本
- 《有機(jī)化學(xué)》課程標(biāo)準(zhǔn)
- 醫(yī)療器戒租賃合同范本
- 水質(zhì)檢驗(yàn)工初級(jí)考試模擬題(含參考答案)
- 充電設(shè)備出租合同范本
- 養(yǎng)殖場(chǎng)滅鼠方案
- 《安徒生童話》閱讀指導(dǎo)課件
- 室外道路及管網(wǎng)工程擬投入的主要施工機(jī)械設(shè)備及測(cè)量?jī)x器表
- 腹部外傷護(hù)理查房記錄
- 橋面鋪裝三維激光攤鋪施工工法
- 優(yōu)質(zhì)課一等獎(jiǎng)小學(xué)綜合實(shí)踐《我也能發(fā)明》課件
- 部編人教版三年級(jí)下冊(cè)語(yǔ)文:荷花課件
- 螺紋牙強(qiáng)度校核計(jì)算
- 關(guān)于在生產(chǎn)過(guò)程中物料流轉(zhuǎn)的交接和管理規(guī)定
- XX學(xué)院社團(tuán)指導(dǎo)老師學(xué)期考核表
- 獸醫(yī)外科手術(shù)學(xué)與獸醫(yī)外科學(xué)章節(jié)測(cè)試及答案
評(píng)論
0/150
提交評(píng)論