



全文預覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
從引文分析看網(wǎng)絡結(jié)構(gòu)挖掘洪光宗深圳圖書館 廣東 深圳 518026摘要本文在闡述引文分析的原理及作用的基礎(chǔ)上,分析了網(wǎng)絡結(jié)構(gòu)挖掘的原理和作用,并給出了網(wǎng)絡結(jié)構(gòu)挖掘技術(shù)在搜索引擎中幾例初步應用。關(guān)鍵詞引文分析 網(wǎng)絡結(jié)構(gòu)挖掘 網(wǎng)絡數(shù)據(jù)挖掘Analyzing Web Structure Mining From Citation Analysis AspectHong GuangzongShenzhen Library, Shenzhen , Guangdong 518026AbstractThe method of web structure mining originates from citation analysis, the article at first sets forth the principle and function of the citation analysis, then analyses the principle and function of web structure mining. At present, the technology of web structure mining is applied into search engine and has got a good effect on it.KeywordCitation; Citation analysis; Web structure mining; Web data mining1955 年,加菲爾德博士發(fā)表了具有劃時代意義的引文索引論文Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas, 1964 年,推出了第一個科學引文索引。如今,世界各地的研究人員利用引文索引深入地研究和評估他們的工作。時代已經(jīng)跨入21世紀,互聯(lián)網(wǎng)風行全球,大量的數(shù)據(jù)資源以二進制的形式存貯,并以超級鏈接的形式將這些資源聯(lián)結(jié)成一個立體網(wǎng)絡。那么,挖掘出這些數(shù)據(jù)資源之間的內(nèi)在聯(lián)系,為我們科學地分析和評估這些數(shù)據(jù)資源提供幫助,這正是網(wǎng)絡結(jié)構(gòu)挖掘的作用之所在。1 引文分析的原理及作用1.1 引文及引文分析 任何一篇論文都不是孤立存在的, 而是相互影響和相互聯(lián)系的,不同文獻間的聯(lián)系突出表現(xiàn)在文獻間的相互引用。那么,什么叫引文呢?簡單而言,引文就是引用他人的著述。在科學著述活動中,作者往往要直接或間接地引用他人的著述,以提供文章的佐證,提供歷史背景材料,來加強論述的可信度,幫助讀者更好地理解作者的觀點。詳細而言,引文便可以這樣描述:在文獻甲中提到或描述了文獻乙,并以文后參考書目或腳注的形式列出了文獻乙的出處,其目的在于指出信息的來源、提供某一觀點的依據(jù)、借鑒陳述某一事件(實)等。這時,便稱文獻乙為文獻甲的引文,稱文獻甲為文獻乙的引證文獻。引文通常也稱為被引文獻或參考文獻,引證文獻通常也稱為來源文獻。文獻間的相互引用,表明知識信息內(nèi)容的繼承和利用, 標志著學術(shù)研究的進展。正因為引文在科學發(fā)展、學術(shù)研究中的特殊作用,對引文進行研究分析,可以讓我們更清楚地發(fā)現(xiàn)文獻間的內(nèi)在聯(lián)系。所謂引文分析,就是對專業(yè)人員論著之間的引用與被引用的現(xiàn)象運用統(tǒng)計、歸納、比較、抽象、概括等分析方法, 對科學期刊、論文、著者等各種分析對象的引用或被引用現(xiàn)象進行分析,以揭示各種文獻集合以及與文獻交流有關(guān)的各種集合特征和集合之間聯(lián)系的文獻計量研究方法。引文分析作為一項學術(shù)成果,同時作為一種研究方法,其應用十分廣泛。比如說,我們可以用引文分析法來進行機構(gòu)和人才的評價,作為科學管理的工具;也可以用來研究引文間立體網(wǎng)絡關(guān)系,從而提示科學發(fā)展、歷史背景、前景等;還可以用來進行文獻檢索,對期刊地位進行學術(shù)評價等。1.2 引文分析的原理從宏觀的角度來看,文獻間引用和被引用的特有關(guān)系構(gòu)成了文獻信息的整體,整個文獻信息構(gòu)成一張網(wǎng),這張網(wǎng)是以文獻(作者或期刊)為節(jié)點、以文獻引證關(guān)系為邊的鏈型、樹型、網(wǎng)型的結(jié)構(gòu),這些鏈、樹、網(wǎng)可以用加權(quán)有向圖統(tǒng)一描述。根據(jù)劃分的標準不同,網(wǎng)絡結(jié)構(gòu)也不一樣。時序網(wǎng)絡。在一組重要的具有代表性的引文中,每篇論文(或著者、或某期刊) 作為節(jié)點,按時間先后標以序號,連接這些節(jié)點并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成引文時序網(wǎng)絡圖。時序網(wǎng)絡圖能夠展示出某個研究主題的論文源流、最初著者以及該主題發(fā)展的來龍去脈,從中可以探討科學技術(shù)的歷史發(fā)展和研究規(guī)律。同引網(wǎng)絡。當兩篇或兩篇以上的文獻共同被后來的一篇或多篇的文獻引用,則稱這兩篇文獻為同引,具有同引關(guān)系的兩篇文獻分別與其他文獻構(gòu)成同引關(guān)系,這些具有同引關(guān)系的文獻形成的網(wǎng)絡被稱為同引網(wǎng)絡。利用同引關(guān)系進行分析研究,可以展示和預測科學情報交流、傳遞的結(jié)果,同時也是文獻檢索的一種好方法。耦合網(wǎng)絡。若兩篇文獻共同引用了一篇或多篇文獻,則稱這兩篇文獻有耦合關(guān)系,如果多篇文獻間具有耦合關(guān)系,則構(gòu)成一個耦合網(wǎng)絡。從文獻耦合關(guān)系可以定量地分析文獻,描繪出某一領(lǐng)域內(nèi)的科學研究趨向,還可彌補傳統(tǒng)檢索方法的不足。1.3 引文分析的作用科學文獻的相互引用,說明了知識信息內(nèi)容的繼承和利用,標志著科學循序漸進的發(fā)展。利用引文分析,我們可以通過影響因子來評價期刊的影響程度,也可以利用論文被引證次數(shù)可以評價個人,同時還可以對期刊和學科的學術(shù)影響力進行評價。因此,引文分析的作用是多方面的。(1)研究文獻結(jié)構(gòu)和科學結(jié)構(gòu)。引用文獻與被引文獻在學科上是相關(guān)的,這種相關(guān)性使文獻在學科上建立了的有機聯(lián)系,并以學科自行組織,構(gòu)成前后連貫的脈絡。通過求本溯源,找出文獻之間的聯(lián)系,從而研究文獻結(jié)構(gòu)和學科結(jié)構(gòu)。(2)研究文獻的動態(tài)規(guī)律和用戶行為特征。引用數(shù)據(jù)顯示了用戶利用文獻的習慣和特征,無需通過其他方式對用戶進行調(diào)查就可以獲得用戶的習慣與特征。了解了用戶的引用習慣,我們可以為其提供針對性很強的信息服務。 (3)研究科學發(fā)展史。每一篇文獻和引用文獻都是科學發(fā)展進程中一個特定事件的記錄,因此,通過引文分析可以展現(xiàn)這些事件的發(fā)生和發(fā)展、揭示某種思想和實驗的改善、擴充及修正等等,據(jù)此進行科學發(fā)展史的研究。 (4)評價人才、機構(gòu)和成果。文獻被引的多少、次數(shù),可以作為學術(shù)水平、價值的測度。目前,利用引文來評價機構(gòu)的科研實力的做法已被較為普遍地采用,例如中國科技信息研究所每年都根據(jù)SCI收錄的論文數(shù)和論文被引次數(shù)對我國高校和科研院所進行排名,以比較這些高校和科研院所的創(chuàng)造能力。引文分析除了上述列舉的應用之外,許多國家還用引文分析來確定科研資助政策和重點研究領(lǐng)域等等。2 網(wǎng)絡數(shù)據(jù)挖掘網(wǎng)絡信息挖掘是指在大量樣本的基礎(chǔ)上,得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進行有目的的信息提取。例如,當信息挖掘系統(tǒng)發(fā)現(xiàn)“信息源”,它就會自動過濾掉與“信息源”無關(guān)的數(shù)據(jù),這樣可以大大減少用戶的檢索時間和成本。即除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值型結(jié)構(gòu)化數(shù)據(jù)外,還可以是文本、圖形、圖像、網(wǎng)絡信息資源等半結(jié)構(gòu)、非結(jié)構(gòu)的數(shù)據(jù)。根據(jù)挖掘的對象不同, 網(wǎng)絡數(shù)據(jù)挖掘可以分為網(wǎng)絡內(nèi)容挖掘、網(wǎng)絡結(jié)構(gòu)挖掘以及網(wǎng)絡用法挖掘。2.1 網(wǎng)絡內(nèi)容挖掘網(wǎng)絡內(nèi)容挖掘即從網(wǎng)絡的內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息的過程。在互聯(lián)網(wǎng)中,一些信息是顯性的,而另外有一些網(wǎng)絡信息是“隱藏”著的數(shù)據(jù), 如由用戶的提問而動態(tài)生成的結(jié)果, 或存在于數(shù)據(jù)庫管理系統(tǒng)中的數(shù)據(jù), 它們無法被索引, 從而無法提供對它們有效的檢索方式。而通過網(wǎng)絡內(nèi)容挖掘,可出找出隱含在web頁面中的內(nèi)容,進行更深層次的加工與處理。2.2 網(wǎng)絡用法挖掘通過網(wǎng)絡用法挖掘, 可以了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義。網(wǎng)絡用法挖掘面對的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括: 網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等等。2.3 網(wǎng)絡結(jié)構(gòu)挖掘網(wǎng)絡結(jié)構(gòu)挖掘即挖掘Web 潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析, 即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web 自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類, 并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點, 并且可以概觀指向眾多權(quán)威站點的相關(guān)主題的站點。3 從引文分析看網(wǎng)絡數(shù)據(jù)結(jié)構(gòu)挖掘網(wǎng)絡結(jié)構(gòu)挖掘理論源自于引文分析,它是引文分析在網(wǎng)絡領(lǐng)域的繼續(xù)與發(fā)展。引文分析主要著重于平面文獻之間的信息挖掘,找出引用文獻與被引文獻之間的邏輯關(guān)系,進而為科學評估與科學管理、決策等服務,而網(wǎng)絡結(jié)構(gòu)挖掘著重于網(wǎng)絡文獻之間和網(wǎng)絡文獻內(nèi)部的信息挖掘,找出同一主題下各超級鏈接間的鏈接與被鏈之間的邏輯關(guān)系,進而找出同一主題下的中心站點、中心網(wǎng)頁和權(quán)威站點、權(quán)威網(wǎng)頁,為用戶能夠準確、快捷地使用網(wǎng)絡信息資源服務。3.1網(wǎng)絡中超級鏈接網(wǎng)絡就像由成千上萬個互相連接、交織在一起的細胞組織起來的一個復雜結(jié)構(gòu),它將世界各地的眾多的計算機用戶和企業(yè)產(chǎn)品放在一個巨大的數(shù)據(jù)庫中。這些網(wǎng)絡中的龐大的數(shù)據(jù)資源正是通過超級鏈接作用到一起的。這些超鏈一方面引導用戶進行網(wǎng)頁瀏覽,另一方面也反映出網(wǎng)頁創(chuàng)建者的一種判斷,即如果網(wǎng)頁甲存在一條超鏈指向網(wǎng)頁乙,那么表明網(wǎng)頁甲的作者認為網(wǎng)頁乙包含了有價值的信息,網(wǎng)絡結(jié)構(gòu)挖掘正是分析與研究WWW中超鏈結(jié)構(gòu)信息的工具。3.2網(wǎng)絡結(jié)構(gòu)挖掘原理正是由于這些網(wǎng)絡資源并不是有序的,而是處于雜亂、無序的狀態(tài)。例如,同一主題的問題它會出現(xiàn)在不同的站點中,并且這些內(nèi)容相關(guān)的WEB網(wǎng)頁并不一定會有鏈接。在互聯(lián)網(wǎng)中,超級鏈接的使用是隨機的,并非所有的超級鏈接都包含十分重要的信息,有的只是為了給用戶的瀏覽提供方便,而沒有其它的意義,我們在這種提供瀏覽方便的超級鏈接稱為瀏覽超級鏈接。而那些包含有語義信息的超級鏈接叫做語義超級鏈接。只有挖掘出語義超級鏈接才能幫助我們理解網(wǎng)頁文檔之間的意義,因此,我們在進行網(wǎng)絡結(jié)構(gòu)挖掘時要刪去瀏覽超級鏈接,找出語義超級鏈接。網(wǎng)絡結(jié)構(gòu)挖掘的原理正是來源于引文分析,它認為若網(wǎng)頁甲通過超鏈指向網(wǎng)頁乙,則網(wǎng)頁乙與網(wǎng)頁甲是主題相關(guān)的,網(wǎng)頁乙對于網(wǎng)頁甲來講是值得關(guān)注的網(wǎng)頁,其中隱含著對網(wǎng)頁甲來說有價值的信息。在互聯(lián)網(wǎng)中,相關(guān)主題的站點和頁面之間一般都存在大量的鏈接,通過這種鏈接方式相聚集。但主題相同的所有站點或頁面不一定會圍繞一個中心相聚集,也就是說一個主題會存在多個聚集中心。聚集中心的站點或頁面之間的鏈接關(guān)系最為密切,內(nèi)容也最為相似,隨著內(nèi)容相似度的降低,相互的鏈接關(guān)系也會逐漸減少。另外,內(nèi)容上的關(guān)聯(lián)關(guān)系也會隨著鏈接級數(shù)的增加而降低,會從一個主題逐漸演化為另外一個主題。3.3網(wǎng)絡結(jié)構(gòu)挖掘的作用正如引文分析的作用一樣,我們分析網(wǎng)絡結(jié)構(gòu)挖掘,是因為它能夠為我們在進行網(wǎng)站評估、網(wǎng)站分析等提供量化的佐證。(1)了解各網(wǎng)站受歡迎和關(guān)注的程度。如果一個網(wǎng)站在同類網(wǎng)站中被用戶點擊的次數(shù)越多,那么它就越受用戶的關(guān)注。同樣,如果一個網(wǎng)站在同類網(wǎng)站中被別的網(wǎng)站鏈接的次數(shù)越多,那么它也受到同類網(wǎng)絡主管的重視。相反,根據(jù)馬太效應,一個網(wǎng)站很少被點擊或者很少被鏈接,那么,它就會沉沒在茫茫網(wǎng)海中,無人問津。(2)了解本站點與其它站點之間的關(guān)系。如果一個站點被別的站點鏈接,我們在除掉瀏覽超鏈的基礎(chǔ)上,那么這兩個站點之間應該有語義相關(guān)關(guān)系,這兩個站點就可能為同一主題的相關(guān)站點。通過網(wǎng)絡結(jié)構(gòu)挖掘,我們可以找出同一主題下分布在世界各地的站點中的相關(guān)文檔。(3)快速了解一個網(wǎng)站的內(nèi)部結(jié)構(gòu)。超鏈分為站內(nèi)超鏈和站外超鏈,通過網(wǎng)絡結(jié)構(gòu)挖掘分析站內(nèi)超鏈,可以找出本網(wǎng)頁和父網(wǎng)頁、子網(wǎng)頁之間的關(guān)系,進而了解一個網(wǎng)站的內(nèi)部結(jié)構(gòu),為我們進行網(wǎng)站設(shè)計提供參考與借鑒。(4)找出中心站點和核心站點??蜖柎髮W的Jon Kleinberg充分利用網(wǎng)站間的鏈接關(guān)系為人們在無序的網(wǎng)絡世界中找出自己感興趣的、權(quán)威知識提供了一種方法。由于一個好的站點,它的管理及設(shè)計人員都愿意提供鏈接可信度高的鏈接。因此,一個站點可以通過它所鏈接的網(wǎng)站的權(quán)威程度來衡量,同時它會推薦用戶許多好的權(quán)威站點。反過來,這些又對其它網(wǎng)站的權(quán)威性起到了一定的增強作用,一個站點,如果鏈接了許多權(quán)威站點,那么它就是一個中心站點;如果一個站點被其它中心站點鏈接,那么它就是一個權(quán)威站點。(5)找出同鏈關(guān)系和藕合鏈接關(guān)系。同鏈關(guān)系即二個或二個以上網(wǎng)站(頁)同時被一個或多個網(wǎng)站(頁)鏈接,藕合鏈接是二個以上的網(wǎng)站(頁)同時鏈接一個或多個其它網(wǎng)頁。通過對它們進行結(jié)構(gòu)挖掘,可以找出網(wǎng)站(頁)之間的相互關(guān)系,同時,還可以作為網(wǎng)站(頁)檢索的一個好方法。3.4網(wǎng)絡結(jié)構(gòu)挖掘的應用網(wǎng)絡結(jié)構(gòu)挖掘最典型的應用是用于搜索引擎中,著名的網(wǎng)絡搜索引擎Google就是利用網(wǎng)絡結(jié)構(gòu)挖掘的相關(guān)原理。Google是通過爬蟲軟件在網(wǎng)上“爬行”,URL服務器則負責向這些爬蟲提供URL的列表,爬蟲所找到的網(wǎng)頁被送到存儲服務器中,存儲服務器于是就把這些網(wǎng)頁壓縮后存入一個知識庫中。在存儲服務器中每個網(wǎng)頁都有一個關(guān)聯(lián)ID,當一個新的URL從一個網(wǎng)頁中解析出來時,就會被分配一個關(guān)聯(lián)ID。索引庫負責從知識庫中讀取記錄,將文檔解壓并進行解析,同時分析網(wǎng)頁中所有鏈接并將重要信息存在相應的文檔中。這個文檔包含了足夠信息,可以用來判
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025渭南合陽縣煤炭事務中心招聘(12人)筆試參考題庫附帶答案詳解
- 2025河南商丘市實達國際人力資源合作有限公司招聘輔助人員30人筆試參考題庫附帶答案詳解
- 2025年京能服務內(nèi)蒙分錫林郭勒項目招聘10人筆試參考題庫附帶答案詳解
- 廣東新安職業(yè)技術(shù)學院《英語翻譯實踐》2023-2024學年第二學期期末試卷
- 中國傳媒大學《生物醫(yī)學檢驗技術(shù)》2023-2024學年第二學期期末試卷
- 上海外國語大學《華為HCIA-GausDB應用開發(fā)》2023-2024學年第二學期期末試卷
- 華東理工大學《商業(yè)倫理》2023-2024學年第二學期期末試卷
- 江蘇航運職業(yè)技術(shù)學院《論文成果》2023-2024學年第二學期期末試卷
- 阜陽師范大學《焊接結(jié)構(gòu)》2023-2024學年第二學期期末試卷
- 沈陽城市建設(shè)學院《傳感器技術(shù)理論教學》2023-2024學年第二學期期末試卷
- 安全教育拒絕吸煙酗酒教學課件
- 《助理工程師大綱》word版
- 《地質(zhì)聚合物混凝土》PPT課件
- 怎樣做融資融券 (1)
- 屋面防水維修工程施工組織設(shè)計
- 糖尿病的并發(fā)癥1
- 陜西省市政工程消耗量定額(1)
- 超星爾雅學習通《現(xiàn)場生命急救知識與技能》章節(jié)測試含答案
- KPMG_SOX_法案內(nèi)部控制矩陣培訓資料(powerpoint 39頁)
- “珠江專科醫(yī)療聯(lián)盟”推進學科發(fā)展的實踐與創(chuàng)新PPT課件
- 小學心理活動課我是集體中的一員
評論
0/150
提交評論