一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔

上傳人：7*** IP屬地：湖北上傳時間：2022-02-18 格式：DOC 頁數(shù)：3 大?。?9.50KB 積分：15 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔論文導(dǎo)讀:：以保證Web內(nèi)容挖掘的有效進(jìn)行。必須對Web文檔進(jìn)行一定的預(yù)處理。以及利用Web文檔進(jìn)行趨勢預(yù)測等1。關(guān)鍵詞：Web內(nèi)容挖掘，XML，預(yù)處理，Web文檔隨著數(shù)據(jù)通信技術(shù)和網(wǎng)絡(luò)互聯(lián)技術(shù)的不斷發(fā)展，萬維網(wǎng)（World Wide Web，WWW）以幾何速度不斷擴(kuò)大，不斷增加的Web文檔使其成為一個巨大的、分布廣泛的、全球性的信息服務(wù)中心。Web摘要、分類、聚類、關(guān)聯(lián)分析，以及利用Web文檔進(jìn)行趨勢預(yù)測等1。然而，Web文檔具有半結(jié)構(gòu)化的特點(diǎn)，在進(jìn)行數(shù)據(jù)挖掘之前，必須對Web文檔進(jìn)行一定的預(yù)處理，以保證Web內(nèi)容挖掘的有效進(jìn)行。 1 W

2、eb文檔的半結(jié)構(gòu)化特點(diǎn) Web中的數(shù)據(jù)非常復(fù)雜，難以用特定的模型描述。對于不同站點(diǎn)的Web文檔，其數(shù)據(jù)組織方式是由各站點(diǎn)獨(dú)立設(shè)計的，使Web文檔在總體上呈現(xiàn)非完全結(jié)構(gòu)化的特點(diǎn)。另一方面，數(shù)據(jù)本身具有自描述性和動態(tài)可變性，Web數(shù)據(jù)又具有結(jié)構(gòu)性。 Web中數(shù)量最多的是HTML格式的文檔，作為一種標(biāo)記語言格式文檔，HTML文檔具有較強(qiáng)的結(jié)構(gòu)性Web文檔，但是，由于HTML本身設(shè)計的缺陷以及使用過程中的濫用，HTML內(nèi)部結(jié)構(gòu)的條理性越來越差。對于Web內(nèi)容挖掘而言2,3，Web文檔的半結(jié)構(gòu)化特性阻礙了挖掘的有效進(jìn)行，如何對Web文檔進(jìn)行結(jié)構(gòu)化處理，尤其是對HTML文檔進(jìn)行處理，成為Web數(shù)據(jù)挖掘領(lǐng)域

3、的又一熱點(diǎn)4。 2 半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理 2.1 關(guān)系數(shù)據(jù)庫對HTML文檔進(jìn)行結(jié)構(gòu)化處理，首先對HTML文檔進(jìn)行分析，根據(jù)文檔中數(shù)據(jù)組織格式和文檔的特點(diǎn)，在關(guān)系數(shù)據(jù)庫中建立相應(yīng)的表結(jié)構(gòu)，其次將HTML文檔中有用的數(shù)據(jù)提取出來，存儲成關(guān)系數(shù)據(jù)庫的記錄。 2.2 XML XML是由W3C定義的可擴(kuò)展的置標(biāo)語言，它分為三層結(jié)構(gòu)：數(shù)據(jù)表現(xiàn)層、數(shù)據(jù)組織層和數(shù)據(jù)交換層。XML的三層架構(gòu)，使得XML文檔具有很好的結(jié)構(gòu)性，對XML的Web挖掘技術(shù)的研究5,6為WEB內(nèi)容挖掘提供了很好的解決方法。 2.3 使用XML而不是關(guān)系數(shù)據(jù)庫的原因 XML的數(shù)據(jù)定義和關(guān)系數(shù)據(jù)庫中的表結(jié)構(gòu)之間存在著內(nèi)在的對應(yīng)關(guān)系，

4、通過一定的方法，二者還可以互相轉(zhuǎn)換7,8會計畢業(yè)論文范文。在這里，之所以選擇XML而不是關(guān)系型數(shù)據(jù)庫，主要有以下幾點(diǎn)原因：（1）HTML文檔的數(shù)據(jù)組織格式是千變?nèi)f化的，按照某種標(biāo)準(zhǔn)分析后建立的數(shù)據(jù)結(jié)構(gòu)是否合理，需要通過實(shí)際挖掘應(yīng)用加以檢驗(yàn)。XML文件是純文本文件，不受數(shù)據(jù)庫操作系統(tǒng)的限制，修改XML的數(shù)據(jù)定義比修改關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)要方便得多。（2）XML具有較強(qiáng)的語義描述功能，這是關(guān)系數(shù)據(jù)庫所做不到的。（3）關(guān)系數(shù)據(jù)庫對數(shù)據(jù)類型的控制非常嚴(yán)格，而HTML則沒有對數(shù)據(jù)類型的控制。為了滿足關(guān)系數(shù)據(jù)庫的要求，有時可能會錯誤地丟掉HTML文檔中的有用數(shù)據(jù)，影響挖掘的有效性。而XML在數(shù)據(jù)類型的

5、控制方面沒有關(guān)系數(shù)據(jù)庫那么嚴(yán)格，這就為進(jìn)一步處理半結(jié)構(gòu)化的數(shù)據(jù)提供了方便。 3作為中介的XML數(shù)據(jù)定義為了實(shí)現(xiàn)對HTML文檔進(jìn)行統(tǒng)一的處理，設(shè)計了如下的XML數(shù)據(jù)定義，并依此格式對需要的HTML文檔進(jìn)行重整和信息抽取。 4 從HTML文檔中提取數(shù)據(jù) 從HTML文檔中提取數(shù)據(jù)的過程其實(shí)就是對HTML文件的內(nèi)容進(jìn)行整理和過濾的過程，根據(jù)過濾規(guī)則的不同，可以分為靜態(tài)過濾和動態(tài)過濾9。這里采用兩種過濾結(jié)合的方式進(jìn)行數(shù)據(jù)提取，過程如圖1。圖1數(shù)據(jù)提取過程 4.1 過濾頁面從HTML文檔提取數(shù)據(jù)之前Web文檔，應(yīng)先過濾一個網(wǎng)站的門戶頁面和索引頁面，這些頁面中包含了大量的鏈接和標(biāo)題信息，對于使用挖掘的

6、用戶而言，在通過鏈接進(jìn)入這些頁面之后，不但需要在大量的文本和圖像內(nèi)容中找到需要的那一項(xiàng)，而且必須經(jīng)過多次頁面跳轉(zhuǎn)之后，才有可能找到真正需要的數(shù)據(jù)。對于某一個有具體要求的挖掘操作而言，這樣的頁面實(shí)際上是無意義的。通過頁面特征的分析可以比較準(zhǔn)確地過濾這一類型的Web頁面。 4.2 標(biāo)題標(biāo)題（Title）通常是對網(wǎng)頁內(nèi)容的最精煉的概括。但是，也存在較多的例外情況，如有些網(wǎng)站，為了提高被搜索引擎檢索到的概率，往往在標(biāo)題中寫入所有與該網(wǎng)站有關(guān)或無關(guān)的信息，網(wǎng)頁中的內(nèi)容則相差甚遠(yuǎn)；另外，對于一些由網(wǎng)絡(luò)應(yīng)用程序自動生成的頁面（在檢索時得到的網(wǎng)頁格式仍然是HTML文檔），其標(biāo)題信息往往是無意義的，如：“Ne

7、w Page 1”，或者一個固定的句子，如“圖書信息”，這種標(biāo)題對于Web數(shù)據(jù)挖掘是沒有任何意義的。對于如“New Page 1”的情況，可以把它列入停止詞表，也就是認(rèn)為該頁沒有標(biāo)題，以免對后續(xù)的工作造成干擾。而對于其他兩種情況，只有借助專家數(shù)據(jù)或經(jīng)驗(yàn)數(shù)據(jù)的方法，由人工定義的停止詞表進(jìn)行篩選。 4.3 子標(biāo)題特定的網(wǎng)站往往有固定的格式，如格式化的子標(biāo)題信息，這些信息在進(jìn)行內(nèi)容挖掘的時候可以作為初步分類的基礎(chǔ)。作為比較常見的網(wǎng)頁設(shè)計方法，特定的標(biāo)記信息用不同的圖片進(jìn)行表示，也就是說，這些信息是存在于標(biāo)記之中，在大多數(shù)情況下，標(biāo)記和其他一些格式標(biāo)記，如、等，在進(jìn)行挖掘之初就被當(dāng)作無關(guān)信息刪除了

8、Web文檔，對頁面的分析僅僅對文本進(jìn)行。子標(biāo)題信息往往處在一個HTML文件的開始部分，由若干張圖片組成，通過對一個網(wǎng)站的門戶頁面以及其他內(nèi)容頁面進(jìn)行比較，可以比較容易地確定子標(biāo)題圖片的數(shù)量，然后對子標(biāo)題圖片進(jìn)行編號，將這種無意義的輔助編號信息添加到XML文件的元素之間，作為進(jìn)一步分類參考。 4.4 頁面內(nèi)容 Web頁面中的信息不僅包括文本，也包括圖片（背景圖片、插入的位圖以及GIF動畫等）、聲音，如背景音樂、Flash動畫，可執(zhí)行腳本（顯示日期、統(tǒng)計訪問量、浮動窗格和捕獲鼠標(biāo)操作和用戶輸入等）、Java小程序和一些格式信息，如頁面的視覺特征（顏色、字體大小、字體粗細(xì)等）和頁面的排版特征（段落的

9、長短、標(biāo)題的位置、段間距等），這些信息大部分對進(jìn)行Web內(nèi)容挖掘沒有幫助，應(yīng)當(dāng)看作干擾信息過濾掉。同一個網(wǎng)站中的HTML文檔往往會遵循統(tǒng)一的布局規(guī)則，通過這些規(guī)則，可以把網(wǎng)頁的內(nèi)容劃分成不同的塊10，借助網(wǎng)頁的分塊特性，對網(wǎng)頁的內(nèi)容進(jìn)行預(yù)分類，如利用索引頁面中的標(biāo)記分割的鏈接情況，可以每個之間鏈接所指向的頁面看作一個小的分類，為進(jìn)一步挖掘操作提供參考。 HTML是一種語法要求不嚴(yán)格的語言，在一個Web頁面中，包含大量的HTML語法錯誤，在提取Web頁面的內(nèi)容之前，需要先對其中的語法錯誤進(jìn)行處理。采用W3C提供的HTML詞法分析器可以進(jìn)行HTML標(biāo)志名和標(biāo)志屬性的提取。該詞法分析器可以分為五個

10、狀態(tài):初始狀態(tài)、標(biāo)記開始狀態(tài)、文本狀態(tài)、標(biāo)記結(jié)束狀態(tài)和結(jié)束狀態(tài)。每個狀態(tài)分別調(diào)用相應(yīng)的觸發(fā)函數(shù):InitLib()、beginElement()、addText()、endElement()、closeLib()會計畢業(yè)論文范文。其中在beginElement()函數(shù)里便可以取得當(dāng)前的標(biāo)記名及其該標(biāo)記的屬性。 4.5 文本摘要作為內(nèi)容挖掘中很重要的一項(xiàng)，摘要可以使文檔的核心內(nèi)容更加突出。以摘要作為Web文檔的輔助信息能提高挖掘的效率。通常采用的基于統(tǒng)計的文本摘要自動生成方法的基本思想是把原文中與主題密切相關(guān)的句子篩選出來，這樣的句子往往位于比較特殊的位置或者含有較強(qiáng)的提示，含有較多的特征項(xiàng)

11、。以下是一個比較常用的句子權(quán)值函數(shù)11。（1）其中，表示句子的權(quán)值函數(shù)，表示特征項(xiàng)的權(quán)值函數(shù)，表示句子的長度，表示句子所包含的分句個數(shù)，表示比例因子。需要說明的是，為提高挖掘的算法效率而進(jìn)行的文本摘要Web文檔，其結(jié)果對人而言往往是混亂的，難以找到具體的語言含義。但是對于Web內(nèi)容挖掘的某些算法（如基于向量空間模型的算法），則可以有效地提高算法的效率。 Web文檔經(jīng)過預(yù)處理之后，就可以通過XML查詢語言，如Xpath，Xquary等對得到的XML文件進(jìn)行數(shù)據(jù)挖掘處理了，文獻(xiàn)12將XML索引技術(shù)分為兩大類：節(jié)點(diǎn)記錄類索引和結(jié)構(gòu)摘要類索引，深入討論了XML索引技術(shù)的研究現(xiàn)狀。根據(jù)這些研究，可以

12、得到更加有效的處理XML文件的方式。 5 結(jié)論通過使用XML作為中間語言，對現(xiàn)有的非結(jié)構(gòu)化的Web文檔進(jìn)行過濾和整理，有利于實(shí)現(xiàn)對Web上的各種各樣異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一操作。在數(shù)據(jù)過濾和處理的過程中，根據(jù)Web文檔的標(biāo)題和分塊特征，對Web文檔進(jìn)行預(yù)分類操作，可以提高進(jìn)一步分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘操作的效率。通過摘要，進(jìn)一步從過濾后的文檔中提取主干信息，以提高挖掘的效率。當(dāng)然，由于Web文檔的多樣性，特定的數(shù)據(jù)挖掘任務(wù)處理的辦法也應(yīng)不盡相同，增加中間層將會增大系統(tǒng)的開銷和降低挖掘的時效性，另外，如何對Web中的大量非文本數(shù)據(jù)進(jìn)行有效挖掘也有待進(jìn)一步的研究。參考文獻(xiàn)： 1Anne H.H.

13、Ngu、Masaru Kitsuregawa、Erich J. Neuhold、et al，WISE-2005 Tutorial: Web ContentMining，ComputerScience，Vol 3806，2005，763-763 2何曉兵，本體指導(dǎo)下的網(wǎng)絡(luò)文獻(xiàn)信息內(nèi)容挖掘模型，圖書情報工作，2010（24），45-49 3董慧、唐敏，數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用，情報雜質(zhì)，2010（S1），153-156 4于春燕、胡學(xué)鋼，Web中的行情數(shù)據(jù)獲取與預(yù)測研究，計算機(jī)工程與應(yīng)用，2009（20），202-204 5姜霞、張曉偉，基于XML的Web挖掘技術(shù)研究，電腦知識與技術(shù)（學(xué)術(shù)交流），2005（7），79-81 6何月順、湯彬、丁秋林，基于Web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究，計算機(jī)系統(tǒng)應(yīng)用，2005 （5），59-63 7姚磊岳，XML數(shù)據(jù)到一般關(guān)系數(shù)據(jù)庫數(shù)據(jù)的轉(zhuǎn)換，洪都科技，2005（1），18-23 8章義、黎峰，基于XML的數(shù)據(jù)庫存儲訪問技術(shù)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔

文檔簡介

溫馨提示

最新文檔

評論

一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔