![一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/2c9315e8-e043-4b19-8bec-dbfd69e12afb/2c9315e8-e043-4b19-8bec-dbfd69e12afb1.gif)
![一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/2c9315e8-e043-4b19-8bec-dbfd69e12afb/2c9315e8-e043-4b19-8bec-dbfd69e12afb2.gif)
![一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/18/2c9315e8-e043-4b19-8bec-dbfd69e12afb/2c9315e8-e043-4b19-8bec-dbfd69e12afb3.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、一種基于XML的Web內(nèi)容挖掘預(yù)處理方法_Web文檔論文導(dǎo)讀::以保證Web內(nèi)容挖掘的有效進(jìn)行。必須對Web文檔進(jìn)行一定的預(yù)處理。以及利用Web文檔進(jìn)行趨勢預(yù)測等1。 關(guān)鍵詞:Web內(nèi)容挖掘,XML,預(yù)處理,Web文檔隨著數(shù)據(jù)通信技術(shù)和網(wǎng)絡(luò)互聯(lián)技術(shù)的不斷發(fā)展,萬維網(wǎng)(World Wide Web,WWW)以幾何速度不斷擴(kuò)大,不斷增加的Web文檔使其成為一個巨大的、分布廣泛的、全球性的信息服務(wù)中心。Web摘要、分類、聚類、關(guān)聯(lián)分析,以及利用Web文檔進(jìn)行趨勢預(yù)測等1。然而,Web文檔具有半結(jié)構(gòu)化的特點(diǎn),在進(jìn)行數(shù)據(jù)挖掘之前,必須對Web文檔進(jìn)行一定的預(yù)處理,以保證Web內(nèi)容挖掘的有效進(jìn)行。 1 W
2、eb文檔的半結(jié)構(gòu)化特點(diǎn) Web中的數(shù)據(jù)非常復(fù)雜,難以用特定的模型描述。對于不同站點(diǎn)的Web文檔,其數(shù)據(jù)組織方式是由各站點(diǎn)獨(dú)立設(shè)計的,使Web文檔在總體上呈現(xiàn)非完全結(jié)構(gòu)化的特點(diǎn)。另一方面,數(shù)據(jù)本身具有自描述性和動態(tài)可變性,Web數(shù)據(jù)又具有結(jié)構(gòu)性。 Web中數(shù)量最多的是HTML格式的文檔,作為一種標(biāo)記語言格式文檔,HTML文檔具有較強(qiáng)的結(jié)構(gòu)性Web文檔,但是,由于HTML本身設(shè)計的缺陷以及使用過程中的濫用,HTML內(nèi)部結(jié)構(gòu)的條理性越來越差。對于Web內(nèi)容挖掘而言2,3,Web文檔的半結(jié)構(gòu)化特性阻礙了挖掘的有效進(jìn)行,如何對Web文檔進(jìn)行結(jié)構(gòu)化處理,尤其是對HTML文檔進(jìn)行處理,成為Web數(shù)據(jù)挖掘領(lǐng)域
3、的又一熱點(diǎn)4。 2 半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理 2.1 關(guān)系數(shù)據(jù)庫 對HTML文檔進(jìn)行結(jié)構(gòu)化處理,首先對HTML文檔進(jìn)行分析,根據(jù)文檔中數(shù)據(jù)組織格式和文檔的特點(diǎn),在關(guān)系數(shù)據(jù)庫中建立相應(yīng)的表結(jié)構(gòu),其次將HTML文檔中有用的數(shù)據(jù)提取出來,存儲成關(guān)系數(shù)據(jù)庫的記錄。 2.2 XML XML是由W3C定義的可擴(kuò)展的置標(biāo)語言, 它分為三層結(jié)構(gòu):數(shù)據(jù)表現(xiàn)層、數(shù)據(jù)組織層和數(shù)據(jù)交換層。XML的三層架構(gòu),使得XML文檔具有很好的結(jié)構(gòu)性,對XML的Web挖掘技術(shù)的研究5,6為WEB內(nèi)容挖掘提供了很好的解決方法。 2.3 使用XML而不是關(guān)系數(shù)據(jù)庫的原因 XML的數(shù)據(jù)定義和關(guān)系數(shù)據(jù)庫中的表結(jié)構(gòu)之間存在著內(nèi)在的對應(yīng)關(guān)系,
4、通過一定的方法,二者還可以互相轉(zhuǎn)換7,8會計畢業(yè)論文范文。在這里,之所以選擇XML而不是關(guān)系型數(shù)據(jù)庫,主要有以下幾點(diǎn)原因: (1)HTML文檔的數(shù)據(jù)組織格式是千變?nèi)f化的,按照某種標(biāo)準(zhǔn)分析后建立的數(shù)據(jù)結(jié)構(gòu)是否合理,需要通過實(shí)際挖掘應(yīng)用加以檢驗(yàn)。XML文件是純文本文件,不受數(shù)據(jù)庫操作系統(tǒng)的限制,修改XML的數(shù)據(jù)定義比修改關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)要方便得多。 (2)XML具有較強(qiáng)的語義描述功能,這是關(guān)系數(shù)據(jù)庫所做不到的。 (3)關(guān)系數(shù)據(jù)庫對數(shù)據(jù)類型的控制非常嚴(yán)格,而HTML則沒有對數(shù)據(jù)類型的控制。為了滿足關(guān)系數(shù)據(jù)庫的要求,有時可能會錯誤地丟掉HTML文檔中的有用數(shù)據(jù),影響挖掘的有效性。而XML在數(shù)據(jù)類型的
5、控制方面沒有關(guān)系數(shù)據(jù)庫那么嚴(yán)格,這就為進(jìn)一步處理半結(jié)構(gòu)化的數(shù)據(jù)提供了方便。 3作為中介的XML數(shù)據(jù)定義 為了實(shí)現(xiàn)對HTML文檔進(jìn)行統(tǒng)一的處理,設(shè)計了如下的XML數(shù)據(jù)定義,并依此格式對需要的HTML文檔進(jìn)行重整和信息抽取。 4 從HTML文檔中提取數(shù)據(jù) 從HTML文檔中提取數(shù)據(jù)的過程其實(shí)就是對HTML文件的內(nèi)容進(jìn)行整理和過濾的過程,根據(jù)過濾規(guī)則的不同,可以分為靜態(tài)過濾和動態(tài)過濾9。這里采用兩種過濾結(jié)合的方式進(jìn)行數(shù)據(jù)提取,過程如圖1。 圖1數(shù)據(jù)提取過程 4.1 過濾頁面 從HTML文檔提取數(shù)據(jù)之前Web文檔,應(yīng)先過濾一個網(wǎng)站的門戶頁面和索引頁面,這些頁面中包含了大量的鏈接和標(biāo)題信息,對于使用挖掘的
6、用戶而言,在通過鏈接進(jìn)入這些頁面之后,不但需要在大量的文本和圖像內(nèi)容中找到需要的那一項(xiàng),而且必須經(jīng)過多次頁面跳轉(zhuǎn)之后,才有可能找到真正需要的數(shù)據(jù)。對于某一個有具體要求的挖掘操作而言,這樣的頁面實(shí)際上是無意義的。通過頁面特征的分析可以比較準(zhǔn)確地過濾這一類型的Web頁面。 4.2 標(biāo)題 標(biāo)題(Title)通常是對網(wǎng)頁內(nèi)容的最精煉的概括。但是,也存在較多的例外情況,如有些網(wǎng)站,為了提高被搜索引擎檢索到的概率,往往在標(biāo)題中寫入所有與該網(wǎng)站有關(guān)或無關(guān)的信息,網(wǎng)頁中的內(nèi)容則相差甚遠(yuǎn);另外,對于一些由網(wǎng)絡(luò)應(yīng)用程序自動生成的頁面(在檢索時得到的網(wǎng)頁格式仍然是HTML文檔),其標(biāo)題信息往往是無意義的,如:“Ne
7、w Page 1”,或者一個固定的句子,如“圖書信息”,這種標(biāo)題對于Web數(shù)據(jù)挖掘是沒有任何意義的。對于如“New Page 1”的情況,可以把它列入停止詞表,也就是認(rèn)為該頁沒有標(biāo)題,以免對后續(xù)的工作造成干擾。而對于其他兩種情況,只有借助專家數(shù)據(jù)或經(jīng)驗(yàn)數(shù)據(jù)的方法,由人工定義的停止詞表進(jìn)行篩選。 4.3 子標(biāo)題 特定的網(wǎng)站往往有固定的格式,如格式化的子標(biāo)題信息,這些信息在進(jìn)行內(nèi)容挖掘的時候可以作為初步分類的基礎(chǔ)。作為比較常見的網(wǎng)頁設(shè)計方法,特定的標(biāo)記信息用不同的圖片進(jìn)行表示,也就是說,這些信息是存在于標(biāo)記之中,在大多數(shù)情況下, 標(biāo)記和其他一些格式標(biāo)記,如、等,在進(jìn)行挖掘之初就被當(dāng)作無關(guān)信息刪除了
8、Web文檔,對頁面的分析僅僅對文本進(jìn)行。子標(biāo)題信息往往處在一個HTML文件的開始部分,由若干張圖片組成,通過對一個網(wǎng)站的門戶頁面以及其他內(nèi)容頁面進(jìn)行比較,可以比較容易地確定子標(biāo)題圖片的數(shù)量,然后對子標(biāo)題圖片進(jìn)行編號,將這種無意義的輔助編號信息添加到XML文件的元素之間,作為進(jìn)一步分類參考。 4.4 頁面內(nèi)容 Web頁面中的信息不僅包括文本,也包括圖片(背景圖片、插入的位圖以及GIF動畫等)、聲音,如背景音樂、Flash動畫,可執(zhí)行腳本(顯示日期、統(tǒng)計訪問量、浮動窗格和捕獲鼠標(biāo)操作和用戶輸入等)、Java小程序和一些格式信息,如頁面的視覺特征(顏色、字體大小、字體粗細(xì)等)和頁面的排版特征(段落的
9、長短、標(biāo)題的位置、段間距等),這些信息大部分對進(jìn)行Web內(nèi)容挖掘沒有幫助,應(yīng)當(dāng)看作干擾信息過濾掉。 同一個網(wǎng)站中的HTML文檔往往會遵循統(tǒng)一的布局規(guī)則,通過這些規(guī)則,可以把網(wǎng)頁的內(nèi)容劃分成不同的塊10,借助網(wǎng)頁的分塊特性,對網(wǎng)頁的內(nèi)容進(jìn)行預(yù)分類,如利用索引頁面中的標(biāo)記分割的鏈接情況,可以每個之間鏈接所指向的頁面看作一個小的分類,為進(jìn)一步挖掘操作提供參考。 HTML是一種語法要求不嚴(yán)格的語言,在一個Web頁面中,包含大量的HTML語法錯誤,在提取Web頁面的內(nèi)容之前,需要先對其中的語法錯誤進(jìn)行處理。采用W3C提供的HTML詞法分析器可以進(jìn)行HTML標(biāo)志名和標(biāo)志屬性的提取。該詞法分析器可以分為五個
10、狀態(tài):初始狀態(tài)、標(biāo)記開始狀態(tài)、文本狀態(tài)、標(biāo)記結(jié)束狀態(tài)和結(jié)束狀態(tài)。每個狀態(tài)分別調(diào)用相應(yīng)的觸發(fā)函數(shù):InitLib()、beginElement()、addText()、endElement()、closeLib()會計畢業(yè)論文范文。其中在beginElement()函數(shù)里便可以取得當(dāng)前的標(biāo)記名及其該標(biāo)記的屬性。 4.5 文本摘要 作為內(nèi)容挖掘中很重要的一項(xiàng),摘要可以使文檔的核心內(nèi)容更加突出。以摘要作為Web文檔的輔助信息能提高挖掘的效率。 通常采用的基于統(tǒng)計的文本摘要自動生成方法的基本思想是把原文中與主題密切相關(guān)的句子篩選出來,這樣的句子往往位于比較特殊的位置或者含有較強(qiáng)的提示,含有較多的特征項(xiàng)
11、。以下是一個比較常用的句子權(quán)值函數(shù)11。 (1) 其中,表示句子的權(quán)值函數(shù),表示特征項(xiàng)的權(quán)值函數(shù),表示句子的長度,表示句子所包含的分句個數(shù),表示比例因子。需要說明的是,為提高挖掘的算法效率而進(jìn)行的文本摘要Web文檔,其結(jié)果對人而言往往是混亂的,難以找到具體的語言含義。但是對于Web內(nèi)容挖掘的某些算法(如基于向量空間模型的算法),則可以有效地提高算法的效率。 Web文檔經(jīng)過預(yù)處理之后,就可以通過XML查詢語言,如Xpath,Xquary等對得到的XML文件進(jìn)行數(shù)據(jù)挖掘處理了,文獻(xiàn)12將XML索引技術(shù)分為兩大類:節(jié)點(diǎn)記錄類索引和結(jié)構(gòu)摘要類索引,深入討論了XML索引技術(shù)的研究現(xiàn)狀。根據(jù)這些研究,可以
12、得到更加有效的處理XML文件的方式。 5 結(jié)論 通過使用XML作為中間語言,對現(xiàn)有的非結(jié)構(gòu)化的Web文檔進(jìn)行過濾和整理,有利于實(shí)現(xiàn)對Web上的各種各樣異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一操作。在數(shù)據(jù)過濾和處理的過程中,根據(jù)Web文檔的標(biāo)題和分塊特征,對Web文檔進(jìn)行預(yù)分類操作,可以提高進(jìn)一步分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘操作的效率。通過摘要,進(jìn)一步從過濾后的文檔中提取主干信息,以提高挖掘的效率。當(dāng)然,由于Web文檔的多樣性,特定的數(shù)據(jù)挖掘任務(wù)處理的辦法也應(yīng)不盡相同,增加中間層將會增大系統(tǒng)的開銷和降低挖掘的時效性,另外,如何對Web中的大量非文本數(shù)據(jù)進(jìn)行有效挖掘也有待進(jìn)一步的研究。參考文獻(xiàn): 1Anne H.H.
13、Ngu、Masaru Kitsuregawa、Erich J. Neuhold、et al,WISE-2005 Tutorial: Web ContentMining,ComputerScience,Vol 3806,2005,763-763 2何曉兵,本體指導(dǎo)下的網(wǎng)絡(luò)文獻(xiàn)信息內(nèi)容挖掘模型,圖書情報工作,2010(24),45-49 3董慧、唐敏,數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用,情報雜質(zhì),2010(S1),153-156 4于春燕、胡學(xué)鋼,Web中的行情數(shù)據(jù)獲取與預(yù)測研究,計算機(jī)工程與應(yīng)用,2009(20),202-204 5姜霞、張曉偉,基于XML的Web挖掘技術(shù)研究,電腦知識與技術(shù)(學(xué)術(shù)交流),2005(7),79-81 6何月順、湯彬、丁秋林,基于Web的數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,計算機(jī)系統(tǒng)應(yīng)用,2005 (5),59-63 7姚磊岳,XML數(shù)據(jù)到一般關(guān)系數(shù)據(jù)庫數(shù)據(jù)的轉(zhuǎn)換,洪都科技,2005(1),18-23 8章義、黎峰,基于XML的數(shù)據(jù)庫存儲訪問技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)居間合同委托書
- 知識產(chǎn)權(quán)運(yùn)營股權(quán)居間合同
- 專業(yè)運(yùn)動器材銷售與推廣合同
- 弱電項(xiàng)目總結(jié)
- 游戲規(guī)則與操作指南發(fā)布平臺建設(shè)作業(yè)指導(dǎo)書
- 農(nóng)業(yè)產(chǎn)業(yè)鏈社會責(zé)任履行實(shí)戰(zhàn)指導(dǎo)書
- 三農(nóng)村集體資產(chǎn)管理方案
- 體育訓(xùn)練與比賽作業(yè)指導(dǎo)書
- 安能轉(zhuǎn)讓合同
- 消防安全技術(shù)服務(wù)項(xiàng)目合同
- 縱隔腫物的護(hù)理查房
- 新能源汽車概論題庫
- 設(shè)備維保的維修成本和維護(hù)費(fèi)用
- 2024年濰坊護(hù)理職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 客運(yùn)站員工安全生產(chǎn)教育培訓(xùn)
- 口腔預(yù)防兒童宣教
- 綠城桃李春風(fēng)推廣方案
- 體質(zhì)健康概論
- 檔案管理流程優(yōu)化與效率提升
- 2023高考語文實(shí)用類文本閱讀-新聞、通訊、訪談(含答案)
- 人工智能在商場應(yīng)用
評論
0/150
提交評論