版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、web數(shù)據(jù)挖掘技術(shù)分析與研究1Web數(shù)據(jù)挖掘面臨的問(wèn)題目前面向WebW數(shù)據(jù)挖掘面臨的問(wèn)題,主要有兩個(gè)方面:1.1 數(shù)據(jù)庫(kù)環(huán)境的異構(gòu)型Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,We網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。要對(duì)這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶(hù)統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識(shí)。其次,有關(guān)Wet±的數(shù)據(jù)查詢(xún)。1.2 數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動(dòng)態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問(wèn)題是進(jìn)行Web所據(jù)挖掘所面臨的最大困難。2
2、XML技術(shù)在WetB據(jù)挖掘中的優(yōu)勢(shì)Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變彳#十分困難,通過(guò)XMLM以解決這個(gè)問(wèn)題。因?yàn)閄Ml±檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹(shù)可以表達(dá)極為豐富的語(yǔ)義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開(kāi)發(fā)人員能夠用XMLB格式標(biāo)記和交換數(shù)據(jù)。XM堆三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XMLWebS計(jì)人員能夠構(gòu)建文檔類(lèi)型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹(shù)、樣式表和超鏈接結(jié)構(gòu)?;赬MLI勺Weta據(jù)挖掘技術(shù),能夠使不同的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Wet數(shù)據(jù)挖掘的難題。2.1 XML技術(shù)
3、在We嗷據(jù)挖掘中具體作用利用XMLM術(shù)我們?cè)赪e嗷據(jù)挖掘中可以完成以下幾點(diǎn):2.1.1 集成異構(gòu)數(shù)據(jù)源XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng),從而實(shí)施精確地查詢(xún)與模型抽取。XMLM以搜索多個(gè)不同數(shù)據(jù)庫(kù)的問(wèn)題,以實(shí)現(xiàn)集成。2.1.2 和異構(gòu)數(shù)據(jù)進(jìn)行交換在Weta據(jù)挖掘程中,用戶(hù)需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XMLLS過(guò)自定義性及可擴(kuò)展性來(lái)標(biāo)識(shí)各種數(shù)據(jù),從而描述從各站點(diǎn)搜集到的Web頁(yè)中的數(shù)據(jù)。XMLB出現(xiàn)解決了數(shù)據(jù)查詢(xún)的統(tǒng)一接口。2.1.3 過(guò)濾信息并顯示XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對(duì)獲取的信息進(jìn)行裁減和以適應(yīng)不同用戶(hù)的需求。以不同的瀏覽
4、形式提供給不同的用戶(hù)。3基于XMLWeb據(jù)挖掘模型我們通過(guò)對(duì)XMLMWebt據(jù)挖掘的分析,設(shè)計(jì)了一個(gè)基于XML的Weta據(jù)挖掘模型通過(guò)提供一個(gè)Webt據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶(hù)要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XMLB據(jù)存儲(chǔ),提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶(hù)根據(jù)自己的滿(mǎn)意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過(guò)系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實(shí)現(xiàn)升級(jí)。3.1 各模塊具體功能3.1.1 數(shù)據(jù)收集從We應(yīng)占點(diǎn)上采集數(shù)據(jù)并存儲(chǔ),獲得挖掘內(nèi)容。針對(duì)異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需
5、求,挖掘的重點(diǎn)是Web內(nèi)容和Web®用的數(shù)據(jù)。把用戶(hù)訪問(wèn)網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過(guò)濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫(kù)。3.1.2 轉(zhuǎn)換器對(duì)檢索得到的數(shù)據(jù)用XM股術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。3.1.3 挖掘器不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫(kù)中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識(shí)庫(kù)中的算法和規(guī)則不斷的豐富。挖掘算法庫(kù)是挖掘分析方法的綜合庫(kù),以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評(píng)估以直觀的方式提交
6、挖掘結(jié)果,便于用戶(hù)的評(píng)估。通過(guò)模式分析和興趣度度量,若結(jié)果使得用戶(hù)滿(mǎn)意,數(shù)據(jù)挖掘結(jié)束,輸出用戶(hù)感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。3.2 系統(tǒng)各模塊實(shí)現(xiàn)方法3.2.1數(shù)據(jù)收集數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過(guò)程是:通過(guò)人工輸入辦法,給出查詢(xún)主題,找到相關(guān)的Web頁(yè),然后,通過(guò)相應(yīng)的數(shù)據(jù)挖掘的算法對(duì)訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML±檔。3.2.1 數(shù)據(jù)的轉(zhuǎn)換處理數(shù)據(jù)抽取轉(zhuǎn)換是模型實(shí)現(xiàn)一個(gè)重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁(yè)面轉(zhuǎn)換成XMLM式,并使用相關(guān)工具處理XML吉構(gòu)數(shù)據(jù)檢要把HTM中含有的與
7、主題無(wú)關(guān)的標(biāo)記過(guò)濾掉,然后轉(zhuǎn)化到XML勺格式存儲(chǔ)。目前Web頁(yè)面到XM戊檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XMLM據(jù),二是非XMLB據(jù)。XMLB據(jù),可以直接將它們提交給下一個(gè)模塊。對(duì)于非XMLB據(jù),本文的實(shí)現(xiàn)方法是用到Tidy以改正HTMLC檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔,還可以使用Tidy生成XHTML(XM的子集)格式的文檔。通過(guò)構(gòu)造相應(yīng)的Java類(lèi)完成將數(shù)據(jù)從HTM侄(JXMLI勺轉(zhuǎn)換。3.2.2 挖掘方法(1)文本分類(lèi):文本分類(lèi)是指按預(yù)先定義的主題類(lèi)別,把集合中的每個(gè)文檔確定一個(gè)所屬類(lèi)別。這樣,用戶(hù)能夠方便地瀏覽文檔,并限制搜索范圍來(lái)使查找更為容易。利用文本分類(lèi)技術(shù)對(duì)大量文檔
8、進(jìn)行快速、有效地自動(dòng)分類(lèi)。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。(2)文本聚類(lèi):文本聚類(lèi)與分類(lèi)的不同之處在于,聚類(lèi)不需要預(yù)先定義好的主題類(lèi)別,它是將把文檔集合分成若干個(gè)簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類(lèi)假設(shè),即與用戶(hù)查詢(xún)相關(guān)的文檔通常會(huì)聚類(lèi)比較靠近,而遠(yuǎn)離與用戶(hù)查詢(xún)不相關(guān)文檔??梢岳梦谋揪垲?lèi)技術(shù)把搜索引擎檢索結(jié)果分成若干個(gè)簇,用戶(hù)只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類(lèi)算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語(yǔ)之間關(guān)系Brin提出一種從大量文檔中查找一對(duì)詞語(yǔ)出現(xiàn)模式算法,在Web上尋找作者和書(shū)名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon站上查找不到的新書(shū)。(4)模式評(píng)價(jià):WetB據(jù)挖掘中十分重要的過(guò)程就是模式評(píng)價(jià)。常用的方法有預(yù)留法和交叉實(shí)驗(yàn)法,將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集兩部分,學(xué)習(xí)和測(cè)試反復(fù)進(jìn)行,最后用一個(gè)平均質(zhì)量模型來(lái)確定模型質(zhì)量的好壞。( 5) 預(yù)留法:從數(shù)據(jù)集合隨機(jī)抽取預(yù)定大小一個(gè)子集作為測(cè)試集,其他數(shù)據(jù)則作為訓(xùn)練集。( 6) 交叉驗(yàn)證法:把整個(gè)數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測(cè)試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個(gè)子集作為測(cè)試集,其它子集并集則作為訓(xùn)練集。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Windows Server網(wǎng)絡(luò)管理項(xiàng)目教程(Windows Server 2022)(微課版)3.2 DHCP-任務(wù)1 安裝DHCP服務(wù)器
- 醫(yī)院感控新視野-從理論到實(shí)踐的全面掌握
- 高中語(yǔ)文第4單元古代傳記第11課廉頗藺相如列傳課件新人教版必修
- 2024-2025學(xué)年八年級(jí)上學(xué)期地理期中模擬試卷(湘教版+含答案解析)
- 江蘇省揚(yáng)州市寶應(yīng)縣2023-2024學(xué)年八年級(jí)上學(xué)期期中語(yǔ)文試卷(含答案解析)
- 小學(xué)假期安全教育教案
- 二級(jí)建造師施工管理課件第3章題
- 高中語(yǔ)文第6單元觀察與批判13林教頭風(fēng)雪山神廟裝在套子里的人課件新人教版必修下冊(cè)
- 高中語(yǔ)文唐宋詞5第十一課一蓑煙雨任平生-抒志詠懷課件語(yǔ)文版選修唐宋詩(shī)詞鑒賞
- 2024至2030年中國(guó)擦手紙盒數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 數(shù)學(xué)在生活中的應(yīng)用課件
- 譯林牛津版六年級(jí)英語(yǔ)上冊(cè)-Unit5-Signs-Story-time課件
- 樣品需求單模板
- 施工過(guò)程安全監(jiān)督管理流程圖
- 初中化學(xué)魯教九年級(jí)上冊(cè)(2023年新編)探秘水世界《探秘水世界》復(fù)習(xí)教學(xué)設(shè)計(jì)
- 2022年洛陽(yáng)市新安縣人民醫(yī)院醫(yī)護(hù)人員招聘筆試模擬試題及答案解析
- DG-TJ 08-2360-2021 裝配整體式混凝土結(jié)構(gòu)工程監(jiān)理標(biāo)準(zhǔn)
- 一年級(jí)上冊(cè)心理健康教育課件-我是快樂(lè)小天使 全國(guó)通用(共19張PPT)
- 全國(guó)優(yōu)秀中短篇小說(shuō)獎(jiǎng)
- 高中歷史選擇性必修一全冊(cè)知識(shí)點(diǎn)總結(jié)
- 互聯(lián)網(wǎng)保險(xiǎn)概述課件
評(píng)論
0/150
提交評(píng)論