




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、本章學習目的:本章學習目的:(1) 經(jīng)過知識發(fā)掘系統(tǒng)的體系構(gòu)造的學習掌握知識發(fā)現(xiàn)的定義和知識發(fā)現(xiàn)系經(jīng)過知識發(fā)掘系統(tǒng)的體系構(gòu)造的學習掌握知識發(fā)現(xiàn)的定義和知識發(fā)現(xiàn)系統(tǒng)的構(gòu)造統(tǒng)的構(gòu)造 。(2) 經(jīng)過現(xiàn)代發(fā)掘技術及運用的學習掌握規(guī)那么型、神經(jīng)網(wǎng)絡型、遺傳算法經(jīng)過現(xiàn)代發(fā)掘技術及運用的學習掌握規(guī)那么型、神經(jīng)網(wǎng)絡型、遺傳算法型、粗糙集型和決策樹型現(xiàn)代發(fā)掘技術。型、粗糙集型和決策樹型現(xiàn)代發(fā)掘技術。(3) 經(jīng)過知識發(fā)現(xiàn)工具與運用的學習掌握知識發(fā)掘工具的系統(tǒng)構(gòu)造、運用中經(jīng)過知識發(fā)現(xiàn)工具與運用的學習掌握知識發(fā)掘工具的系統(tǒng)構(gòu)造、運用中的問題和知識發(fā)掘的價值。的問題和知識發(fā)掘的價值。(4) 經(jīng)過數(shù)據(jù)發(fā)掘技術的開展的學習
2、了解文本發(fā)掘、經(jīng)過數(shù)據(jù)發(fā)掘技術的開展的學習了解文本發(fā)掘、Web發(fā)掘、可視化數(shù)據(jù)發(fā)發(fā)掘、可視化數(shù)據(jù)發(fā)掘、空間數(shù)據(jù)發(fā)掘和分布式數(shù)據(jù)發(fā)掘。掘、空間數(shù)據(jù)發(fā)掘和分布式數(shù)據(jù)發(fā)掘。 6.1知識發(fā)掘系統(tǒng)的體系構(gòu)造 6.2現(xiàn)代發(fā)掘技術及運用 6.3知識發(fā)現(xiàn)工具與運用 6.4數(shù)據(jù)發(fā)掘技術的開展 練 習 數(shù)據(jù)倉庫知識庫數(shù) 據(jù)庫 接口數(shù)據(jù)選擇知識發(fā)現(xiàn)引擎知識發(fā)現(xiàn)評價知識發(fā)現(xiàn)描畫知識發(fā)現(xiàn)管理器商業(yè)分析員圖6.1 知識發(fā)現(xiàn)系統(tǒng)構(gòu)造1.知識發(fā)現(xiàn)系統(tǒng)管理器 控制并管理整個知識發(fā)現(xiàn)過程 2.知識庫和商業(yè)分析員 知識庫包含了源于各方面的知識。商業(yè)分析員要按一種有效的方式指點關注信息的發(fā)現(xiàn)。3.數(shù)據(jù)倉庫的數(shù)據(jù)庫接口 知識發(fā)現(xiàn)系統(tǒng)的
3、數(shù)據(jù)庫接口可以直接與數(shù)據(jù)倉庫通訊。 4.數(shù)據(jù)選擇 確定從數(shù)據(jù)倉庫中需求抽取的數(shù)據(jù)及數(shù)據(jù)構(gòu)造 5.知識發(fā)現(xiàn)引擎 將知識庫中的抽取算法提供應數(shù)據(jù)選擇構(gòu)件抽取的數(shù)據(jù) 6.發(fā)現(xiàn)評價 有助于商業(yè)分析員挑選方式,選出那些關注性的信息 7.發(fā)現(xiàn)描畫 發(fā)現(xiàn)、評價并輔助商業(yè)分析員在知識庫中保管關注性發(fā)現(xiàn)結(jié)果以備未來援用,并堅持知識發(fā)現(xiàn)與管理人員的通訊。 頻繁方式是頻繁的出如今數(shù)據(jù)集中的方式頻繁方式是頻繁的出如今數(shù)據(jù)集中的方式 如項集、子序或者子構(gòu)造如項集、子序或者子構(gòu)造 動機:發(fā)現(xiàn)數(shù)據(jù)中蘊含的內(nèi)在規(guī)律動機:發(fā)現(xiàn)數(shù)據(jù)中蘊含的內(nèi)在規(guī)律 那些產(chǎn)品經(jīng)常被一同購買?那些產(chǎn)品經(jīng)常被一同購買?-啤酒和尿布?啤酒和尿布? 買了
4、買了PC之后接著都會買些什么?之后接著都會買些什么? 哪種哪種DNA對這種新藥敏感對這種新藥敏感 我們可以自動的分類我們可以自動的分類WEB文檔嗎?文檔嗎? 運用運用 購物籃分析、購物籃分析、WEB日志點擊流分析、捆綁銷日志點擊流分析、捆綁銷售、售、DNA序列分析等序列分析等 提示數(shù)據(jù)集的內(nèi)在的、重要的特性提示數(shù)據(jù)集的內(nèi)在的、重要的特性 作為很多重要數(shù)據(jù)發(fā)掘義務的根底作為很多重要數(shù)據(jù)發(fā)掘義務的根底 關聯(lián)、相關和因果分析關聯(lián)、相關和因果分析 序列、構(gòu)造序列、構(gòu)造e.g.子圖方式分析子圖方式分析 時空、多媒體、時序和流數(shù)據(jù)中的方式分析時空、多媒體、時序和流數(shù)據(jù)中的方式分析 分類:關聯(lián)分類分類:關聯(lián)
5、分類 聚類分析:基于頻繁方式的聚類聚類分析:基于頻繁方式的聚類 數(shù)據(jù)倉庫:冰山方體計算數(shù)據(jù)倉庫:冰山方體計算 假設問題的全域是商店中一切商品的集合,那么對每種商品都可以用一個布爾量來表示該商品能否被顧客購買,那么每個購物籃都可以用一個布爾向量表示;而經(jīng)過分析布爾向量那么可以得到商品被頻繁關聯(lián)或被同時購買的方式,這些方式就可以用關聯(lián)規(guī)那么表示e.g. 0001001100 關聯(lián)規(guī)那么的兩個興趣度度量 支持度 置信度 通常,假設關聯(lián)規(guī)那么同時滿足最小支持度閾值和最小置信度閾值,那么此關聯(lián)規(guī)那么是有趣的%60%,2sup_confidenceportsoftwareantiviruscomputer
6、 給定:給定: 項的集合:項的集合:I=i1,i2,.,in 義務相關數(shù)據(jù)義務相關數(shù)據(jù)D是數(shù)據(jù)庫事務的集合,每個事務是數(shù)據(jù)庫事務的集合,每個事務T那么是項的集合,使得那么是項的集合,使得 每個事務由事務標識符每個事務由事務標識符TID標識;標識; A,B為兩個項集,事務為兩個項集,事務T包含包含A當且僅當當且僅當 那么關聯(lián)規(guī)那么是如下蘊涵式:那么關聯(lián)規(guī)那么是如下蘊涵式: 其中其中 并且并且 ,規(guī)那么,規(guī)那么 在在事務集事務集D中成立,并且具有支持度中成立,并且具有支持度s和置信度和置信度cIT TA , csBA IBIA , BABA 項的集合 I=A,B,C,D,E,F 每個事務T由事務標
7、識符TID標識,它是項的集合 TID(2000)=A,B,C 義務相關數(shù)據(jù)D是數(shù)據(jù)庫事務的集合支持度支持度s是指事務集是指事務集D中包含中包含 的百分比的百分比置信度置信度c是指是指D中包含中包含A的事務同時也包含的事務同時也包含B的百分比的百分比假設最小支持度閾值假設最小支持度閾值為為50%,最小置信度,最小置信度閾值為閾值為50%,那么有,那么有如下關聯(lián)規(guī)那么如下關聯(lián)規(guī)那么A C (50%, 66.6%)C A (50%, 100%)同時滿足最小支持度同時滿足最小支持度閾值和最小置信度閾閾值和最小置信度閾值的規(guī)那么稱作強規(guī)值的規(guī)那么稱作強規(guī)那么那么Customerbuys diaperCu
8、stomerbuys bothCustomerbuys beerBA)( )(supBAPBAport)(/ )()|( )( APBAPABPBAconfidence布爾關聯(lián)規(guī)那么、單維規(guī)那么 buys(x,“computer)=buys(x,“finacial_management_software)量化關聯(lián)規(guī)那么、多維關聯(lián) a g e ( “ 3 0 . . 4 0 ) i n c o m e ( “ 4 2 0 0 0 . . 5 0 0 0 0 )=buys(x,“high_resolution_TV)多層關聯(lián)規(guī)那么 單層關聯(lián)規(guī)那么 age(x,“30.40)=buys(x,“IBM
9、 computer) (6.3)age(x,“30.40)=buys(x,“computer) (6.4)關聯(lián)規(guī)那么6.2可以用下面的SQL查詢語句完成。 Select C, P.item_name from Purchases,P group by Cust.ID having (Cust.age=30.and.Cust.age=42000 and Cust.income 40否是普通良好2.決策樹的運用編號編號年齡年齡學生學生信譽等級信譽等級類別標號類別標號1=30是是良好良好會購買會購買240否否一般一般會購買會購買440否否良好良好不會購買不會購買540否否一般一般會購
10、買會購買63140是是一般一般會購買會購買740是是一般一般會購買會購買940否否良好良好不會購買不會購買11=30否否一般一般不會購買不會購買123140是是一般一般會購買會購買133140否否一般一般會購買會購買143140是是良好良好會購買會購買“年齡在各個屬性中具有最大的信息增益,所以選擇年齡在各個屬性中具有最大的信息增益,所以選擇“年齡屬性作為第一個測試屬性,創(chuàng)建一個節(jié)點,用年齡屬性作為第一個測試屬性,創(chuàng)建一個節(jié)點,用“年齡標志。年齡標志。計算剩余各個屬性的相應的信息增益,選擇信息增益最大計算剩余各個屬性的相應的信息增益,選擇信息增益最大的屬性作為測試屬性,這時信息增益最大的是的屬性
11、作為測試屬性,這時信息增益最大的是“學生屬學生屬性,創(chuàng)建一個節(jié)點,用性,創(chuàng)建一個節(jié)點,用“學生標志學生標志 。6.3.1 知識發(fā)掘工具的系統(tǒng)構(gòu)造知識發(fā)掘工具的系統(tǒng)構(gòu)造1.無耦合無耦合no couplingDM系統(tǒng)不利用系統(tǒng)不利用DB或或DW系統(tǒng)的任何功能系統(tǒng)的任何功能 2.松散耦合松散耦合loose couplingDM系統(tǒng)將運用系統(tǒng)將運用DB/DW的某些工具的某些工具 3.半嚴密耦合半嚴密耦合semitight couplingDM系統(tǒng)銜接到一個系統(tǒng)銜接到一個DB/DW系統(tǒng),一些根本數(shù)據(jù)系統(tǒng),一些根本數(shù)據(jù)發(fā)掘原語可以在發(fā)掘原語可以在DB/DW系統(tǒng)中實現(xiàn)。系統(tǒng)中實現(xiàn)。 4.嚴密耦合嚴密耦合ti
12、ght couplingDM系統(tǒng)被平滑地集成到系統(tǒng)被平滑地集成到DB/DW系統(tǒng)中系統(tǒng)中 6.3.2 知識發(fā)掘工具運用中的問題知識發(fā)掘工具運用中的問題1.數(shù)據(jù)發(fā)掘技術運用中的共性問題數(shù)據(jù)發(fā)掘技術運用中的共性問題(1)數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量(2)數(shù)據(jù)可視化數(shù)據(jù)可視化(3)極大數(shù)據(jù)庫極大數(shù)據(jù)庫(vLDB)的問題的問題(4)性能和本錢性能和本錢(5)商業(yè)分折員的技藝商業(yè)分折員的技藝(6)處置噪聲和不完全數(shù)據(jù)處置噪聲和不完全數(shù)據(jù)(7)方式評價方式評價興趣度問題興趣度問題6.3.2 知識發(fā)掘工具運用中的問題知識發(fā)掘工具運用中的問題2.數(shù)據(jù)發(fā)掘技術運用中的個性問題數(shù)據(jù)發(fā)掘技術運用中的個性問題(1)規(guī)那么歸納運用中
13、的問題規(guī)那么歸納運用中的問題主要用于顯式描畫數(shù)據(jù)抽取的規(guī)那么主要用于顯式描畫數(shù)據(jù)抽取的規(guī)那么 、找到一切、找到一切的規(guī)那么,任務量是宏大的的規(guī)那么,任務量是宏大的 (2)神經(jīng)網(wǎng)絡運用中的問題神經(jīng)網(wǎng)絡運用中的問題受訓練過度的影響受訓練過度的影響 、神經(jīng)網(wǎng)絡的訓練速度問題、神經(jīng)網(wǎng)絡的訓練速度問題 (3)遺傳算法運用中的問題遺傳算法運用中的問題6.3.3 知識發(fā)掘的價值知識發(fā)掘的價值1.了解商業(yè)活動了解商業(yè)活動2.發(fā)現(xiàn)商業(yè)異常發(fā)現(xiàn)商業(yè)異常3.預測模型預測模型6.3.4 現(xiàn)代數(shù)據(jù)發(fā)掘工具簡介現(xiàn)代數(shù)據(jù)發(fā)掘工具簡介1.DBMiner的體系構(gòu)造的體系構(gòu)造2.DBMiner的數(shù)據(jù)發(fā)掘類型的數(shù)據(jù)發(fā)掘類型6.4.
14、1 文本發(fā)掘文本發(fā)掘1.文本分析和語義網(wǎng)絡文本分析和語義網(wǎng)絡文本分析文本分析為一個大型文本集合提供內(nèi)容概略為一個大型文本集合提供內(nèi)容概略例如,可以發(fā)現(xiàn)一個客戶反響集合中文檔的顯著例如,可以發(fā)現(xiàn)一個客戶反響集合中文檔的顯著簇,這樣能夠會發(fā)現(xiàn)公司的產(chǎn)品或效力在哪里需簇,這樣能夠會發(fā)現(xiàn)公司的產(chǎn)品或效力在哪里需求改良。求改良。指出對象間的隱藏構(gòu)造指出對象間的隱藏構(gòu)造在組織一個企業(yè)內(nèi)部網(wǎng)站時,文本分析可以找出在組織一個企業(yè)內(nèi)部網(wǎng)站時,文本分析可以找出對象間的隱藏構(gòu)造,這樣有關聯(lián)的文檔就能被超對象間的隱藏構(gòu)造,這樣有關聯(lián)的文檔就能被超鏈接銜接起來。鏈接銜接起來。提高發(fā)現(xiàn)類似或相關信息搜索過程的效率和有提高
15、發(fā)現(xiàn)類似或相關信息搜索過程的效率和有效性效性例如,可以從一個新聞效力機構(gòu)搜索文章和發(fā)現(xiàn)例如,可以從一個新聞效力機構(gòu)搜索文章和發(fā)現(xiàn)獨有的文檔,這些文檔含有到如今為止在別的文獨有的文檔,這些文檔含有到如今為止在別的文章中沒有提到過的新趨勢或技術的線索。章中沒有提到過的新趨勢或技術的線索。偵查存檔中的反復文檔偵查存檔中的反復文檔文本分析可以用于大量文本需求分析的地方。雖文本分析可以用于大量文本需求分析的地方。雖然自動處置不能到達人類閱讀分析的深度,但它然自動處置不能到達人類閱讀分析的深度,但它可以被用來抽取關鍵點、產(chǎn)生總結(jié)、分類文檔等??梢员挥脕沓槿£P鍵點、產(chǎn)生總結(jié)、分類文檔等。語義網(wǎng)絡語義網(wǎng)絡一個
16、有效文本分析的第一步是創(chuàng)建該文本的一個一個有效文本分析的第一步是創(chuàng)建該文本的一個語義網(wǎng)絡。一個語義網(wǎng)絡是一系列來自分析的文語義網(wǎng)絡。一個語義網(wǎng)絡是一系列來自分析的文本的最重要概念詞與詞的組合以及文本中這本的最重要概念詞與詞的組合以及文本中這些概念間的語義聯(lián)絡。一個語義網(wǎng)絡為分析的文些概念間的語義聯(lián)絡。一個語義網(wǎng)絡為分析的文本提供了一個簡明和非常準確的總結(jié)。與人工神本提供了一個簡明和非常準確的總結(jié)。與人工神經(jīng)網(wǎng)絡一樣,語義網(wǎng)絡的每個元素經(jīng)網(wǎng)絡一樣,語義網(wǎng)絡的每個元素概念都被概念都被它的權重和一組與此網(wǎng)絡其他元素的聯(lián)絡所標它的權重和一組與此網(wǎng)絡其他元素的聯(lián)絡所標識識一個上下文結(jié)點。一旦為調(diào)查研討的
17、文本一個上下文結(jié)點。一旦為調(diào)查研討的文本構(gòu)造的一組準確的語義網(wǎng)絡建立起來,一切文本構(gòu)造的一組準確的語義網(wǎng)絡建立起來,一切文本分析義務就可以執(zhí)行。分析義務就可以執(zhí)行。在現(xiàn)有的大部分算法中,一個語義網(wǎng)絡是在一些在現(xiàn)有的大部分算法中,一個語義網(wǎng)絡是在一些已定義的規(guī)那么和概念的根底上建立起來的。不已定義的規(guī)那么和概念的根底上建立起來的。不過,也存在一些比較強大的算法,這些算法不需過,也存在一些比較強大的算法,這些算法不需求任何關于主題的預先背景知識,可以僅僅在一求任何關于主題的預先背景知識,可以僅僅在一個調(diào)查研討文本的根底上完全自動建立起一個語個調(diào)查研討文本的根底上完全自動建立起一個語義網(wǎng)絡。義網(wǎng)絡。
18、2.文本發(fā)掘文本發(fā)掘文本總結(jié)文本總結(jié)從文檔中抽取關鍵信息,用簡約的方式對文檔內(nèi)從文檔中抽取關鍵信息,用簡約的方式對文檔內(nèi)容進展摘要或解釋。用戶不需求閱讀全文就可以容進展摘要或解釋。用戶不需求閱讀全文就可以了解文檔或文檔集合的總體內(nèi)容。了解文檔或文檔集合的總體內(nèi)容?;陉P鍵字的關聯(lián)分析基于關鍵字的關聯(lián)分析首先搜集經(jīng)常一同出現(xiàn)的關鍵字或詞匯,然后找首先搜集經(jīng)常一同出現(xiàn)的關鍵字或詞匯,然后找出其關聯(lián)或相互關系。在這類分析中,每一個文出其關聯(lián)或相互關系。在這類分析中,每一個文檔被視為一個事務,文檔中的關鍵字組可視為事檔被視為一個事務,文檔中的關鍵字組可視為事務中的一組事務項。這樣,這種基于關鍵字的關務
19、中的一組事務項。這樣,這種基于關鍵字的關聯(lián)分析就變成事務數(shù)據(jù)庫中事務項的關聯(lián)發(fā)掘問聯(lián)分析就變成事務數(shù)據(jù)庫中事務項的關聯(lián)發(fā)掘問題。題。 一組經(jīng)常延續(xù)出現(xiàn)或嚴密相關的關鍵字可構(gòu)成一一組經(jīng)常延續(xù)出現(xiàn)或嚴密相關的關鍵字可構(gòu)成一個詞或詞組。關聯(lián)分析有助于找出復合關聯(lián),即個詞或詞組。關聯(lián)分析有助于找出復合關聯(lián),即領域相關的詞或詞組,如領域相關的詞或詞組,如中國,長江,三峽中國,長江,三峽。還。還有助于找出非復合關聯(lián),即領域不相關的詞或詞有助于找出非復合關聯(lián),即領域不相關的詞或詞組,如組,如人民幣,買賣,總額,證券,傭金,參股人民幣,買賣,總額,證券,傭金,參股?;谶@些詞或詞組關聯(lián)的發(fā)掘被稱為基于這些詞或
20、詞組關聯(lián)的發(fā)掘被稱為“詞級關聯(lián)詞級關聯(lián)發(fā)掘。利用這種詞和詞組的識別,詞級發(fā)掘可發(fā)掘。利用這種詞和詞組的識別,詞級發(fā)掘可以用于找出詞或關鍵字之間的關聯(lián)。以用于找出詞或關鍵字之間的關聯(lián)。2.文本發(fā)掘文本發(fā)掘文檔分類分析文檔分類分析在已有的數(shù)據(jù)根底上學會一個分類函數(shù)或構(gòu)造出在已有的數(shù)據(jù)根底上學會一個分類函數(shù)或構(gòu)造出一個分類模型。對文檔進展分類。文檔的分類分一個分類模型。對文檔進展分類。文檔的分類分析,普通是先把一組預先分類過的文檔作為訓練析,普通是先把一組預先分類過的文檔作為訓練集,然后對訓練集加以分析以便得出分類方式。集,然后對訓練集加以分析以便得出分類方式。這種分類方式普通要經(jīng)過一定的測試過程,
21、不斷這種分類方式普通要經(jīng)過一定的測試過程,不斷細化。最后用分類方式對其他文檔加以分類。細化。最后用分類方式對其他文檔加以分類。常用的一種對文檔分類的有效方法是基于關聯(lián)的常用的一種對文檔分類的有效方法是基于關聯(lián)的分類。這種分類方法是基于一組相關聯(lián)的、經(jīng)常分類。這種分類方法是基于一組相關聯(lián)的、經(jīng)常出現(xiàn)的文本方式對文檔加以分類。其處置過程為:出現(xiàn)的文本方式對文檔加以分類。其處置過程為:首先,經(jīng)過簡單的信息檢索技術或關聯(lián)分析技術首先,經(jīng)過簡單的信息檢索技術或關聯(lián)分析技術提出關鍵字或詞匯。然后,運用已有的詞類,或提出關鍵字或詞匯。然后,運用已有的詞類,或基于專家知識,或用關鍵字分類系統(tǒng),生成關鍵基于專家
22、知識,或用關鍵字分類系統(tǒng),生成關鍵字和詞的概念層次。最后,運用詞級關聯(lián)發(fā)掘方字和詞的概念層次。最后,運用詞級關聯(lián)發(fā)掘方法發(fā)現(xiàn)一組關聯(lián)詞。這樣,每一類文檔相關有一法發(fā)現(xiàn)一組關聯(lián)詞。這樣,每一類文檔相關有一組關聯(lián)規(guī)那么表示。這些分類規(guī)那么可以基于其組關聯(lián)規(guī)那么表示。這些分類規(guī)那么可以基于其出現(xiàn)頻率和識別才干,加以排序,并用于對新的出現(xiàn)頻率和識別才干,加以排序,并用于對新的文檔進展分類。文檔進展分類。文檔聚類分析文檔聚類分析文檔聚類是把文檔集分成不同組的自動過程。沒文檔聚類是把文檔集分成不同組的自動過程。沒有預先定義好主題類別,它的目的是將文檔集合有預先定義好主題類別,它的目的是將文檔集合分成假設干
23、個組,要求同一組內(nèi)文檔內(nèi)容的類似分成假設干個組,要求同一組內(nèi)文檔內(nèi)容的類似度盡能夠大,而不同組間的類似度盡能夠小。當度盡能夠大,而不同組間的類似度盡能夠小。當文檔的內(nèi)容作為聚類的根底時,不同組是對應于文檔的內(nèi)容作為聚類的根底時,不同組是對應于集合中討論的不同主題或論題。因此,聚類是找集合中討論的不同主題或論題。因此,聚類是找出集合所含內(nèi)容的一條途徑。為協(xié)助識別出一組出集合所含內(nèi)容的一條途徑。為協(xié)助識別出一組主題,聚類工具可以識別出在此組文檔中頻繁出主題,聚類工具可以識別出在此組文檔中頻繁出現(xiàn)的術語或詞的列表。聚類也能根據(jù)文檔的屬性現(xiàn)的術語或詞的列表。聚類也能根據(jù)文檔的屬性集實施,例如它們的長度
24、、日期等進展聚類。集實施,例如它們的長度、日期等進展聚類。文本發(fā)掘的運用文本發(fā)掘的運用利用文本發(fā)掘構(gòu)造的電子郵件路由,可以對電子利用文本發(fā)掘構(gòu)造的電子郵件路由,可以對電子郵件進展文本發(fā)掘以后,確定由哪一個部門、哪郵件進展文本發(fā)掘以后,確定由哪一個部門、哪一個人來處置這些電子郵件,并可以根據(jù)電子郵一個人來處置這些電子郵件,并可以根據(jù)電子郵件的內(nèi)容進展相關統(tǒng)計。件的內(nèi)容進展相關統(tǒng)計。文本發(fā)掘可以協(xié)助組織對成千上萬的文檔實現(xiàn)有文本發(fā)掘可以協(xié)助組織對成千上萬的文檔實現(xiàn)有效的管理,可以使組織很快地了解到所需求查找效的管理,可以使組織很快地了解到所需求查找的文檔所在位置,以及其包含的主要內(nèi)容。的文檔所在位
25、置,以及其包含的主要內(nèi)容??梢岳梦谋景l(fā)掘建立一個客戶自動問答系統(tǒng),可以利用文本發(fā)掘建立一個客戶自動問答系統(tǒng),對客戶所郵寄的信件、電子郵件進展文本發(fā)掘以對客戶所郵寄的信件、電子郵件進展文本發(fā)掘以后,根據(jù)其反映的主要問題,可以確定客戶的需后,根據(jù)其反映的主要問題,可以確定客戶的需求置信度后,就可以自動給客戶發(fā)送適宜的回信。求置信度后,就可以自動給客戶發(fā)送適宜的回信。企業(yè)并且還可以利用聯(lián)機文本發(fā)掘系統(tǒng)對因特網(wǎng)企業(yè)并且還可以利用聯(lián)機文本發(fā)掘系統(tǒng)對因特網(wǎng)上所出現(xiàn)的特定詞、概念、主題進展發(fā)掘統(tǒng)計,上所出現(xiàn)的特定詞、概念、主題進展發(fā)掘統(tǒng)計,對市場進展客觀的統(tǒng)計分析。對市場進展客觀的統(tǒng)計分析。企業(yè)甚至可以利
26、用一些具有文本發(fā)掘功能的自動企業(yè)甚至可以利用一些具有文本發(fā)掘功能的自動智能網(wǎng)絡爬蟲來搜集與企業(yè)有關的市場、競爭對智能網(wǎng)絡爬蟲來搜集與企業(yè)有關的市場、競爭對手和市場環(huán)境的信息,給出總結(jié)性的分析報告。手和市場環(huán)境的信息,給出總結(jié)性的分析報告。6.4.2 Web發(fā)掘技術發(fā)掘技術Web的特點的特點Web的龐大性、的龐大性、Web的動態(tài)性、的動態(tài)性、Web的異構(gòu)性、的異構(gòu)性、非構(gòu)造化的數(shù)據(jù)構(gòu)造、用戶群體多種多樣非構(gòu)造化的數(shù)據(jù)構(gòu)造、用戶群體多種多樣2. Web內(nèi)容發(fā)掘內(nèi)容發(fā)掘基于文本信息的發(fā)掘基于文本信息的發(fā)掘和通常的平面文本發(fā)掘比較類似。和通常的平面文本發(fā)掘比較類似。Web文檔多為文檔多為HTML、XM
27、L等言語,因此可以利用等言語,因此可以利用Web文檔文檔中的標志,如中的標志,如、等額外信息,等額外信息,利用這些信息來提高利用這些信息來提高Web文本發(fā)掘的性能。文本發(fā)掘的性能。在對在對Web文檔進展分類分析中,可以基于一組預文檔進展分類分析中,可以基于一組預先分類好的文檔,從預定義好分類目錄中為每先分類好的文檔,從預定義好分類目錄中為每一文檔賦予一個類標簽。例如,一文檔賦予一個類標簽。例如,Yahoo!的文檔的文檔和其相關文檔可以作為訓練集,用于導出和其相關文檔可以作為訓練集,用于導出Web文檔的分類方式,這一方式可以用于對新的文檔的分類方式,這一方式可以用于對新的Web文檔加以分類。由于
28、超鏈接包含了有關頁文檔加以分類。由于超鏈接包含了有關頁面內(nèi)容的高質(zhì)量信息,因此,可以利用這些信面內(nèi)容的高質(zhì)量信息,因此,可以利用這些信息對息對Web文檔進展分類。這種分類比基于關鍵文檔進展分類。這種分類比基于關鍵字的分類方法要更準確、更完美。字的分類方法要更準確、更完美?;诙嗝襟w信息的發(fā)掘基于多媒體信息的發(fā)掘基于音頻的發(fā)掘、基于圖片的靜態(tài)圖像的發(fā)掘和基于音頻的發(fā)掘、基于圖片的靜態(tài)圖像的發(fā)掘和基于視頻的動態(tài)圖像發(fā)掘?;谝曨l的動態(tài)圖像發(fā)掘。3.Web構(gòu)造發(fā)掘構(gòu)造發(fā)掘從從WWW的組織構(gòu)造和鏈接關系中推導知識的組織構(gòu)造和鏈接關系中推導知識 有助于用戶找到相關主題的權威站點,并且可以有助于用戶找到相
29、關主題的權威站點,并且可以指向眾多權威站點的相關主題站點。指向眾多權威站點的相關主題站點。 從一個頁面指向另一個頁面的超鏈接。超鏈接包從一個頁面指向另一個頁面的超鏈接。超鏈接包含了大量人類潛在的語義,它有助于自動分析含了大量人類潛在的語義,它有助于自動分析出權威性語義。當一個出權威性語義。當一個Web頁面的作者建立起頁面的作者建立起指向另一頁面的指針時,這就可以看作是作者指向另一頁面的指針時,這就可以看作是作者對另一頁面的注解,也就是對另一頁面的認可。對另一頁面的注解,也就是對另一頁面的認可。把一個頁面的來自與不同作者的注解搜集起來,把一個頁面的來自與不同作者的注解搜集起來,就可以用來反映頁面
30、的重要性。就可以用來反映頁面的重要性。 Hub頁面是指一個或多個頁面是指一個或多個Web頁面,它提供了指頁面,它提供了指向權威頁面的鏈接集合。對于一個向權威頁面的鏈接集合。對于一個Hub頁面來頁面來說,它本身能夠并不突出,但是,它卻提供了說,它本身能夠并不突出,但是,它卻提供了指向某個話題的權威頁面的鏈接。好的指向某個話題的權威頁面的鏈接。好的Hub是是指向許多好的權威頁面;好的權威頁面是指有指向許多好的權威頁面;好的權威頁面是指有好的好的Hub頁面指向的頁面。用頁面指向的頁面。用Hub頁面和權威頁面和權威頁面之間的這種相互作用來用于權威頁面的發(fā)頁面之間的這種相互作用來用于權威頁面的發(fā)掘和高質(zhì)
31、量掘和高質(zhì)量Web構(gòu)造和資源的自動發(fā)現(xiàn)。構(gòu)造和資源的自動發(fā)現(xiàn)。4. Web運用記錄的發(fā)掘運用記錄的發(fā)掘經(jīng)過發(fā)掘經(jīng)過發(fā)掘Web日志文件和相關數(shù)據(jù),發(fā)現(xiàn)用戶訪問日志文件和相關數(shù)據(jù),發(fā)現(xiàn)用戶訪問Web頁面的方式。頁面的方式。 Internet的用戶一旦銜接到一個在線的效力器上,就的用戶一旦銜接到一個在線的效力器上,就在效力器上的日志文件留下了所懇求的在效力器上的日志文件留下了所懇求的URL,發(fā)出懇,發(fā)出懇求的求的IP地址和時間戳。這些日志紀錄提供了地址和時間戳。這些日志紀錄提供了Web數(shù)據(jù)數(shù)據(jù)發(fā)掘源,可提取有關用戶的知識:用戶的訪問行為、發(fā)掘源,可提取有關用戶的知識:用戶的訪問行為、頻度、內(nèi)容,得到
32、關于用戶的行為和方式方式。改良頻度、內(nèi)容,得到關于用戶的行為和方式方式。改良站點的構(gòu)造,或為用戶提供個性化效力。這方面的研站點的構(gòu)造,或為用戶提供個性化效力。這方面的研討主要有兩個方向:普通的訪問方式追蹤和個性化的討主要有兩個方向:普通的訪問方式追蹤和個性化的運用紀錄追蹤。普通的訪問方式追蹤經(jīng)過分析運用紀運用紀錄追蹤。普通的訪問方式追蹤經(jīng)過分析運用紀錄來了解用戶的訪問方式和傾向,從而改良站點的組錄來了解用戶的訪問方式和傾向,從而改良站點的組織構(gòu)造。而個性化的運用紀錄追蹤那么傾向于分析單織構(gòu)造。而個性化的運用紀錄追蹤那么傾向于分析單個用戶的偏好,其目的是根據(jù)不同用戶的訪問方式,個用戶的偏好,其目的是根據(jù)不同用戶的訪問方式,為每個用戶提供個性化的頁面,開展有針對性的效力為每個用戶提供個性化的頁面,開展有針對性的效力以滿足用戶的需求。以滿足用戶的需求。數(shù)據(jù)預處置階段數(shù)據(jù)預處置階段包括數(shù)據(jù)清洗和事務識別兩個部分包括數(shù)據(jù)清洗和事務識別兩個部分 方式識別階段方式識別階段采用統(tǒng)計法、機器學習等技術,從采用統(tǒng)計法、機器學習等技術,從Web運用記錄運用記錄中發(fā)掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年特許金融分析師考試的自我提升試題及答案
- 2025屆黑龍江省教育學會示范性高中專業(yè)委員會高三下學期第一次模擬考試地理試卷
- 衍生品交易中的風險評估試題及答案
- 水凝膠知識點總結(jié)
- 金融市場及機構(gòu)試題及答案
- 從容應對CFA考試的試題及答案應對策略
- 高效備考CFA試題及答案分享
- 2024年CFA考試重要資料及試題及答案
- 機場年終工作總結(jié)
- 高壓電纜培訓
- 緩和醫(yī)療-以死觀生的生活智慧知到智慧樹章節(jié)測試課后答案2024年秋嘉興大學
- 中國肥胖及代謝疾病外科治療指南(2024版)解讀
- 2025中智集團總部及下屬單位多崗位面向社會公開招聘7人高頻重點模擬試卷提升(共500題附帶答案詳解)
- 膀胱癌護理疑難病例討論
- 銀行品牌塑造策略
- 年產(chǎn)20萬噸超細重質(zhì)碳酸鈣、10萬噸母粒項目可行性研究報告寫作模板-申批備案
- CNAS-SC190-2021 能源管理體系認證機構(gòu)認可方案
- 港口經(jīng)濟學知到智慧樹章節(jié)測試課后答案2024年秋上海海事大學
- 2025年全球及中國修飾性核苷行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2019年新政府會計制度
- 水的粘度計算表-水的動力粘度計算公式文檔編輯
評論
0/150
提交評論