中文文本挖掘演示v0.5剖析_第1頁(yè)
中文文本挖掘演示v0.5剖析_第2頁(yè)
中文文本挖掘演示v0.5剖析_第3頁(yè)
中文文本挖掘演示v0.5剖析_第4頁(yè)
中文文本挖掘演示v0.5剖析_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中文文本挖掘 吳思博 鄭祥云 譚紫逸 主要內(nèi)容1文本數(shù)據(jù)分析和信息檢索2文本挖掘方法3統(tǒng)一的中文文本挖掘模型4 1、數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù) 2、現(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)存儲(chǔ)在文本數(shù)據(jù)庫(kù)中 3、存放在文本數(shù)據(jù)庫(kù)中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù)1.2文本挖掘的定義 文本挖掘( Text Mining , TM) , 又稱(chēng)為文本數(shù)據(jù)挖掘(Text Data Mining , TDM) 或文本知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Texts , KDT) , 是指為了發(fā)現(xiàn)知識(shí), 從大規(guī)模文本庫(kù)中抽取隱含的、以前未知的、潛在有用的模式的過(guò)程 。 數(shù)據(jù)挖掘數(shù)據(jù)挖掘文本挖掘文本挖掘研究對(duì)象研究

2、對(duì)象用數(shù)字表示的、結(jié)構(gòu)化的數(shù)據(jù)用數(shù)字表示的、結(jié)構(gòu)化的數(shù)據(jù)無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)化的文本無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)化的文本對(duì)象結(jié)構(gòu)對(duì)象結(jié)構(gòu)關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)自由開(kāi)放的文本自由開(kāi)放的文本目標(biāo)目標(biāo)獲取知識(shí),預(yù)測(cè)以后的狀態(tài)獲取知識(shí),預(yù)測(cè)以后的狀態(tài)提取概念和知識(shí)提取概念和知識(shí)方法方法歸納學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、歸納學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、粗糙集、遺傳算法等粗糙集、遺傳算法等提取短語(yǔ)、形成概念、關(guān)聯(lián)提取短語(yǔ)、形成概念、關(guān)聯(lián)分析、聚類(lèi)、分類(lèi)分析、聚類(lèi)、分類(lèi)成熟度成熟度從從1994年開(kāi)始得到廣泛應(yīng)用年開(kāi)始得到廣泛應(yīng)用從從2000年開(kāi)始得到廣泛應(yīng)用年開(kāi)始得到廣泛應(yīng)用1.4文本挖掘的任務(wù)n 文本挖掘預(yù)處理文本挖掘預(yù)處理 原始的

3、原始的非結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)源數(shù)據(jù)源結(jié)構(gòu)化結(jié)構(gòu)化表示表示n 文本模式挖掘文本模式挖掘 文本挖掘系統(tǒng)核心功能是分析文本集合中各個(gè)文本之間共文本挖掘系統(tǒng)核心功能是分析文本集合中各個(gè)文本之間共同出現(xiàn)的模式同出現(xiàn)的模式 例如:蛋白質(zhì)例如:蛋白質(zhì)P1P1和酶和酶E1E1存在聯(lián)系,在其他文章中說(shuō)酶存在聯(lián)系,在其他文章中說(shuō)酶E1E1和酶和酶E2E2功能相似,還有文章把酶功能相似,還有文章把酶E2E2和蛋白質(zhì)和蛋白質(zhì)P2P2聯(lián)系起來(lái),聯(lián)系起來(lái),我們可以推斷出我們可以推斷出P1P1和和P2P2存在聯(lián)系存在聯(lián)系n 挖掘結(jié)果可視化挖掘結(jié)果可視化 也就是文本挖掘系統(tǒng)的表示層,簡(jiǎn)稱(chēng)也就是文本挖掘系統(tǒng)的表示層,簡(jiǎn)稱(chēng)瀏覽瀏覽

4、1.5文本挖掘處理過(guò)程特征的建立特征集的縮減學(xué)習(xí)與知識(shí)模式的提取知識(shí)模式模式質(zhì)量的評(píng)價(jià)文檔集文本挖掘的一般處理過(guò)程n 1.6 中文文本挖掘流程 1.7漢語(yǔ)特點(diǎn)與當(dāng)前中文信息處理水平 漢語(yǔ)是一種語(yǔ)義型語(yǔ)言,漢語(yǔ)是一種語(yǔ)義型語(yǔ)言, 重重“意合意合”, ”, 輕形式輕形式, , 而且語(yǔ)而且語(yǔ)形、語(yǔ)法和語(yǔ)義等各層面的歧義現(xiàn)象非常嚴(yán)重。形、語(yǔ)法和語(yǔ)義等各層面的歧義現(xiàn)象非常嚴(yán)重。n (1) 漢語(yǔ)缺乏狹義的形態(tài)n (2) 語(yǔ)法靈活n (3) 語(yǔ)義靈活 (存在一詞多義、同音詞、同義詞、近義詞等)1.7中文文本挖掘研究現(xiàn)狀n (1) 沒(méi)有形成完整的適合中文信息處理的文本挖掘理論與技術(shù)框架n (2) 中文文本的特

5、征提取與表示大多數(shù)采用“詞袋”法n (3) 知識(shí)挖掘的種類(lèi)和深度有限1.8文本挖掘的可能應(yīng)用領(lǐng)域包括:n (1) 客戶模型分析n (2) 網(wǎng)上有害信息的發(fā)現(xiàn)、過(guò)濾與跟蹤n (3) 主動(dòng)個(gè)性化信息服務(wù)n (4) 公司資源計(jì)劃n (5) 科技文獻(xiàn)分析n (6) 網(wǎng)上論壇的實(shí)時(shí)監(jiān)控;n (7) 電子郵件分類(lèi)與過(guò)濾; 等等。2.1 文本檢索的基本度量n 查準(zhǔn)率(查準(zhǔn)率(Precision)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準(zhǔn)確性n 查全率(查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性信息檢索的度量方式n

6、relevant:與某查詢(xún)相關(guān)的文檔的集合。:與某查詢(xún)相關(guān)的文檔的集合。nretrieved:系統(tǒng)檢索到的文檔的集合。:系統(tǒng)檢索到的文檔的集合。nrelevant retrieved:既相關(guān)又被檢索到:既相關(guān)又被檢索到的實(shí)際文檔的集合。的實(shí)際文檔的集合。模型質(zhì)量的評(píng)價(jià)實(shí)例nrelevant =A,B,C,D,E,F,G,H,I,J = 10nretrieved = B, D, F,W,Y = 5nrelevant retrieved =B,D,F = 3n查準(zhǔn)率:查準(zhǔn)率:precision = 3/5 = 60%n查全率:查全率:recall = 3/10 = 30% B,D,F相關(guān)并被檢索到

7、的文檔所有文檔A,C,E,G,H, I, J相關(guān)的文檔 W,Y被檢索到的文檔2.2 文檔檢索方法 文本符號(hào)化文本符號(hào)化n 符號(hào)化:為表示文檔而標(biāo)識(shí)關(guān)鍵詞。符號(hào)化:為表示文檔而標(biāo)識(shí)關(guān)鍵詞。n 停用詞表:看上去停用詞表:看上去“不相關(guān)的不相關(guān)的”詞的集合。詞的集合。中文分詞:中文分詞:n 中文分詞對(duì)人名地名分解的仍然不好,大多分解成單字。中文分詞對(duì)人名地名分解的仍然不好,大多分解成單字。-展示分詞軟件n 分詞效果:分詞效果: zw - c( zw - c(如果你聽(tīng)到某人說(shuō)他使用某軟體,然如果你聽(tīng)到某人說(shuō)他使用某軟體,然后看看效果,有些美中不足,那就叫星光燦爛后看看效果,有些美中不足,那就叫星光燦爛

8、吧!吧! thus do not have the texts already thus do not have the texts already stored on a hard disk, and want to save stored on a hard disk, and want to save the text documents to disk)the text documents to disk)n 1 1、去停用詞:、去停用詞:n zwfc(zw,zj1)zwfc(zw,zj1)n 1 1 聽(tīng)聽(tīng) 某人某人 說(shuō)說(shuō) 使用使用 軟軟 體體 看看看看 效效果果 美美 中中 不足不足

9、 星光星光 燦爛燦爛 thu text thu text alreadi store hard disk save text alreadi store hard disk save text document disk time: 0.109 sdocument disk time: 0.109 sn 2 2、不去停用詞:、不去停用詞:n zwfc(zw,zj1)zwfc(zw,zj1) 1 1 如果如果 你你 聽(tīng)聽(tīng) 到到 某人某人 說(shuō)說(shuō) 他他 使用使用 某某 軟軟 體體 , , 然后然后 看看看看 效效果果 , , 有些有些 美美 中中 不足不足 , , 那那 就就 叫叫 , , 星光星光

10、 燦爛燦爛 , , 吧吧 , thu do not have , thu do not have the text alreadi store on a hard the text alreadi store on a hard disk , and want to save the text disk , and want to save the text document to disk time: 0.0 sdocument to disk time: 0.0 s文檔建模n 詞頻:指詞t在文檔d中出現(xiàn)的次數(shù),即freq(d,t).n (加權(quán)的)詞頻矩陣TF(d,t):用來(lái)度量詞t與給定文

11、檔d之間的關(guān)聯(lián)度。-展示相關(guān)度實(shí)驗(yàn)展示相關(guān)度實(shí)驗(yàn)文檔建模n 詞頻矩陣詞頻矩陣n行對(duì)應(yīng)關(guān)鍵詞行對(duì)應(yīng)關(guān)鍵詞t,列對(duì)應(yīng)文檔,列對(duì)應(yīng)文檔d向量向量n將每一個(gè)文檔視為空間向量將每一個(gè)文檔視為空間向量vn向量值反映單詞向量值反映單詞t與文檔與文檔d的關(guān)聯(lián)度的關(guān)聯(lián)度表示文檔詞頻的詞頻矩陣表示文檔詞頻的詞頻矩陣d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635基于相似性的檢索212121),(vvvvvvsimn 余弦計(jì)算法(余弦計(jì)算法(cosine measurecosine measure)文檔間相似性計(jì)

12、算舉例文檔向量化-展示相關(guān)度實(shí)驗(yàn)展示相關(guān)度實(shí)驗(yàn)查詢(xún):相關(guān)度-展示相關(guān)度實(shí)驗(yàn)展示相關(guān)度實(shí)驗(yàn)文檔間相似度(余弦定理)3.文本挖掘方法n 文本挖掘功能層次 關(guān)鍵詞關(guān)鍵詞相似檢索相似檢索詞語(yǔ)關(guān)聯(lián)分析詞語(yǔ)關(guān)聯(lián)分析自然語(yǔ)言處理自然語(yǔ)言處理文本聚類(lèi)文本聚類(lèi)文本分類(lèi)文本分類(lèi)文本挖掘功能層次文本挖掘功能層次3.1關(guān)聯(lián)分析挖掘 關(guān)聯(lián)分析過(guò)程:關(guān)聯(lián)分析過(guò)程:對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語(yǔ)或短語(yǔ)關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)

13、的術(shù)語(yǔ)或短語(yǔ)3.1關(guān)聯(lián)分析挖掘 輸入語(yǔ)義信輸入語(yǔ)義信息,如事件、息,如事件、事實(shí)或信息事實(shí)或信息提取發(fā)現(xiàn)的提取發(fā)現(xiàn)的實(shí)體實(shí)體輸入是標(biāo)記輸入是標(biāo)記的集合的集合輸入是文檔輸入是文檔中關(guān)鍵詞或中關(guān)鍵詞或詞的集合詞的集合基于關(guān)鍵詞的方法基于關(guān)鍵詞的方法標(biāo)記方法標(biāo)記方法信息提取方法信息提取方法3.2文檔分類(lèi)分析3.2文檔分類(lèi)分析n 應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域 門(mén)戶網(wǎng)站(網(wǎng)頁(yè))門(mén)戶網(wǎng)站(網(wǎng)頁(yè)) 圖書(shū)館(電子資料)圖書(shū)館(電子資料) n 自動(dòng)分類(lèi)優(yōu)點(diǎn):自動(dòng)分類(lèi)優(yōu)點(diǎn): 減小人工分類(lèi)的繁雜工作減小人工分類(lèi)的繁雜工作 提高信息處理的效率提高信息處理的效率 減小人工分類(lèi)的主觀性減小人工分類(lèi)的主觀性3.2文檔分類(lèi)分析文本分類(lèi)基

14、本步驟3.3文檔聚類(lèi)分析n 文本聚類(lèi)是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分文本聚類(lèi)是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同數(shù)據(jù)類(lèi)的過(guò)程為不同數(shù)據(jù)類(lèi)的過(guò)程n 其目的是要使同一類(lèi)別的文本間的距離盡可能小,其目的是要使同一類(lèi)別的文本間的距離盡可能小,而不同類(lèi)別的文本間的距離盡可能的大而不同類(lèi)別的文本間的距離盡可能的大 -展示相關(guān)度實(shí)驗(yàn)展示相關(guān)度實(shí)驗(yàn)3.3文檔聚類(lèi)分析n文檔自動(dòng)聚類(lèi)的步驟文檔自動(dòng)聚類(lèi)的步驟(1)獲取結(jié)構(gòu)化的文本集)獲取結(jié)構(gòu)化的文本集(2)執(zhí)行聚類(lèi)算法,獲得聚類(lèi)譜系圖。)執(zhí)行聚類(lèi)算法,獲得聚類(lèi)譜系圖。(3)選取合適的聚類(lèi))選取合適的聚類(lèi)IA值。值。(4)執(zhí)行聚類(lèi)算法,獲得聚類(lèi)結(jié)果)執(zhí)行聚類(lèi)算法,獲得聚類(lèi)結(jié)果3.3文檔聚類(lèi)分析n 文檔自動(dòng)聚類(lèi)的類(lèi)型文檔自動(dòng)聚類(lèi)的類(lèi)型n 平面劃分法:平面劃分法:對(duì)包含n個(gè)樣本的樣本集構(gòu)造樣本集的k個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇n 層次聚類(lèi)法:層次聚類(lèi)法:層次聚類(lèi)法對(duì)給定的樣本集進(jìn)行層

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論