文本特征提取以及分類結果分析_第1頁
文本特征提取以及分類結果分析_第2頁
文本特征提取以及分類結果分析_第3頁
文本特征提取以及分類結果分析_第4頁
文本特征提取以及分類結果分析_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文本特征提取以及分類結果分析—、目標:提取文本中的關鍵信息,用于文本的自動分類?!要求:a)編寫特征提取程序,從訓練語料中根據(jù)IG,MI,CHI或CE等指標,分別提取文本特征詞集。b)編寫文本特征向量生成程序,根據(jù)得到的文本特征詞集,生成任意文檔的權值特征向量。為其它設計分類器的同學提供訓練文檔和測試文檔的特征向量集。c)編寫統(tǒng)計程序,對其它同學的分類結果進行統(tǒng)計和分析,包括準確率(Precision)和找回率(Recall),以及綜合指標(F-Measure=???)。三、文本特征提取原理文本特征提取是進行文本分類訓練和識別的基礎。其基本思路是基于向量空間面向(VSM--VectorSpaceModal),即把一篇文本視為N為空間中的一個點。點的各維數(shù)據(jù)表示該文檔的一個特征(數(shù)字化的特征)。而文檔的特征一般采用關鍵詞集,即根據(jù)一組預定義的關鍵詞,以某種方法計算這些關鍵詞在當前文檔中的權重,然后用這些權重形成一個數(shù)字向量,這就是該文檔的特征向量。由上面的簡介可知,這里有兩個方面的問題:(1)如何定義“關鍵詞集”(或稱為“特征詞集”);(2)如何就是某個關鍵詞在一篇文本中的權重。1.提取關鍵詞集首先,我們提取關鍵詞的最終目的是為了對文本進行分類。一些詞,如“的”,對應文本分類不可能有任何幫助;或者,“計算機”一詞對進行“臺獨類”和“成人類”文章的分類也沒有任何幫助。因此,關鍵詞集是與分類目標相關的。從上面的例子可以想象,在提取關鍵詞集中有兩個步驟:d)篩選關鍵詞的各種方法根據(jù)詞匯與預定義分類文本的相關程度來篩選關鍵詞。使用一個訓練文檔集(其中各文檔的分類已經(jīng)由人工指定),通過計算其中詞匯與文檔分類的相關程度,選擇相關程度高的詞匯作為表達文檔特征的關鍵詞。詞匯與文檔分類相關度的計算有多種方式。1)詞頻(TF—TermFrequency):該思路很簡單:如果詞匯w在Ci類文本中出現(xiàn)的頻率很高,就用它作為一個關鍵詞:

tf(w,C)= (w|CCount(w'IC)i其中,Count(wIC)表示在Ci類文檔中w出現(xiàn)的總次數(shù);Count(w'IC)表示Ci類文檔中的總詞匯數(shù)。計算Ci類文檔中各詞匯的詞匯頻率后,設定一個閥值,選擇大于該閥值的詞匯作為Ci類的關鍵詞。將各類的關鍵詞集合并后,形成整個系統(tǒng)的關鍵詞集。2)文檔頻率(DF—DocumentFrequency)。文檔頻率是指在Ci類文檔中,出現(xiàn)詞匯w的文檔的比例。該比例越高,則所有w對Ci的特征表達可能越重要,所以可以以此作為篩選關鍵詞的條件。DF(DF(w,C)= (w,Ci)iC」其中C.是屬于類C的文檔總數(shù),count(w,C)是在屬于類C的文檔范圍內出現(xiàn)w的文檔數(shù)量。計算Ci類文檔中各詞匯的文檔頻率后,設定一個閥值,選擇大于該閥值的詞匯作為Ci類的關鍵詞。將各類的關鍵詞集合并后,形成整個系統(tǒng)的關鍵詞集。3)TF-IDF(詞頻一反向文檔頻率):可以看出,上述兩種方法各有其道理,但都失之偏頗。注意,這里的反向文檔頻率與2)中的文檔頻率是不同的概念。這里的文檔頻率是指詞匯w在整個文檔集中的文檔頻率,而2)中是指在類Ci子集中的文檔頻率。因而這里的文檔頻率的計算為:…nDF(w,C)=-Nw-其中,nw是包含w的文檔總數(shù),N是總文檔數(shù)。詞匯w的TF-IDF計算方法為:TFIDF(w,C)=tf(w,C)xlog(1/DF(w,C))=tf(w,C)xlog(N/n)計算Ci類文檔中各詞匯的TFIDF后,設定一個閥值,選擇大于該閥值的詞匯作為Ci類的關鍵詞。將各類的關鍵詞集合并后,形成整個系統(tǒng)的關鍵詞集。4)互信息(MI—MutualInformation):互信息指標是用于表示兩個特征共同出現(xiàn)的程度。在這里,如何詞匯W和類C總是共同出現(xiàn),那么它們的互信息度高,W就是C類文檔的一個特征詞。MI(wMI(w,C)=log(1)Tog^P(w)P(C)JfPCLw!j(1)TogIP(C)Ji其中,P(w)是在整個訓練集中,出現(xiàn)詞匯w的文檔的概率(用頻率代替);

P(CJ是在訓練集中,屬于類C的文檔的概率;P(w,C)表示在訓練集中既出現(xiàn)w又屬于類C的文檔的概率。此外,w與Ci的互信息度高,并不說明w與另一個類Cj的互信息度就一定低。為了更好地區(qū)分兩個類,我們應該選擇僅與一個類的互信息度高的詞匯。這種表達是很理想化的。實際上我們可以選擇哪些與不同類的互信息度差距較大的詞匯作為關鍵詞。表示這一特征的方法是求詞匯w的互信息度的均方差:(2)(w)=甚m\MI(w,C)-MI(w)T2(2)'i=1 i ^^^g其中,MIav(w)為w的平均互信息度,其公式為:MI(w)=WP(C)xMI(w,C)i=1互信息的一個缺點是沒有考慮w在某類文檔中的詞匯頻率,因而稀有詞匯常??梢杂泻艽蟮臋嘀亍N恼隆痘诟倪M的互信息特征選擇的文本分類》中提出的方法是:MI(MI(w,C)=log(P(w,C) ) i—xTF(w,C)IP(w)P(C) iJi(3)其中TF(w,C)是詞匯w的詞頻在Ci類文章中的詞匯頻率:i其中TF(w,C)=竺些£2i count(w)其中,count(w)是w在所有文章中出現(xiàn)的詞匯數(shù),count(wICi)是w在Ci類文章中出現(xiàn)的詞匯數(shù)。我們在實驗中可以比較以上三種指標的分類效果。計算各詞匯與Ci類的互信息度后,設定一個閥值,選擇大于該閥值的詞匯作為Ci類的關鍵詞。將各類的關鍵詞集合并后,形成整個系統(tǒng)的關鍵詞集。5)x2統(tǒng)計量:互信息的關鍵是考慮詞匯與類的同現(xiàn)概率。而X2統(tǒng)計希望考慮得根據(jù)全面:綜合考慮詞匯w與類C關系的四種情況。假設我們用W表示出現(xiàn)詞匯w的文檔,而表示不出現(xiàn)w的文檔,C表示屬于類C的文檔,C表示不屬于類C的文檔,那么它們之間的組合有:(W,C),(W,C),(W,C),,(W,C)。^口:(W,C)表示既不出現(xiàn)w又不屬于C的文檔。假設以上四種情況的文檔子集中包含的文檔數(shù)分布為表:CCzWnn12n+n而n21n22n+nEn+nn+n則,w與Ci的X2為:以圮C)= (七*七2一七2*婦2 t (n+n)x(n+n)x(n+n)x(n+n)11 12 21 22 11 21 12 22計算各詞匯與Ci類的X2統(tǒng)計量后,設定一個閥值,選擇大于該閥值的詞匯作為Ci類的關鍵詞。將各類的關鍵詞集合并后,形成整個系統(tǒng)的關鍵詞集。信息增益(IG—InformationGain):信息增益又稱為熵增益。熵是熱力學中的一個概念,用于表達一個封閉系統(tǒng)中的混亂程度。系統(tǒng)越混亂,熵越大。自然規(guī)律中(熱力學第二定律)系統(tǒng)中的熵在沒有外部干涉的情況下總是不變或增大,稱為“熵增定律”我們作文本分類卻是反過來,要使系統(tǒng)中的熵減小(變得有秩序)。這里,系統(tǒng)是指一個文本集,有秩序是指其中的分類是否清晰。在信息論中,一個系統(tǒng)的熵用來表示某一類信息的不同數(shù)據(jù)在系統(tǒng)中分布的均勻程度。如在文本分類中,屬于不同類別的文本在文本集中分布的越均勻,系統(tǒng)越混亂,熵越大。在提取特征詞中,我們希望當取w為特征詞,并根據(jù)是否包含w將整個文本集分為兩個子集后,各類文本在兩個子集內部分布的非常不均勻。理想的情況是,正好一個子集包含一個類。這一兩個子集內部的熵就非常小,而整個系統(tǒng)的熵是兩個子集熵的和,因而也會變小。這樣,根據(jù)w劃分子集后,系統(tǒng)就產生了一個熵增益(實際上是熵減)。通過比較不同詞匯對系統(tǒng)產生的熵增,選擇哪些熵增很大的詞匯作為關鍵詞。使用w劃分子集前,整個系統(tǒng)的熵(Entropy)為:E=£-P(C)log(1/P(C))其中,P(C)為文本集中Ci類文本出現(xiàn)的概率(頻率)。劃分后,系統(tǒng)的熵為:Ew=EmP(C|w)log(1/P(CIw))+2mP(C|w)log(1/P(CIw))i=1 ' ' i=1 ' '其中,P(CIw)是在包含詞匯w的文本子集中Ci類文本出現(xiàn)的概率;P(CIw)則是在不包含詞匯w的文本子集中Ci類文本出現(xiàn)的概率。根據(jù)以上兩個公式,使用w作為關鍵詞的熵增為:Gw=E—Ew計算各詞匯的熵增后,設定一個閥值,選擇大于該閥值的詞匯作為關鍵詞。期望交叉炳(ECE—ExpectedCrossEntropy):交叉熵反映了文本類別的概率分布和在出現(xiàn)了某個特定詞匯的條件下文本類

別的概率分布之間的距離。名詞W的交叉熵越大,對文本類別分布的影響也越大。計算為:CE(w)=-Zmp(cIw)logP(C「W)i=i i P(C)注意到,其中l(wèi)og部分實際上就是w與Ci的互信息度。計算各詞匯的期望交叉熵后,設定一個閥值,選擇大于該閥值的詞匯作為關鍵詞。8)文本證據(jù)權(TheWeightofEvidenceforTex):WET(w)=P(w)Z-P(C)logP(CIw)x(1-P(C))P(C)x(1—P(CIwWET(w)=P(w)Z-P(C)log計算各詞匯的文本證據(jù)權后,設定一個閥值,選擇大于該閥值的詞匯作為關鍵詞。e)排除停用詞。所謂停用詞就是在各種文檔中均經(jīng)常出現(xiàn)的、不能反映文檔內容特征的常用詞,如:助詞、語氣詞等(已有停用詞表)。上述方法中,一些方法已考慮到這種情況,因而不需要排除停用詞。這些方法包括TFIDF(其中的反向文檔頻率就已經(jīng)考慮了停用詞的情況),IG,交叉熵和文本證據(jù)權。應該其它方法時,必須排除停用詞。但實際上,排除停用詞可以提高篩選關鍵詞的效率。我們可以在篩選關鍵詞前,首先排除停用詞。即如何一個詞是停用詞,那么根本不考慮去計算它的相應指標。這樣可以縮小計算的范圍,提高效率。2.文檔編碼一一計算關鍵詞在文檔中的權重根據(jù)前面提取的一組關鍵詞,表示為<K],K2,…,Kn>,我們需要將任意一篇文檔轉換為數(shù)字向量,^口<q1,q2,…,qn>,其中:qi是關鍵詞虬對于當前文檔的權重一一即重要性。計算某個關鍵詞對一篇文檔的權重主要有如下方法:a)以關鍵詞的詞頻作為其權重。q=tf(t,d)=C削匚二d),d表示文檔。ii Count(d)b)以關鍵詞的TI-DIF頻率作為其權重。TF-IDF判斷關鍵詞對于文檔的重要性時,不僅考慮一個關鍵詞在文檔中出現(xiàn)的頻率(即上述的詞頻),而且考慮該關鍵詞在所有文檔中出現(xiàn)的頻率(即文檔頻率)。如果一個關鍵詞在很多文檔中都出現(xiàn),那么它對于當前文檔的重要性就比較低。關鍵詞ti對于文檔d的TF-IDF權重計算的方法是:TFIDF(t,d)= fVd)3/'+°.01)z[z[f(t,d)xlog(N/n+0.01)j J其中,N表示文本總數(shù),nt表示出現(xiàn)關鍵詞t的文本數(shù)。N/勺稱為t的反向文檔頻率。公式的分子中綜合了t的詞頻和反向文檔頻率兩個因素,因而能夠更好地反映t與文檔d的關系。公式的分母中[]內部分形式上與分子相同,但其中的tj是指各個關鍵詞,表示求所有關鍵詞的平方和。其目的是歸一化關鍵詞的權重。在實現(xiàn)中,我們使用訓練文檔集作為計算TFIDF的基礎:N表示訓練文檔集中的文本總數(shù),nt表示出現(xiàn)關鍵詞t在訓練文本集中出現(xiàn)的文本數(shù)。當對新的文本進行編碼時,對任意一個關鍵詞t,我們只需要統(tǒng)計它在該文本中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論