文本分類過程_第1頁
文本分類過程_第2頁
文本分類過程_第3頁
文本分類過程_第4頁
文本分類過程_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

文本分類Contents目錄01文本分類概述02文本分類過程第一部分文本分類概述01文本分類概述互聯(lián)網(wǎng)使得信息的傳播速度以及規(guī)模達到了空前的水平?!靶畔⒈ā币殉蔀槿藗儽仨毭鎸Φ膯栴}。從數(shù)據(jù)海洋中迅速準(zhǔn)確獲取所需要的信息變得非常困難。當(dāng)前的知識信息主要以文本作為載體,大部分文本信息以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在,如電子郵件、電子文檔以及電子檔案等,它們不易被機器理解也不可能完全依靠人工進行管理。因此,采用信息化手段通過機器學(xué)習(xí)方法對這些文本信息進行處理顯得尤為重要。01文本分類概述文本分類技術(shù)(TextCategorization,TC)作為組織和管理文本信息的有效手段,主要任務(wù)是自動分類無標(biāo)簽文檔到預(yù)定的類別集合中。文本可以是媒體新聞、科技、報告、電子郵件、網(wǎng)頁、書籍或像微博一樣的一段語料。由于類別時事先定義好的,因此分類是有監(jiān)督的。01文本分類應(yīng)用領(lǐng)域自動文本分類技術(shù)應(yīng)用于數(shù)字圖書館不但可以節(jié)省大量的人力、物力,還可以提高圖書分類的準(zhǔn)確率,減少冗余資料的數(shù)量,提高圖書管理系統(tǒng)的服務(wù)性能。數(shù)字圖書館文本分類技術(shù)最早應(yīng)用于信息檢索領(lǐng)域,它通過將數(shù)字信息按照特定的方式進行組織、存儲,把其中主題內(nèi)容相近的數(shù)字信息按照主題層次歸納整理到一起,進而有效地提高了檢索的查準(zhǔn)率。信息檢索對獲取的信息進行二分類的處理,即將用戶需求的信息過濾出來,發(fā)送給用戶;將用戶不感興趣、不需要的不良信息、反動信息等過濾掉。垃圾郵件過濾、新聞選擇以及手機信息過濾等都是信息過濾的典型應(yīng)用。信息過濾第二部分文本分類過程Contents目錄01數(shù)據(jù)預(yù)處理02中文分詞03特征表示04特征選擇05分類器訓(xùn)練數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練現(xiàn)實世界中數(shù)據(jù)大體上都是不完整,不一致的數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練分詞是將文本處理為獨立的特征,即切分成詞,主要針對東方語言,如:漢語、阿拉伯語等,因為這類語言是整個句子連接在一起的,每個詞(特征)之間不是獨立的。對于西方語言,如:英語、法語等,這類語言的每個詞之間都有空格相互分隔,也就不需要進行分詞處理。去除停用詞,即的、了之類的沒有實際意義的詞。R語言支持用戶對停用詞表進行自定義。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練文本不能被計算機識別,特征表示是指將實際的文本內(nèi)容變成機器內(nèi)部的表示結(jié)果。特征表示有兩個步驟,即特征表示與特征權(quán)重計算。特征表示指特征提取的方式;權(quán)重計算指將特征轉(zhuǎn)換為語言相似度的權(quán)重值。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練向量空間模型,在向量空間模型(VectorSpaceModel,VSM)中,文檔的內(nèi)容被表示為特征空間中的一個向量。每條語料中的每個詞對應(yīng)一個數(shù)值,即每條語料對應(yīng)一組數(shù)值,形成一個向量。布爾模型,布爾模型本質(zhì)上是向量空間模型的一種特殊表示形式,這種表示方式同樣也是將文檔表示為特征空間中的一個向量,主要區(qū)別為:第i個特征在文檔中是否出現(xiàn)(出現(xiàn)的頻率)采用“0”和“1”來代表,“0”代表特征在當(dāng)前文檔中沒有出現(xiàn),“1”代表特征在當(dāng)前文檔中出現(xiàn)。特征表示方法:數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練權(quán)重計算方法:TF-IDF:TF-IDF函數(shù)用來表示特征項的重要程度。詞頻(TF):即一個特征項在某一文檔中出現(xiàn)的次數(shù),反映了某一個特征項對該文本的重要性。倒文檔頻度(IDF):這一分量反映了某一特征項區(qū)別于其他文檔的程度,是一個關(guān)鍵詞在整個數(shù)據(jù)全局中重要性的全局性統(tǒng)計特征,稱為倒文檔頻度。TF-IDF主要基于以下兩個理論依據(jù):在一個文本中出現(xiàn)次數(shù)很多的單詞,在另一個同類文本中出現(xiàn)的也會很多,反之亦然,所以將TF(詞頻)作為測度;一個詞條出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別的能力就越大,故引入了IDF(逆文本頻數(shù))的概念。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練特征選擇

(FeatureSelection)也稱特征子集選擇(FeatureSubsetSelection,FSS)

,是指從全部特征中選取一個特征子集,使構(gòu)造出來的模型更好。在機器學(xué)習(xí)的實際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易導(dǎo)致如下的后果:

特征個數(shù)越多,分析特征、訓(xùn)練模型所需的時間就越長。

特征個數(shù)越多,容易引起“維度災(zāi)難”,模型也會越復(fù)雜,其推廣能力會下降。特征選擇能剔除不相關(guān)(irrelevant)或冗余(redundant)的特征,從而達到減少特征個數(shù),提高模型精確度,減少運行時間的目的。另一方面,選取出真正相關(guān)的特征簡化了模型,使研究人員易于理解數(shù)據(jù)產(chǎn)生的過程。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練過濾方法(FilterApproach):使用某種獨立于數(shù)據(jù)挖掘任務(wù)的方法,在數(shù)據(jù)挖掘算法運行之前進行特征選擇,即先過濾特征集產(chǎn)生一個最有價值的特征子集?;蛘哒f,過濾方法只使用數(shù)據(jù)集來評價每個特征的相關(guān)性,它并不直接優(yōu)化任何特定的分類器,也就是說特征子集的選擇和后續(xù)的分類算法無關(guān)。

封裝方法(WrapperApproach):將學(xué)習(xí)算法的結(jié)果作為特征子集評價準(zhǔn)則的一部分,根據(jù)算法生成規(guī)則的分類精度選擇特征子集。該類算法具有使得生成規(guī)則分類精度高的優(yōu)點,但特征選擇效率較低。封裝方法與過濾方法正好相反,它直接優(yōu)化某一特定的分類器,使用后續(xù)分類算法來評價候選特征子集的質(zhì)量。

混合方法(HybridApproach):過濾方法和封裝方法的結(jié)合,先用過濾方法從原始數(shù)據(jù)集中過濾出一個候選特征子集,然后用封裝方法從候選特征子集中得到特征子集。該方法具有過濾方法和封裝方法兩者的優(yōu)點,即效率高,效果好。數(shù)據(jù)預(yù)處理中文分詞特征表示特征選擇分類器訓(xùn)練常見的分類算法:樸素貝葉斯分類器(NaiveBayesClassifier,或NBC),是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不敏感。K近鄰算法(K-NearestNeighbor,KNN),核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。由于KNN方法主要靠周圍有限的鄰近的樣本,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。支持向量機(SupportVectorMachine,SVM),其分類思想是給定給一個包含正例和反例的樣本集合,svm算法的目的是尋找一個超平面來對樣本根據(jù)正例和反例進行分割。它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢。數(shù)據(jù)預(yù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論