文本分類綜述_第1頁
文本分類綜述_第2頁
文本分類綜述_第3頁
文本分類綜述_第4頁
文本分類綜述_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、山西大學(xué)研究生學(xué)位課程論文(2014 - 2015 學(xué)年 第 2 學(xué)期)學(xué)院(中心、所): 計算機(jī)與信息技術(shù)學(xué)院 專 業(yè) 名 稱: 計算機(jī)應(yīng)用技術(shù) 課 程 名 稱: 自然語言處理技術(shù) 論 文 題 目: 文本分類綜述 授課 教師(職稱): 王素格(教授) 研 究 生 姓 名: 劉杰飛 年 級: 2014級 學(xué) 號: 201422403003 成 績: 評 閱 日 期: 山西大學(xué)研究生學(xué)院2015年 6 月 2日文本分類綜述摘要 文本分類就是在給定的分類體系下,讓計算機(jī)根據(jù)給定文本的內(nèi)容,將其判別為事先確定的若干個文本類別中的某一類或某幾類的過程。文本分類在冗余過濾、組織管理、智能檢索、信息過濾、

2、元數(shù)據(jù)提取、構(gòu)建索引、歧義消解、文本過濾等方面有很重要的應(yīng)用。本文主要介紹文本分類的研究背景,跟蹤國內(nèi)外文本分類技術(shù)研究動態(tài)。 介紹目前文本分類過程中的一些關(guān)鍵技術(shù),以及流形學(xué)習(xí)在文本分類中降維的一些應(yīng)用。并且討論目前文本分類研究面臨的一些問題,及對未來發(fā)展方向的一些展望 。關(guān)鍵詞 文本分類;特征選擇;分類器;中文信息處理1. 引言上世紀(jì)九十年代以來, 因特網(wǎng)以驚人的速度發(fā)展起來,到現(xiàn)在我們進(jìn)入大數(shù)據(jù)時代互聯(lián)網(wǎng)容納了海量的各種類型的數(shù)據(jù)和信息,包括文本、聲音、圖像等。這里所指的文本可以是媒體新聞、科技、報告、電子郵件、技術(shù)專利、網(wǎng)頁、書籍或其中的一部分。文本數(shù)據(jù)與聲音和圖像數(shù)據(jù)相比,占用網(wǎng)絡(luò)資

3、源少,更容易上傳和下載,這使得網(wǎng)絡(luò)資源中的大部分是以文本(超文本)形式出現(xiàn)的。如何有效地組織和管理這些信息,并快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是當(dāng)前信息科學(xué)和技術(shù)領(lǐng)域面臨的一大挑戰(zhàn)?;跈C(jī)器學(xué)習(xí)的文本分類系統(tǒng)作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在給定的分類模型下,根據(jù)文本的內(nèi)容自動對文本分門別類,從而更好地幫助人們組織文本、挖掘文本信息,方便用戶準(zhǔn)確地定位所需的信息和分流信息。利用文本分類技術(shù)可以把數(shù)量巨大但缺乏結(jié)構(gòu)的文本數(shù)據(jù)組織成規(guī)范的文本數(shù)據(jù),幫助 人們提高信息檢索的效率。通過對文本信息進(jìn)行基于內(nèi)容的分類,自動生成便于用戶使用的 文本分類系統(tǒng),從而可以大大降低組織整理文檔耗

4、費(fèi)的人力資源,幫助用戶快速找到所需信息。因此文本分類技術(shù)得到日益廣泛的關(guān)注,成為信息處理領(lǐng)域最重要的研究方向之一。 2. 文本分類技術(shù)的發(fā)展歷史及現(xiàn)狀2.1文本分類技術(shù)發(fā)展歷史國外自動分類研究始于1950年代末,早期文本分類主要是基于知識工程,通過手工定義一些規(guī)則來對文本進(jìn)行分類,這種方法費(fèi)時費(fèi)力,還需要對某一領(lǐng)域有足夠的了解,才能提煉出合適的規(guī)則。H.P.Luhn在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究,他將詞頻統(tǒng)計的思想用于文本分類中。這一時期,主要是分類理論的研究,并將文本分類應(yīng)用用于信息檢索。在這一段時期,提出了很多經(jīng)典文本分類的數(shù)學(xué)模型。比如1960年Maron在Journal of ASM上發(fā)

5、表了有關(guān)自動分類的第一篇論文“On relevance Probabilitic indexing and informarion retriral”,這是Maron和Kuhns提出概的率標(biāo)引(Probabilitic indexing )模型在信息檢索上的應(yīng)用。還有Salton提出利用向量空間模型(Vector Space Model,VSM)對文本進(jìn)行描述等等。20世紀(jì)80年代,這一階段主要采用傳統(tǒng)的知識工程技術(shù),根據(jù)專家提供的知識形成規(guī)則,手工建立分類器。這一段時期,信息檢索技術(shù)逐漸成熟,為文本分類提供了許多技術(shù)支持,比如1962年H.Borko等人提出了利用因子分析法進(jìn)行文獻(xiàn)的自動分類

6、。Rocchio在1972年提出了再用戶查詢中不斷通過用戶反饋來修正類權(quán)重向量,來構(gòu)成簡單的線性分類器,還有Van RiJsbergen提出了信息檢索的評估標(biāo)準(zhǔn)如準(zhǔn)確率,查全率等。20世紀(jì)90年代后進(jìn)入第三階段,隨著網(wǎng)上在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起,大規(guī)模的文本(包括網(wǎng)頁)分類和檢索重新引起研究者的興趣。文本分類系統(tǒng)首先通過在預(yù)先分類好的文本集上訓(xùn)練,建立一個判別規(guī)則或分類器,從而對未知類別的新樣本進(jìn)行自動歸類。大量的結(jié)果表明它的分類精度比得上專家手工分類的結(jié)果,并且它的學(xué)習(xí)不需要專家干預(yù), 能適用于任何領(lǐng)域的學(xué)習(xí), 使得它成為目前文本分類的主流方法。比如1992年,Lewis在他的博士

7、論文Representation and Learning in Information Retrieval中系統(tǒng)的介紹了文本分類系統(tǒng)實(shí)現(xiàn)方法的各個細(xì)節(jié),并且在自己建立的數(shù)據(jù)集上進(jìn)行了測試。這篇博士論文是文本分類領(lǐng)域的經(jīng)典之作。后來的研究者在特征的降維和分類器的設(shè)計方面做了大量的工作。Yang Yiming對各種特征選擇算法進(jìn)行了分析比較,討論了文檔頻率(Document Frequency,DF)、信息增益(Informatiob Gain,IG)、互信息(Multi-information,MI)和CHI等方法,結(jié)合KNN分類器,得出IG和CHI方法分類效果相對較好的結(jié)論,對后來的研究起到

8、了重要的參考作用。新加坡的Hwee Tou NG等人研究了用Perceptron Learning的方法進(jìn)行文本分類,使用了一直樹狀的分類結(jié)構(gòu),大大提高了準(zhǔn)確率。1995年,Vipink基于統(tǒng)計理論提出了支持向量機(jī)SVM(Support Vector Machine)方法,基本思想是想找到最優(yōu)的高維分類超平面。后來有人將線性核函數(shù)的支持向量機(jī)應(yīng)用與文本分類,與傳統(tǒng)的算法比較在性能上得到了很大的提高,后來也提出了AdaBoost算法框架,比較有代表性的有 Real AdaBoost,Gentle Boost,LogitBoost等。這些 Boosting 算法均己被應(yīng)用到文本分類的研究中,并且取

9、得和支持矢量機(jī)一樣好的效果。2.2文本分類國內(nèi)外發(fā)展現(xiàn)狀國外在自動文本分類以及相關(guān)的信息檢索、信息抽取領(lǐng)域進(jìn)行了較為深入的研究。八十年代,自動文本分類以知識工程的方法為主,根據(jù)領(lǐng)域?qū)<覍o定文本集合的分類經(jīng)驗(yàn),人 工提取出一組邏輯規(guī)則,作為計算機(jī)自動文本分類的依據(jù)。進(jìn)入九十年代,基于統(tǒng)計的自動 文本分類方法日益受到重視,它在準(zhǔn)確率和穩(wěn)定性方面具有明顯的優(yōu)勢。到目前為止,國外 的文本自動分類研究已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實(shí)驗(yàn)性研究進(jìn)入實(shí)用的階段,并在 郵件分類、電子會議、信息過濾等方面取得了較為廣泛的應(yīng)用。國外當(dāng)前流行的文本分類算法有Rocchio法及其變異算法、k近鄰法(KNN)、決策樹

10、、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)(SVM)等方法,這些方法在英文以及歐美語種的文本分類上有廣泛的研究,并且KNN和SVm確實(shí)是英文分類的最好方法。國外對英文文本分類領(lǐng)域的各個問題都有相當(dāng)深入的研究,對幾種流行的方法進(jìn)行了大量的對比研究。國內(nèi)對文本分類研究比較晚,1981年,侯漢清教授首先探討和介紹了國外文本分類的研究情況。隨后,國內(nèi)很多學(xué)者在這方面進(jìn)行了比較深入的研究。1995 年,清華大學(xué)電子工程系的 吳軍研制的漢語語料自動分類系統(tǒng),以語料相關(guān)系數(shù)作為分類依據(jù),以字頻、詞頻及常用搭 配為補(bǔ)充,采用停用詞表排除非特征詞,進(jìn)行人工指導(dǎo)分類。1998年,東北大學(xué)的計算機(jī)系 的張月杰、姚天順研制

11、的新聞?wù)Z料漢語文本自動分類模型,通過計算預(yù)定義類別和文本特征 項(xiàng)之間相關(guān)性來進(jìn)行自動分類。1999年,鄒濤、王繼成等開發(fā)的中文技術(shù)文本分類系 統(tǒng)CTDS(Chinese Technical Document Classification System ) 采用了向量空間模型和基于統(tǒng)計的特征詞提取技術(shù),能夠根據(jù)文本的具體內(nèi)容將其分配到一個或多個類別。此外, 國內(nèi)很多學(xué)者對中文文本分類算法也進(jìn)行了深入的研究,黃萱箐等提出一種基于機(jī)器學(xué)習(xí) 的、獨(dú)立于語種的文本分類模型。周水庚等在論述隱含語義索引的理論基礎(chǔ),研究了隱含語 義索引在中文文本處理中的應(yīng)用。李榮陸等使用最大熵模型對中文文本分類進(jìn)行了研究。

12、張劍等提出一種以Word Net語言本體庫為基礎(chǔ),建立文本的概念向量空間模型作為文本特征 向量的特征提取方法。朱靖波等將領(lǐng)域知識引入文本分類,利用領(lǐng)域知識作為文本特征,提 出一種基于知識的文本分類方法。相比于英文文本分類,中文文本分類的一個重要差別在與預(yù)處理階段,中文文本的讀取首先需要分詞,不同于英文文本的空格區(qū)分,從簡單的查詞典的方法到后來的基于統(tǒng)計語言模型的分詞方法,中文分詞技術(shù)經(jīng)過多年的發(fā)展已經(jīng)趨于成熟。比較有影響力的有中國科學(xué)院計算所開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS。很長一段時間由于中文文本分類的研究沒有公開的數(shù)據(jù)集,使得分類算法難以比較,現(xiàn)在一般采用北京大學(xué)建立的人民日報語料庫和

13、清華大學(xué)建立的現(xiàn)代漢語語料庫等。一旦經(jīng)過預(yù)處理將中文文本變成了樣本矢量的數(shù)據(jù)矩陣,那么隨后的文本分類過程就可以參考英文文本分類的方法,因此當(dāng)前的中文文本分類主要集中在如何利用中文文本本身的一些特征來更好的表示文本樣本,國內(nèi)外很多學(xué)者在基于知識和統(tǒng)計的兩種方法上對中文文本分類進(jìn)行了大量的研究,主要有基于詞典的自動分類系統(tǒng)和基于專家系統(tǒng)的分類系統(tǒng)。這其中上海交通大學(xué),清華大學(xué),北京大學(xué),東北大學(xué),山西大學(xué),新加坡香港的一些大學(xué)都有顯著的研究成果。3. 文本分類關(guān)鍵技術(shù)一個完整的文本分類過程主要包括以下幾部分 : 首先是預(yù)處理 , 根據(jù)采用的分類模型將文檔集表示成易于計算機(jī)處理的形式;對文本類別進(jìn)行

14、人工標(biāo)注;對文本進(jìn)行特征提??;再次是根據(jù)預(yù)處理的訓(xùn)練集(已預(yù)知類別的文檔)學(xué)習(xí)建模,構(gòu)建出分類器;最后利用測試集文檔按一定的測試方法測試建立好的分類器的性能,并不斷反饋、學(xué)習(xí)提高該分類器性能,直至達(dá)到預(yù)定的目標(biāo)。具體流程圖如下:圖1文本分類流程圖3.1文本預(yù)處理文本預(yù)處理包括字符編碼轉(zhuǎn)換,去掉網(wǎng)頁中導(dǎo)航信息、tag標(biāo)記等,去掉一些低頻詞和停止詞比如“的”“啊”“the”“a”等,另外要去掉單詞前后綴,還有就是詞性標(biāo)注,短語識別,去除停用詞,數(shù)據(jù)清洗也就是去除噪聲文檔或者垃圾數(shù)據(jù)還有詞頻的統(tǒng)計,這里重點(diǎn)介紹自然語言處理技術(shù)范疇的中文分詞和文本表示。3.1.1中文分詞介紹由于中文語言的的特點(diǎn),同一

15、句話可能有不同的分詞方式導(dǎo)致不同的意思,所以對文本分類首先要進(jìn)行分詞。目前比較成功的分詞系統(tǒng)有北京航空航天大學(xué)的CDWS,山西大學(xué)的ABWS,采用聯(lián)想回溯來解決引起組合切分歧義,正確率達(dá)到了98.6%,還有哈工大統(tǒng)計分詞系統(tǒng),北大計算語言所分詞系統(tǒng),復(fù)旦分詞系統(tǒng)等等,根據(jù)有無詞典切分,基于規(guī)則統(tǒng)計切分,現(xiàn)有的分詞算法主要有三類分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。(1)基于字符串匹配的分詞方法這種機(jī)械分詞方法是按照一定策略將待分析的漢字串與一個充分大的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功。根據(jù)掃描方式分為正向匹配和逆向匹配;按照不同長

16、度優(yōu)先匹配的情況,分為最大和最小匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。目前常用的有正向最大匹配算法(FMM)、逆向最大匹配算法(BMM)、還有結(jié)合前兩種方法優(yōu)點(diǎn)的雙向最大匹配算法(Bi-directional MM),還有最少分詞法也叫最短路徑法,這是屬于貪心算法的一種思想。還有一種是改進(jìn)掃描方式,稱為特征掃描或者標(biāo)志切分,優(yōu)先把一些帶有明顯特征的詞作為斷電,將原來的字符串分為較小的串再進(jìn)行機(jī)械切分,從而提高準(zhǔn)確率,還有就是將分詞和詞性標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,極大的提高切分準(zhǔn)確

17、率。(2)基于理解的分詞方法基于理解的分詞方法是通過讓計算機(jī)模擬人對句子的理解,從而達(dá)到分詞的效果,也就是在分詞的同時進(jìn)行句法,語義分析,利用局發(fā)信息和語義信息來進(jìn)行歧義消解。這種分詞方法需要大量的語言知識和信息,由于漢語語言知識的籠統(tǒng),復(fù)雜性,很難將各種語言信息組織成機(jī)器可以直接讀取的形式,所以目前還處于研究階段。(3)基于統(tǒng)計的分詞方法基于統(tǒng)計的分詞思想在于利用字與字之間和詞與詞之間共同出現(xiàn)的概率作為分詞的依據(jù)。這種方法屬于無詞典分詞,只需要對語料庫中的字組頻度進(jìn)行統(tǒng)計,定義兩個字的互現(xiàn)信息,計算兩個漢字的相鄰共現(xiàn)概率,這種互現(xiàn)信息反映了漢字之間的結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一個閾

18、值,我們可以認(rèn)為這個字組可能構(gòu)成了一個詞。但是這種方法的弊端在于對“這一”“我的”這些詞的辨識度不高,所以實(shí)際應(yīng)用中結(jié)合基本的分詞詞典進(jìn)行分詞。還有一些別的分詞方法比如我校劉開瑛老師提出的串頻統(tǒng)計和詞形匹配結(jié)合的分詞方法,還有許多好的分詞方法,在對中文進(jìn)行分詞時,面臨兩個難題,一是進(jìn)行歧義消解,還有就是對未登錄詞的識別。對于歧義消解目前的研究工作室基于統(tǒng)計方法、詞性方法還有就是利用漢字獨(dú)有的二元關(guān)系來處理。對于未登錄詞主要是進(jìn)行詞性標(biāo)注,這方面北京大學(xué)和山西大學(xué)都做了很多工作。3.1.2文本表示介紹不同于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),文本使用自然語言,通常是非結(jié)構(gòu)化的,計算機(jī)很難直接對其進(jìn)行處理,因而

19、在分類之前要對文本做一定的預(yù)處理,抽取代表其本質(zhì)特征的元數(shù)據(jù)以結(jié)構(gòu)化形式保存,將非結(jié)構(gòu)化的文檔轉(zhuǎn)換為適合于學(xué)習(xí)算法以及分類任務(wù)的表示形式,這就是文本表示。對文本表示時首先要解決的是特征粒度的選擇,是選擇字,詞,句還是其他來分類,研究表明基于此的分類方法優(yōu)于字和基于二元同現(xiàn)串的分類方法,所以詞性,標(biāo)點(diǎn)符號,語義模式作為了文檔特征。同學(xué)的文本表示方法有布爾模型(Boolean Model),向量空間模型(Vector Space Model),聚類模型(Cluster Model),概率模型(Probabilistic Model)和基于知識模型(Knowledge-Based Model)等。(

20、1)VSM模型G.Salton提出的向量空間模型有較好的計算性和可操作性,在信息檢索領(lǐng)域和文本分類領(lǐng)域都得到了廣泛的應(yīng)用。VSM模型假設(shè)一份文本所屬分類至于一些特定的詞在改文本中出現(xiàn)的頻率有關(guān),而與他出現(xiàn)在文本中位置或順序無關(guān),也就是通過對構(gòu)成文本的詞項(xiàng)以及詞項(xiàng)出現(xiàn)的詞頻,來進(jìn)行分類。對給定文檔D(T1,W1;T2,W2;.Tn,Wn)抽象為向量空間中,由于在文檔中Tk既可以重復(fù)出現(xiàn)又應(yīng)該有先后次序的關(guān)系,分析起來仍有一定的難度。為了簡化分析,可以暫不考慮Tk在文檔中的先后順序,并要求文檔無異(即沒有重復(fù))這時可以把T1.Tn看成一個n維的坐標(biāo)系,而W1.Wn為相應(yīng)坐標(biāo)值,這樣就可以看成n維空

21、間的一個向量。Wi為第i個特征的權(quán)重,也就刻畫了詞項(xiàng)在表示文本內(nèi)容時的重要程度。(2)權(quán)值計算公式在一個給定的文本中,根據(jù)文本的長度和詞項(xiàng)出現(xiàn)的頻率不同,詞的重要性也有所不同,在向量空間模型中這種重要性被稱為權(quán)值;權(quán)值的計算主要依據(jù)下面兩個經(jīng)驗(yàn)性的結(jié)論:(1)一個項(xiàng)在某文檔中出 現(xiàn)的次數(shù)越多,它和該文檔的主題就越相關(guān)。(2)一個項(xiàng)在選取的文檔集中出現(xiàn)的次數(shù)越多,它刻畫某個特定文檔特征的能力就越弱 .最初特征權(quán)值計算采用布爾權(quán)值,也就是出現(xiàn)為1,不出現(xiàn)為0,這樣午飯體現(xiàn)其在文本中的中重要程度,目前普遍采用統(tǒng)計詞頻來賦權(quán)值,主要的計算方法有TFIDF公式。(3) 相似度計算文本表示成向量以后,文本

22、之間語義相似度可以通過空間中這兩個向量間的幾何關(guān)系來度量,通常采用內(nèi)積,夾角余弦和相關(guān)系數(shù)來刻畫相似度。內(nèi)積函數(shù)是一種簡單但常有的相似度計算函數(shù),在支持向量的分類算法中經(jīng)常用到,而且效果也很好,公式如下:。夾角余弦采用空間中兩個向量的夾角余弦值來度量語義相似度。兩個向量空間夾角越小,余弦值越大,語義相似度越大,反之亦然。計算公式如下: 3.2特征降維文本分類的一個核心難題就是特征空間的高維性和文本表示向量的稀疏性。一個文檔集中的特征項(xiàng)動輒就是上萬維,這么高的維數(shù)特征不僅帶來極高的計算復(fù)雜度,產(chǎn)生維度災(zāi)難,也給分類過程帶來了大量的噪音,且容易產(chǎn)生過度擬合的問題,因而有必要簡化原始的特征集,提高分

23、類的效率和精度,這種簡化技術(shù)就是降維技術(shù)。降維技術(shù)主要分成兩大類;特征選擇和特征提取。特征選擇又稱獨(dú)立評估法,其目的是濾除攜帶信息量較少的詞,只保留對分類貢獻(xiàn)較大的詞。在特征選擇時一般都是利用某種評價函數(shù),獨(dú)立地對每個原始特征項(xiàng)進(jìn)行評分,然后按分值的高低將它們排序,從中選取若干個分值最高的特征項(xiàng),以達(dá)到減少總特征數(shù)的目的。因此,評價函數(shù)的好壞是影響特征選擇的關(guān)鍵問題。常見的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、統(tǒng)計量(CHI-2)等。(1) 文檔頻率 詞條的文檔頻率(Document Frequency)是指在訓(xùn)練語料中出現(xiàn)該詞條的文檔數(shù)。文檔頻率方法提取文檔頻率較

24、高的特征, 它的目的是去掉在訓(xùn)練集上出現(xiàn)次數(shù)過少和過多的特征,由于過少沒有代表性過多沒有區(qū)分度,保留具有一定影響力的特征。在各個特征提取方法中, D F方是最簡單的。(2) 信息增益對于特征詞條t和文檔類別c,IG考察c中出現(xiàn)和不出現(xiàn)t的文檔頻數(shù)來衡量t對于c的信息增益,定義如下:其中表示類文檔在語料中出現(xiàn)的概率,P(t)表示語料中包含特征詞條t的文檔的概率, 表示文檔包含特征詞條t時屬于類的條件概率,表示語料中不包含特征詞條t的文檔的概率,表示文檔不包含特征詞條t時屬于類的條件概率,m表示文檔類別數(shù)。信息增益的優(yōu)點(diǎn)在于,它考慮了詞條未發(fā)生的情況,即雖然某個單詞不出現(xiàn)也可能對判斷文本類別有貢獻(xiàn)

25、。但在類分布和特征值分布是高度不平衡的情況下其效果就會大大降低了。(3) 互信息互信息(Mutual Information)在統(tǒng)計語言模型中被廣泛使用。它是通過計算特征詞條t和類別c之間的相關(guān)性來完成提取的。如果用A表示包含特征詞條t且屬于類別c的文檔頻數(shù),B為包含t但是不屬于c的文檔頻數(shù),C表示屬于c但不包含t的文檔頻數(shù),N表示語料中文檔的總數(shù),t和c的互信息可由下式計算: (4) 統(tǒng)計量統(tǒng)計量度量特征詞條t和文檔類別c之間的相關(guān)程度,并假設(shè)t和c之間符合具有一階自由度的分布。特征詞條對于某類的統(tǒng)計值越高,它與該類之間的相關(guān)性越大,攜帶的類別信息也越多。反之,統(tǒng)計量也是反映屬性t和類別c之

26、間的獨(dú)立程度。當(dāng)?shù)闹禐?時,屬性t與類別c完全獨(dú)立。比如對于兩類分類情況:令N表示訓(xùn)練語料中的文檔總數(shù),c為某一特定類別,t表示特定的詞條。A表示屬于c類且包含t的文檔頻數(shù),B表示不屬于c但是包含t的文檔頻數(shù)。C表示屬于c類但是不包含t的文檔頻數(shù),D是既不屬于c也不包含t的文檔頻數(shù).其定義為:統(tǒng)計量和互信息的差別在于它是一個歸一化的統(tǒng)計量,但它對低頻特征項(xiàng)的區(qū)分效果不好 。(5)流形學(xué)習(xí)在降維中的應(yīng)用除了以上的降維方法還有文本證據(jù)權(quán),期望交叉熵幾率比等,此處結(jié)合我的研究方向討論流形學(xué)習(xí)在降維過程中的應(yīng)用。流形學(xué)習(xí)放到是一種非線性降維方法,比如ISOMAP、LLE、LE3。其中ISOMAP算法是

27、建立在多維標(biāo)度變換算法的基礎(chǔ)上,考慮全局優(yōu)化的算法。通過構(gòu)造領(lǐng)域圖,測地線距離用歐氏距離直接近似,對非領(lǐng)域點(diǎn),則采用領(lǐng)域圖上兩個點(diǎn)的最短路勁近似,最后用多維標(biāo)度變換算法(MDS)構(gòu)造低維嵌入。LLE則是將數(shù)據(jù)中全局非線性轉(zhuǎn)化成局部線性來討論,在構(gòu)造領(lǐng)域圖后計算重構(gòu)權(quán)值矩陣。利用樣本間的領(lǐng)域關(guān)系來重構(gòu)權(quán)值矩陣,對每個樣本,利用他的k個最近鄰的線性組合進(jìn)行重構(gòu),最后利用權(quán)值矩陣尋找低維嵌入。3.3文本分類算法及分類器文本分類算法是設(shè)計實(shí)現(xiàn)分類器的理論基礎(chǔ),由于屬于機(jī)器學(xué)習(xí)的一個分支,許多經(jīng)典的機(jī)器學(xué)習(xí)算法都被應(yīng)用在文本分類中來,文本分類的方法大部分來自于模式分類,基本上可以分為三大類:一種是基于統(tǒng)

28、計的方法,如Nave Bayes, KNN、類中心向量、Rocchio算法及其變異方法、回歸模型、支持向量機(jī)、最大熵模型等方法;另一種是基于連接的方法,即人工神經(jīng)網(wǎng)絡(luò);還有一種是基于規(guī)則的方法,如決策樹、關(guān)聯(lián)規(guī)則、粗糙集等,這些方法的主要區(qū)別在于規(guī)則獲取方法的不同。(1)Rocchio方法Rocchio方法是一種基于相似度的計算方法?;舅枷胧窃谟?xùn)練階段為每個類別ci建立一個代表向量,其中|T|表示訓(xùn)練集中的特征總數(shù)。每類文本集生成一個代表該類的中心向量,然后在新文本到來時,確定新文本向量,計算該向量與每類中心向量的距離(相似度),從而判定文本屬于與文本距離最近的類。其中類別ci的代表向量的第

29、k維值wki由公式計算:其中,為訓(xùn)練樣本中正例的控制參數(shù),為訓(xùn)練樣本中反例的控制參數(shù),|ci|表示訓(xùn)練樣本中正例的數(shù)目,N表示訓(xùn)練樣本的文檔總數(shù),正例指屬于類別ci的文本,反例指不屬于類別ci的文本。和是兩個控制參數(shù),可以通過提高降低來削弱反例的影響。具體執(zhí)行步驟是通過所有訓(xùn)練文本向量采用簡單的算術(shù)平均計算每類文本集的中心向量;(=0),當(dāng)新文本到達(dá)后,分詞處理,將文本表示為特征向量;計算新文本特征向量和每類中心向量間的相似度,公式為:(2)樸素貝葉斯方法Nave Bayes是基于概率理論的學(xué)習(xí)和分類方法,是一種常見的簡單的線性分類器。貝葉斯分類是根據(jù)給定樣本描述的可能的類別基礎(chǔ)上產(chǎn)生的后驗(yàn)概

30、率分布。為了簡化計算量,樸素貝葉斯是基于假定樣本特征項(xiàng)是相互獨(dú)立這一假設(shè)的,但是同時這也導(dǎo)致貝葉斯分類器分類效果不太理想。具體思路設(shè)各個類別的集合為 c1, c2,cn,設(shè)E為實(shí)例的描述,確定E的類別。則根據(jù)先驗(yàn)概率: P(ci) , 條件概率: P(E | ci)就可以知道p(E),最終對其進(jìn)行分類。(3) KNN分類k 近鄰分類模型,是最著名的模式識別統(tǒng)計學(xué)方法之一, 它在很早就被用于文本分類研究, 而且是取得最好結(jié)果的文本分類算法之一,是一種穩(wěn)定而有效的文本分類方法。采用 K N N方法進(jìn)行文檔分類的過程如下: 對于某一給定待分類的測試文本,考察和待分類文本最相似的k篇文本,通過相似度找

31、到與 之最相似的k個訓(xùn)練文本。在此基礎(chǔ)上, 給每個文本類打分, 分值為k個訓(xùn)練文本中屬于該 類的文本與測試文本之間的相似度之和。也就是說,如果在這k個文本中,有多個文本屬于一個類, 則該類的分值為這些文本與測試文本之間的相似度之和。對這k個文本所屬類的分值統(tǒng)計完畢后,即按分值進(jìn)行排序。另外還應(yīng)當(dāng)選定一個閾值,只有分值超過閾值的類才予以考慮。 最后根據(jù)分值對待分類文本進(jìn)行分類。具體操作如下首先根據(jù)特征項(xiàng)集合重新描述訓(xùn)練文本向量,在新文本到達(dá)后,根據(jù)特征詞,確定新文本的向量表示,在訓(xùn)練文本集中選出與新文本最相似的K個文本,計算公式為;在新文本的k個鄰居中,依次計算每類的權(quán)重,計算公式:(4) SV

32、M分類支持向量機(jī)(Support Vector Machine,SVM)是有貝爾實(shí)驗(yàn)室的小組一起開發(fā)出來的,目前在文本分類領(lǐng)域取得了很好的分類質(zhì)量,它基于結(jié)構(gòu)風(fēng)險最小化原理,將原始數(shù)據(jù)壓縮到支持向量集合,學(xué)習(xí)得到分類決策函數(shù),基本思想是做一個超平面作為決策平面,是正負(fù)模式之間的空白最大,也就是使得分類錯誤率最小,它通過非線性變換,將輸入向量映射到一個高維空間H,在H中構(gòu)造最優(yōu)分類超平面,從而達(dá)到最好的泛化能力。在解決小樣本,非線性及高維模式識別問題中有許多優(yōu)勢。其最有分類超平面和支持向量如圖2:圖2其中H1是支持向量,H是最優(yōu)分類面。(5) 決策樹方法Decision Tree方法著眼于從一組

33、無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。所以從根到葉節(jié)點(diǎn)的一條路徑就對應(yīng)著一條合取規(guī)則,整棵決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。具體操作分為以下五步:1,對訓(xùn)練文本預(yù)處理和特征選擇,把文本表示為特征向量:2,生成樹(growth phase),用遞歸算法實(shí)現(xiàn)3,修剪生成樹(prune phase),利用向后剪枝法或向前剪枝法對前面生成的決策樹實(shí)行剪枝處理,去除那些對分類影響不大的分支。4,依據(jù)最終形成的樹,生成規(guī)則集;5,將待分類的文本表示為文本向量,匹配規(guī)則集,得到所屬類別。(6) 其他分類方法除了上面介紹的分類方法之外還有基于神經(jīng)網(wǎng)絡(luò)(NN)的方法,基于投票的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論