




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究驗(yàn)分布與似然函數(shù)是共軛的。LDA算法中,對(duì)于一個(gè)隨機(jī)變量而言,其似然函數(shù)為多項(xiàng)式分布,并且其先驗(yàn)分布為Dirichlet分布,那么其后驗(yàn)概率仍為Dirichlet分布。LDA算法中之所以選擇Dirichlet因?yàn)榭梢詼p輕計(jì)算量。給一個(gè)例子說明Dirichlet分布,假設(shè)我們在和一個(gè)不老實(shí)的人玩擲骰子游戲。按常理我們覺得骰子每一面出現(xiàn)的幾率都是1/6,但是擲骰子的人連續(xù)擲出6,這讓我們覺得骰子被做了手腳,使得這個(gè)骰子出現(xiàn)6的幾率更高。而我們又不確定這個(gè)骰子出現(xiàn)6的概率到底是多少,所以我們猜測有50%的概率是:6出現(xiàn)的概率2/7,其它
2、各面1/7;有25%的概率是:6出現(xiàn)的概率3/8,其它各面1/8;還有25%的概率是:每個(gè)面出現(xiàn)的概率都為1/6,也就是那個(gè)人沒有作弊,走運(yùn)而已。用圖表表示如下表3.1:表3.1骰子游戲概率可能性篩子面1234560.5概率1/71/71/71/71/72/70.25概率1/81/81/81/81/83/80.25概率1/61/61/61/61/61/6我們所猜測的值,如果設(shè)為X的話,則表示X的最自然的分布便是Dirichlet分布。設(shè)隨機(jī)變量X服從Dirichlet分布,簡寫為Dir(a),即XDir(a)。a是一個(gè)向量,表示的是某個(gè)事件出現(xiàn)的次數(shù)(向量每個(gè)分量之間的相互關(guān)系)。比如對(duì)于上例
3、,骰子的可能輸出為1,2,3,4,5,6,假設(shè)我們分別觀察到了5次15,10次6,那么a=5,5,5,5,5,10。X則表示上例中的各種概率組合,比如1/7,1/7,1/7,1/7,1/7,2/7;1/8,1/8,1/8,1/8,1/8,3/8;1/6,1/6,1/6,1/6,1/6,1/6,那么P(X)則表示了該概率組合出現(xiàn)的概率,也就是概率的概率。這里需要注意的輸入?yún)?shù)a,它表示了各個(gè)基本事件的權(quán)重。Dirichlet分布受參數(shù)a的控制,由圖3.2中可以看出當(dāng)a=1,1,1時(shí),分布較為平均;當(dāng)a=0.1,0.1,0.1時(shí),分布集中于邊緣;當(dāng)a=10,10,10,分布集中于中心區(qū)域中一個(gè)較小
4、的范圍;當(dāng)a=2,5,15,分布集中于偏離中心的一個(gè)小范圍內(nèi)。對(duì)于Dirichlet分布而言,a的分量大小控制分布的集中程度,a分量差異程度控制著分布的位置。3.2潛在語義分析(LSA)潛在語義分析(LatentSemanticAnalysis)或者潛在語義索引(LatentSemanticIndex),是1988年S.T.Dumais等人提出了一種新的信息檢索代數(shù)模型,是用于知識(shí)獲取和展示的計(jì)算理論和方法,它使用統(tǒng)計(jì)計(jì)算的方法對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),并用這種潛在的語義結(jié)構(gòu),來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡化文本向量實(shí)現(xiàn)降維的目的。LSA是基于線性
5、代數(shù)理論進(jìn)行語義分析的一種理論方法,它的核心思想是認(rèn)為文檔中詞與詞之間存在著某種隱含的語義關(guān)系(稱之為語義空間),這種語義空間在文檔中的上下文結(jié)構(gòu)中,通過統(tǒng)計(jì)分析方法可以得到。在語義空間中同義詞被定義為,具有相同或類似含義的詞語間有一個(gè)相同的語義空間,而對(duì)于那種一詞多義的詞語而言,則根據(jù)用法的不同會(huì)存在不同的語義空間結(jié)構(gòu)中。通過挖掘這種隱含語義結(jié)構(gòu),有利于進(jìn)一步消除文檔中同義、多義現(xiàn)象在文檔表達(dá)過程中造成的影響。解決語義混亂問題的一個(gè)關(guān)鍵步驟就是如何將文檔和詞映射到同一語義空間中進(jìn)行分析研究。在這里主要用到一個(gè)方法即奇異值分解28(SingularValueDecomposition,SVD)
6、。SVD分解的重要意義在于將文檔從稀疏的高維詞匯空間映射到一個(gè)低維的向量空間29。LSA在信息濾波、文檔索引、視頻檢索、文本分類與聚類、圖像檢索、信息抽取等有著很廣泛的應(yīng)用。3.2.1潛在語義分析模型介紹LSA算法是信息檢索中潛在語義分析中比較經(jīng)典的算法,假設(shè)文檔集合為D=d1d2d3.dN,詞匯集合為W=Ww2w3皿,那么我們可以將數(shù)據(jù)集合表示稱為一個(gè)MXN共生矩陣,也就是詞項(xiàng)一文檔矩陣的概念,即由M個(gè)詞項(xiàng)和N篇文檔組成的一個(gè)MXN的權(quán)重矩陣C,矩陣的每行代表一個(gè)詞項(xiàng),每列代表一篇文檔。這種表示的優(yōu)點(diǎn)包括:可以將查詢和文檔轉(zhuǎn)換成同一空間下的向量,可以基于余弦相似度進(jìn)行評(píng)分計(jì)算,能夠?qū)Σ煌脑~
7、項(xiàng)賦予不同的權(quán)重,除了文檔檢索之外還可以推廣到諸如聚類等其他領(lǐng)域,等等。但是,向量空間表示方法沒有能力處理自然語言中的兩個(gè)經(jīng)典問題:一義多詞(synonymy)和一詞多義(polysemy)問題。一義多詞指的是不同的詞(比如car和automobile)具有相同的含義。向量空間表示方法不能捕捉諸如car和基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究automobile這類同義詞之間的關(guān)系,而是將它們分別表示成獨(dú)立的一維。因此,如果我們計(jì)算查詢向量q(如car)和文檔dr(同時(shí)包含有car和automobile的文檔)的相似度時(shí),就會(huì)低估了用戶所期望的相似度。而一詞多義指的是
8、某個(gè)詞項(xiàng)(如match)具有多個(gè)含義,因此在計(jì)算相似度時(shí),就會(huì)高估了用戶所期望的相似度。一個(gè)很自然的問題就是,能否利用詞項(xiàng)的共現(xiàn)情況(比如,match是和fire還是score在某篇文檔中共現(xiàn)),來獲得詞項(xiàng)的隱性語義關(guān)聯(lián)從而減輕這些問題的影響?即使對(duì)一個(gè)中等規(guī)模的文檔集來說,詞項(xiàng)文檔矩陣C也可能有成千上萬個(gè)行和列,它的秩的數(shù)目大概也是這么個(gè)數(shù)量級(jí)。在LSA中,我們使用SVD分解來構(gòu)造C的一個(gè)低秩逼近矩陣Ck,其中k遠(yuǎn)小于矩陣C原始的秩。這樣,我們就可以將詞項(xiàng)一文檔矩陣中每行和每列(分別對(duì)應(yīng)每個(gè)詞項(xiàng)和每篇文檔)映射到一個(gè)k維空間,k個(gè)主特征向量(對(duì)應(yīng)k個(gè)最大的特征值)可以定義該空間。需要注意的是
9、,不管k取值如何,矩陣Ck仍然是一個(gè)MXN的矩陣。接下來,和原始空間一樣,我們利用新的k維空間的LSA表示來計(jì)算向量的相似度??梢酝ㄟ^qk=工k-1UTq這個(gè)式子來變換到LSI空間。下面簡單介紹一下這個(gè)過映射過程的實(shí)現(xiàn)。SVD可以用于解決矩陣低秩逼近問題,接著我們將其應(yīng)用到詞項(xiàng)文檔矩陣的逼近問題上來。為此,我們要進(jìn)行如下三步操作:(1)給定C,按照公式構(gòu)造SVD分解,因此C=USVt;(2)把工中對(duì)角線上r-k個(gè)最小奇異值置為0從而得到工k;(3)計(jì)算Ck=USkVT作為C的逼近。由于工k最多包含k個(gè)非零元素,所以Ck的秩不高于k。然后,我們回顧一下上面例子的的直觀性結(jié)果,即小特征值對(duì)于矩陣乘
10、法的影響也小。因此,將這些小特征值替換成0將不會(huì)對(duì)最后的乘積有實(shí)質(zhì)性影響,也就是說該乘積接近C。Ck到C的逼近性,如果在原始空間中查詢和文檔相近,那么在新的k維空間中它們?nèi)匀槐容^接近。但是這本身并不是十分有趣,特別是當(dāng)原始的稀疏矩陣轉(zhuǎn)換成低維空間中的密集矩陣新空間下的計(jì)算開銷會(huì)高于原始空間。一般來說,可以將求C的低秩逼近看成是一個(gè)約束優(yōu)化問題,在Ck的秩最多為k的條件下,從C出發(fā)尋找詞項(xiàng)和文檔的一個(gè)表示Ck,當(dāng)將詞項(xiàng)-檔表示到k維空間時(shí),SVD應(yīng)該將共現(xiàn)上相似的詞項(xiàng)合在一起。這個(gè)直覺也意味著,檢索的質(zhì)量不僅不太會(huì)受降維的影響,而且實(shí)際上有可能會(huì)提高。整個(gè)LSA模型也可以表示成下圖3.3。doc
11、umentsHEZOD-DLSAtermvectorsLSAdocumentvectors圖3.3LSA模型表示Dumais(1993)27基于普遍所使用的Lanczos算法來計(jì)算SVD分解,并在TREC語料和任務(wù)上對(duì)LSI進(jìn)行了一系列實(shí)驗(yàn)。在實(shí)驗(yàn)當(dāng)時(shí)(20世紀(jì)90年代早期),數(shù)萬篇文檔上的LSI計(jì)算在單機(jī)上大約需要一整天。這些實(shí)驗(yàn)也達(dá)到或超過了當(dāng)時(shí)TREC參加者的中游水平。在20%左右的TREC主題中,他們的系統(tǒng)得分最高,在平均水平上使用大約350維288的LSI也比常規(guī)的向量空間方法稍高。下面列出了最早從他們工作中得到的結(jié)論,而這些結(jié)論在后續(xù)的其他實(shí)驗(yàn)中也得到了驗(yàn)證:SVD的計(jì)算開銷很大,
12、這也是一個(gè)阻礙LSA推廣的主要障礙。一個(gè)解決這個(gè)障礙的方法是對(duì)文檔集隨機(jī)抽樣然后基于抽取出的樣本子集建立LSA表示,剩余的其他文檔可以基于公式進(jìn)行轉(zhuǎn)換。如果減低k值,那么如預(yù)期一樣,召回率將會(huì)提高。令人奇怪的是,當(dāng)k取幾百之內(nèi)的數(shù)目時(shí),某些查詢的正確率實(shí)際上也會(huì)得到提高。這也意味著,對(duì)于合適的k值,LSA能部分解決一義多詞的問題。當(dāng)查詢和文檔的重合度很低時(shí),LSA的效果最好。3.2.2潛在語義分析的優(yōu)缺點(diǎn)(1)優(yōu)點(diǎn):LSA利用潛在的語義結(jié)構(gòu)表示詞匯和文本,它反映的不再是簡單的詞條出現(xiàn)的頻率和分布關(guān)系,而是強(qiáng)化的語義關(guān)系。LSA模型中不僅能夠進(jìn)行傳統(tǒng)的詞條、文本與文本之間相似關(guān)系分析,而且能夠分
13、析詞條與文本之間的相似關(guān)系,具有更好的靈活性。LSA用低維詞條、文本向量代替原始的空間向量,可以有效的處理大規(guī)模的文本庫或者其他數(shù)據(jù)?;谥黝}的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究6LSA不同于傳統(tǒng)的自然語言處理過程和人工智能程序,它是完全自動(dòng)的,它可以自動(dòng)地模擬人類的知識(shí)獲取能力,甚至分類、預(yù)測的能力。(2)缺點(diǎn):LSA的核心在于SVD即奇異值分解,但是矩陣的SVD分解因?qū)?shù)據(jù)的變化較為敏感,同時(shí)缺乏先驗(yàn)信息的植入等而顯得過分機(jī)械,從而使它的應(yīng)用受到一定限制。通過SVD分解會(huì)舍棄奇異值較小的向量,而有時(shí)恰恰是這部分向量決定文本的特征,因而如何在壓縮語義空間和保留奇異值較小的
14、向量之間尋找一個(gè)平衡點(diǎn)也是值得關(guān)注的問題之一。LSA在進(jìn)行信息提取時(shí),忽略詞語的語法信息(甚至是忽略詞語在句子中出現(xiàn)的順序),仍是一種詞袋(Bag-of-Word)方法。它不能進(jìn)行語法分析,忽略了某些事物之間的前后詞序之間的關(guān)系,無法處理一些有前后順序的事件對(duì)象。當(dāng)前比較有成果的研究是針對(duì)英語環(huán)境進(jìn)行的,涉及中文環(huán)境的研究還很少。英語環(huán)境和中文環(huán)境存在很大的差別,不能直接將英語環(huán)境下的研究應(yīng)用于中文環(huán)境,需要適當(dāng)?shù)母倪M(jìn)和完善。目前的研究中k值一般是根據(jù)經(jīng)驗(yàn)確定的,取值在500之間。k值的選取會(huì)影響LSA信息檢索質(zhì)量,因而有必要根據(jù)不同處理對(duì)象和條件建立具有普遍性和通用性的k值確定方法。3.3基
15、于概率的潛在語義分析(PLSA)Hoffman對(duì)LSA算法所存在的缺點(diǎn)和不足進(jìn)行修正,提出一種新型的隱性變量挖掘算法,即基于概率的潛在語義分析(ProbabilisticLatentSemanticAnalysis,PLSA)30。PLSA與LSA的思想類似,也是在文檔和詞匯之間引人一個(gè)潛在的語義層,但是在PLSA中采用概率的方式來表示PLSA,以解決相類似的問題。它是一個(gè)生成模型。該算法運(yùn)用概率生成模型來表示“文檔-隱含語義-詞”三者間的關(guān)系,以替代LSA中的SVD技術(shù)。3.3.1PLSA模型介紹PLSA是以統(tǒng)計(jì)學(xué)的角度來看待LSA,相比于標(biāo)準(zhǔn)的LSA,它的概率學(xué)變種有著更巨大的影響。概率潛
16、在語義分析被廣泛應(yīng)用于信息檢索,過濾,自然語言處理,文本的機(jī)器學(xué)習(xí)或者其他相關(guān)領(lǐng)域。類似于LSA的思想,在PLSA中也引入了一個(gè)Latentclass(潛在語義層),但這次要用概率模型的方式來表達(dá)LSA的問題,如下圖3.4。documentsterms圖3.4plsa模型表示概率潛在語義分析的基本思想是通過計(jì)算文檔中共現(xiàn)詞的概率來分析文檔的語義空間。其中,用D=d,d2,.dj表示文檔集,W=W,w2,Wj表示詞語集,文檔中詞的概率用p(d.w.)=p(d.)p(w.|d.)來表示,由文檔和詞所共同組成的矩陣M=m(w,d),其中m(w,d)表示單詞w在文檔d出現(xiàn)的次數(shù)。采用Z=z1,z2,.
17、zj表示潛在語義(主題)的集合,那么,文檔可以視為是這K個(gè)主題的疊加,則會(huì)有公式:工Kp(zId)=1;每一個(gè)主題也可以看成是單詞的疊加:工p(wIz)=1。對(duì)于整個(gè)k=1kweVk模型來說:p(d)表示文檔在數(shù)據(jù)集中出現(xiàn)的概率;p(wIz)表示當(dāng)確定主題后,相關(guān)ijk的單詞出現(xiàn)的概率;p(zId)表示一個(gè)文檔中語義的分布情況;因此PLSA的生成模型ki可以這樣進(jìn)行生成(見下圖3.5):根據(jù)p(d)隨機(jī)抽樣選擇文檔d;TOC o 1-5 h zii選定文檔后,根據(jù)p(zId)來抽樣選擇文檔要表達(dá)的主題zk;kik選定主題后,根據(jù)p(wIz)來抽樣選擇文檔所要使用的單詞wjkJ。這樣,我們得到了
18、一個(gè)觀測對(duì)(di,Wj),多次重復(fù)這一過程我們就得到了一個(gè)類似N的共生矩陣,而潛在的語義z在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式:概率潛在語義分析假設(shè)詞-文檔對(duì)之間是條件獨(dú)立的,并且潛在語義在文檔或詞上分布也是條件獨(dú)立的。在上面假設(shè)的前提下,可使用下列公式來表示“詞文檔的條件概率:(3.14)(3.15)p(d,w)=p(d)p(wId)p(wId)=工p(wIz)p(zId)這樣,我們得到了一個(gè)觀測對(duì),多次重復(fù)這一過程我們就得到了一個(gè)類似N的共生矩陣,而潛在的語義二丿在觀測值中并沒有表現(xiàn)出來。為了刻畫的聯(lián)合分布,我們可得到以下公式:(3.16)p(d,w)=p(d)
19、乙p(wIz)p(zId)zeZ在PLSA模型中,需要確定的參數(shù)有三個(gè)p(d),p(zId)和p(wIz)。接下來的目標(biāo)就是要求出p(d,w),哪個(gè)文檔中詞匯出現(xiàn)的概率最大,那么該詞匯就稱為文章的關(guān)鍵詞。我們可以通過極大似然函數(shù)的方式來求解這些參數(shù)。所以我們針對(duì)3.2.2中的模型,我們可以得到這樣的一個(gè)似然函數(shù):clw,d丿xlog乙p(d)p(wIzk)p(zkId)(3.17)其中c(w,d)表示單詞w在文檔d中出現(xiàn)的次數(shù)?,F(xiàn)在我們的目的就是求使得L(0)取得最大時(shí)各個(gè)參數(shù)的值。在似然值L的表達(dá)式中存在對(duì)數(shù)內(nèi)部的加運(yùn)算,所以求PLSA最大似然解的問題沒有閉式解,我們只能求助于EM算法,下面
20、我們從最簡單的啟發(fā)式的角度推導(dǎo)出PLSA的求解過程。既然似然值L無法直接求解最大值,那么我們轉(zhuǎn)而優(yōu)化其下界F,并通過迭代不斷的將此下界提高,那么最終得到的解即為近似最大解,當(dāng)然,此過程中尋求的下界要求盡量緊確。利用琴生不等式和概率小于1的性質(zhì),我們可以得到如下推導(dǎo):l=茲cq,氣)噸pa,wji=1j=1基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究-8-8-二XXc(4,w.)log另p(w.丨z)p(d)p(zkId.).k=1.=1.=1=XXc(d.,w.)logXp(w.Izk)p(zk)p(丿di1zk)丿.=1.=1XXc(d.,氣)Xlog(p(w.Iz)p(z丿p(d.Izk).=1.=1k=1XXc(d,w.)Xp(zId.w.k.,.=1.=1k=1這樣,我們就把刀拿到了外面來,化問題的約束條件是:Xp(wIz)=1這樣我們就得到了EM算法中的M步驟:()Xnd(d,w)p(zId,w)p(zIw)=Xd()ndd,wpzId,wd,w()Xnd(d,w)p(zId,w)p(dIz)=d()()ndd,wpzId,wd,w1p(z)=Xn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 校級(jí)課題申報(bào)書字?jǐn)?shù)
- 旅游課題申報(bào)書范文
- 鄉(xiāng)村教師培訓(xùn)課題申報(bào)書
- 合同范本 發(fā)布單位
- 高校廉政課題申報(bào)書
- 代理采購電器合同范本
- 合伙退出機(jī)制合同范本
- 加工承攬訂制合同范本
- 課題申報(bào)立項(xiàng)書模版
- 發(fā)票臨時(shí)增量合同范本
- 四年級(jí)數(shù)學(xué)下冊教案-練習(xí)一-北師大版
- 5G手機(jī)無線通訊濾波芯片產(chǎn)業(yè)化項(xiàng)目環(huán)境影響報(bào)告表
- 《對(duì)外援援助成套項(xiàng)目勘察設(shè)計(jì)取費(fèi)標(biāo)準(zhǔn)內(nèi)部暫行規(guī)定(稿)》
- 通用反應(yīng)單元工藝
- 空冷塔施工方案
- 電飯煲的智能控制系統(tǒng)設(shè)計(jì)
- 儲(chǔ)罐玻璃鋼內(nèi)防腐
- 2013-2015北京地鐵部分線路年客流量
- 機(jī)械設(shè)計(jì)說明書
- 慢性腎衰竭護(hù)理講課.ppt
- 公司資產(chǎn)無償劃轉(zhuǎn)職工安置方案安置方案
評(píng)論
0/150
提交評(píng)論